DSS Meetup #39 – Storia dell OCR e Anomaly Detection

Per il meetup di Novembre riproponiamo la formula dei primi meetup di DataScienceSeed, con 2 interventi: il primo tratterà la storia dell’OCR, il secondo l’Anomaly Detection applicata a problemi di ottimizzazione. I 2 talks saranno seguiti dal consueto spazio per domande e risposte e dall’immancabile rinfresco a base di focaccia.

L’appuntamento è per Giovedi 30 Novembre a partire dalle ore 18:00 presso l’Ordine degli Ingegneri della Provincia di Genova, Piazza della Vittoria, 11/10.

MNIST: nascita, vita e morte di un dataset pubblico. 

Nel primo talk racconteremo la storia del processo OCR (Optical Character Recognition), passato negli anni da obiettivo di ricerca a semplice commodity, attraverso il ruolo cruciale svolto dal dataset MNIST, che ha avuto un ruolo fondamentale nello sviluppo del deep learning. È stato uno dei primi dataset di immagini utilizzati per l’addestramento di reti neurali convoluzionali (CNN), un tipo di rete neurale particolarmente efficace per la classificazione di immagini.

Il racconto parte dai primi approcci di machine learning, prosegue con i risultati di Yann LeCun, che proprio su questo dataset ha dato una prima dimostrazione del potenziale delle CNN per la classificazione di immagini e quindi contribuito a una nuova ondata di interesse per il deep learning,e finisce con le moderne architetture a transformers.

Si parlerà anche del ruolo della ricerca italiana in questo percorso, con alcuni importanti successi ed alcune occasioni mancate.

Ennio Ottaviani è un fisico teorico, ricercatore industriale ed imprenditore. E’ direttore scientifico di OnAIR, dove coordina progetti di ricerca sulle applicazioni di IA in diversi settori dell’industria e dei servizi. E’ docente di Metodi Predittivi per il corso di laurea in Statistica Matematica della Università di Genova. Ennio è già stato ospite in passato di DataScienceSeed con un interessantissimo talk su Quantum Computing e Data Science.

 

Scoprire le anomalie nei big data, con l’applicazione del Machine Learning e delle Metaeuristiche

Il secondo talk della giornata tratterà tematiche riguardanti l’Anomaly Detection, l’integrazione delle Metaeuristiche nel campo Machine Learning e algoritmi di ottimizzazione.

L’Anomaly Detection è un campo dell’intelligenza artificiale che si occupa di identificare dati anomali in un set di dati. Le anomalie possono essere dovute a vari fattori, come errori di misurazione, eventi imprevisti o attacchi malevoli.  L’intervento intende fare una panoramica sulle anomalie in campi come i sistemi di controllo industriali, i sistemi di intrusione, l’analisi di eventi climatici, di traffico urbano, di fake news e tanto altro.

Le Metaeuristiche sono un tipo di algoritmo di ottimizzazione che utilizzano una strategia di esplorazione/sfruttamento per trovare una soluzione ottimale o subottimale a un problema. Sono spesso utilizzate in problemi complessi, dove gli algoritmi tradizionali possono fallire. L’integrazione delle Metaeuristiche nell’Anomaly Detection può migliorare l’accuratezza e la robustezza dei sistemi di rilevamento delle anomalie.

Claudia Cavallaro si occupa di ricerca in Informatica, nel tema dei Big Data, dell’Ottimizzazione e delle Metaeuristiche. E’ una docente dell’Università di Catania, per i corsi di laurea triennale e magistrale di Informatica in “Strutture Discrete” ed “Euristics and metaheuristics for optimizazion and learning”. Recentemente ha partecipato come speaker alle conferenze ITADATA 2023(The 2nd Italian Conference on Big Data and Data Science) e WIVACE 2023 (XVII International Workshop on Artificial Life and Evolutionary Computation). Ha iniziato a lavorare nel campo di ricerca dell’Anomaly Detection già durante il periodo di post-doc presso il CNAF-I.N.F.N. di Bologna.

DSS Meetup #30 – Quantum Computing e Data Science.

Quantum Computing e Data Science

L’intervento si propone di focalizzare l’impatto potenziale del quantum computing sulle applicazioni di data science e di presentare alcune esperienze che possano aiutare a capire se e come iniziare a prendere in considerazione gli algoritmi quantici nello sviluppo di soluzioni innovative. Una prima parte presenterà una introduzione generale al tema ed alle linee di ricerca di QC connesse in particolare alla data science, illustrandone i punti cruciali dal punto di vista computazionale. Una seconda parte si focalizzerà su alcuni esempi di applicazioni e sugli strumenti software per iniziare a lavorare con computer quantistici, almeno a livello di simulazione, nell’attesa di avere uno sulla scrivania…

Ennio Ottaviani è un fisico teorico ed imprenditore. E’ direttore scientifico di OnAIR, dove coordina progetti di ricerca sulle applicazioni di IA in diversi settori dell’industria e dei servizi. E’ docente di Metodi Predittivi nel corso di laurea in Statistica Matematica a Genova.

Francesco Rosasco è un informatico e lavora in OnAIR dalla laurea, specializzandosi sulla computer vision ed i sistemi di riconoscimento automatico. In queste applicazioni cura in particolare anche gli aspetti di parallelizzazione e di efficienza computazionale.

Slides OnAIR (4M pdf)

DSS Online #3: Data Science vs Data Engineering: il lato robusto dell’AI

Venerdi 2 Ottobre 2020, Piero Cornice di Signal AI ci ha raccontato da Londra la sua esperienza da Software Engineer incaricato di mettere in produzione in real time i modelli di NLP realizzati dal team di Data Scientists dell’azienda. La sfida è tecnica ma anche umana.

Lasciaci un feedback sull’evento, a questo link!


Piero Cornice è Technical Lead a Signal AI , un’azienda britannica che si occupa di aumentare il potere decisionale dei propri clienti estraendo informazioni da notizie in tempo reale. Ingegnere informatico con un background in sistemi embedded e media streaming, negli ultimi anni ha lavorato su sistemi di raccomandazione e Natural Language Processing.

La Data Platform di Signal AI processa oltre 4 milioni di documenti al giorno, analizzando in tempo reale entità, argomenti, sentimenti, e altri fattori. Allo stesso tempo tale infrastruttura consente di sviluppare e sperimentare agilmente nuovi modelli di machine learning.

Estrarre informazioni automaticamente da un grande volume di testi in tempo reale presenta sfide su più livelli. In Signal AI abbiamo individuato due aspetti fondamentali per affrontarle: le scelte tecnologiche e la collaborazione tra ingegneria e ricerca.

Le scelte tecnologiche richiedono di bilanciare l’adozione di soluzioni off-the-shelf con lo sviluppo di tool specializzati. La collaborazione tra ricercatori e ingegneri gioca un ruolo vitale per l’innovazione e la velocità con cui temi di ricerca possono trovare uno sbocco applicativo. Tuttavia non è facile trovare un punto d’incontro tra i processi della ricerca e quelli della messa in produzione.

Questo intervento descrive le principali soluzioni tecniche e organizzative che hanno permesso al team di raggiungere tali risultati, con l’obiettivo di condividere le lezioni imparate lungo il percorso.

Slide di Piero Cornice (8.7M pdf)

DSSOnline #1 – Data Science e Domanda Turistica post Covid-19

In attesa di poterci vedere nuovamente di persona quando finalmente sarà passato questo brutto periodo di emergenza, DataScienceSeed ritorna con la sua prima edizione Online!

Ovviamente si parla di Datascience & COVID, anche se vogliamo farlo da un punto di vista particolare, pensando agli effetti che l’epidemia potrà avere sull’industria del turismo. Ce ne ha parlato Anna Codispoti, Data Science Manager in Costa Crociere. Per approfondire alcuni temi  e stimolare la discussione tra i relatori e con il pubblico, abbiamo previsto gli niterventi di Francesco Cricchio, CEO di Brain e Riccardo Beltramo, dell’Università degli Studi di Torino. A loro si è aggiunto un interessantissimo intervento fuori programma di Lara Congiu.

Se avete partecipato, dateci un feedback!


Data Science e Domanda Turistica post Covid-19

Viaggiare ha un ruolo importante nella vita di tutti noi. Ci aiuta ad ampliare i nostri orizzonti ed a soddisfare il nostro istinto primario di scoperta e esplorazione. E’ questo probabilmente il motivo per cui l’industria del turismo è riuscita negli anni ad affrontare diverse sfide e crisi globali, quali attacchi terroristici, epidemie e disastri naturali. Anche nella situazione attuale, che sta vendendo l’intera economia globale vivere una crisi profonda, il settore turistico sarà probabilmente uno di quelli che porterà i segni lasciati dal Covid-19 più a lungo. Nonostante la situazione senza precedenti renda difficile fare stime affidabili, analizzando modellizzazioni di eventi passati, dati di trend e survey sull’attuale consumer sentiment, è possibile scomporre la “travelling anxiety” nei suoi elementi essenziali e cercare di misurare in questo modo l’impatto che l’attuale pandemia avrà sulla domanda turistica, separando impatti a breve e a lungo termine.

Anna Codispoti è Data Science Manager in Costa Crociere S.p.A., con un Ph.D. in Matematica e Applicazioni conseguito presso l’Università degli studi di Genova ed un G.M.P. conseguito presso la ESCP Business School. I progetti curati dal team di Data Science che coordina coinvolgono diverse aree aziendali, come ad esempio il pricing dei prodotti di bordo, lo sviluppo di sistemi di ottimizzazione e forecasting o sistemi di raccomandazione su piattaforme web. Le sue principali aree di interesse sono la Modellazione Matematica, il Machine Learning e Big Data come strumenti di Business Decision Making e Customer Engagement.

Slide presentate da Anna (PDF 1.7M)

Ed ecco i link degli articoli di Anna su Medium:

Covid-19 and touristic demand

When will we start dreaming our next trip again?

Francesco Cricchio e’ il CEO di Brain, un’azienda di ricerca che crea set di dati e algoritmi proprietari per strategie di investimento, combinando competenze in Finanza con competenze in Statistica, Machine Learning e Natural Language Processing. L’intervento sarà focalizzato sull’applicazione di queste tecniche per monitorare le conseguenze dell’epidemia sui mercati finanziari e su settori specifici.

Slide presentate da Francesco (PDF 2M)

Riccardo Beltramo è Professore Ordinario all’Università degli Studi di Torino, Dipartimento di Management. Svolge ricerche nel campo del turismo sostenibile prevalentemente in ambito montano. Lavora nel campo dell’Ecologia industriale e svolge ricerche sui sistemi di gestione integrati, applicati ad attività manifatturiere e di servizi ed alle aree industriali. Attualmente insegna Environmental Management Systems, Tourism Eco-Management ed Ecologia industriale presso la Scuola di Management ed Economia.

Purtroppo il collegamento con Riccardo è saltato prima che potesse iniziare l’intervento in diretta, quindi ha registrato il suo contributo  successivamente.

Slide di Riccardo (17M PDF)

Agli interventi previsti si è aggiunto un interessantissimo fuori programma della gentilissima Lara Congiu,  che lavora presso la Commissione Europea di Bruxelles proprio all’intersezione tra turismo, sostenibilità e data science.

Ecco il folder di documenti a cui fa riferimento Lara nel suo intervento. Una miniera di informazioni e link.

Zip file 19M

 


Il meetup DataScienceSeed fa parte delle iniziative dell’associazione

IAML, Italian Association for Machine Learning