DSS Meetup #39 – Storia dell OCR e Anomaly Detection

Per il meetup di Novembre riproponiamo la formula dei primi meetup di DataScienceSeed, con 2 interventi: il primo tratterà la storia dell’OCR, il secondo l’Anomaly Detection applicata a problemi di ottimizzazione. I 2 talks saranno seguiti dal consueto spazio per domande e risposte e dall’immancabile rinfresco a base di focaccia.

L’appuntamento è per Giovedi 30 Novembre a partire dalle ore 18:00 presso l’Ordine degli Ingegneri della Provincia di Genova, Piazza della Vittoria, 11/10.

MNIST: nascita, vita e morte di un dataset pubblico. 

Nel primo talk racconteremo la storia del processo OCR (Optical Character Recognition), passato negli anni da obiettivo di ricerca a semplice commodity, attraverso il ruolo cruciale svolto dal dataset MNIST, che ha avuto un ruolo fondamentale nello sviluppo del deep learning. È stato uno dei primi dataset di immagini utilizzati per l’addestramento di reti neurali convoluzionali (CNN), un tipo di rete neurale particolarmente efficace per la classificazione di immagini.

Il racconto parte dai primi approcci di machine learning, prosegue con i risultati di Yann LeCun, che proprio su questo dataset ha dato una prima dimostrazione del potenziale delle CNN per la classificazione di immagini e quindi contribuito a una nuova ondata di interesse per il deep learning,e finisce con le moderne architetture a transformers.

Si parlerà anche del ruolo della ricerca italiana in questo percorso, con alcuni importanti successi ed alcune occasioni mancate.

Ennio Ottaviani è un fisico teorico, ricercatore industriale ed imprenditore. E’ direttore scientifico di OnAIR, dove coordina progetti di ricerca sulle applicazioni di IA in diversi settori dell’industria e dei servizi. E’ docente di Metodi Predittivi per il corso di laurea in Statistica Matematica della Università di Genova. Ennio è già stato ospite in passato di DataScienceSeed con un interessantissimo talk su Quantum Computing e Data Science.

 

Scoprire le anomalie nei big data, con l’applicazione del Machine Learning e delle Metaeuristiche

Il secondo talk della giornata tratterà tematiche riguardanti l’Anomaly Detection, l’integrazione delle Metaeuristiche nel campo Machine Learning e algoritmi di ottimizzazione.

L’Anomaly Detection è un campo dell’intelligenza artificiale che si occupa di identificare dati anomali in un set di dati. Le anomalie possono essere dovute a vari fattori, come errori di misurazione, eventi imprevisti o attacchi malevoli.  L’intervento intende fare una panoramica sulle anomalie in campi come i sistemi di controllo industriali, i sistemi di intrusione, l’analisi di eventi climatici, di traffico urbano, di fake news e tanto altro.

Le Metaeuristiche sono un tipo di algoritmo di ottimizzazione che utilizzano una strategia di esplorazione/sfruttamento per trovare una soluzione ottimale o subottimale a un problema. Sono spesso utilizzate in problemi complessi, dove gli algoritmi tradizionali possono fallire. L’integrazione delle Metaeuristiche nell’Anomaly Detection può migliorare l’accuratezza e la robustezza dei sistemi di rilevamento delle anomalie.

Claudia Cavallaro si occupa di ricerca in Informatica, nel tema dei Big Data, dell’Ottimizzazione e delle Metaeuristiche. E’ una docente dell’Università di Catania, per i corsi di laurea triennale e magistrale di Informatica in “Strutture Discrete” ed “Euristics and metaheuristics for optimizazion and learning”. Recentemente ha partecipato come speaker alle conferenze ITADATA 2023(The 2nd Italian Conference on Big Data and Data Science) e WIVACE 2023 (XVII International Workshop on Artificial Life and Evolutionary Computation). Ha iniziato a lavorare nel campo di ricerca dell’Anomaly Detection già durante il periodo di post-doc presso il CNAF-I.N.F.N. di Bologna.

DataScienceSeed Online#12 – Open Source AI sulla linea di produzione

DataScienceSeed torna online Mercoledì 26 Gennaio, a partire dalle ore 18:00. Incontreremo Paolo Mascellani, presidente della cooperativa eLabor, che sta sviluppando un sistema completo ed open source che porta il deep learning sulla linea di prodizione.

ADR-Flow applica tecniche di deep learning al riconoscimento automatico dei difetti di produzione industriale, coniugandole con una infrastruttura  software robusta ed adattabile. Non propone dei risultati nuovi, ma applica risultati consolidati ad una necessità ben precisa, consentendo di concentrarsi sulle necessità specifiche perché il sistema si occupa di tutto il resto. Il tutto, Open Source.

Le prime esperienze fatte con ADR-Flow riguardano il problema della corretta cablatura degli impianti  di un motoveicolo: al di la della dimostrazione della possibilità teorica di raggiungere questo obiettivo, la sfida è architettare una struttura robusta e flessibile di raccolta e gestione dei dati.

Questo ha richiesto di affrontare problematiche architetturali da coniugare con gli stumenti di Data Science (nel nostro caso il transfer learning con Keras e Tensor Flow), affrontando i problemi tipici di avere pochi dati e sbilanciati (data augmentation, controllo dell’overfitting, pesatura dei campioni) ed usando metriche adeguate a descrivere il problema.

Molti e notevoli gli stimoli per miglioramenti ed evoluzioni future: efficienza dell’addestramento e del riconoscimento, sia dal punto di vista della dimensione dei modelli che dei tempi di elaborazione, sistemi di ausilio all’etichettatura dei campioni, modi per affrontare difetti estremamente rari, ma importanti (ad esempio riguardanti la sicurezza), uso di generative adversarial network per sintetizzare campioni realistici, difetti nelle produzioni continue, ed è solo l’inizio.

Paolo Mascellani è presidente della cooperativa eLabor, che ha fondato nel 2001 assieme ad alcuni amici con lo scopo di non far perdere alla società le energie di quanti si trovano in un periodo di difficoltà dal punto di vista lavorativo ed allo stesso tempo di fornire ad aziende, enti, cooperative, eccetera, servizi tecnologicamente avanzati, basati su software libero ed a costo sostenibile.

Convinto della sinergia tra formazione e lavoro, si è laureato dapprima in Ingegneria Elettronica, poi in Scienze dell’Informazione e successivamente ha conseguito il dottorato di ricerca in Logica Matematica ed Informatica teorica. Negli ultimi anni ha seguito con successo numerosi corsi di formazione on-line su temi come Machine Learning, Internet of Things, Big Data, Sviluppo Agile e molto altro. In tutto questo tempo non ha mai smesso di lavorare, con numerose puntate in vari paesi in via di sviluppo, di mettere in pratica quanto ha studiato e di trasmettere ai propri amici, familiari e colleghi le conoscenze acquisite e la voglia di acquisirne altre.

È questo il caso anche del rilevamento automatico dei difetti di produzione industriale.

DSS Online #11, Le sfide dell’Edge Computing

Nell’ultima edizione di DataScienceSeed Online prima della pausa estiva,  Mercoledi 21 Luglio alle 18:00 abbiamo parlato di Edge Computing, con Alberto Cabri, PhD.

Se hai partecipato o se hai visto il video (che trovi qui sotto) dacci un feedback!

La disponibilità di piattaforme integrate ad alte prestazioni consente al giorno d’oggi di eseguire algoritmi in edge con indubbi vantaggi sul consumo di banda, la sicurezza e la salvaguardia della privacy. Tuttavia la strada non è in discesa e talvolta la complessità di rendere operativo un sistema edge non è trascurabile e si deve lavorare su sistemi eterogenei con strumenti che se da un lato possono semplificare la realizzazione ed il deployment delle soluzioni (ad. es. docker) dall’altro richiedono l’acquisizione di ulteriori competenze.

Il caso d’uso  mostrato è relativo al riconoscimento real-time di componenti elettronici con deep learning, legato al progetto Ariadne, Data Driven Recovery System, di cui ci ha raccontato i sommi capi Rosario Capponi nella sessione di Q&A.

Alberto Cabri Ha conseguito il Dottorato in Computer Science and Systems Engineering presso l’Università di Genova nel 2020. E’ un socio fondatore di Vega Research Laboratories, uno spin-off dell’Università di Genova la cui mission sono la progettazione e sviluppo di soluzioni basate su tecnologie emergenti, quali AI, edge computing. Ha una Laurea in Ingegneria Elettronica ed è docente di ruolo di Informatica presso un Istituto Tecnico di Genova. E’ stato fondatore ed AD di Flashover Time S.r.l., Manager in Computer Science Corporation, Project Manager in Marconi Communications e ha ricoperto diversi ruoli tecnici in Elsag e Cap Gemini.

Ecco le slide presentate da Alberto (PDF 2M)

Questo il link al video mostrato durante la presentazione.

E qui il link alla serie di tutorial su Jetson Nano a cui si fa riferimento, che fa parte del NVIDIA Developer Program 

Infine ecco la slide sul progetto Ariadne di cui l’esempio descritto fa parte.

2021-04 Ariadne ADS

 

 

DataScienceSeed#6 – Stock Market Machine Learning & Caffè con Pandas

23 Maggio 2019, Digital Tree, Genova, ore 18

DataScienceSeed meetup 23 maggio 2019

Se hai partecipato a questo evento, lasciaci un feedback!

Ecco l’agenda del sesto incontro, a cavallo tra la frontiera della ricerca e la didattica sui nostri dataset.

Merello e Finanza

Mercati Finanziari: affrontare con il Machine Learning un un problema davvero complesso

Simone Merello, specialista in AI for Finance presso Nanyang Technological University of Singapore

Simone Merello a DatasScienceSeed
Simone Merello a DatasScienceSeed

Predire l’andamento del mercato finanziario è un problema complesso, al punto che non ne è ancora chiara la fattibilità stessa. Sono state tentate tutte le tecniche di Machine Learning ed ogni sorta di reti naurali, ma i problemi sono tanti ed a tanti livelli. Simone ci ha spiegato come ha affrontato questo problema, presentandoci le tecniche usate nelle ultime ricerche, in un percorso tra le difficoltà e le opportunità valido per molte classi di problemi.

Ecco le slides di Simone, sotto forma di Google Doc

Attenzione! Audio Challenge!

L’audio del talk è molto disturbato a causa di un problema tecnico al sistema della sala nel giorno della ripresa. Ce ne scusiamo… nonostante gli sforzi in post produzione dei ragazzi del service la qualità audio è molto inferiore al livello che vorremmo tenere. Ma possiamo trasformare questo problema in opportunità!! Siamo certi che con il Machine Learning / Deep Learning si può ulteriormente ripulire questo audio. Chi vuole tantare? I tentativi più o meno riusciti saranno presentati in un meetup!

 


 

Morchio Marcello Andrea Boero DataScienceSeed 23 maggio 2018

Caffè con Pandas: cosa abbiamo imparato dal Coffe Machines Dataset

Marcello Morchio, Andrea Boero – DataScienceSeeed team

Marcello Morchio DataScienceSeed
Marcello Morchio alle prese con il LightGBM

A Febbraio i ragazzi di Flairbit ci hanno offerto un problema di manutenzione predittiva su una flotta di macchine del caffè professionali.  Ci abbiamo lavorato e siamo pronti a mostrarne i risultati alla community. Marcello ha parlato di Pandas, la libreria Python che non può mancare nella cassetta degli attrezzi del data scientist, per passare da un dataset selvaggio ad un docile datasetche daremo in pasto ad un modello di machine learning di tipo “classico” ma per niente banale, il LightGBM, Andrea  ha poi mostrato come costruire ed addestrare una rete neurale feed forward per lo stesso dataset, ottimizzandone gli iperparametri fino ad identificare la configurazione ottimale.

Riusciremo a prevenire i guasti ed a meritarci un buon caffè?

 

Flairbit Challange - pdf slides
Flairbit Challange – pdf slides

 

Github Repository del codice (Pandas, LightGBM e SHAP)
La descrizione è nel README del repo.

Google Drive link dello Zip file (55M) dell’approccio Neural Networks

Relazione (PDF 1MB)  Neural Networks

Andrea Boero eSimone Merello
Andrea Boero eSimone Merello discutono di architetture neurali mentre gli altri si mangiano la focaccia

 

 

 


Deep Learning Group

Abbiamo presentato nel meetup il Learning Group su Deep Learning che partirà con la prima sessione l’11 Giugno, alle 18.30 presso Digital Tree.

Seguiremo il corso Practical Deep Learning for coders, di Fast.ai, e ci incontreremo ogni due settimane per discutere delle lezioni seguite online, del codice presentato, delle difficoltà incontrate e magariper provare a cimentarci con qualche progetto reale.

Il progetto del learning group segue il percorso tracciato dai gruppi di studio TVML di IAML

Per accedere al gruppo, usa il form di feedback dell’evento.


Il meetup DataScienceSeed fa parte delle iniziatove dell’associazione  IAML, Italian Association for Machine Learning

Questo incontro è possibile anche grazie al supporto di

Wonder Talent Investor

Gruppo IB

DataScienceSeed#5 – Arte Cultura e Data Science

Se hai partecipato a questo meetup, per favore lasciaci un feedback qui!

Ecco l’agenda del quinto incontro,  tutto legato ad attività di ricerca tra Digitale, Arte e Beni Culturali

In codice ratio

In Codice Ratio: trascrizione automatica di manoscritti medievali

Simone Scardapane: Ricercatore @ Università La Sapienza e Presidente IAML

Il progetto di ricerca  In Codice Ratio, promosso da un team di Roma Tre, si pone l’obiettivo di sviluppare tecnologie per l’estrazione automatica dell’informazione da documenti storici, a partire da un caso di studio d’eccezione: l’Archivio Segreto Vaticano, uno dei più grandi archivi storici al mondo in termini di dimensioni e valore dei documenti custoditi. L’analisi di documenti così antichi presenta una serie di sfide specifiche: i testi sono manoscritti, in lingua latina ed accessibili unicamente in forma di immagine. Nel talk si descrivono i risultati ottenuti finora, i problemi da affrontare nel futuro, e soprattutto come le più recenti tecniche di deep learning (reti convolutive, U-Net, sistemi sequence2sequence) aiutano e guidano nella possibile risoluzione di queste sfide.

Presentazione di Simone Scardapane in formato pdf
Presentazione di Simone Scardapane in formato pdf

Metodi e Modelli 3D per l’analisi, la classificazione e l’interpretazione di reperti archeologici

Silvia Biasotti, Bianca Falcidieno, CNR IMATI

Per rispondere alla crescente necessità di metodi per la quantificazione della similarità tra frammenti e l’identificazione di elementi stilisticamente compatibili, IMATI ha sviluppato tecniche di analisi, classificazione e riconoscimento di forma, che vanno dall’identificazione di caratteristiche geometriche peculiari di un gruppo di oggetti, al riconoscimento di particolari configurazioni o strutture, fino all’identificazione e classificazione di parti con particolari decori e funzionalità. A partire da tali premesse è stata sviluppata una ricca base metodologica per la classificazione, la ricerca e il confronto di oggetti attraverso similarità di forma, declinando il concetto di similarità rispetto alle diverse sfaccettature che tale termine suggerisce: similarità geometrica, strutturale, funzionale o semantica.

La classificazione, la riunificazione e il riconoscimento di frammenti e decorazioni sono argomenti trattati nel progetto Horizon 2020 GRAVITATE.

Presentazione di Bianca Falcidieno e Silvia Biasotti in formato pdf
Presentazione di Bianca Falcidieno e Silvia Biasotti in formato pdf

I meetup DataScienceSeed sono in collaborazione con IAML, Italian Association for Machine Learning

Questo incontro è possibile anche grazie al supporto di