Cosa è Apache Spark? Sicuramente una delle più inflazionate buzzword nel mondo del Big Data Analytics ma soprattutto un consolidato standard per il Massive Parallel Processing.
Nel mondo dello streaming tanti sono i competitor ma quando si parla di batch processing, “no way” Spark è un must assoluto. Ci piace definire Spark un ecosistema!
Infatti, grazie alle funzionalità ad esso collegate, come MlLib, Hive, Delta e tante altre rende possibile lo sviluppo di una pipeline end-to-end di dato partendo dall’ingestion, fino alla visualization passando per il Machine Learning. La combinazione di Spark con le sue tecnologie satellite spinge ad un altro livello lo sviluppo di datalake aziendali che permettano una gestione ottimale anche in use case tipici dei classici DWH ma su di una architettura open source molto più economica.
Vediamo insieme come l’ecosistema Spark può essere impiegato per estrarre valore da massive moli di dato sfruttandone al massimo le potenzialità tecniche e commerciali.
Andrea Picasso è un Senior Big Data Engineer presso NTTData. Il suo background accademico è in ingegneria del software con specializzazione in Big Data architecture e Machine Learning modeling. Andrea ha preso parte in progetti di ricerca nel mondo dell’intelligenza artificiale nel periodo in cui si trovava a Singapore. Tornato in Italia circa 2 anni fa si è concentrato nell’applicare la sua conoscenza nel mondo dell’industria del Big Data. Le sue attività principali sono il design e lo sviluppo di architetture Big Data per workflow di ETL ed Analytics. Il suo focus tecnologico verte principalmente su tool per il processing distribuito di dato come Spark e Flink, inoltre è un grande promoter del paradigma di programmazione funzionale e del linguaggio Scala.
Continuano gli incontri online di DataScienceSeed, la 2a edizione ha avuto luogo Mercoledi 17 Giugno a partire dalle 18:30. A seguito della vittoria nella UNOSAT AI4EO Challenge, Cristiano Nattero, Andrea Rapuzzi e Marco Chini ci hanno raccontato la loro esperienza alle prese con questa entusiasmante sfida.
Il Challenge è stato lanciato da UNOSAT, un importante programma delle Nazioni Unite per fornire analisi di immagini satellitari, insieme a ESA e CERN openlab ed era volto realizzazione di una soluzione AI4EO (Artificial Intelligence for Earth Observation) per il rilevamento di impronte di edifici in Iraq, allo scopo supportare il governo locale nella pianificazione di attività di ricostruzione e sviluppo nell’area.
Come hanno affrontato Cristiano, Andrea e Marco le differenti fasi della gara (segmentazione semantica e per istanze di aree urbane in immagini satellitari)? Perchè l’Earth Observation (EO) sta diventando un tema sempre più centrale dell’AI? Quali sono i suoi aspetti peculiari e le sue sfide originali (piattaforme, problematiche specifiche, algoritmi)?
Cristiano Nattero ha un dottorato di ricerca in Ingegneria Matematica e Simulazione, ed un forte background in ottimizzazione combinatoria. Oggi è senior developer in FadeOut Software, dove si occupa principalmente di WASDI, una piattaforma web distribuita a supporto di chi fa analisi di immagini satellitari.
Marco Chini, ingegnere elettronico, ha un dottorato in geofisica. Dal 2013 lavora al Luxembourg Institute of Science and Technology. Tra il 2003 ed il 2012 ha collaborato con il Dipartimento di Ingegneria dell’Informazione, Elettronica e Telecomunicazioni all’Università La Sapienza. Tra il 2006 ed il 2008 è stato Visiting Researcher nel “Department of Aerospace Engineering Science, University of Colorado”, Boulder, dove ha partecipato a progetti di monitoraggio urbano con immagini ottiche ad altissima risoluzione spaziale. Tra il 2008 e il 2012 ha lavorato con il gruppo di telerilevamento dell’ Istituto Nazionale di Geofisica e Vulcanologia, Roma. E’ stato coinvolto in progetti per la mappatura di aree allagate, per individuare i danni causati da terremoti e per la definizione del rischio. I suoi interessi di ricerca includono l’analisi di dati multitemporali, la classificazione, l’estrazione di feature, la data fusion e la segmentazione con immagini SAR ed ottiche, e l’interferometria SAR per applicazioni geofisiche.
Andrea Rapuzzi è il fondatore di A-SIGN, un’azienda che progetta e sviluppa soluzioni software per diversi domini dell’ingegneria (aerospazio, navale, reti idriche, telecomunicazioni). Ingegnere elettronico per formazione, da 23 anni progetta e sviluppa architetture software. I suoi interessi più recenti di ricerca e sviluppo coinvolgono Machine Learning, Deep Learning, Reinforcement Learning e Probabilistic Programming.
Al talk si sono affiancati Marta Ziosi e Gabriele Graffieti, cofounder e head of research di AI for People, che avevamo già incontrato a Gennaio, con un aggiornamento sul progetto di analisi immagini satellitari nato proprio al meetup di Gennaio. AI for People è un’associazione che ha come obiettivo quello di capire e promuovere l’uso dell’intelligenza artificiale per il bene sociale, la cui strategia è quella di condurre analisi, progetti e proposte che comprendono AI e società. L’associazione è formata da un team eterogeneo di persone che ha come scopo quello di creare un cambiamento positivo nella società attraverso l’uso consapevole ed etico della tecnologia.