Questa repository contiene il codice del progetto per il corso di Modelli e Tecniche per Big Data. Il lavoro si articola in due componenti:
- una dashboard per la visualizzazione e l'interrogazione su un grande insieme di dati relativi ai voli negli USA nell'anno 2013;
- dei notebook che realizzano alcuni task di Machine Learning (classificazione e regressione) sui medesimi dati.
Il progetto si è concentrato sull'uso di Spark per la gestione dei dati. La dashboard (eseguibile attraverso il file app.py) è stata sviluppata, per la parte del frontend, con Plotly e Dash; mentre per i notebook si è fatto uso di SparkML