# Indice dei Notebook

Lo scopo di questo progetto è creare dei modelli di Reti Neurali che siano in grado di riconoscere comandi vocali. Per fare questo abbiamo scelto di utilizzare il dataset pubblico [TensorFlow Speech Recognition Challenge](https://www.kaggle.com/c/tensorflow-speech-recognition-challenge/code?competitionId=7634&sortBy=voteCount&excludeNonAccessedDatasources=true) di Google

## Analisi dei Dati

Il dataset disponibile era di dimensioni eccessive per il nostro progetto, quindi abbiamo deciso di iniziare [riducendo il dataset](1A_reduce_dataset.ipynb). 

Successivamente siamo passati una fase di [analisi esplorativa](1B_analisi_dati.ipynb). Questo ci ha permesso di capire quali tipi di dati fossero presenti nel dataset e iniziare a pensare delle possibili soluzioni alla challenge proposta. Fatto ciò, ci siamo posti il problema di rappresentare al meglio i dati a disposizione, cosi da poterli analizzare più profondamente. Le soluzioni trovate sono state la visualizzazione di:
- [spettrogrammi](1C_make_spectrogram.ipynb)
- [segnali degli audio](1D_make_wave_audio.ipynb) 
- [filter banks](1E_make_filterbanks.ipynb)

## Modelli

Esplorati i dati ed eseguiti i pre-processamenti necessari, siamo passati alla creazione dei modelli.

### Convolutivo

Considerando la conversione degli audio in spettrogrammi durante le fasi precedenti, il primo su cui ci siamo concentrati è stato un [modello convolutivo base](2A_conv_base.ipynb), con ottimizzatore RMSProp. Abbiamo eseguito alcuni esperimenti prima di riuscire a trovare un'architettura in grado di eseguire il compito di classificazione dei comandi, taluni più efficaci di altri. Tra questi, abbiamo sostituito l'ottimizzatore con uno [adam](2B_conv_base_adam.ipynb).

Siamo passati da un modello che presentava un adattamento eccessivo dopo poche epoche a un modello robusto, in grado di generalizzare e con un'accuratezza notevole. 

Gli stessi modelli sono stati nuovamente addestrati e valutati con input differenti, come i [filterbank e gli MFCC](2C_training_on_filterbanks.ipynb). Anche in questo caso è stato applicato lo stesso esperimento riguardante la sostituzione dell'ottimizzatore con uno [adam](2D_training_on_filterbanks_adam.ipynb).

Terminato ciò abbiamo riprodotto un [modello convolutivo complesso](2E_conv_advanced.ipynb) con architettura VggVox.

Quest'ultimo notebook pone fine alla seconda fase del nostro progetto, aprendo le porte al prossimo argomento chiave: la [data augmentation](3A_data_augmentation.ipynb).

### Data augmentation

Questo argomento ci permette di far risaltare il nostro operato, offrendoci nuove combinazioni di addestramento e valutazione. Abbiamo ripetuto lo stesso procedimento del paragrafo precedente ma utilizzando i concetti appresi e introdotti dal nuovo.

Abbiamo quindi addestrato e valutato i modelli utilizzando un dataset modificato con le tecniche trattate nel notebook precedente. In particolare, abbiamo addestrato nuovamente il [modello convolutivo base](3B_conv_base.ipynb), la sua variante con l'ottimizzatore [adam](3C_conv_base_adam.ipynb), e il [modello convolutivo complesso](3D_conv_advanced.ipynb) con architettura VggVox.

## Valutazione

Questi esperimenti ci hanno permesso di ottenere un grande quantitativo di modelli addestrati, per un totale di cinquantaquattro (54). Tutte queste informazioni, e tutti questi dati, sono stati [visualizzati, analizzati, e valutati](4A_valutazione.ipynb).