**Esplorazione Dataset comuni Toscana**

Importiamo pandas e salviamo il dataset in un DataFrame. 

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("../datasets/salute/osservatori_comuni.csv")
df.head(5)

Il DataFrame è organizzato in maniera da salvare i dati rilevanti in diverse colonne a seconda dell'anno di rilevazione. Per sapere a quale dato si riferisce una cella bisogna fare riferimento al valore nella colonna _nome indicatore_. 

Trasformiamo la struttura del DataFrame in una più facile da analizzare utilizzando _pandas_. 

La struttura sarà la seguente

| Comune        | Anno          | Indicatore 1  | Indicatore 2  | ... |
| ------------- |:-------------:| -------------:| -------------:| ---:| 
| Firenze       | 2007          | 1600          | 45            | ... |
| Vaiano        | 2008          |   12          | 55            | ... |
| Vernio        | 2009          |    1          | 66            | ... |

Andiamo a guardare gli indicatori presenti nel DataFrame e selezioniamo quelli di interesse

In [None]:
df.nome_indicatore.unique()

In [None]:
interesting_feat = ["Produzione pro-capite Rifiuti Urbani","Reddito imponibile medio per contribuente",
                    "Numero medio componenti per famiglie","% di Raccolta Differenziata",
                    "Reddito imponibile medio per residente","Rapporto tra avviamenti/cessazioni (x 100)",
                    "Rapporto tra avviamenti/cessazioni di stranieri (x 100)",'Tasso grezzo di disoccupazione (x100)',
                    "Tasso grezzo di disoccupazione stranieri (x100)","Quoziente di incremento totale (x 1.000)",
                    "Percentuale nati di cittadinanza non italiana","Tasso di pensioni sociali e assegni sociali (x 100)",
                    "Percentuale studenti con esito negativo - secondaria II grado",
                    "Superamento dei limiti normativi dovuti a Srb: numero superamenti limite di esposizione e limite di attenzione",
                    "Superamento dei limiti normativi dovuti a impianti Rtv: numero superamenti limite di esposizione e limite di attenzione",
                    "Percentuale di avviamenti a termine","Percentuale studenti con esito negativo - secondaria I grado"]
#interesting_feat = list(df.nome_indicatore.unique())

Possiamo ora ridurre le dimensioni del DataFrame e salvare soltanto le righe con gli indicatori di interesse. 
Chiamiamo il nuovo DataFrame *df_skim*.

In [None]:
df_skim = df[df.nome_indicatore.isin(interesting_feat)]

In [None]:
df_skim.head(5)

Salviamo ora la lista dei comuni che ci serve per raggruppare gli indicatori per comune e anno di rilevazione in un nuovo DataFrame. 

In [None]:
list_comuni = df_skim.comuni.unique()
print list_comuni

Salviamo ora i dati relativi ai comuni in una lista di n-tuple. 
Le n-tuple avranno come prime 2 entry il nome del comune e l'anno. Le restanti entry sono le _interesting feat_ che abbiamo definito sopra. 

In [None]:
test_list = []
for com in list_comuni:
    for year in range(2007,2015):
        test_tuple = (com,year)
        for name in interesting_feat:
            #print name
            df_temp = df_skim[(df_skim["nome_indicatore"] == name) & (df_skim["comuni"]==com)]
            #print df_temp["2007"]
            #print df_temp.shape
            if df_temp.empty == True: 
                continue
            test_tuple = test_tuple + (df_temp.iloc[0][str(year)],)
    
        test_list.append(test_tuple)


Creiamo un nuovo DataFrame _df new_ a partire dalla lista di n-tuple creata sopra.

In [None]:
df_new = pd.DataFrame(test_list,columns=["comune","year"]+interesting_feat)

Controlliamo adesso che tutto sia andato bene. 
Possiamo fare un cross-check per uno dei comuni. Prendiamo i dati dal DataFrame originale e li confrontiamo con il DataFrame appena creato. 
Usiamo il comune di "Pratovecchio Stia" per il confronto. 

In [None]:
df_skim[df_skim.comuni=="Pratovecchio Stia"]

In [None]:
df_new[df_new.comune=="Pratovecchio Stia"]

Campionando alcune celle dal primo DataFrame e conforntandole con il secondo sembra che i valori corrispondano. 
Check passato. 

Salviamo ora il nuovo DataFrame in un file _csv_ per la futura analisi. 

In [None]:
df_new.to_csv("../datasets/salute/osservatori_comuni_cleaned.csv")