**Esplorazione Dataset comuni Toscana**

Importiamo pandas e salviamo il dataset in un DataFrame. 

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("../../datasets/salute/osservatori_comuni.csv")
df.head(5)

Unnamed: 0,tipo,id_pis_settore,pis_settore,id_ind_pis,codice_pis,nome_indicatore,id_comuni,comuni,asl,prov,2007,2008,2009,2010,2011,2012,2013,2014
0,Set complementare,2,Determinanti di salute,254,SC.determinanti.7a,Percentuale studenti con esito negativo - prim...,9051036,Stia,AUSL 8 - Arezzo,AR,,0.0,0.0,0.0,0.0,0.0,0.0,
1,Set minimo,1,Profilo demografico,24,SM.demo.6,Percentuale stranieri residenti,9051041,Pratovecchio Stia,AUSL 8 - Arezzo,AR,,,,,,,,12.137158
2,Set complementare,2,Determinanti di salute,311,SC.determinanti.35,Numero interventi di controllo per abitante,9051006,Capolona,AUSL 8 - Arezzo,AR,,,1.0,,,,,
3,Set complementare,2,Determinanti di salute,311,SC.determinanti.35,Numero interventi di controllo per abitante,9051004,Bibbiena,AUSL 8 - Arezzo,AR,,,1.0,2.0,,,,
4,Set complementare,2,Determinanti di salute,254,SC.determinanti.7a,Percentuale studenti con esito negativo - prim...,9047004,Cutigliano,AUSL 3 - Pistoia,PT,,3.773585,0.0,0.0,0.0,0.0,0.0,


Il DataFrame è organizzato in maniera da salvare i dati rilevanti in diverse colonne a seconda dell'anno di rilevazione. Per sapere a quale dato si riferisce una cella bisogna fare riferimento al valore nella colonna _nome indicatore_. 

Trasformiamo la struttura del DataFrame in una più facile da analizzare utilizzando _pandas_. 

La struttura sarà la seguente

| Comune        | Anno          | Indicatore 1  | Indicatore 2  | ... |
| ------------- |:-------------:| -------------:| -------------:| ---:| 
| Firenze       | 2007          | 1600          | 45            | ... |
| Vaiano        | 2008          |   12          | 55            | ... |
| Vernio        | 2009          |    1          | 66            | ... |

Andiamo a guardare gli indicatori presenti nel DataFrame e selezioniamo quelli di interesse

In [3]:
df.nome_indicatore.unique()

array(['Percentuale studenti con esito negativo - primaria',
       'Percentuale stranieri residenti ',
       'Numero interventi di controllo per abitante',
       'Indice di dinamicit\xc3\xa0 degli avviamenti',
       'Indice di dinamicit\xc3\xa0 degli avviamenti di stranieri',
       'Indice di presenza delle coop sociali formalizzate (x 10.000)',
       'Tasso di pensioni di invalidit\xc3\xa0 civile 0-19 anni (x 100)',
       'Tasso di famiglie che chiedono integrazione canoni di locazione (x 1000)',
       'Tasso di natalit\xc3\xa0 (x 1.000)',
       'Percentuale studenti con esito negativo - secondaria I grado',
       'Tasso di ricettivit\xc3\xa0 dei servizi educativi per la prima infanzia (x 100)',
       'Tasso di accoglienza dei servizi educativi per la prima infanzia (x 100)',
       "Importo medio mensile pensioni invalidit\xc3\xa0 erogate dall'INPS",
       "Importo medio mensile pensioni pensioni/assegni sociali erogate dall'INPS",
       'Tasso grezzo di disoccupazione (

In [4]:
interesting_feat = ["Produzione pro-capite Rifiuti Urbani","Reddito imponibile medio per contribuente",
                    "Numero medio componenti per famiglie","% di Raccolta Differenziata",
                    "Reddito imponibile medio per residente","Rapporto tra avviamenti/cessazioni (x 100)",
                    "Rapporto tra avviamenti/cessazioni di stranieri (x 100)",'Tasso grezzo di disoccupazione (x100)',
                    "Tasso grezzo di disoccupazione stranieri (x100)","Quoziente di incremento totale (x 1.000)",
                    "Percentuale nati di cittadinanza non italiana","Tasso di pensioni sociali e assegni sociali (x 100)",
                    "Percentuale studenti con esito negativo - secondaria II grado",
                    "Superamento dei limiti normativi dovuti a Srb: numero superamenti limite di esposizione e limite di attenzione",
                    "Superamento dei limiti normativi dovuti a impianti Rtv: numero superamenti limite di esposizione e limite di attenzione",
                    "Percentuale di avviamenti a termine","Percentuale studenti con esito negativo - secondaria I grado",
                   "Numero interventi di controllo per abitante"]
#interesting_feat = list(df.nome_indicatore.unique())

Possiamo ora ridurre le dimensioni del DataFrame e salvare soltanto le righe con gli indicatori di interesse. 
Chiamiamo il nuovo DataFrame *df_skim*.

In [5]:
df_skim = df[df.nome_indicatore.isin(interesting_feat)]

In [6]:
df_skim.head(5)

Unnamed: 0,tipo,id_pis_settore,pis_settore,id_ind_pis,codice_pis,nome_indicatore,id_comuni,comuni,asl,prov,2007,2008,2009,2010,2011,2012,2013,2014
2,Set complementare,2,Determinanti di salute,311,SC.determinanti.35,Numero interventi di controllo per abitante,9051006,Capolona,AUSL 8 - Arezzo,AR,,,1,,,,,
3,Set complementare,2,Determinanti di salute,311,SC.determinanti.35,Numero interventi di controllo per abitante,9051004,Bibbiena,AUSL 8 - Arezzo,AR,,,1,2.0,,,,
6,Set complementare,2,Determinanti di salute,311,SC.determinanti.35,Numero interventi di controllo per abitante,9048041,Scandicci,AUSL 10 - Firenze,FI,,1.0,1,,,,,
9,Set complementare,2,Determinanti di salute,311,SC.determinanti.35,Numero interventi di controllo per abitante,9050035,Santa Maria a Monte,AUSL 5 - Pisa,PI,,1.0,1,,,,,
10,Set complementare,2,Determinanti di salute,311,SC.determinanti.35,Numero interventi di controllo per abitante,9050040,Casciana Terme Lari,AUSL 5 - Pisa,PI,,1.0,1,,,,,


Salviamo ora la lista dei comuni che ci serve per raggruppare gli indicatori per comune e anno di rilevazione in un nuovo DataFrame. 

In [7]:
list_comuni = df_skim.comuni.unique()
print list_comuni

['Capolona' 'Bibbiena' 'Scandicci' 'Santa Maria a Monte'
 'Casciana Terme Lari' 'Castagneto Carducci' 'Cecina' 'Montevarchi'
 'Terranuova Bracciolini' 'Peccioli' 'Vaiano' 'Ponsacco' 'Pontedera'
 'Santa Luce' 'Capannori' 'Lucca' 'Porcari' 'Villa Basilica'
 'Bagni di Lucca' 'Barga' 'Borgo a Mozzano' 'Cantagallo' 'Carmignano'
 'Poggio a Caiano' "Campo nell'Elba" 'Portoferraio' 'Livorno' 'Piombino'
 'San Vincenzo' 'Loro Ciuffenna' "Colle Val d'Elsa" 'Subbiano'
 'Pratovecchio' 'Castiglion Fiorentino' 'Pratovecchio Stia' 'Monterchi'
 'Monte Argentario' 'Orbetello' 'Fosciandora' 'Chitignano' 'Grosseto'
 'Castelnuovo di Garfagnana' 'Campi Bisenzio' 'Greve in Chianti'
 'Coreglia Antelminelli' 'Pieve Fosciana' 'Impruneta' 'Pelago'
 'Fabbriche di Vergemoli' 'Agliana' 'Montale' 'Pistoia' 'Quarrata'
 'Sambuca Pistoiese' 'Serravalle Pistoiese' 'Buggiano' 'Lamporecchio'
 'Larciano' 'Massa e Cozzile' 'Pontassieve' 'Monsummano Terme'
 'Montecatini Terme' 'Pescia' 'Pieve a Nievole' 'Ponte Buggianese' 'U

Salviamo ora i dati relativi ai comuni in una lista di n-tuple. 
Le n-tuple avranno come prime 2 entry il nome del comune e l'anno. Le restanti entry sono le _interesting feat_ che abbiamo definito sopra. 

In [8]:
test_list = []
for com in list_comuni:
    for year in range(2007,2015):
        test_tuple = (com,year)
        for name in interesting_feat:
            #print name
            df_temp = df_skim[(df_skim["nome_indicatore"] == name) & (df_skim["comuni"]==com)]
            #print df_temp["2007"]
            #print df_temp.shape
            if df_temp.empty == True: 
                continue
            test_tuple = test_tuple + (df_temp.iloc[0][str(year)],)
    
        test_list.append(test_tuple)


Creiamo un nuovo DataFrame _df new_ a partire dalla lista di n-tuple creata sopra.

In [9]:
df_new = pd.DataFrame(test_list,columns=["comune","year"]+interesting_feat)

Controlliamo adesso che tutto sia andato bene. 
Possiamo fare un cross-check per uno dei comuni. Prendiamo i dati dal DataFrame originale e li confrontiamo con il DataFrame appena creato. 
Usiamo il comune di "Pratovecchio Stia" per il confronto. 

In [10]:
df_skim[df_skim.comuni=="Pratovecchio Stia"]

Unnamed: 0,tipo,id_pis_settore,pis_settore,id_ind_pis,codice_pis,nome_indicatore,id_comuni,comuni,asl,prov,2007,2008,2009,2010,2011,2012,2013,2014
62,Set minimo,2,Determinanti di salute,61,SM.determinanti.6,Tasso grezzo di disoccupazione (x100),9051041,Pratovecchio Stia,AUSL 8 - Arezzo,AR,,,,,,,,25.644542
65,Set minimo,2,Determinanti di salute,65,SM.determinanti.8,Tasso grezzo di disoccupazione stranieri (x100),9051041,Pratovecchio Stia,AUSL 8 - Arezzo,AR,,,,,,,,49.562172
75,Set minimo,2,Determinanti di salute,79,SM.determinanti.19,Produzione pro-capite Rifiuti Urbani,9051041,Pratovecchio Stia,AUSL 8 - Arezzo,AR,,,,,,,,524.580377
1426,Set minimo,1,Profilo demografico,26,SM.demo.7,Quoziente di incremento totale (x 1.000),9051041,Pratovecchio Stia,AUSL 8 - Arezzo,AR,,,,,,,,-9.675777
2058,Set minimo,2,Determinanti di salute,35,SM.determinanti.2,Reddito imponibile medio per contribuente,9051041,Pratovecchio Stia,AUSL 8 - Arezzo,AR,,,,,,20662.413962,20892.793628,21158.91546
2551,Set minimo,2,Determinanti di salute,38,SM.determinanti.3,Tasso di pensioni sociali e assegni sociali (x...,9051041,Pratovecchio Stia,AUSL 8 - Arezzo,AR,,,,,,,,2.306733
5862,Set minimo,2,Determinanti di salute,69,SM.determinanti.10,Numero medio componenti per famiglie,9051041,Pratovecchio Stia,AUSL 8 - Arezzo,AR,,,,,,,,2.17253
6420,Set minimo,2,Determinanti di salute,81,SM.determinanti.20,% di Raccolta Differenziata,9051041,Pratovecchio Stia,AUSL 8 - Arezzo,AR,,,,,,,,22.694312
6703,Set minimo,2,Determinanti di salute,483,SM.determinanti.2b,Reddito imponibile medio per residente,9051041,Pratovecchio Stia,AUSL 8 - Arezzo,AR,,,,,,,,12150.842132
7258,Set minimo,7,Ass. sociosanitaria: famiglie e minori,167,SM.famiglie.1,Percentuale nati di cittadinanza non italiana,9051041,Pratovecchio Stia,AUSL 8 - Arezzo,AR,,,,,,,,22.222222


In [11]:
df_new[df_new.comune=="Pratovecchio Stia"]

Unnamed: 0,comune,year,Produzione pro-capite Rifiuti Urbani,Reddito imponibile medio per contribuente,Numero medio componenti per famiglie,% di Raccolta Differenziata,Reddito imponibile medio per residente,Rapporto tra avviamenti/cessazioni (x 100),Rapporto tra avviamenti/cessazioni di stranieri (x 100),Tasso grezzo di disoccupazione (x100),Tasso grezzo di disoccupazione stranieri (x100),Quoziente di incremento totale (x 1.000),Percentuale nati di cittadinanza non italiana,Tasso di pensioni sociali e assegni sociali (x 100),Percentuale studenti con esito negativo - secondaria II grado,Superamento dei limiti normativi dovuti a Srb: numero superamenti limite di esposizione e limite di attenzione,Superamento dei limiti normativi dovuti a impianti Rtv: numero superamenti limite di esposizione e limite di attenzione,Percentuale di avviamenti a termine,Percentuale studenti con esito negativo - secondaria I grado,Numero interventi di controllo per abitante
272,Pratovecchio Stia,2007,,,,,,,,,,,,,,,,,,
273,Pratovecchio Stia,2008,,,,,,,,,,,,,,,,,,
274,Pratovecchio Stia,2009,,,,,,,,,,,,,,,,,,
275,Pratovecchio Stia,2010,,,,,,,,,,,,,,,,,,
276,Pratovecchio Stia,2011,,,,,,,,,,,,,,,,,,
277,Pratovecchio Stia,2012,,20662.413962,,,,,,,,,,,,,,,,
278,Pratovecchio Stia,2013,,20892.793628,,,,,,,,,,,,,,,,
279,Pratovecchio Stia,2014,524.580377,21158.91546,2.17253,22.694312,12150.842132,72.84925,100.854701,25.644542,49.562172,-9.675777,22.222222,2.306733,82.448537,,,,,


Campionando alcune celle dal primo DataFrame e conforntandole con il secondo sembra che i valori corrispondano. 
Check passato. 

Salviamo ora il nuovo DataFrame in un file _csv_ per la futura analisi. 

In [12]:
df_new.to_csv("../../datasets/salute/osservatori_comuni_cleaned.csv")