# Exploratory Data Analysis (EDA)

In [1]:
# Importação de bibliotecas essenciais
import pandas as pd  # Manipulação de dados em DataFrames

# Bibliotecas de visualização de dados
import plotly.graph_objects as go  # Visualizações interativas avançadas
import plotly.subplots as sp  # Criação de subplots interativos

# Configuração para exibir todas as colunas
pd.set_option('display.max_columns', None)

## Importazione dei dati:

In [2]:
lista_nomi = ["inf_comunali.csv", "inf_cronologia_edifici.csv", "inf_età.csv", "inf_famiglie.csv",  
                "inf_interni.csv", "inf_numero_di_piani.csv", "inf_parrocchie.csv", "inf_provinciali.csv",  
                "inf_redditi_01.csv", "inf_redditi_02.csv", "inf_redditi_03.csv", "inf_regioni.csv",  
                "inf_scolarizzazione.csv", "inf_scuole.csv", "inf_settori.csv", "inf_stranieri.csv",  
                "informazioni_geografiche.csv", "Errori.csv"]

dfs = {}

for df in lista_nomi:
    dfs[str(df).replace("inf_", "").replace(".csv", "")] = pd.read_csv(df)

def boxplot_indipendenti(df, colonne_numeriche):
    # Creazione di una figura con sottografi
    fig = sp.make_subplots(rows=1, cols=len(colonne_numeriche), subplot_titles=colonne_numeriche)

    for i, col in enumerate(colonne_numeriche):
        # Aggiunge un boxplot per ogni colonna
        fig.add_trace(
            go.Box(y=df[col], name=col),
            row=1,
            col=i + 1
        )

    # Layout generale del grafico
    fig.update_layout(
        title="Boxplot delle Variabili Numeriche",
        showlegend=False,  # Disattiva la legenda (opzionale)
        paper_bgcolor='white',  # Sfondo bianco
        plot_bgcolor='white',   # Sfondo del grafico
        height=500,
        width=300 * len(colonne_numeriche),  # Larghezza adattata in base al numero di grafici
    )

    # Mostra il grafico
    fig.show()

def Dataframe(df):
    # df = df[df['Comune'] == 'Roma']  # Filtra per 'Comune' == 'Roma'
    print(df.shape)
    display(df.head())  

    print(df.info())

    print(df['Comune'].value_counts().head())  

    numeriche = list(df.select_dtypes('number').columns)
    if len(numeriche) > 0:
        boxplot_indipendenti(df, numeriche)
    
    display(df.select_dtypes('object').describe().transpose())
    display(df.describe().transpose())
    

    
    print('Fine\n')

  dfs[str(df).replace("inf_", "").replace(".csv", "")] = pd.read_csv(df)


## Cronologia edifici

In [3]:
dfs['cronologia_edifici']

Unnamed: 0,Prima del 1919,1919-45,1946-60,1961-70,1971-80,1981-90,1991-2000,2001-05,Dopo il 2005,Comune
0,731,580,561,537,342,259,94,45,35,Agrigento
1,1073,1050,990,956,471,271,254,117,59,Alessandria
2,795,1080,1301,1259,1073,584,230,238,61,Ancona
3,478,265,481,490,259,255,165,76,46,Aosta
4,946,818,1168,1514,1532,1523,1069,756,615,Arezzo
...,...,...,...,...,...,...,...,...,...,...
7290,25,18,5,12,53,14,2,5,6,Castelnovo del Friuli
7291,36,3,5,8,14,4,3,2,0,Saint-Nicolas
7292,0,3,3,11,15,11,5,2,3,Saint-Denis
7293,0,31,84,85,112,74,22,20,1,Mignano Monte Lungo


## Età

In [4]:
dfs['età']

Unnamed: 0,0-4_Maschi,0-4_Femmine,0-4_Totale,5-9_Maschi,5-9_Femmine,5-9_Totale,10-14_Maschi,10-14_Femmine,10-14_Totale,15-19_Maschi,15-19_Femmine,15-19_Totale,20-24_Maschi,20-24_Femmine,20-24_Totale,25-29_Maschi,25-29_Femmine,25-29_Totale,30-34_Maschi,30-34_Femmine,30-34_Totale,35-39_Maschi,35-39_Femmine,35-39_Totale,40-44_Maschi,40-44_Femmine,40-44_Totale,45-49_Maschi,45-49_Femmine,45-49_Totale,50-54_Maschi,50-54_Femmine,50-54_Totale,55-59_Maschi,55-59_Femmine,55-59_Totale,60-64_Maschi,60-64_Femmine,60-64_Totale,65-69_Maschi,65-69_Femmine,65-69_Totale,70-74_Maschi,70-74_Femmine,70-74_Totale,>74_Maschi,>74_Femmine,>74_Totale,Comune
0,672,634,1306,662,642,1304,870,750,1620,972,961,1933,1152,989,2141,1010,942,1952,971,976,1947,1062,1078,2140,1055,1269,2324,1184,1375,2559,1149,1240,2389,1032,1108,2140,991,1147,2138,722,819,1541,705,947,1652,1273,2155,3428,Agrigento
1,1378,1319,2697,1258,1210,2468,1277,1142,2419,1346,1248,2594,1317,1381,2698,1518,1606,3124,1757,1937,3694,2269,2391,4660,2492,2595,5087,2503,2625,5128,2226,2433,4659,1966,2227,4193,1967,2352,4319,1783,2110,3893,1698,2331,4029,3055,5461,8516,Alessandria
2,1996,1875,3871,1947,1801,3748,1947,1851,3798,1997,1866,3863,2111,1959,4070,2284,2351,4635,2759,2627,5386,3177,3325,6502,3355,3572,6927,3317,3510,6827,2907,3262,6169,2762,3182,5944,2680,3021,5701,2323,2842,5165,2243,2984,5227,4473,7688,12161,Ancona
3,688,695,1383,664,652,1316,657,639,1296,687,635,1322,755,721,1476,764,833,1597,869,870,1739,1066,1102,2168,1195,1338,2533,1206,1301,2507,1077,1218,2295,979,1118,2097,1052,1190,2242,909,1045,1954,860,1193,2053,1512,2805,4317,Aosta
4,1713,1571,3284,1635,1548,3183,1609,1531,3140,1648,1545,3193,1900,1820,3720,2105,2115,4220,2366,2409,4775,2779,2865,5644,2848,3095,5943,2994,3056,6050,2481,2776,5257,2168,2554,4722,2381,2700,5081,1966,2342,4308,1994,2485,4479,3562,5785,9347,Arezzo
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7290,7,8,15,4,7,11,5,2,7,9,6,15,5,8,13,1,4,5,11,8,19,7,5,12,7,7,14,9,4,13,5,8,13,10,11,21,13,8,21,5,5,10,4,3,7,9,21,30,Castelnovo del Friuli
7291,1,3,4,2,2,4,0,1,1,2,2,4,1,4,5,2,3,5,1,3,4,3,3,6,2,2,4,5,6,11,6,5,11,2,2,4,5,2,7,1,2,3,6,2,8,3,10,13,Saint-Nicolas
7292,3,1,4,3,5,8,2,1,3,1,2,3,4,4,8,2,2,4,4,4,8,3,3,6,5,5,10,3,4,7,3,2,5,3,2,5,3,2,5,3,1,4,3,2,5,3,6,9,Saint-Denis
7293,45,42,87,46,37,83,63,48,111,60,48,108,50,66,116,70,68,138,62,52,114,70,74,144,72,69,141,65,83,148,64,61,125,50,59,109,57,68,125,49,39,88,24,45,69,65,99,164,Mignano Monte Lungo


## Famiglie

In [5]:
df_famiglie = dfs['famiglie'].copy()

# Rinominiamo la colonna '6 o più' per poterla convertire in un numero
df_famiglie = df_famiglie.rename(columns={'6 o più': '6'})

# Selezioniamo solo le colonne numeriche (da 1 a 6)
colonne_famiglie = ['1', '2', '3', '4', '5', '6']

# Convertiamo i nomi delle colonne in interi
pesi = list(map(int, colonne_famiglie))

# Calcoliamo la media ponderata dei membri per famiglia
df_famiglie["Media membri"] = round((df_famiglie[colonne_famiglie] * pesi).sum(axis=1) / df_famiglie[colonne_famiglie].sum(axis=1), 2)

# Spostiamo la colonna 'Comune' alla fine
colonne_riordinate = [col for col in df_famiglie.columns if col != 'Comune'] + ['Comune']
df_famiglie = df_famiglie[colonne_riordinate]

# Salva
dfs['famiglie'] = df_famiglie

# Mostriamo il risultato per Solarolo
df_famiglie[df_famiglie['Comune'] == 'Solarolo']

Unnamed: 0,1,2,3,4,5,6,Media membri,Comune
1883,391,390,244,156,50,32,2.35,Solarolo


## Interni

In [6]:
dfs['interni']

Unnamed: 0,Uno,Due,Da tre a quattro,Da cinque a otto,Da nove a quindici,Sedici e oltre,Comune
0,883,628,613,435,368,257,Agrigento
1,1905,833,574,695,598,636,Alessandria
2,1149,819,1171,1552,1240,690,Ancona
3,543,422,497,420,315,318,Aosta
4,3739,2472,1746,1068,571,345,Arezzo
...,...,...,...,...,...,...,...
7290,115,16,8,1,0,0,Castelnovo del Friuli
7291,21,19,20,11,4,0,Saint-Nicolas
7292,29,17,5,2,0,0,Saint-Denis
7293,209,51,101,59,7,2,Mignano Monte Lungo


## Numero di piani

In [7]:
dfs['numero_di_piani']

Unnamed: 0,Uno,Due,Tre,Quattro o più,Comune
0,224,1055,761,1144,Agrigento
1,288,1807,1410,1736,Alessandria
2,341,1900,1584,2796,Ancona
3,122,617,749,1027,Aosta
4,343,3929,3640,2029,Arezzo
...,...,...,...,...,...
7290,11,96,32,1,Castelnovo del Friuli
7291,4,47,21,3,Saint-Nicolas
7292,3,2,28,20,Saint-Denis
7293,44,226,138,21,Mignano Monte Lungo


## Parrocchie

In [8]:
parrocchie = dfs['parrocchie']
parrocchie = parrocchie[['Chiesa', 'Comune', 'Indirizzo', 'Parrrocchiani', 'Diocesi']]

parrocchie.dropna(inplace=True)
parrocchie.fillna("Sconosciuto", inplace=True)
dfs['parrocchie'] = parrocchie

parrocchie.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  parrocchie.dropna(inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  parrocchie.fillna("Sconosciuto", inplace=True)


Unnamed: 0,Chiesa,Comune,Indirizzo,Parrrocchiani,Diocesi
0,Beata Maria Vergine Annunziata,Agrigento,Contrada Maddalusa,100.0,Arcidiocesi di Agrigento
1,Beata Maria Vergine Assunta,Agrigento,Via Empedocle,500.0,Arcidiocesi di Agrigento
2,Beata Maria Vergine del Carmelo,Agrigento,"Via Dante, 139",1.08,Arcidiocesi di Agrigento
3,Beata Maria Vergine della Divina Provvidenza,Agrigento,"Via Manzoni, 162",4.25,Arcidiocesi di Agrigento
4,Beata Maria Vergine di Fatima,Agrigento,Via Callicratide,2.25,Arcidiocesi di Agrigento


## Parrocchiani

In [9]:
comuni = dfs['comunali']

In [10]:
def parrrocchiani(comune):
    parrrocchiani = dfs['parrocchie']
    return parrocchie[parrocchie['Comune'] == comune]['Parrrocchiani'].sum()

comuni['Parrrocchiani'] = comuni['Comune'].apply(parrrocchiani)
dfs['comunali'] = comuni

In [11]:
colonne_organizzate = [
    # Dati Geografici
    'Municipio', 'Provincia', 'Distanza dal capoluogo', 
    'Comune', 'Regione', 'Zona', 'sigla_provincia',
    
    # Dati Demografici
    'Abitanti', 'Età (Media)', 'Parrocchie', 
    'Parrrocchiani', 'Totale di stranieri',
    
    # Dati Educativi
    'Scuole', 'Diplomati', 'Laureati', 
    'Licenza Elementare Totale', 'Liscenziati Midia Totale', 
    'Alfabeti', 'Analfabeti',
    
    # Dati Lavorativi
    'Industria Addetti', 'Servizi Addetti', 
    'Amministrazione Addetti', 'Altro Addetti',
    
    # Dati Economici
    'Media annuale (Redditi)', 'Media Mensile (Redditi)', 
    'Imposta netta annuale', 'Imposta netta mensile'
]

dfs['comunali'] = dfs['comunali'][colonne_organizzate]

In [12]:
comuni.head()

Unnamed: 0,Municipio,Provincia,Distanza dal capoluogo,Abitanti,Denominazione,Densità abitativa,Comune,Regione,Zona,sigla_provincia,Età (Media),Parrocchie,Scuole,Industria Addetti,Servizi Addetti,Amministrazione Addetti,Altro Addetti,Diplomati,Laureati,Liscenziati Midia Totale,Licenza Elementare Totale,Alfabeti,Analfabeti,Media annuale (Redditi),Media Mensile (Redditi),Imposta netta annuale,Imposta netta mensile,Totale di stranieri,Parrrocchiani
0,Piazza Pirandello,Agrigento,0 Km,59.77,Agrigentini o Girgentani,22330,Agrigento,Sicilia,Sud,AG,42.69,31,95,0.16%,0.22%,0.72%,0.39%,10581,4890,7561,5009,2327,593,19431.76,1619.31,4935.33,411.28,1334,4549.771
1,Piazza Liberta 1,Alessandria,0 Km,93.943,Alessandrini,41881,Alessandria,Piemonte,Nord,AL,45.82,33,51,0.92%,0.71%,0.44%,1.26%,19306,7971,18321,11240,3575,577,23940.03,1995.0,5246.8,437.23,7906,3693.875
2,Piazza XXIV Maggio 1,Ancona,0 Km,100.861,Anconitani o Anconetani,81251,Ancona,Marche,Centro,AN,45.08,34,7,0.89%,0.96%,1.41%,2.03%,29093,15122,19995,15452,5424,289,22703.89,1891.99,5594.22,466.18,10521,3904.45
3,Piazza Chanoux 1,Aosta,0 Km,34.39,Aostani,"1.591,68",Aosta,Valle d'Aosta,Sconosciuto,Sconosciuto,45.66,9,8,0.33%,0.23%,0.71%,0.55%,8578,4298,9630,5951,1943,224,26246.8,2187.23,5491.63,457.64,2589,36.45
4,Piazza Liberta` 1,Arezzo,0 Km,99.543,Aretini,23709,Arezzo,Toscana,Centro,AR,44.54,62,92,1.66%,0.89%,0.72%,1.4%,24174,10800,18871,13556,4693,302,20695.85,1724.65,5166.68,430.56,9184,7311.454


## Redditi

In [13]:
redditi = dfs['redditi_01'].copy()

# Função para limpar e converter valores monetários
def clean_currency(value):
    return float(value.replace('€', '').replace('.', '').replace(',', '.'))

# Colunas monetárias a converter
monetary_columns = ['Reddito', 'Media annuale', 'Media mensile', 'Anno precedente', 'Variazione']

# Aplicando a conversão de forma otimizada
for col in monetary_columns:
    redditi[col] = redditi[col].astype(str).apply(clean_currency)

# Remover separador de milhares e converter para inteiro
redditi['Contribuenti'] = redditi['Contribuenti'].astype(str).str.replace('.', '', regex=False).astype(int)

# Atualizar o dataframe original
dfs['redditi_01'] = redditi
redditi.head()

Unnamed: 0,Categoria,Contribuenti,Reddito,Media annuale,Media mensile,Anno precedente,Variazione,Comune
0,Reddito da fabbricati,17423,24198792.0,1388.9,115.74,120.19,-4.45,Agrigento
1,Reddito da lavoro dipendente,17462,327038703.0,18728.59,1560.72,1613.62,-52.9,Agrigento
2,Reddito da pensione,12567,231607243.0,18429.8,1535.82,1529.5,6.31,Agrigento
3,Reddito da lavoro autonomo,9080,26978671.0,29712.19,2476.02,2230.06,245.96,Agrigento
4,Imprenditori in cont. ordin.,1250,4597565.0,36780.52,3065.04,2830.71,234.33,Agrigento


In [14]:
redditi = dfs['redditi_02'].copy()

# Função para limpar e converter valores monetários
def clean_currency(value):
    return float(value.replace('€', '').replace('.', '').replace(',', '.'))

# Colunas monetárias a converter
monetary_columns = ['Reddito', 'Media annuale', 'Media mensile', 'Anno precedente', 'Variazione']

# Aplicando a conversão de forma otimizada
for col in monetary_columns:
    redditi[col] = redditi[col].astype(str).apply(clean_currency)

# Remover separador de milhares e converter para inteiro
redditi['Contribuenti'] = redditi['Contribuenti'].astype(str).str.replace('.', '', regex=False).astype(int)

# Atualizar o dataframe original
dfs['redditi_02'] = redditi
redditi.head()

Unnamed: 0,Categoria,Contribuenti,Reddito,Media annuale,Media mensile,Anno precedente,Variazione,Comune
0,Reddito imponibile,3403,641881594.0,18862.23,1571.85,1582.52,-10.67,Agrigento
1,Reddito imp. addizionale,23876,589590470.0,24693.85,2057.82,2048.56,9.26,Agrigento
2,Imposta netta,24897,122874972.0,4935.33,411.28,408.15,3.13,Agrigento
3,Addizionale comunale,21838,4617101.0,211.43,17.62,17.52,0.1,Agrigento
4,Addizionale regionale,23339,10128255.0,433.96,36.16,35.32,0.84,Agrigento


In [15]:
redditi = dfs['redditi_03'].copy()

# Função para limpar e converter valores monetários
def clean_currency(value):
    return float(value.replace('€', '').replace('.', '').replace(',', '.'))

# Colunas monetárias a converter
monetary_columns = ['Reddito', 'Media annuale', 'Media mensile', 'Anno precedente', 'Variazione']

# Aplicando a conversão de forma otimizada
for col in monetary_columns:
    redditi[col] = redditi[col].astype(str).apply(clean_currency)

# Remover separador de milhares e converter para inteiro
redditi['Contribuenti'] = redditi['Contribuenti'].astype(str).str.replace('.', '', regex=False).astype(int)

# Atualizar o dataframe original
dfs['redditi_03'] = redditi
redditi.head()

Unnamed: 0,Categoria,Contribuenti,Reddito,Media annuale,Media mensile,Anno precedente,Variazione,Comune
0,Reddito complessivo minore di zero euro,1390,-1804363.0,-12981.03,-1081.75,-909.77,-171.98,Agrigento
1,Reddito complessivo da 0 a 10.000 euro,12532,53363603.0,4258.19,354.85,367.57,-12.72,Agrigento
2,Reddito complessivo da 10.000 a 15.000 euro,4474,55313455.0,12363.31,1030.28,1027.46,2.82,Agrigento
3,Reddito complessivo da 15.000 a 26.000,8732,178554803.0,20448.33,1704.03,1701.36,2.67,Agrigento
4,Reddito complessivo da 26.000 a 55.000 euro,7646,262656590.0,34352.16,2862.68,2855.15,7.53,Agrigento


## Scolarizzazione

In [16]:
dfs['scolarizzazione']

Unnamed: 0,Laurea_Maschi,Laurea_Femmine,Laurea_Totale,Diploma_Maschi,Diploma_Femmine,Diploma_Totale,Licenza Media_Maschi,Licenza Media_Femmine,Licenza Media_Totale,Licenza Elementare_Maschi,Licenza Elementare_Femmine,Licenza Elementare_Totale,Alfabeti_Maschi,Alfabeti_Femmine,Alfabeti_Totale,Analfabeti_Maschi,Analfabeti_Femmine,Analfabeti_Totale,Comune
0,2280,2610,4890,5149,5432,10581,3962,3599,7561,2052,2957,5009,970,1357,2327,268,325,593,Agrigento
1,3622,4349,7971,9276,10030,19306,9173,9148,18321,4368,6872,11240,1537,2038,3575,196,381,577,Alessandria
2,6897,8225,15122,14348,14745,29093,10442,9553,19995,5911,9541,15452,2182,3242,5424,102,187,289,Ancona
3,1970,2328,4298,4159,4419,8578,4737,4893,9630,2324,3627,5951,837,1106,1943,64,160,224,Aosta
4,4673,6127,10800,11923,12251,24174,10281,8590,18871,5297,8259,13556,1832,2861,4693,88,214,302,Arezzo
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7290,7,4,11,25,30,55,37,36,73,28,29,57,3,5,8,2,1,3,Castelnovo del Friuli
7291,4,6,10,13,15,28,11,11,22,11,14,25,1,3,4,0,0,0,Saint-Nicolas
7292,6,4,10,19,17,36,8,11,19,7,7,14,4,6,10,1,0,1,Saint-Denis
7293,33,78,111,270,259,529,331,263,594,151,199,350,60,82,142,15,24,39,Mignano Monte Lungo


## Scuole

In [17]:
scuole = dfs['scuole'].iloc[42:]
scuole = scuole[['Nome', 'Tipo', 'Comune', 'Indirizzo', 'Email e Pec', 'Telefono e fax', 'CAP']]

print((scuole.isna().sum() / len(scuole)) * 100)
scuole.dropna(subset=["Nome", "Tipo", "Comune"], inplace=True)

scuole.fillna("Sconosciuto", inplace=True)
dfs['scuole'] = scuole

print((scuole.isna().sum() / len(scuole)) * 100)
scuole.head()

Nome               9.318929
Tipo               9.248396
Comune             9.248396
Indirizzo         11.588020
Email e Pec       10.853447
Telefono e fax    13.435635
CAP                9.248396
dtype: float64
Nome              0.0
Tipo              0.0
Comune            0.0
Indirizzo         0.0
Email e Pec       0.0
Telefono e fax    0.0
CAP               0.0
dtype: float64


Unnamed: 0,Nome,Tipo,Comune,Indirizzo,Email e Pec,Telefono e fax,CAP
43,3 Circolo Esseneto,Scuola dell'Infanzia,Agrigento,Via Esseneto,agee00300d@istruzione.it,92222864092221871,92100.0
44,Agazzi,Scuola dell'Infanzia,Agrigento,Viale Kennedy,agic82400c@istruzione.it,922598448,92100.0
45,Assoc. Cultura e Societa Sc. Infanzia Collever...,Scuola dell'Infanzia,Agrigento,"Viale L. Sciascia, 19E",scuola.colleverde@virgilio.it,9224165800922462048,92100.0
46,Assoc. Cultura e Societasc. Infanzia Montessor...,Scuola dell'Infanzia,Agrigento,"Via Mazzini, 109",sc-materna-pinocchio@virgilio.it,9224620480922081117,92100.0
47,Assoc. senza S.l.. - Peter Pan,Scuola dell'Infanzia,Agrigento,"Via Mazzini, 159",maternapeterpan@alice.it,9226041300922604130,92100.0


## Settori

In [18]:
settori = dfs['settori'].drop(columns=['Addetti'])
dfs['settori'] = settori
settori.head()

Unnamed: 0,Settore,Numero_Aziende,Percentuale_Totale,Comune
0,Industrie,554,0.1617,Agrigento
1,Servizi,1147,0.2195,Agrigento
2,Amministrazione,309,0.7235,Agrigento
3,Altro,1171,0.3878,Agrigento
4,Industrie,1849,0.923,Alessandria


## Stranieri

In [19]:
dfs['stranieri']

Unnamed: 0,Maschi_Da 0 a 29 anni,Maschi_Da 30 a 54 anni,Maschi_Più di 54 anni,Femmine_Da 0 a 29 anni,Femmine_Da 30 a 54 anni,Femmine_Più di 54 anni,Totale_Da 0 a 29 anni,Totale_Da 30 a 54 anni,Totale_Più di 54 anni,Comune
0,292,336,77,255,315,59,547,651,136,Agrigento
1,1880,1617,236,1927,1905,341,3807,3522,577,Alessandria
2,2353,2271,276,2393,2652,576,4746,4923,852,Ancona
3,518,483,76,601,751,160,1119,1234,236,Aosta
4,2096,2021,196,2047,2396,428,4143,4417,624,Arezzo
...,...,...,...,...,...,...,...,...,...,...
7290,7,4,3,5,4,5,12,8,8,Castelnovo del Friuli
7291,0,2,1,2,2,0,2,4,1,Saint-Nicolas
7292,0,0,0,1,2,0,1,2,0,Saint-Denis
7293,15,8,2,14,16,0,29,24,2,Mignano Monte Lungo


## Comuni

In [20]:
dfs['comunali']

Unnamed: 0,Municipio,Provincia,Distanza dal capoluogo,Comune,Regione,Zona,sigla_provincia,Abitanti,Età (Media),Parrocchie,Parrrocchiani,Totale di stranieri,Scuole,Diplomati,Laureati,Licenza Elementare Totale,Liscenziati Midia Totale,Alfabeti,Analfabeti,Industria Addetti,Servizi Addetti,Amministrazione Addetti,Altro Addetti,Media annuale (Redditi),Media Mensile (Redditi),Imposta netta annuale,Imposta netta mensile
0,Piazza Pirandello,Agrigento,0 Km,Agrigento,Sicilia,Sud,AG,59.77,42.69,31,4549.771,1334,95,10581,4890,5009,7561,2327,593,0.16%,0.22%,0.72%,0.39%,19431.76,1619.31,4935.33,411.28
1,Piazza Liberta 1,Alessandria,0 Km,Alessandria,Piemonte,Nord,AL,93.943,45.82,33,3693.875,7906,51,19306,7971,11240,18321,3575,577,0.92%,0.71%,0.44%,1.26%,23940.03,1995.00,5246.80,437.23
2,Piazza XXIV Maggio 1,Ancona,0 Km,Ancona,Marche,Centro,AN,100.861,45.08,34,3904.450,10521,7,29093,15122,15452,19995,5424,289,0.89%,0.96%,1.41%,2.03%,22703.89,1891.99,5594.22,466.18
3,Piazza Chanoux 1,Aosta,0 Km,Aosta,Valle d'Aosta,Sconosciuto,Sconosciuto,34.39,45.66,9,36.450,2589,8,8578,4298,5951,9630,1943,224,0.33%,0.23%,0.71%,0.55%,26246.80,2187.23,5491.63,457.64
4,Piazza Liberta` 1,Arezzo,0 Km,Arezzo,Toscana,Centro,AR,99.543,44.54,62,7311.454,9184,92,24174,10800,13556,18871,4693,302,1.66%,0.89%,0.72%,1.4%,20695.85,1724.65,5166.68,430.56
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7289,Via Paludea 63,Pordenone,46 Km,Castelnovo del Friuli,Friuli Venezia Giulia,Sconosciuto,PN,880,43.26,2,954.000,28,7,55,11,57,73,8,3,2.8%,1.7%,3.2%,5.4%,15020.22,1251.68,3281.46,273.45
7290,Fossaz-dessous 1,Aosta,20 Km,Saint-Nicolas,Valle d'Aosta,Sconosciuto,Sconosciuto,311,46.89,1,332.000,7,7,28,10,25,22,4,0,1.0%,0.5%,1.7%,1.5%,10508.58,875.71,4162.26,346.85
7291,Capoluogo 14,Aosta,24 Km,Saint-Denis,Valle d'Aosta,Sconosciuto,Sconosciuto,378,40.83,1,350.000,3,7,36,10,14,19,10,1,1.5%,0.4%,0.7%,2.8%,9979.49,831.62,4055.20,337.93
7292,Piazza Don Pezzoli,Caserta,56 Km,Mignano Monte Lungo,Campania,Sud,CE,3.250,40.65,2,302.740,55,7,529,111,350,594,142,39,37.3%,10.2%,23.8%,20.0%,11926.25,993.85,3082.30,256.86


In [21]:
comunali = dfs['comunali'].assign(
    **{
        'Distanza dal capoluogo': lambda df: df['Distanza dal capoluogo'].apply(lambda v: float(str(v).replace('Km', '').replace(' ', '').replace(',', '.')
                                                                                                .encode('ascii', 'ignore').decode('ascii').strip())),
                                                                                                
        'Industria Addetti': lambda df: df['Industria Addetti'].apply(lambda v: float(str(v).replace('%', '')
                                                                                                .encode('ascii', 'ignore').decode('ascii').strip())),

        'Servizi Addetti': lambda df: df['Servizi Addetti'].apply(lambda v: float(str(v).replace('%', '')
                                                                                                .encode('ascii', 'ignore').decode('ascii').strip())),

        'Amministrazione Addetti': lambda df: df['Amministrazione Addetti'].apply(lambda v: float(str(v).replace('%', '')
                                                                                                .encode('ascii', 'ignore').decode('ascii').strip())),

        'Altro Addetti': lambda df: df['Altro Addetti'].apply(lambda v: float(str(v).replace('%', '')
                                                                                                .encode('ascii', 'ignore').decode('ascii').strip())),

        'Abitanti': lambda df: df['Abitanti'].apply(lambda x: float(str(x).replace('.', '').replace(',', '.')))
    }
)

comunali.rename(columns={'Distanza dal capoluogo': 'Distanza dal capoluogo (Km)', 'Industria Addetti': 'Industria Addetti (%)', 'Servizi Addetti': 'Servizi Addetti (%)',
                         'Amministrazione Addetti': 'Amministrazione Addetti (%)', 'Altro Addetti': 'Altro Addetti (%)',
                         'Media annuale (Redditi)': 'Media annuale (Redditi €)', 'Media Mensile (Redditi)': 'Media Mensile (Redditi €)',
                         'Imposta netta annuale': 'Imposta netta annuale (€)', 'Imposta netta mensile': 'Imposta netta mensile (€)'}, inplace=True)

In [22]:
comunali[comunali['Comune'] == 'Solarolo']

Unnamed: 0,Municipio,Provincia,Distanza dal capoluogo (Km),Comune,Regione,Zona,sigla_provincia,Abitanti,Età (Media),Parrocchie,Parrrocchiani,Totale di stranieri,Scuole,Diplomati,Laureati,Licenza Elementare Totale,Liscenziati Midia Totale,Alfabeti,Analfabeti,Industria Addetti (%),Servizi Addetti (%),Amministrazione Addetti (%),Altro Addetti (%),Media annuale (Redditi €),Media Mensile (Redditi €),Imposta netta annuale (€),Imposta netta mensile (€)
1782,Piazza Gonzaga 1,Ravenna,34.0,Solarolo,Emilia-Romagna,Nord,RA,4488.0,44.5,6,1613.0,405,4,867,226,672,768,300,26,29.7,16.8,11.7,42.4,19946.37,1662.2,4009.64,334.14


In [23]:
dfs['comunali'] = comunali

In [24]:
dfs['comunali'].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7294 entries, 0 to 7293
Data columns (total 27 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Municipio                    7294 non-null   object 
 1   Provincia                    7294 non-null   object 
 2   Distanza dal capoluogo (Km)  7294 non-null   float64
 3   Comune                       7294 non-null   object 
 4   Regione                      7294 non-null   object 
 5   Zona                         7294 non-null   object 
 6   sigla_provincia              7294 non-null   object 
 7   Abitanti                     7294 non-null   float64
 8   Età (Media)                  7294 non-null   float64
 9   Parrocchie                   7294 non-null   int64  
 10  Parrrocchiani                7294 non-null   float64
 11  Totale di stranieri          7294 non-null   int64  
 12  Scuole                       7294 non-null   int64  
 13  Diplomati         

## Salva tutto

In [25]:
for df_name, df in dfs.items():
    df.to_csv(f'data cleaning/inf_{df_name}.csv', index=False)

---

In [26]:
"""for key in dfs:  # Itera solo sui primi due elementi
    print(f'Dataframe {key}')
    df = dfs[key]  # Retrieve the DataFrame

    try:
        Dataframe(df)
    except KeyError:
        print(KeyError)
        continue  # Salta se la colonna non esiste"""

"for key in dfs:  # Itera solo sui primi due elementi\n    print(f'Dataframe {key}')\n    df = dfs[key]  # Retrieve the DataFrame\n\n    try:\n        Dataframe(df)\n    except KeyError:\n        print(KeyError)\n        continue  # Salta se la colonna non esiste"