Questo notebook si concentra sulla preparazione dei dati geografici.

Importazione delle librerie necessarie

In [1]:
# Importa le librerie necessarie
import pandas as pd
import numpy as np

Lettura del file CSV

In [2]:

# Lettura file CSV contenente i dati di altitudine dei comuni
alt = pd.read_excel("../../data/raw/ita/comuni_alt.xlsx")
display(alt)

# Lettura del file CSV contenente le coordinate longitudine e latitudine dei comuni
lonlat = pd.read_excel("../../data/raw/ita/comuni_lon_lat.xlsx")
display(lonlat)

Unnamed: 0,COD_REG,COD_PRO,PRO_COM,NOME,SUPERFICIE (in KMQ),ALT_MIN,ALT_MAX,RANGE,MEDIA,MEDIANA,STD
0,12,58,58120,Fiumicino,213.8944,-3,164,167,31.688450,5,39.686070
1,5,29,29001,Adria,113.3900,-3,8,11,1.057863,1,1.244239
2,5,29,29030,Loreo,39.8442,-3,7,10,0.464185,0,0.770743
3,5,29,29052,Porto Viro,133.7686,-3,6,9,0.555705,1,0.553657
4,8,38,38017,Ostellato,173.3434,-3,8,11,1.784421,1,0.977924
...,...,...,...,...,...,...,...,...,...,...,...
8087,1,1,1263,Sestriere,25.9162,1573,3266,1693,2209.769000,2180,272.600000
8088,2,7,7055,Rhêmes-Notre-Dame,86.8373,1601,3605,2004,2615.500000,2650,417.612000
8089,2,7,7032,Gressoney-La-Trinité,66.5170,1606,4526,2920,2776.956000,2681,631.861900
8090,3,14,14037,Livigno,227.2960,1688,3320,1632,2391.032000,2400,311.499100


Unnamed: 0,istat,comune,lng,lat
0,1001,Agliè,7.768600,45.363433
1,1002,Airasca,7.484431,44.916886
2,1003,Ala di Stura,7.304344,45.315110
3,1004,Albiano d'Ivrea,7.949145,45.433893
4,1005,Alice Superiore,7.777019,45.460094
...,...,...,...,...
7973,111103,Villaputzu,9.574832,39.440086
7974,111104,Villasalto,9.388774,39.493758
7975,111105,Villasimius,9.520365,39.142384
7976,111106,Villasor,8.940650,39.380689


In [3]:
# Rimuove le righe con valori nulli nel dataset delle coordinate
lonlat = lonlat.dropna()

# Rimuove la colonna 'istat' e ordina il dataset per nome del comune
lonlat2 = lonlat.drop("istat", axis=1)
lonlat2.sort_values(by='comune', inplace=True)
display(lonlat2)

# Rimuove le righe con valori nulli nel dataset delle altitudini
alt = alt.dropna()

# Calcola la media tra 'ALT_MIN' e 'ALT_MAX' per ottenere l'altitudine media e la aggiunge come nuova colonna 'alt'
alt['alt'] = alt[['ALT_MIN', 'ALT_MAX']].mean(axis=1)

# Rimuove le colonne non necessarie dal dataset delle altitudini
alt2 = alt.drop(["COD_REG", "COD_PRO", "PRO_COM", "SUPERFICIE (in KMQ)", "ALT_MIN", "ALT_MAX", "RANGE", "MEDIA", "MEDIANA", "STD"], axis=1)
display(alt2)

Unnamed: 0,comune,lng,lat
3390,Abano Terme,11.788713,45.359387
7520,Abbadia Cerreto,9.592525,45.312391
7432,Abbadia Lariana,9.334549,45.900500
4413,Abbadia San Salvatore,11.677506,42.880969
7267,Abbasanta,8.821022,40.123903
...,...,...,...
3675,Zuglio,13.026428,46.460954
7428,Zumaglia,8.088702,45.594785
6413,Zumpano,16.293506,39.310632
5336,Zungoli,15.202556,41.127660


Unnamed: 0,NOME,alt
0,Fiumicino,80.5
1,Adria,2.5
2,Loreo,2.0
3,Porto Viro,1.5
4,Ostellato,2.5
...,...,...
8087,Sestriere,2419.5
8088,Rhêmes-Notre-Dame,2603.0
8089,Gressoney-La-Trinité,3066.0
8090,Livigno,2504.0


In [4]:
# Si effettua il merge dei due dataset per ottenerne uno che contiene ogni comune con rispettive coordinate
# Merge dei dataset delle altitudini e delle coordinate, unendo i dati basandosi sul nome del comune
comuni = pd.merge(alt2, lonlat2, left_on='NOME', right_on='comune')

# Rimuove la colonna duplicata 'comune' e ordina il dataset per nome del comune
comuni = comuni.drop("comune", axis=1)
comuni.sort_values(by='NOME', inplace=True)

# Ordina le colonne in ordine alfabetico
comuni = comuni.sort_index(axis=1)

# Rinomina alcune colonne per maggiore chiarezza
nuovi_nomi = {'NOME': 'comune', 'lng': 'lon'}

comuni = comuni.rename(columns=nuovi_nomi)
display(comuni)

Unnamed: 0,comune,alt,lat,lon
1007,Abano Terme,45.0,45.359387,11.788713
2243,Abbadia Cerreto,64.0,45.312391,9.592525
4697,Abbadia Lariana,909.0,45.900500,9.334549
6087,Abbadia San Salvatore,1021.5,42.880969,11.677506
5714,Abbasanta,377.5,40.123903,8.821022
...,...,...,...,...
6602,Zuglio,1076.5,46.460954,13.026428
6801,Zumaglia,551.5,45.594785,8.088702
4425,Zumpano,343.5,39.310632,16.293506
6922,Zungoli,688.5,41.127660,15.202556


In [5]:
# Lettura dataset comuni e province
com = pd.read_excel("../../data/raw/ita/elenco_comuni.xlsx")
prov = pd.read_excel("../../data/raw/ita/elenco_province.xlsx")

# Eliminazione colonne non necessarie dal dataset dei comuni
comuni2 = com.drop(["codice_istat", "denominazione_ita_altra", "denominazione_altra", "flag_capoluogo", "codice_belfiore", "lat", "lon", "superficie_kmq", "codice_sovracomunale"], axis=1)

# Rimuove le colonne non necessarie dal dataset delle province
prov2 = prov.drop(["codice_regione", "tipologia_provincia", "numero_comuni", "superficie_kmq", "codice_sovracomunale"], axis=1)

# Merge dataset per ottenerne uno con comuni e rispettive province
comuni_prov = pd.merge(comuni2, prov2, on='sigla_provincia')

# Ordina il dataset per nome del comune e rimuove le righe con valori nulli
comuni_prov.sort_values(by='denominazione_ita', inplace=True)
comuni_prov.dropna(inplace=True)

# Rimuove la colonna 'sigla_provincia' e rinomina le colonne per maggiore chiarezza
comuni_prov.drop("sigla_provincia", axis=1, inplace=True)
nuovi_nomi = {'denominazione_ita': 'comune', 'denominazione_provincia': 'provincia'}
comuni_prov = comuni_prov.rename(columns=nuovi_nomi)
display(comuni_prov)

Unnamed: 0,comune,provincia
3334,Abano Terme,Padova
7439,Abbadia Cerreto,Lodi
7355,Abbadia Lariana,Lecco
4341,Abbadia San Salvatore,Siena
7194,Abbasanta,Oristano
...,...,...
3612,Zuglio,Udine
7350,Zumaglia,Biella
6338,Zumpano,Cosenza
5264,Zungoli,Avellino


In [6]:
# Merge finale, il dataset finale ha comune, provincia e dati geografici
finale = pd.merge(comuni, comuni_prov, on='comune')

# Riordina le colonne del dataset finale per avere un layout coerente
finale = finale.reindex(columns=["comune", "provincia", "alt", "lat", "lon"])
display(finale)

Unnamed: 0,comune,provincia,alt,lat,lon
0,Abano Terme,Padova,45.0,45.359387,11.788713
1,Abbadia Cerreto,Lodi,64.0,45.312391,9.592525
2,Abbadia Lariana,Lecco,909.0,45.900500,9.334549
3,Abbadia San Salvatore,Siena,1021.5,42.880969,11.677506
4,Abbasanta,Oristano,377.5,40.123903,8.821022
...,...,...,...,...,...
7694,Zuglio,Udine,1076.5,46.460954,13.026428
7695,Zumaglia,Biella,551.5,45.594785,8.088702
7696,Zumpano,Cosenza,343.5,39.310632,16.293506
7697,Zungoli,Avellino,688.5,41.127660,15.202556


In [7]:
# Salva il dataset finale in un file CSV
finale.to_csv("../../data/raw/ita/comuni_geo.csv", index=False)