Questo notebook si concentra sulla creazione di un dataset finale combinando dati geografici, superfici, produzioni, precipitazioni e temperature.

Importazione delle librerie necessarie

In [1]:
import pandas as pd
import numpy as np

Lettura dei file CSV

In [2]:
# Lettura dataset comuni italiani e dati delle coltivazioni di frumento 
frumento = pd.read_csv("../../data/raw/ita/dataset_frumento_prov_ita.csv")
comuni = pd.read_csv("../../data/raw/ita/comuni_geo.csv")

# Conversione del nome della provincia in minuscolo per facilitare il merge
comuni['provincia'] = comuni['provincia'].str.lower()

# Visualizzazione dei dataset letti
display(frumento)
display(comuni)

Unnamed: 0,zona,2006 - superficie totale - ettari,2006 - produzione totale - quintali,2007 - superficie totale - ettari,2007 - produzione totale - quintali,2008 - superficie totale - ettari,2008 - produzione totale - quintali,2009 - superficie totale - ettari,2009 - produzione totale - quintali,2010 - superficie totale - ettari,...,2019 - superficie totale - ettari,2019 - produzione totale - quintali,2020 - superficie totale - ettari,2020 - produzione totale - quintali,2021 - superficie totale - ettari,2021 - produzione totale - quintali,2022 - superficie totale - ettari,2022 - produzione totale - quintali,2023 - superficie totale - ettari,2023 - produzione totale - quintali
0,torino,17100,1197000,21502,1333100,23400,1216800,23167,1149083,20904,...,14928,821054,15362,844910,16831,925705,16375,886960,20114,1045930
1,vercelli,1065,53456,1900,96877,1423,72716,1587,80778,1631,...,1360,81590,1285,64250,1491,74550,1510,72430,2210,132600
2,novara,1658,87500,2820,147183,3500,143500,2510,115460,1297,...,1599,91140,1211,60550,1519,75950,1750,96305,2876,178310
3,cuneo,21000,1050000,22670,1128947,28000,1232000,22059,791918,17708,...,13500,837000,13253,821686,16350,1043600,16085,852000,19610,1077250
4,asti,10200,581400,8719,412431,10500,315000,7947,238410,9987,...,7120,284780,6628,298260,8319,540735,8352,501120,9322,419490
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
96,olbia-tempio,..,..,..,..,132,2376,..,..,..,...,..,..,..,..,..,..,..,..,..,..
97,ogliastra,..,..,..,..,152,2736,..,..,..,...,..,..,..,..,..,..,..,..,..,..
98,medio campidano,..,..,..,..,40,720,..,..,..,...,..,..,..,..,..,..,..,..,..,..
99,carbonia-iglesias,..,..,..,..,88,1584,..,..,..,...,..,..,..,..,..,..,..,..,..,..


Unnamed: 0,comune,provincia,alt,lat,lon
0,Abano Terme,padova,45.0,45.359387,11.788713
1,Abbadia Cerreto,lodi,64.0,45.312391,9.592525
2,Abbadia Lariana,lecco,909.0,45.900500,9.334549
3,Abbadia San Salvatore,siena,1021.5,42.880969,11.677506
4,Abbasanta,oristano,377.5,40.123903,8.821022
...,...,...,...,...,...
7694,Zuglio,udine,1076.5,46.460954,13.026428
7695,Zumaglia,biella,551.5,45.594785,8.088702
7696,Zumpano,cosenza,343.5,39.310632,16.293506
7697,Zungoli,avellino,688.5,41.127660,15.202556


In [3]:
# Merge in base alla provincia
# Combina i dati dei comuni con quelli della coltivazione di frumento sulla base della provincia
merge = pd.merge(comuni, frumento, left_on='provincia', right_on='zona')

# Si rimuovono colonne per le quali non ci sono dati
# Rimuove le colonne non necessarie o con troppi valori mancanti
merge = merge.drop(['zona', '2022 - superficie totale - ettari', '2022 - produzione totale - quintali',	'2023 - superficie totale - ettari', '2023 - produzione totale - quintali'], axis = 1)

# Si uniscono anche i dati relativi alle precipitazioni e temperature
# Lettura dei dataset relativi alle precipitazioni e alle temperature
prec = pd.read_csv('../../data/raw/ita/precipitazioni2006-2021.csv')
temp = pd.read_csv('../../data/raw/ita/temperature2006-2021.csv')

# Merge finale
# Combina i dati delle precipitazioni e delle temperature con il dataset principale
merge = merge.merge(prec, on='provincia').merge(temp, on='provincia')

# I NaN sono indicati con .. e ...., li sostituisco con np.nan per comodità
# Sostituisce i valori mancanti indicati con ".." o "...." con np.nan per una gestione più semplice dei NaN
merge.replace(['..', '....'], np.nan, inplace=True)
display(merge)

Unnamed: 0,comune,provincia,alt,lat,lon,2006 - superficie totale - ettari,2006 - produzione totale - quintali,2007 - superficie totale - ettari,2007 - produzione totale - quintali,2008 - superficie totale - ettari,...,2012 - temp cel,2013 - temp cel,2014 - temp cel,2015 - temp cel,2016 - temp cel,2017 - temp cel,2018 - temp cel,2019 - temp cel,2020 - temp cel,2021 - temp cel
0,Abano Terme,padova,45.0,45.359387,11.788713,11453,803222,11680,733244,23931,...,15.11,14.7,15.34,15.16,14.8,14.84,15.53,15.02,14.81,14.23
1,Abbadia Cerreto,lodi,64.0,45.312391,9.592525,2780,194600,3945,276150,4649,...,13.29,12.93,14.02,13.87,13.48,13.64,14.2,13.67,14.4,14.33
2,Abbadia Lariana,lecco,909.0,45.900500,9.334549,270,13500,440,26400,500,...,15.22,14.66,15.21,15.56,14.91,15.22,15.5,15.4,15.35,14.78
3,Abbadia San Salvatore,siena,1021.5,42.880969,11.677506,11500,368000,4454,187068,6220,...,,,,,,,15.71,15.76,15.7,15.32
4,Abbasanta,oristano,377.5,40.123903,8.821022,,,,,2,...,17.54,17.42,18.03,17.83,17.85,17.67,18.16,17.55,17.91,18.12
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6665,Zuglio,udine,1076.5,46.460954,13.026428,3450,144900,5500,275000,10685,...,14.56,14.18,15.38,15.16,14.72,14.58,15.52,15.38,15.15,14.4
6666,Zumaglia,biella,551.5,45.594785,8.088702,308,13415,430,20113,360,...,14.48,13.91,14.73,15.12,14.44,14.75,14.75,14.62,14.49,14.07
6667,Zumpano,cosenza,343.5,39.310632,16.293506,11236,298976,11614,280140,10722,...,16.41,16.06,16.19,16.3,16.21,16.12,16.51,16.28,16.3,16.36
6668,Zungoli,avellino,688.5,41.127660,15.202556,6300,223290,4850,156995,4402,...,15.42,15.44,15.89,15.72,15.52,15.29,15.94,15.74,15.7,15.62


In [4]:
# Calcolo delle statistiche sui valori NaN (decommentare per eseguire)
# Calcola e stampa la percentuale di valori mancanti per ogni colonna
# totale = 0
# for colonna in merge.columns:
#     numero_valori_nulli = merge[colonna].isna().sum()
#     totale += numero_valori_nulli
#     numero_totale_valori = len(merge[colonna])
#     percentuale_valori_nulli = (numero_valori_nulli / numero_totale_valori) * 100

#     print(f"{colonna} --> {percentuale_valori_nulli:.2f}%")
    
# print("Numero totale di Nan: " + str(totale))
# print("Percentuale totale Nan: " + str(totale/merge.size*100))

In [5]:
# # Decommenta per calcolo delle statistiche, quanti valori NaN per ogni riga
# totale = 0
# righe_con_null = 0
# for indice_riga, riga in merge.iterrows():
#     numero_valori_nulli = riga.isna().sum()
#     if numero_valori_nulli > 0:
#         righe_con_null += 1
#     totale += numero_valori_nulli
#     numero_totale_valori = len(riga)
#     percentuale_valori_nulli = (numero_valori_nulli / numero_totale_valori) * 100

#     print(f"{percentuale_valori_nulli:.2f}%")

# print("Numero totale di Nan: " + str(totale))
# print("Percentuale totale Nan: " + str(totale/merge.size*100))
# print("Righe con valori Nan: " + str(righe_con_null))

In [6]:
# Converto i dati numerici del dataframe in interi
# Converte i dati numerici delle colonne in interi, forzando il tipo numerico e gestendo gli errori con coerce
merge.iloc[:, 5:] = merge.iloc[:, 5:].apply(pd.to_numeric, errors='coerce')

# Sostituisco i NaN con la mediana della rispettiva colonna
merge.iloc[:, 5:] = merge.iloc[:, 5:].fillna(merge.iloc[:, 5:].median())

display(merge)

  merge.iloc[:, 5:] = merge.iloc[:, 5:].fillna(merge.iloc[:, 5:].median())


Unnamed: 0,comune,provincia,alt,lat,lon,2006 - superficie totale - ettari,2006 - produzione totale - quintali,2007 - superficie totale - ettari,2007 - produzione totale - quintali,2008 - superficie totale - ettari,...,2012 - temp cel,2013 - temp cel,2014 - temp cel,2015 - temp cel,2016 - temp cel,2017 - temp cel,2018 - temp cel,2019 - temp cel,2020 - temp cel,2021 - temp cel
0,Abano Terme,padova,45.0,45.359387,11.788713,11453.0,803222.0,11680.0,733244.0,23931.0,...,15.11,14.7,15.34,15.16,14.8,14.84,15.53,15.02,14.81,14.23
1,Abbadia Cerreto,lodi,64.0,45.312391,9.592525,2780.0,194600.0,3945.0,276150.0,4649.0,...,13.29,12.93,14.02,13.87,13.48,13.64,14.2,13.67,14.4,14.33
2,Abbadia Lariana,lecco,909.0,45.900500,9.334549,270.0,13500.0,440.0,26400.0,500.0,...,15.22,14.66,15.21,15.56,14.91,15.22,15.5,15.4,15.35,14.78
3,Abbadia San Salvatore,siena,1021.5,42.880969,11.677506,11500.0,368000.0,4454.0,187068.0,6220.0,...,15.11,14.54,15.38,15.16,14.935,15.27,15.71,15.76,15.7,15.32
4,Abbasanta,oristano,377.5,40.123903,8.821022,3600.0,194600.0,4534.0,230000.0,2.0,...,17.54,17.42,18.03,17.83,17.85,17.67,18.16,17.55,17.91,18.12
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6665,Zuglio,udine,1076.5,46.460954,13.026428,3450.0,144900.0,5500.0,275000.0,10685.0,...,14.56,14.18,15.38,15.16,14.72,14.58,15.52,15.38,15.15,14.4
6666,Zumaglia,biella,551.5,45.594785,8.088702,308.0,13415.0,430.0,20113.0,360.0,...,14.48,13.91,14.73,15.12,14.44,14.75,14.75,14.62,14.49,14.07
6667,Zumpano,cosenza,343.5,39.310632,16.293506,11236.0,298976.0,11614.0,280140.0,10722.0,...,16.41,16.06,16.19,16.3,16.21,16.12,16.51,16.28,16.3,16.36
6668,Zungoli,avellino,688.5,41.127660,15.202556,6300.0,223290.0,4850.0,156995.0,4402.0,...,15.42,15.44,15.89,15.72,15.52,15.29,15.94,15.74,15.7,15.62


#### Operazioni finali sul dataset
Si effettuano ulteriori operazioni sul dataset per ottenerne due versioni finali:
* La prima, `dataset_final.csv` \
Si modifica il dataset per avere su un'unica riga: dati del comune, dati geografici, anno di riferimento, dati coltivazioni, dati meteorologici. \
Features: comune, provincia, alt, lat, lon, anno, superficie totale - ettari, produzione totale - quintali, prec mm, temp cel
* La seconda, `features.csv` \
A partire dal dataframe che origina `dataset_final.csv`, si calcolano le feature in maniera aggregata, così da avere un dataset riassuntivo, andando ad eliminare la feature `anno`. \
Ogni riga contiene dati del comune, dati geografici, media e deviazione standard dei dati di superficie, produzione, precipitazioni e temperatura. \
Feature: comune, provincia, alt, lat, lon, superficie_media, produzione_media, prec_media, temp_media, superficie_std, produzione_std, prec_std, temp_std

In [7]:
# Rimuove eventuali spazi nei nomi delle colonne
merge.columns = [col.strip() for col in merge.columns]

# Identifica le colonne da unire
id_vars = ['comune', 'provincia', 'alt', 'lat', 'lon']
value_vars_surface = [col for col in merge.columns if 'superficie totale - ettari' in col]
value_vars_production = [col for col in merge.columns if 'produzione totale - quintali' in col]
value_vars_prec = [col for col in merge.columns if 'prec mm' in col]
value_vars_temp = [col for col in merge.columns if 'temp cel' in col]

# Unisce per superficie totale
# Trasforma i dati di superficie totale da wide a long format
surface_long = pd.melt(merge, id_vars=id_vars, value_vars=value_vars_surface,
                       var_name='anno', value_name='superficie totale - ettari')
surface_long['anno'] = surface_long['anno'].str.split(' - ').str[0].astype(int)

# Unisce per produzione totale
# Trasforma i dati di produzione totale da wide a long format
production_long = pd.melt(merge, id_vars=id_vars, value_vars=value_vars_production,
                          var_name='anno', value_name='produzione totale - quintali')
production_long['anno'] = production_long['anno'].str.split(' - ').str[0].astype(int)

# Unisce per precipitazioni
# Trasforma i dati di precipitazioni da wide a long format
prec_long = pd.melt(merge, id_vars=id_vars, value_vars=value_vars_prec,
                    var_name='anno', value_name='prec mm')
prec_long['anno'] = prec_long['anno'].str.split(' - ').str[0].astype(int)

# Unisce per temperatura
# Trasforma i dati di temperatura da wide a long format
temp_long = pd.melt(merge, id_vars=id_vars, value_vars=value_vars_temp,
                    var_name='anno', value_name='temp cel')
temp_long['anno'] = temp_long['anno'].str.split(' - ').str[0].astype(int)

# Unisce i dataframe lunghi
# Combina tutti i dataframe long in un unico dataframe finale
merge_long = surface_long.merge(production_long, on=id_vars + ['anno'])
merge_long = merge_long.merge(prec_long, on=id_vars + ['anno'])
merge_long = merge_long.merge(temp_long, on=id_vars + ['anno'])

In [8]:
# Raggruppa i dati in base alle colonne ['comune', 'provincia', 'alt', 'lat', 'lon'].
# Questo significa che per ogni combinazione di questi valori, verranno calcolate le statistiche di aggregazione.
# Per ogni comune, vengono calcolate:
# superficie_media: la media della colonna 'superficie totale - ettari'.
# produzione_media: la media della colonna 'produzione totale - quintali'.
# prec_media: la media della colonna 'prec mm' (precipitazioni in millimetri).
# temp_media: la media della colonna 'temp cel' (temperatura in gradi Celsius).
# superficie_std: la deviazione standard della colonna 'superficie totale - ettari'.
# produzione_std: la deviazione standard della colonna 'produzione totale - quintali'.
# prec_std: la deviazione standard della colonna 'prec mm'.
# temp_std: la deviazione standard della colonna 'temp cel'.

features = merge_long.groupby(['comune', 'provincia', 'alt', 'lat', 'lon']).agg(
    superficie_media=('superficie totale - ettari', 'mean'),
    produzione_media=('produzione totale - quintali', 'mean'),
    prec_media=('prec mm', 'mean'),
    temp_media=('temp cel', 'mean'),
    superficie_std=('superficie totale - ettari', 'std'),
    produzione_std=('produzione totale - quintali', 'std'),
    prec_std=('prec mm', 'std'),
    temp_std=('temp cel', 'std'),
).reset_index()

In [9]:
# Visualizzazione dei dataframe finali
display(merge_long)
display(features)

# Si ottiene un dataset completo per ogni comune si hanno i dati geografici, superfici, produzioni, precipitazioni e temperature per ogni anno
merge_long.to_csv("../../data/processed/dataset_final.csv")

# Si aggregano i dati, così da avere una riga per comune
features.to_csv("../../data/processed/features.csv")

Unnamed: 0,comune,provincia,alt,lat,lon,anno,superficie totale - ettari,produzione totale - quintali,prec mm,temp cel
0,Abano Terme,padova,45.0,45.359387,11.788713,2006,11453.0,803222.0,862.4,14.44
1,Abbadia Cerreto,lodi,64.0,45.312391,9.592525,2006,2780.0,194600.0,481.0,14.09
2,Abbadia Lariana,lecco,909.0,45.900500,9.334549,2006,270.0,13500.0,1048.8,14.58
3,Abbadia San Salvatore,siena,1021.5,42.880969,11.677506,2006,11500.0,368000.0,697.2,14.65
4,Abbasanta,oristano,377.5,40.123903,8.821022,2006,3600.0,194600.0,481.0,14.65
...,...,...,...,...,...,...,...,...,...,...
106715,Zuglio,udine,1076.5,46.460954,13.026428,2021,276.0,6900.0,1098.2,14.4
106716,Zumaglia,biella,551.5,45.594785,8.088702,2021,349.0,15356.0,1112.8,14.07
106717,Zumpano,cosenza,343.5,39.310632,16.293506,2021,6327.0,188538.0,1122.8,16.36
106718,Zungoli,avellino,688.5,41.127660,15.202556,2021,5200.0,234000.0,1261.0,15.62


Unnamed: 0,comune,provincia,alt,lat,lon,superficie_media,produzione_media,prec_media,temp_media,superficie_std,produzione_std,prec_std,temp_std
0,Abano Terme,padova,45.0,45.359387,11.788713,18797.3125,1238952.0625,922.2375,14.874375,3957.771742,271951.586706,272.883880,0.405512
1,Abbadia Cerreto,lodi,64.0,45.312391,9.592525,3285.9375,200190.0,745.3,13.848125,744.975209,59782.324283,258.788078,0.456993
2,Abbadia Lariana,lecco,909.0,45.900500,9.334549,359.375,18240.8125,1323.0625,15.040625,71.880340,3711.860167,298.039028,0.456457
3,Abbadia San Salvatore,siena,1021.5,42.880969,11.677506,5629.4375,213392.0625,871.051875,15.111562,2422.478482,77535.633789,189.430601,0.484299
4,Abbasanta,oristano,377.5,40.123903,8.821022,2500.125,103576.6875,575.68125,17.361875,2202.084645,93583.946085,158.357281,1.010460
...,...,...,...,...,...,...,...,...,...,...,...,...,...
6665,Zuglio,udine,1076.5,46.460954,13.026428,6895.75,342537.625,1355.8625,14.64,2415.421523,162604.442614,332.740257,0.577731
6666,Zumaglia,biella,551.5,45.594785,8.088702,270.5625,12517.9375,1291.4125,14.43375,107.793611,5302.625029,304.066374,0.474663
6667,Zumpano,cosenza,343.5,39.310632,16.293506,7281.625,197788.75,1019.0875,16.216875,2362.327549,55901.761236,257.919377,0.216324
6668,Zungoli,avellino,688.5,41.127660,15.202556,4778.25,161751.8125,1205.975,15.466875,829.189765,50037.742894,260.249049,0.320369
