# Esplorazione dei Dati
## Obiettivo: comprendere la struttura del dataset e identificare potenziali problemi.

- Importazione dello shapefile (es. con geopandas in Python)

- Controllo delle variabili disponibili: elenco campi e tipi (numerici, categorici, date)

- Controllo della coerenza spaziale e temporale

In [17]:
import geopandas as gpd

df = gpd.read_file('data/shapefile/lucas_2018/LUCAS2018_it.shp')

print(df.head())
print(df.columns[0])
print(df.crs)


     Depth   POINTID  pH_CaCl2  pH_H2O    EC    OC CaCO3      P    N      K  \
0  0-20 cm  40962378       6.3    6.76  23.7  12.9     3  < LOD  1.8   68.9   
1  0-20 cm  40962390       6.1    6.59    36  62.3     5   15.5  5.7    261   
2  0-20 cm  40982448       6.0    6.36  22.4  30.6     1  < LOD  2.8   80.5   
3  0-20 cm  41022358       7.1    7.19  21.5  53.5   247   17.6  4.8   91.8   
4  0-20 cm  41042398       6.0    6.32  23.5  17.1    NA  < LOD  1.7  489.1   

   ...  Elev   LC    LU  LC0_Desc              LC1_Desc  \
0  ...  1107  C10  U120  Woodland  Broadleaved woodland   
1  ...  1066  C10  U120  Woodland  Broadleaved woodland   
2  ...  1234  C10  U120  Woodland  Broadleaved woodland   
3  ...  1343  C33  U120  Woodland  Other mixed woodland   
4  ...  1100  C10  U420  Woodland  Broadleaved woodland   

                                    LU1_Desc field_28 field_29  field_30  \
0                                   Forestry     None     None      None   
1                 

# Pulizia e Preprocessing
## Obiettivo: garantire l’affidabilità dei dati prima dell’analisi.

- Rimozione di valori nulli o anomali (outlier sospetti)

- Verifica e uniformazione delle unità di misura

- Eventuale filtraggio temporale (es. analisi stagionali)

- Standardizzazione o normalizzazione (se richiesto da metodi successivi)

In [26]:
print("Valori NULL")
print(df.isnull().sum())

Valori NULL
Depth            0
POINTID          0
pH_CaCl2         0
pH_H2O           0
EC               2
OC               0
CaCO3            0
P                0
N                0
K                0
OC (20-30     1241
CaCO3 (20-    1241
Ox_Al         1025
Ox_Fe         1025
NUTS_0           0
NUTS_1           0
NUTS_2           0
NUTS_3           0
TH_LAT           0
TH_LONG          0
SURVEY_DAT       0
Elev             0
LC               0
LU               0
LC0_Desc         0
LC1_Desc         0
LU1_Desc         0
field_28      1237
field_29      1237
field_30      1237
geometry         0
dtype: int64


In [None]:
df_clean = df.dropna(subset=['EC'])
print("Valori NULL dopo il dropna", df_clean['EC'])

num_null_ec = df['EC'].isnull().sum()
print(f"Numero di valori nulli in colonna EC: {num_null_ec}")


Valori NULL dopo il drop 0        23.7
1          36
2        22.4
3        21.5
4        23.5
        ...  
1236     36.4
1237    10.27
1238    21.32
1239    18.92
1240    25.48
Name: EC, Length: 1239, dtype: object
Numero di valori nulli in colonna EC: 2
