# Esercizio 2 — Data Cleaning e Preprocessing con Pandas

**Obiettivo:** applicare le principali tecniche di preparazione dei dati.  
**Argomenti:** gestione dei valori mancanti, normalizzazione, individuazione outlier e scaling.  


In [4]:
import numpy as np
import pandas as pd

print("Librerie importate correttamente")

Librerie importate correttamente


In [8]:
#Creiamo un database simulato con valori mancanti e dati eterogenei
dati = {
    "Eta'": [23, np.nan, 35, 42, np.nan, 28, 31],
    "Reddito": [25000, 48000, 54000, np.nan, 30000, 41000, np.nan],
    "Citta'": ["Roma", "Milano", "Milano", "Torino", np.nan, "Napoli", "Roma"]
}

df = pd.DataFrame(dati)
df

Unnamed: 0,Eta',Reddito,Citta'
0,23.0,25000.0,Roma
1,,48000.0,Milano
2,35.0,54000.0,Milano
3,42.0,,Torino
4,,30000.0,
5,28.0,41000.0,Napoli
6,31.0,,Roma


In [9]:
#Esplorazione iniziale e individuazione dei NaN
print("Dimensione del DataSet:", df.shape)

Dimensione del DataSet: (7, 3)


In [17]:
print("\nvalori mancanti per colonna:")
print(df.isna().sum())

print("\nPercentuale di valori mancanti:")
print(df.isna().mean() * 100)



valori mancanti per colonna:
Eta'       2
Reddito    2
Citta'     1
dtype: int64

Percentuale di valori mancanti:
Eta'       28.571429
Reddito    28.571429
Citta'     14.285714
dtype: float64


# Strategie di Pulizia dati

In [18]:
# Metodo 1: rimozione righe con NaN
df_drop = df.dropna()
print("Dataset dopo rimozione righe con NaN:\n", df_drop, "\n")

Dataset dopo rimozione righe con NaN:
    Eta'  Reddito  Citta'
0  23.0  25000.0    Roma
2  35.0  54000.0  Milano
5  28.0  41000.0  Napoli 



In [25]:
# Metodo 2: sostituzione dei NaN con valori appropriati
df_fill = df.copy()
df_fill.fillna({"Eta'":df_fill["Eta'"].mean()}, inplace=True) #Utilizzo la medie delle eta'
df_fill.fillna({"Reddito" : df_fill["Reddito"].median()}, inplace=True)
df_fill.fillna({"Citta'" : "Sconosciuta"}, inplace=True)

print("Dataset dopo sostituzione dei NaN:")
df_fill

Dataset dopo sostituzione dei NaN:


Unnamed: 0,Eta',Reddito,Citta'
0,23.0,25000.0,Roma
1,31.8,48000.0,Milano
2,35.0,54000.0,Milano
3,42.0,41000.0,Torino
4,31.8,30000.0,Sconosciuta
5,28.0,41000.0,Napoli
6,31.0,41000.0,Roma


In [26]:
#Dopo aver pulito i dati effettuiamo la normalizzazione e standardizzazione
df_scaled = df_fill.copy()

#Normalizzazione min-max del reddito 
df_scaled["Reddito_standardizzato"] = ((df_scaled["Reddito"] - df_scaled["Reddito"].min()) / (df_scaled["Reddito"].max() - df_scaled["Reddito"].min()))

# Standardizzazione (Z-score)
df_scaled["Eta'_std"] = ((df_scaled["Eta'"] - df_scaled["Eta'"].mean()) / df_scaled["Eta'"].std())

df_scaled

Unnamed: 0,Eta',Reddito,Citta',Reddito_standardizzato,Eta'_std
0,23.0,25000.0,Roma,0.0,-1.498936
1,31.8,48000.0,Milano,0.793103,-6.051466e-16
2,35.0,54000.0,Milano,1.0,0.5450676
3,42.0,41000.0,Torino,0.551724,1.737403
4,31.8,30000.0,Sconosciuta,0.172414,-6.051466e-16
5,28.0,41000.0,Napoli,0.551724,-0.6472677
6,31.0,41000.0,Roma,0.551724,-0.1362669


In [30]:
#Rilevamento OUTLIER
df_scaled["Z_Reddito"]= (
    (df_scaled["Reddito"] - df_scaled["Reddito"].mean()) / (df_scaled["Reddito"].std()) 
)

outliers = df_scaled[np.abs(df_scaled["Z_Reddito"]) > 2]
print("Possibili outliers:", outliers if not outliers.empty else "Nessun outlier")

Possibili outliers: Nessun outlier


In [29]:
#Analisi descrittiva
print("Statistiche descrittive del dataset finale:")
df_scaled.describe(include="all")


Statistiche descrittive del dataset finale:


Unnamed: 0,Eta',Reddito,Citta',Reddito_standardizzato,Eta'_std,Z_Reddito
count,7.0,7.0,7,7.0,7.0,7.0
unique,,,5,,,
top,,,Roma,,,
freq,,,2,,,
mean,31.8,40000.0,,0.517241,-7.018196e-16,1.5860330000000003e-17
std,5.870832,9899.494937,,0.341362,1.0,1.0
min,23.0,25000.0,,0.0,-1.498936,-1.515229
25%,29.5,35500.0,,0.362069,-0.3917673,-0.4545686
50%,31.8,41000.0,,0.551724,-6.051466e-16,0.1010153
75%,33.4,44500.0,,0.672414,0.2725338,0.4545686


### Conclusione

In questo esercizio abbiamo:
- Identificato e gestito i valori mancanti (`isna`, `dropna`, `fillna`)
- Applicato tecniche di **normalizzazione** e **standardizzazione**
- Individuato possibili **outlier** con Z-score
- Generato un dataset pulito e pronto per il Data Mining

✅ Questo notebook conclude la parte pratica del *Data Cleaning*.
