# Data Preparation

Modify the data so ML algorithms can properly learn from it.

### 1 Imports


In [1]:
# Import necessary libraries, functions, objects...
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Scikit-learn imports
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder

### 2 Load dataset

In [None]:
# =============================================================================
# LOAD DATASET
# =============================================================================

# MODIFICARE IL PERCORSO DEL FILE CSV
df = pd.read_csv('../house_pricing.csv', sep=',')
# =============================================================================
# DESCRIBE THE DATA
# =============================================================================
# Perform a first, basic, inspection of the data: dimensions, first rows, column types, etc.


(992, 37)

In [3]:
# Visualizza prime righe
df.head()

Unnamed: 0,Split,Id,MSZoning,LotArea,Street,Utilities,LandSlope,HouseStyle,YearBuilt,YearRemodAdd,...,GarageFinish,GarageCars,GarageArea,PavedDrive,OpenPorchSF,EnclosedPorch,PoolArea,MiscFeature,SalePrice,Electtrical
0,labeled,1,RL,6173,Pave,AllPub,Gtl,1Story,1967.0,1967,...,Unf,1,288,Y,0,0,0,,125500.0,
1,labeled,2,RL,11200,Pave,AllPub,Gtl,1Story,1985.0,1985,...,Unf,2,403,Y,26,0,0,,180000.0,
2,labeled,3,RL,11924,Pave,AllPub,Gtl,2Story,2005.0,2006,...,Fin,3,736,Y,21,0,0,,345000.0,
3,labeled,4,RM,6882,Pave,AllPub,Gtl,2Story,1914.0,2006,...,,0,0,Y,0,115,0,,127000.0,
4,labeled,5,RL,4280,Pave,AllPub,Gtl,1Story,1913.0,2002,...,Unf,1,352,P,0,34,0,,90350.0,


In [4]:
# Controlla dimensioni dataset
print(f"Shape: {df.shape}")
print(f"Rows: {df.shape[0]}, Columns: {df.shape[1]}")

Shape: (992, 37)
Rows: 992, Columns: 37


### 3 Select Data

After the previous exploration you may decide to use or not use some of the data sets.

In [5]:
# TODO: Specifica le colonne da eliminare (ID, Split, colonne non utili)
# Esempio: colonne come 'Id', 'Split' vanno eliminate perché non sono features

columns_to_drop = ['Id', 'Split']  # MODIFICA QUESTA LISTA

# Elimina le colonne specificate
df.drop(columns=columns_to_drop, inplace=True)

print(f"Colonne rimanenti: {df.shape[1]}")
print(df.columns.tolist())

Colonne rimanenti: 35
['MSZoning', 'LotArea', 'Street', 'Utilities', 'LandSlope', 'HouseStyle', 'YearBuilt', 'YearRemodAdd', 'RoofStyle', 'Foundation', 'TotalBsmtSF', 'Heating', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF', 'GrLivArea', 'BsmtFullBath', 'FullBath', 'BedroomAbvGr', 'KitchenAbvGr', 'TotRmsAbvGrd', 'Fireplaces', 'GarageType', 'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'PavedDrive', 'OpenPorchSF', 'EnclosedPorch', 'PoolArea', 'MiscFeature', 'SalePrice', 'Electtrical']


#### 4 Clean Data

### 4.1 Remove unnecessary features (if any)

In [6]:
# Visualizza tutte le colonne disponibili
print("Colonne nel dataset:")
print(df.columns.tolist())
print(f"\nNumero totale colonne: {len(df.columns)}")

Colonne nel dataset:
['MSZoning', 'LotArea', 'Street', 'Utilities', 'LandSlope', 'HouseStyle', 'YearBuilt', 'YearRemodAdd', 'RoofStyle', 'Foundation', 'TotalBsmtSF', 'Heating', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF', 'GrLivArea', 'BsmtFullBath', 'FullBath', 'BedroomAbvGr', 'KitchenAbvGr', 'TotRmsAbvGrd', 'Fireplaces', 'GarageType', 'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'PavedDrive', 'OpenPorchSF', 'EnclosedPorch', 'PoolArea', 'MiscFeature', 'SalePrice', 'Electtrical']

Numero totale colonne: 35


In [None]:
# TODO: Specifica quali colonne eliminare
# Esempi comuni:
# - 'Id', 'Split' → non sono features
# - Colonne duplicate o ridondanti
# - Features con troppi missing values
# - Features non rilevanti per il problema

# MODIFICA QUESTA LISTA in base al tuo dataset
columns_to_drop = ['Id', 'Split']  

# Verifica che le colonne esistano prima di eliminarle
existing_cols_to_drop = [col for col in columns_to_drop if col in df.columns]
missing_cols = [col for col in columns_to_drop if col not in df.columns]

if missing_cols:
    print(f"⚠️ ATTENZIONE: Colonne non trovate nel dataset: {missing_cols}")

if existing_cols_to_drop:
    print(f"Colonne da eliminare: {existing_cols_to_drop}")
    df.drop(columns=existing_cols_to_drop, inplace=True)
    print(f"✓ Colonne eliminate con successo!")
else:
    print("ℹ️ Nessuna colonna da eliminare")

### 4.2 Deal with erroneous values (if any)

Replace incorrect or placeholder values with appropriate ones.
 SOSTITUIRE VALORI ERRONEI

In [7]:
# Verifica la presenza di valori erronei comuni
print("="*60)
print("RICERCA VALORI ERRONEI")
print("="*60)

# Valori da cercare: ?, unknown, NA, N/A, --, etc.
erroneous_values = ['?', '??', 'NA', 'N/A', '--', '']

# Controlla ogni colonna object (categorica)
categorical_cols = df.select_dtypes(include=['object']).columns

print(f"\nColonne categoriche da controllare: {len(categorical_cols)}")

for col in categorical_cols:
    unique_vals = df[col].unique()
    found_erroneous = [val for val in erroneous_values if val in unique_vals]
    
    if found_erroneous:
        count = sum(df[col].isin(found_erroneous))
        print(f"\n⚠️ {col}:")
        print(f"   Valori erronei trovati: {found_erroneous}")
        print(f"   Numero occorrenze: {count}")
        print(f"   Valori unici totali: {df[col].value_counts()}")

RICERCA VALORI ERRONEI

Colonne categoriche da controllare: 14


In [8]:
# TODO: Sostituisci i valori erronei con valori corretti
# Esempio per dataset BANK: df['job'] = df['job'].replace('?', 'unknown')
# Esempio per dataset HOUSE: non serve (nessun valore erroneo)

# MODIFICA QUESTO DIZIONARIO in base ai valori erronei trovati
replacements = {
    # 'nome_colonna': {'valore_erroneo': 'valore_corretto'}
    # Esempio:
    # 'job': {'?': 'unknown'},
    # 'education': {'?': 'unknown'},
}

# Applica le sostituzioni
if replacements:
    print("="*60)
    print("SOSTITUZIONE VALORI ERRONEI")
    print("="*60)
    
    for col, mapping in replacements.items():
        if col in df.columns:
            before_count = df[col].value_counts()
            df[col] = df[col].replace(mapping)
            after_count = df[col].value_counts()
            
            print(f"\n✓ {col}:")
            print(f"  Sostituzioni effettuate: {mapping}")
            print(f"  Prima: {before_count.to_dict()}")
            print(f"  Dopo: {after_count.to_dict()}")
        else:
            print(f"\n⚠️ Colonna '{col}' non trovata nel dataset")
else:
    print("\nℹ️ Nessuna sostituzione da effettuare (modifica il dizionario 'replacements' se necessario)")


ℹ️ Nessuna sostituzione da effettuare (modifica il dizionario 'replacements' se necessario)


### 4.3 Deal with null or erroneous values (if any)

Handle missing values (NaN) by filling them with appropriate values.

In [12]:
# Verifica la presenza di valori mancanti
print("="*60)
print("ANALISI VALORI MANCANTI (NaN)")
print("="*60)

print("\nValori NaN per colonna:")
nan_counts = df.isna().sum()
nan_counts_filtered = nan_counts[nan_counts > 0].sort_values(ascending=False)

if len(nan_counts_filtered) > 0:
    print(nan_counts_filtered)
    print(f"\n⚠️ Totale NaN nel dataset: {df.isna().sum().sum()}")
    print(f"⚠️ Colonne con NaN: {len(nan_counts_filtered)}")
else:
    print("✓ Nessun valore NaN trovato!")

ANALISI VALORI MANCANTI (NaN)

Valori NaN per colonna:
Electtrical     992
MiscFeature     952
SalePrice       198
GarageType       54
GarageYrBlt      54
GarageFinish     54
Electrical       31
dtype: int64

⚠️ Totale NaN nel dataset: 2335
⚠️ Colonne con NaN: 7


In [13]:
# Visualizza dettagli colonne con NaN
if len(nan_counts_filtered) > 0:
    print("\n" + "="*60)
    print("DETTAGLIO COLONNE CON NaN")
    print("="*60)
    
    for col in nan_counts_filtered.index:
        total = len(df)
        nan_count = nan_counts_filtered[col]
        percentage = (nan_count / total) * 100
        dtype = df[col].dtype
        
        print(f"\n{col}:")
        print(f"  - NaN: {nan_count}/{total} ({percentage:.1f}%)")
        print(f"  - Tipo: {dtype}")
        
        # Se numerica, mostra statistiche
        if df[col].dtype in ['int64', 'float64']:
            print(f"  - Media: {df[col].mean():.2f}")
            print(f"  - Mediana: {df[col].median():.2f}")
        # Se categorica, mostra moda
        else:
            if not df[col].mode().empty:
                print(f"  - Moda: {df[col].mode()[0]}")
            print(f"  - Valori unici: {df[col].nunique()}")


DETTAGLIO COLONNE CON NaN

Electtrical:
  - NaN: 992/992 (100.0%)
  - Tipo: float64
  - Media: nan
  - Mediana: nan

MiscFeature:
  - NaN: 952/992 (96.0%)
  - Tipo: object
  - Moda: Shed
  - Valori unici: 3

SalePrice:
  - NaN: 198/992 (20.0%)
  - Tipo: float64
  - Media: 163494.86
  - Mediana: 152000.00

GarageType:
  - NaN: 54/992 (5.4%)
  - Tipo: object
  - Moda: Attchd
  - Valori unici: 6

GarageYrBlt:
  - NaN: 54/992 (5.4%)
  - Tipo: float64
  - Media: 1977.77
  - Mediana: 1978.00

GarageFinish:
  - NaN: 54/992 (5.4%)
  - Tipo: object
  - Moda: Unf
  - Valori unici: 3

Electrical:
  - NaN: 31/992 (3.1%)
  - Tipo: object
  - Moda: SBrkr
  - Valori unici: 4


  return np.nanmean(a, axis, out=out, keepdims=keepdims)


**Strategia di imputazione**

**Per NUMERICHE:**
- Media: quando distribuzione normale
- Mediana: quando ci sono outliers
- 0: quando NaN significa "assenza" (es. GarageYrBlt → 0 se no garage)

**Per CATEGORICHE:**
- Moda: valore più frequente
- Valore specifico: es. "NoGarage", "Unknown"

In [14]:
# TODO: Definisci come gestire i valori NaN
# Crea un dizionario: {nome_colonna: valore_sostitutivo}

# MODIFICA QUESTO DIZIONARIO in base al tuo dataset
na_subs = {
    # Esempio HOUSE PRICING:
     'Electrical': 'SBrkr',           # categorica → moda
     'GarageType': 'NoGarage',        # categorica → valore specifico
     'GarageFinish': 'NoGarage',      # categorica → valore specifico
    'GarageYrBlt': 0,                # numerica → 0 (no garage)
    
    # Esempio BANK:
    # Di solito non ha NaN, ma se li hai:
    # 'age': df['age'].median(),       # numerica → mediana
    # 'balance': df['balance'].mean(), # numerica → media
}

print("="*60)
print("IMPUTAZIONE VALORI MANCANTI")
print("="*60)

if na_subs:
    print("\nSostituzioni da applicare:")
    for col, value in na_subs.items():
        if col in df.columns:
            nan_before = df[col].isna().sum()
            print(f"  {col}: {nan_before} NaN → {value}")
        else:
            print(f"  ⚠️ {col}: colonna non trovata!")
    
    # Applica le sostituzioni
    df.fillna(na_subs, inplace=True)
    print("\n✓ Sostituzioni applicate!")
else:
    print("\nℹ️ Nessuna sostituzione definita")
    print("   Modifica il dizionario 'na_subs' se necessario")

IMPUTAZIONE VALORI MANCANTI

Sostituzioni da applicare:
  Electrical: 31 NaN → SBrkr
  GarageType: 54 NaN → NoGarage
  GarageFinish: 54 NaN → NoGarage
  GarageYrBlt: 54 NaN → 0

✓ Sostituzioni applicate!


In [15]:
# Verifica che non ci siano più NaN (o mostra quelli rimanenti)
print("\n" + "="*60)
print("VERIFICA POST-IMPUTAZIONE")
print("="*60)

print("\nValori NaN rimanenti:")
remaining_nan = df.isna().sum()
remaining_nan_filtered = remaining_nan[remaining_nan > 0].sort_values(ascending=False)

if len(remaining_nan_filtered) > 0:
    print(remaining_nan_filtered)
    print(f"\n⚠️ Ancora {df.isna().sum().sum()} NaN nel dataset")
    print("⚠️ Potrebbero servire ulteriori imputazioni o sono NaN intenzionali")
else:
    print("✓ Nessun NaN rimanente!")
    print("✓ Dataset completamente pulito")


VERIFICA POST-IMPUTAZIONE

Valori NaN rimanenti:
Electtrical    992
MiscFeature    952
SalePrice      198
dtype: int64

⚠️ Ancora 2142 NaN nel dataset
⚠️ Potrebbero servire ulteriori imputazioni o sono NaN intenzionali


In [16]:
# Verifica dimensioni finali
print("\n" + "="*60)
print("RIEPILOGO FINALE")
print("="*60)
print(f"Shape: {df.shape}")
print(f"Righe: {df.shape[0]}")
print(f"Colonne: {df.shape[1]}")
print(f"Totale NaN: {df.isna().sum().sum()}")


RIEPILOGO FINALE
Shape: (992, 35)
Righe: 992
Colonne: 35
Totale NaN: 2142


### 4.4 Handle intentional NaN

Some columns may have NaN values that should remain (e.g., target variable in test set) or need special treatment.

In [17]:
# ============================================================
# GESTIONE NaN INTENZIONALI
# ============================================================

print("="*60)
print("NaN INTENZIONALI - ANALISI")
print("="*60)

remaining_nan = df.isna().sum()
remaining_nan_filtered = remaining_nan[remaining_nan > 0].sort_values(ascending=False)

if len(remaining_nan_filtered) > 0:
    print("\nColonne con NaN rimanenti:")
    for col, count in remaining_nan_filtered.items():
        percentage = (count / len(df)) * 100
        print(f"  {col:20s}: {count:5d} ({percentage:5.1f}%)")
    
    # Analizza se sono NaN intenzionali
    print("\n" + "-"*60)
    print("INTERPRETAZIONE:")
    print("-"*60)
    
    # Controlla se è il target
    # TODO: MODIFICA 'SalePrice' con il nome del tuo target
    target_col = 'SalePrice'  # Per Bank usa 'y'
    
    if target_col in remaining_nan_filtered.index:
        print(f"\n✓ {target_col}: {remaining_nan_filtered[target_col]} NaN")
        print(f"  → Normale! Sono i dati del test/leaderboard set")
        print(f"  → NON imputare questi NaN")
    
    # Altre colonne con NaN
    other_cols = [col for col in remaining_nan_filtered.index if col != target_col]
    
    if other_cols:
        print(f"\n⚠️ Altre colonne con NaN:")
        for col in other_cols:
            print(f"  - {col}: {remaining_nan_filtered[col]} NaN")
        
        print(f"\n⚠️ AZIONE NECESSARIA:")
        print(f"  1. Se NaN significa 'assenza' → CREA FEATURE BINARIA")
        print(f"  2. Se NaN è errore → IMPUTA nella cella precedente")
        print(f"  3. Se NaN è intenzionale → LASCIA COSÌ")
else:
    print("\n✓ Nessun NaN rimanente (escludendo il target)!")

NaN INTENZIONALI - ANALISI

Colonne con NaN rimanenti:
  Electtrical         :   992 (100.0%)
  MiscFeature         :   952 ( 96.0%)
  SalePrice           :   198 ( 20.0%)

------------------------------------------------------------
INTERPRETAZIONE:
------------------------------------------------------------

✓ SalePrice: 198 NaN
  → Normale! Sono i dati del test/leaderboard set
  → NON imputare questi NaN

⚠️ Altre colonne con NaN:
  - Electtrical: 992 NaN
  - MiscFeature: 952 NaN

⚠️ AZIONE NECESSARIA:
  1. Se NaN significa 'assenza' → CREA FEATURE BINARIA
  2. Se NaN è errore → IMPUTA nella cella precedente
  3. Se NaN è intenzionale → LASCIA COSÌ


In [18]:
# TODO: Se alcune colonne hanno NaN che significano "assenza",
# crea feature binarie PRIMA di imputare

# Esempio HOUSE PRICING:
# MiscFeature ha NaN → significa "nessuna misc feature"
# Soluzione: crea HasMiscFeature PRIMA di droppare MiscFeature

# MODIFICA in base al tuo dataset
if 'MiscFeature' in df.columns:
    # Crea feature binaria: 1 se ha misc feature, 0 se NaN
    df['HasMiscFeature'] = (~df['MiscFeature'].isna()).astype(int)
    print("✓ Creata feature 'HasMiscFeature'")
    print(f"  0 (no misc): {(df['HasMiscFeature'] == 0).sum()}")
    print(f"  1 (has misc): {(df['HasMiscFeature'] == 1).sum()}")
    
    # Ora puoi droppare la colonna originale (o gestirla dopo in Construct Data)
    # df.drop(columns=['MiscFeature'], inplace=True)

✓ Creata feature 'HasMiscFeature'
  0 (no misc): 952
  1 (has misc): 40


In [19]:
# VERIFICA FINALE POST-GESTIONE NaN INTENZIONALI
print("\n" + "="*60)
print("VERIFICA FINALE NaN")
print("="*60)

# TODO: MODIFICA con il nome del tuo target
target_col = 'SalePrice'  # Per Bank usa 'y'

# Conta NaN escludendo il target
if target_col in df.columns:
    nan_without_target = df.drop(columns=[target_col]).isna().sum().sum()
    nan_in_target = df[target_col].isna().sum()
    
    print(f"\nNaN nel target ({target_col}): {nan_in_target} ✓ (test set)")
    print(f"NaN nelle features: {nan_without_target}")
    
    if nan_without_target > 0:
        print("\n⚠️ Potrebbero servire ulteriori imputazioni!")
        print("   Controlla la cella precedente")
    else:
        print("\n✓ Tutte le features sono complete!")
        print("✓ Pronto per Construct Data!")
else:
    print(f"⚠️ Target '{target_col}' non trovato, controlla il nome")


VERIFICA FINALE NaN

NaN nel target (SalePrice): 198 ✓ (test set)
NaN nelle features: 1944

⚠️ Potrebbero servire ulteriori imputazioni!
   Controlla la cella precedente
