# Real example of ML



## Libraries

In [38]:
# ============================================
# SEZIONE: Importazione Librerie
# ============================================
# In questa sezione importiamo tutte le librerie necessarie per il progetto di Machine Learning

# --- Librerie Base per Data Science ---
import numpy as np          # Libreria per calcoli numerici e operazioni su array
import pandas as pd         # Libreria per manipolare dati in formato tabellare (DataFrame)
import matplotlib.pyplot as plt  # Libreria per creare grafici e visualizzazioni
import seaborn as sns       # Libreria per visualizzazioni statistiche avanzate

# --- Strumenti per la preparazione dei dati e validazione ---
from sklearn.model_selection import train_test_split, KFold, cross_validate
# train_test_split: divide i dati in training e test set
# KFold: divide i dati in k "pieghe" per la cross-validazione
# cross_validate: esegue la validazione incrociata

# --- Metriche di valutazione ---
from sklearn.metrics import mean_squared_error, root_mean_squared_error, mean_absolute_error, make_scorer
# mean_squared_error (MSE): errore quadratico medio
# root_mean_squared_error (RMSE): radice dell'errore quadratico medio
# mean_absolute_error (MAE): errore assoluto medio
# make_scorer: crea metriche personalizzate

# --- Tecniche di scaling/normalizzazione ---
from sklearn.preprocessing import StandardScaler   # Standardizza i dati (media=0, deviazione standard=1)
from sklearn.preprocessing import MinMaxScaler     # Normalizza i dati tra 0 e 1
from sklearn.preprocessing import RobustScaler     # Scala i dati riducendo l'effetto degli outlier

# --- Pipeline per concatenare trasformazioni ---
from sklearn.pipeline import Pipeline  # Permette di creare flussi di lavoro concatenati

# --- Modelli di Machine Learning ---
from sklearn.dummy import DummyRegressor           # Modello baseline che fa predizioni semplici
from sklearn.linear_model import LinearRegression  # Regressione lineare classica
from sklearn.neighbors import KNeighborsRegressor  # Regressione basata sui k vicini pi√π prossimi
from sklearn.tree import DecisionTreeRegressor, plot_tree  # Albero decisionale per regressione

# --- Strumenti per ottimizzazione iperparametri ---
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
# GridSearchCV: ricerca esaustiva dei migliori iperparametri
# RandomizedSearchCV: ricerca casuale dei migliori iperparametri (pi√π veloce)

## Load Data

In [39]:
# ============================================
# SEZIONE: Caricamento dei Dati
# ============================================
# Carichiamo il dataset delle case dal file CSV
# CSV = Comma Separated Values (file con valori separati da virgole)

try:
    # Proviamo a leggere il file CSV con i dati delle case
    df = pd.read_csv('gb_house_pricing.csv')
    
    # Se il caricamento ha successo, mostriamo un messaggio di conferma
    print(f"‚úì File caricato con successo: {len(df)} righe, {len(df.columns)} colonne")
    
except FileNotFoundError:
    # Se il file non viene trovato, mostriamo un errore chiaro
    print("‚ùå Errore: file 'gb_house_pricing.csv' non trovato!")
    print("   Assicurati che il file sia nella stessa cartella del notebook")
    raise  # Rilancia l'errore per fermare l'esecuzione
    
except Exception as e:
    # Se ci sono altri errori durante il caricamento
    print(f"‚ùå Errore nel caricamento del file: {e}")
    raise  # Rilancia l'errore per fermare l'esecuzione

# Impostiamo l'opzione per visualizzare tutte le colonne quando stampiamo il DataFrame
# Normalmente pandas nasconde alcune colonne se sono troppe
pd.set_option('display.max_columns', None)

# Mostriamo le prime 5 righe del dataset per avere un'idea dei dati
# head() = "testa" in inglese, cio√® mostra la parte iniziale dei dati
df.head()

‚úì File caricato con successo: 992 righe, 37 colonne


Unnamed: 0,Split,Id,LotArea,YearBuilt,YearRemodAdd,TotalBsmtSF,1stFlrSF,2ndFlrSF,GrLivArea,BsmtFullBath,FullBath,BedroomAbvGr,KitchenAbvGr,TotRmsAbvGrd,Fireplaces,GarageYrBlt,GarageCars,GarageArea,OpenPorchSF,EnclosedPorch,PoolArea,MiscFeature,SalePrice,mszoning_num,HasMiscFeature,HouseStyle_num,st_grvl_pave,ut_allpub_nosewa,land_slope_ord,roof_style_num,foundation_num,heating_num,electrical_num,central_air_num,garage_num,garage_finish_num,paveddrive_num
0,labeled,1,6173,1967.0,1967,876,902,0,902,0,1,3,1,6,0,1967.0,1,288,0,0,0,0,125500.0,3.0,0,1.0,1,1,0,2.0,2.0,3.0,3.0,1,3.0,1,1.0
1,labeled,2,11200,1985.0,1985,1298,1298,0,1298,1,2,3,1,5,1,1985.0,2,403,26,0,0,0,180000.0,3.0,0,1.0,1,1,0,2.0,2.0,3.0,3.0,1,3.0,1,1.0
2,labeled,3,11924,2005.0,2006,1175,1182,1142,2324,1,3,4,1,11,2,2005.0,3,736,21,0,0,0,345000.0,3.0,0,5.0,1,1,0,3.0,3.0,3.0,3.0,1,4.0,3,1.0
3,labeled,4,6882,1914.0,2006,684,773,582,1355,0,1,3,1,7,0,0.0,0,0,0,115,0,0,127000.0,2.0,0,5.0,1,1,0,2.0,3.0,3.0,3.0,1,0.0,0,1.0
4,labeled,5,4280,1913.0,2002,440,694,0,694,0,1,2,1,4,1,1990.0,1,352,0,34,0,0,90350.0,3.0,0,1.0,1,1,0,2.0,3.0,3.0,3.0,0,2.0,1,0.5


In [40]:
# Visualizziamo le dimensioni del dataset
# shape restituisce una tupla (numero_righe, numero_colonne)
# Questo ci aiuta a capire quanti dati abbiamo a disposizione
df.shape


(992, 37)

Suddivisione fadi specific per questo caso. 

In [41]:
# ============================================
# SEZIONE: Separazione dei Dati
# ============================================
# Il dataset contiene una colonna 'Split' che indica se i dati sono:
# - 'labeled': dati con etichetta (SalePrice), usati per training/test
# - 'leaderboard': dati senza etichetta, da usare per predizioni finali

# Creiamo un DataFrame separato per i dati di training/test
# .copy() crea una copia indipendente per evitare problemi di modifica
train_df = df[df['Split'] == 'labeled'].copy()

# Creiamo un DataFrame separato per i dati della leaderboard (predizioni finali)
leaderboard_test_df = df[df['Split'] == 'leaderboard'].copy()

# NOTA: la variabile 'last_pred' verr√† creata pi√π avanti nel notebook
# quando faremo le predizioni finali sul set di leaderboard

In [42]:
# Visualizziamo le dimensioni del set di training
# Questo ci mostra quante case abbiamo per addestrare il modello
train_df.shape


(794, 37)

## Train / Test 


ora he il momento di di isolare la colonna target e omettere colonna id e split

In [43]:
# ============================================
# Separazione Features e Target
# ============================================
# Dividiamo i dati in:
# - X: features (caratteristiche) - le informazioni che il modello usa per imparare
# - y: target (obiettivo) - il valore che vogliamo predire (SalePrice = prezzo di vendita)

# Creiamo X rimuovendo le colonne non utili per la predizione:
# - 'Id': solo un identificatore
# - 'Split': indica train/test, non √® una caratteristica della casa
# - 'SalePrice': √® il target, non pu√≤ essere una feature
X = train_df.drop(['Id', 'Split', 'SalePrice'], axis=1)

# Creiamo y prendendo solo la colonna del prezzo (quello che vogliamo predire)
y = train_df['SalePrice']

# Dividiamo i dati in training set (80%) e test set (20%)
# - Training set: usato per addestrare il modello
# - Test set: usato per valutare le prestazioni su dati mai visti
# random_state=42 garantisce che la divisione sia sempre la stessa
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [44]:
# Visualizziamo le dimensioni dei set di training e test
# Questo ci conferma che la divisione √® avvenuta correttamente
print("Dimensioni di X_train:", X_train.shape)
print("Dimensioni di X_test :", X_test.shape)
print("Dimensioni di y_train:", y_train.shape)
print("Dimensioni di y_test :", y_test.shape)


Dimensioni di X_train: (635, 34)
Dimensioni di X_test : (159, 34)
Dimensioni di y_train: (635,)
Dimensioni di y_test : (159,)


## Cross-validation

In [45]:
# ============================================
# Configurazione della Cross-Validation
# ============================================
# La cross-validation (validazione incrociata) divide i dati in K "pieghe" (folds)
# e addestra il modello K volte, ogni volta usando una piega diversa per il test

# KFold con 10 pieghe significa:
# - Dividiamo i dati in 10 parti
# - Usiamo 9 parti per addestrare e 1 per testare
# - Ripetiamo 10 volte, cambiando ogni volta la parte usata per il test
# shuffle=True: mescola i dati prima di dividerli
# random_state=42: garantisce risultati riproducibili
kf = KFold(n_splits=10, shuffle=True, random_state=42)


In [46]:
# ============================================
# Definizione delle Metriche di Valutazione
# ============================================
# Definiamo le metriche per valutare quanto bene il nostro modello fa le predizioni:

# 1. MSE (Mean Squared Error): errore quadratico medio
#    - Pi√π sensibile agli outlier (errori grandi pesano molto)
#    - Risultato al quadrato, quindi difficile da interpretare
# 2. RMSE (Root Mean Squared Error): radice dell'errore quadratico medio
#    - Stesso scale del target (prezzo), pi√π facile da interpretare
# 3. MAE (Mean Absolute Error): errore assoluto medio
#    - Meno sensibile agli outlier
#    - Facile da interpretare: errore medio in dollari/euro

# Nota: sklearn usa punteggi negativi (pi√π alto = migliore)
# quindi usiamo make_scorer con greater_is_better=False
scoring = {
    'MSE': make_scorer(mean_squared_error, greater_is_better=False),
    'RMSE': make_scorer(root_mean_squared_error, greater_is_better=False),
    'MAE': make_scorer(mean_absolute_error, greater_is_better=False)
}


## Baseline

In [47]:
# ============================================
# Modello Baseline (DummyRegressor)
# ============================================
# Prima di provare modelli complessi, creiamo un modello "stupido" (baseline)
# che fa predizioni molto semplici. Questo ci d√† un punto di riferimento:
# se i nostri modelli complessi non battono il baseline, c'√® qualcosa che non va!

# DummyRegressor con strategy='mean' predice sempre la media del training set
# √à il modello pi√π semplice possibile
bl = DummyRegressor(strategy='mean')

# Eseguiamo la cross-validation per valutare il baseline
# cv_results conterr√† i punteggi per MSE, RMSE e MAE
cv_results = cross_validate(bl, X_train, y_train, cv=kf, scoring=scoring)

# Convertiamo i risultati in un DataFrame per visualizzarli meglio
cv_results_df = pd.DataFrame(cv_results)

# Mostriamo i risultati (i valori sono negativi, ma pi√π alti = meglio)
cv_results_df


Unnamed: 0,fit_time,score_time,test_MSE,test_RMSE,test_MAE
0,0.0,0.0,-1786764000.0,-42270.136243,-31752.942617
1,0.0,0.0,-3292032000.0,-57376.232552,-45012.531141
2,0.0,0.0,-3021331000.0,-54966.63633,-39328.887396
3,0.008232,0.0,-2347107000.0,-48446.949878,-40031.244637
4,0.0,0.000994,-3300705000.0,-57451.762826,-42838.051007
5,0.0,0.000999,-2780709000.0,-52732.431404,-38155.711871
6,0.001,0.001,-4044157000.0,-63593.68987,-44686.8885
7,0.001001,0.000998,-3120509000.0,-55861.512673,-40587.679515
8,0.0,0.000999,-2599492000.0,-50985.21628,-40942.701576
9,0.001,0.001002,-1681673000.0,-41008.210336,-31677.735043


## Linear Regression 

e` buona cosa sempre iniziare con un rl cosi da vedere se e¬¥o non e` questa tipologia di dati

In [48]:
# ============================================
# Regressione Lineare con Scaling
# ============================================
# La regressione lineare cerca di trovare la migliore linea (o iperpiano)
# che passa attraverso i dati per fare predizioni

# Usiamo una Pipeline che concatena due passaggi:
# 1. StandardScaler: normalizza i dati (media=0, deviazione standard=1)
#    - Importante perch√© le features hanno scale diverse
# 2. LinearRegression: il modello di regressione lineare vero e proprio

lr = Pipeline([
    ('scale', StandardScaler()),     # Step 1: standardizza i dati
    ('lr', LinearRegression())       # Step 2: applica regressione lineare
])

# Eseguiamo cross-validation sulla regressione lineare
cv_results = cross_validate(lr, X_train, y_train, cv=kf, scoring=scoring)

# Convertiamo i risultati in DataFrame
cv_results_df = pd.DataFrame(cv_results)

# Mostriamo i risultati
cv_results_df


Unnamed: 0,fit_time,score_time,test_MSE,test_RMSE,test_MAE
0,0.005008,0.001993,-278569400.0,-16690.399023,-12698.890167
1,0.004998,0.002002,-420181500.0,-20498.32924,-14990.172162
2,0.004,0.001999,-385748000.0,-19640.467655,-13551.323635
3,0.005002,0.001999,-218299200.0,-14774.950768,-11651.987493
4,0.004999,0.001999,-326947000.0,-18081.67498,-13195.108167
5,0.005,0.002,-385622600.0,-19637.276634,-14031.600067
6,0.005,0.002,-599457800.0,-24483.827024,-17001.857712
7,0.003998,0.002002,-376903800.0,-19414.010368,-13938.825895
8,0.004002,0.002002,-155162800.0,-12456.435489,-9383.13922
9,0.003997,0.001997,-264151500.0,-16252.738825,-13104.999965


# Hyperparameter Tuning

 Find good hyperparameters for the tree-based methods and kNN.
 ‚Ä¢ Use 
 RandomizedSearchCV  and 
 GridSearchCV  from sklearn

### Hyperparameters for the tree-based RandomizedSearchCV

| **Iperparametro**          | **Tipo / Range consigliato per Randomized Search**                | **Descrizione**                                                                                                                                                                                                                                           |
| -------------------------- | ----------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `criterion`                | `["squared_error", "friedman_mse", "absolute_error", "poisson"]`  | Funzione per misurare la qualit√† di una suddivisione. <br>‚Ä¢ `squared_error`: minimizza MSE (default) <br>‚Ä¢ `friedman_mse`: ottimizzato per boosting <br>‚Ä¢ `absolute_error`: pi√π robusto ai valori anomali <br>‚Ä¢ `poisson`: per target positivi (conteggi) |
| `splitter`                 | `["best", "random"]`                                              | Strategia di divisione: <br>‚Ä¢ `best` sceglie la miglior soglia <br>‚Ä¢ `random` sceglie casualmente una soglia (utile per ridurre overfitting)                                                                                                              |
| `max_depth`                | `Integer` (es. `randint(2, 50)`)                                  | Profondit√† massima dell‚Äôalbero. Controlla la complessit√†. <br>‚Ä¢ Pi√π alto ‚Üí rischio overfitting <br>‚Ä¢ Pi√π basso ‚Üí rischio underfitting                                                                                                                     |
| `min_samples_split`        | `Integer` o `Float` (es. `uniform(0.01, 0.3)` o `randint(2, 20)`) | Numero minimo di campioni richiesti per dividere un nodo. <br>Valori pi√π alti rendono l‚Äôalbero pi√π semplice.                                                                                                                                              |
| `min_samples_leaf`         | `Integer` o `Float` (es. `uniform(0.01, 0.2)` o `randint(1, 10)`) | Numero minimo di campioni richiesti in una foglia. <br>Riduce l‚Äôoverfitting e impone foglie pi√π grandi.                                                                                                                                                   |
| `max_features`             | `["auto", "sqrt", "log2", None]` o `uniform(0.3, 1.0)`            | Numero di feature considerate per trovare la miglior divisione. <br>‚Ä¢ `None`: usa tutte le feature <br>‚Ä¢ `sqrt`, `log2`: randomizza il sottoinsieme delle feature                                                                                         |
| `max_leaf_nodes`           | `Integer` (es. `randint(10, 1000)` o `None`)                      | Numero massimo di foglie. <br>Limitandolo, si controlla la complessit√† del modello.                                                                                                                                                                       |
| `min_impurity_decrease`    | `Float` (es. `uniform(0.0, 0.02)`)                                | Una divisione viene fatta solo se riduce l‚Äôimpurit√† di almeno questo valore.                                                                                                                                                                              |
| `ccp_alpha`                | `Float` (es. `uniform(0.0, 0.05)`)                                | Parametro di pruning (Cost Complexity Pruning). <br>Pi√π alto ‚Üí potatura pi√π aggressiva ‚Üí modello pi√π semplice.                                                                                                                                            |
| `random_state`             | `Integer` o `None`                                                | Fissa la casualit√† per rendere i risultati riproducibili.                                                                                                                                                                                                 |
| `min_weight_fraction_leaf` | `Float` (es. `uniform(0.0, 0.5)`)                                 | Percentuale minima del peso totale dei campioni in una foglia. <br>Usato quando i dati hanno pesi.                                                                                                                                                        |


#### parametri miogliori per dati che tendono a RL

| Iperparametro           | Scelta/Range consigliato                                    | Perch√©                                                            |
| ----------------------- | ----------------------------------------------------------- | ----------------------------------------------------------------- |
| `criterion`             | `["squared_error", "absolute_error"]`                       | MSE per trend ‚Äúpuliti‚Äù; MAE se outlier.                           |
| `splitter`              | `["best"]` (eventuale `["best","random"]`)                  | Miglior soglia deterministica su singolo albero.                  |
| `max_depth`             | `randint(2, 8)`                                             | Basso ‚Üí forma quasi lineare (pochi scalini).                      |
| `min_samples_split`     | `uniform(0.02, 0.28)` *(fraz.)* **oppure** `randint(2, 20)` | Pi√π alto ‚Üí meno partizioni. Preferisco frazione per scalabilit√†.  |
| `min_samples_leaf`      | `uniform(0.02, 0.15)` *(frazione del dataset)*              | Foglie grandi ‚Üí funzione pi√π liscia.                              |
| `max_features`          | `[None, 0.7, 0.85, 1.0, "sqrt"]`                            | Se poche feature utili, None/1.0; includo 0.7‚Äì0.85 per sicurezza. |
| `max_leaf_nodes`        | `randint(6, 40)`                                            | Limita la complessit√†; con trend lineare bastano poche foglie.    |
| `min_impurity_decrease` | `uniform(0.0, 0.002)`                                       | Evita split con guadagno trascurabile.                            |
| `ccp_alpha`             | `uniform(0.0, 0.02)`                                        | Potatura cost-complexity leggera‚Äìmedia.                           |
| `random_state`          | fisso (es. `42`)                                            | Riproducibilit√†.                                                  |


In [49]:
# ============================================
# SEZIONE: Ottimizzazione Iperparametri Decision Tree (RandomizedSearchCV)
# ============================================
# RandomizedSearchCV cerca i migliori iperparametri provando combinazioni casuali
# √à pi√π veloce di GridSearchCV quando lo spazio di ricerca √® grande

import numpy as np
from scipy.stats import randint, uniform
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import RandomizedSearchCV

# Creiamo un Decision Tree base con parametri iniziali
dt = DecisionTreeRegressor(max_depth=3, random_state=42)

# Definiamo i range di iperparametri da esplorare
# Questi range sono ottimizzati per dati con trend tendenzialmente lineare
param_dist = {
    # Criterio per misurare la qualit√† di una divisione
    "criterion": ["squared_error", "absolute_error", "friedman_mse"],
    
    # Profondit√† massima dell'albero (None = nessun limite)
    # Valori bassi = pi√π regolarizzazione, meno overfitting
    "max_depth": [3, 4, 5, 10, None],
    
    # Numero minimo di campioni richiesti per essere una foglia
    # Valori pi√π alti = pi√π regolarizzazione
    "min_samples_leaf": [0.02, 0.03, 0.05, 1, 2, 5],
    
    # Numero minimo di campioni richiesti per dividere un nodo
    "min_samples_split": [0.05, 0.1, 0.15, 2, 5, 10, 20],
    
    # Numero massimo di foglie (None = nessun limite)
    "max_leaf_nodes": [8, 12, 16, 24, 32, None],
}

# Creiamo il RandomizedSearchCV
# IMPORTANTE: usiamo np.argmin perch√© vogliamo MINIMIZZARE il MAE
# (i punteggi sono negativi in sklearn, quindi il valore pi√π alto √® il migliore,
#  ma quando usiamo argmin cerchiamo direttamente il valore meno negativo = MAE pi√π basso)
dt_rscv = RandomizedSearchCV(
    dt,
    param_distributions=param_dist,
    scoring=scoring,              # Dizionario con metriche: {'MAE', 'MSE', 'RMSE'}
    n_iter=1000,                  # Numero di combinazioni casuali da provare
    return_train_score=True,      # Restituisce anche i punteggi sul training set
    refit=lambda cvres: np.argmin(cvres['mean_test_MAE']),  # Seleziona il modello con MAE minimo
    cv=kf,                        # Strategia di cross-validazione (KFold)
    verbose=1,                    # Mostra progressi durante l'esecuzione
    n_jobs=-1,                    # Usa tutti i core disponibili
    random_state=42,              # Per risultati riproducibili
)

# Addestriamo il modello con tutti i parametri da provare
dt_rscv.fit(X_train, y_train)

# Otteniamo i migliori parametri trovati
best_params = dt_rscv.best_params_

# Creiamo una tabella con i migliori iperparametri
best_params_table = pd.DataFrame(
    list(best_params.items()), 
    columns=['Hyperparameter', 'Best Value']
)

# Mostriamo la tabella con i risultati
print("Best RandomizedSearchCV Parameters:\n")
print(best_params_table.to_string(index=False))


Fitting 10 folds for each of 1000 candidates, totalling 10000 fits


Best RandomizedSearchCV Parameters:

   Hyperparameter   Best Value
min_samples_split            5
 min_samples_leaf            2
   max_leaf_nodes           32
        max_depth            3
        criterion friedman_mse


In [50]:
# ============================================
# Risultati del Miglior Decision Tree
# ============================================
# Mostriamo le prestazioni del miglior modello trovato da RandomizedSearchCV

# Otteniamo l'indice del miglior modello
best_idx = dt_rscv.best_index_

# Mostriamo i punteggi sul training set
print('Train RMSE:', dt_rscv.cv_results_['mean_train_RMSE'][best_idx])
print('Train MAE:', dt_rscv.cv_results_['mean_train_MAE'][best_idx])

# Mostriamo i punteggi sul test set (cross-validation)
print('Test RMSE:', dt_rscv.cv_results_['mean_test_RMSE'][best_idx])
print('Test MAE:', dt_rscv.cv_results_['mean_test_MAE'][best_idx])


Train RMSE: -23644.219474441907
Train MAE: -17843.829333078975
Test RMSE: -27647.424390215754
Test MAE: -20412.320375939853


### Hyperparameters for the tree-based GridSearchCV

### Hyperparameters for the kNN RandomizedSearchCV

### Hyperparameters for the kNN GridSearchCV

### Hyperparameters for the GradientBoostingRegressor RandomizedSearchCV

In [55]:
import numpy as np
import pandas as pd
from scipy.stats import randint, uniform, loguniform
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import KFold, RandomizedSearchCV
from sklearn.pipeline import Pipeline

# 1. CREA EL PIPELINE
pipe = Pipeline([
    ("gbr", GradientBoostingRegressor(random_state=42)),
])

# 2. DEFINE KFOLD
kf = KFold(n_splits=10, shuffle=True, random_state=42)

# 3. DEFINE LOS PAR√ÅMETROS (CON "gbr__" porque usas pipeline)
param_dist = {
    "gbr__loss": ["squared_error", "huber"],
    "gbr__learning_rate": loguniform(0.001, 0.3),
    "gbr__n_estimators": randint(150, 600),
    "gbr__subsample": uniform(0.6, 0.4),
    "gbr__criterion": ["friedman_mse", "squared_error"],
    "gbr__min_samples_split": uniform(0.02, 0.18),
    "gbr__min_samples_leaf": uniform(0.01, 0.09),
    "gbr__max_depth": randint(2, 5),
    "gbr__min_impurity_decrease": uniform(0.0, 0.002),
    "gbr__max_features": [None, 0.8, "sqrt"],
}

# 4. DEFINE SCORING
scoring = {
    "RMSE": "neg_root_mean_squared_error",
    "MAE": "neg_mean_absolute_error",
}

# 5. RANDOMIZEDSEARCHCV
gbr_rscv = RandomizedSearchCV(
    pipe,
    param_distributions=param_dist,
    scoring=scoring,
    n_iter=80,
    return_train_score=True,
    refit='MAE',
    cv=kf,
    verbose=1,
    n_jobs=-1,
    random_state=42,
)

# 6. ENTRENA
print("Entrenando... esto tardar√° unos 3-4 minutos")
gbr_rscv.fit(X_train, y_train)

# 7. RESULTADOS
print("\n‚úÖ Entrenamiento completado!")
print("Mejores par√°metros:", gbr_rscv.best_params_)
print("Mejor MAE:", -gbr_rscv.best_score_)

Entrenando... esto tardar√° unos 3-4 minutos
Fitting 10 folds for each of 80 candidates, totalling 800 fits

‚úÖ Entrenamiento completado!
Mejores par√°metros: {'gbr__criterion': 'friedman_mse', 'gbr__learning_rate': np.float64(0.038350904114546704), 'gbr__loss': 'squared_error', 'gbr__max_depth': 4, 'gbr__max_features': 'sqrt', 'gbr__min_impurity_decrease': np.float64(0.00027274295117353953), 'gbr__min_samples_leaf': np.float64(0.011309019910109373), 'gbr__min_samples_split': np.float64(0.08310576058518745), 'gbr__n_estimators': 247, 'gbr__subsample': np.float64(0.854657728648913)}
Mejor MAE: 9793.698413275766


Il codice SOTTO serve per identificare e mostrare i 5 modelli PEGGIORI NO migliori in base alla media di MAE (Mean Absolute Error) durante la ricerca randomizzata

In [None]:
# ============================================
# Visualizzazione dei 5 Migliori Modelli (Prima Versione)
# ============================================
# Questa cella mostra i 5 modelli con MAE pi√π basso dalla prima ricerca

# Ottieni gli indici dei 5 modelli con MAE pi√π basso
# argsort ordina i valori e restituisce gli indici
# [:5] prende solo i primi 5
best_indices = np.argsort(gbr_rscv.cv_results_['mean_test_MAE'])[:5]

# Cicla attraverso i 5 migliori modelli e mostra i risultati
print("Top 5 modelli con MAE pi√π basso:\n")
for rank, i in enumerate(best_indices, 1):
    mae = abs(gbr_rscv.cv_results_['mean_test_MAE'][i])
    print(f"Rank {rank}: MAE = {mae:.3f}")
    print("Parametri:", gbr_rscv.cv_results_['params'][i])
    print()


Top 5 modelli con MAE pi√π basso:

Rank 1: MAE = 32613.844
Parametri: {'gbr__criterion': 'squared_error', 'gbr__learning_rate': np.float64(0.001155571614655527), 'gbr__loss': 'squared_error', 'gbr__max_depth': 3, 'gbr__max_features': 'sqrt', 'gbr__min_impurity_decrease': np.float64(0.0008566289498802155), 'gbr__min_samples_leaf': np.float64(0.07196499106888297), 'gbr__min_samples_split': np.float64(0.030474847191519848), 'gbr__n_estimators': 271, 'gbr__subsample': np.float64(0.6625748170684344)}

Rank 2: MAE = 32590.615
Parametri: {'gbr__criterion': 'friedman_mse', 'gbr__learning_rate': np.float64(0.0010785962778329494), 'gbr__loss': 'squared_error', 'gbr__max_depth': 3, 'gbr__max_features': 0.8, 'gbr__min_impurity_decrease': np.float64(0.0007708330050798322), 'gbr__min_samples_leaf': np.float64(0.011436962699819277), 'gbr__min_samples_split': np.float64(0.061560888611986816), 'gbr__n_estimators': 241, 'gbr__subsample': np.float64(0.7760609974958406)}

Rank 3: MAE = 32115.313
Parametri

secondo round

In [54]:
import numpy as np
import pandas as pd
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error

# ‚ö†Ô∏è Prerequisiti: gbr_rscv √® gi√† fit-tato; X_train, X_test, y_train, y_test sono definiti.

# 1) Seleziona i 5 migliori in base a MAE (convertito in positivo)
cv_mae_neg = gbr_rscv.cv_results_['mean_test_MAE']
cv_rmse_neg = gbr_rscv.cv_results_.get('mean_test_RMSE', None)
cv_mae = -cv_mae_neg
cv_rmse = -cv_rmse_neg if cv_rmse_neg is not None else None

best_indices = np.argsort(cv_mae)[:5]

# 2) Allena ciascun modello e valuta su train/test
round2_rows = []
for rank, i in enumerate(best_indices, start=1):
    params = gbr_rscv.cv_results_['params'][i]
    
    # ‚úÖ LIMPIA I PARAMETRI (rimuovi "gbr__")
    clean_params = {k.replace('gbr__', ''): v for k, v in params.items() if k.startswith('gbr__')}

    # Modello Round 2 con gli iperparametri puliti
    model = GradientBoostingRegressor(random_state=42, **clean_params)
    model.fit(X_train, y_train)

    # Predizioni
    y_pred_tr = model.predict(X_train)
    y_pred_te = model.predict(X_test)

    # Calcola MAE e RMSE per il training e la validation
    mae_tr = mean_absolute_error(y_train, y_pred_tr)
    mae_te = mean_absolute_error(y_test, y_pred_te)
    rmse_tr = np.sqrt(mean_squared_error(y_train, y_pred_tr))
    rmse_te = np.sqrt(mean_squared_error(y_test, y_pred_te))

    row = {
        "Rank (by CV-MAE)": rank,
        "CV MAE (mean)": float(cv_mae[i]),
        **({"CV RMSE (mean)": float(cv_rmse[i])} if cv_rmse is not None else {}),
        "Train MAE": mae_tr,
        "Test MAE": mae_te,
        "Train RMSE": rmse_tr,
        "Test RMSE": rmse_te,
        "Params": clean_params  # ‚úÖ Usa i parametri puliti
    }
    round2_rows.append(row)

# 3) Tabella finale ordinata per Test MAE
round2_df = pd.DataFrame(round2_rows)
round2_df = round2_df.sort_values(by="Test MAE", ascending=True).reset_index(drop=True)

print("\nüîÅ Round 2 ‚Äî Top-5 da CV per MAE (valutati su Train/Test):\n")
pd.set_option('display.max_colwidth', None)
print(round2_df.to_string(index=False))

# (Opzionale) Modello migliore su Test MAE
best_round2_params = round2_df.iloc[0]["Params"]
best_round2_model = GradientBoostingRegressor(random_state=42, **best_round2_params).fit(X_train, y_train)


AttributeError: 'RandomizedSearchCV' object has no attribute 'cv_results_'

Pipeline

In [None]:
import numpy as np
from scipy.stats import randint, uniform, loguniform
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import RandomizedSearchCV

# Se hai solo feature numeriche, puoi usare preprocessor="passthrough"
# Qui mostro un setup tipico con numeriche + categoriche
numeric_features = X_train.select_dtypes(include=[np.number]).columns
categorical_features = X_train.select_dtypes(exclude=[np.number]).columns

preprocessor = ColumnTransformer(
    transformers=[
        ("num", StandardScaler(with_mean=False), numeric_features),   # scaling leggero (GBR non richiede scaling, ma non fa danni)
        ("cat", OneHotEncoder(handle_unknown="ignore"), categorical_features),
    ],
    remainder="drop"
)

pipe = Pipeline([
    ("pre", preprocessor),
    ("gbr", GradientBoostingRegressor(random_state=42)),
])

param_dist = {
    "gbr__loss": ["squared_error", "huber"],
    "gbr__learning_rate": loguniform(1e-3, 3e-1),
    "gbr__n_estimators": randint(150, 1201),
    "gbr__subsample": uniform(0.6, 0.4),       # 0.6‚Äì1.0
    "gbr__max_depth": randint(2, 5),           # 2‚Äì4
    "gbr__min_samples_split": uniform(0.02, 0.18),
    "gbr__min_samples_leaf": uniform(0.01, 0.09),
    "gbr__max_features": [None, 1.0, 0.8, "sqrt"],
    "gbr__criterion": ["friedman_mse", "squared_error"],
    "gbr__min_impurity_decrease": uniform(0.0, 0.002),
    "gbr__ccp_alpha": uniform(0.0, 0.01),
    # early-stopping interno del GBR
    "gbr__validation_fraction": uniform(0.1, 0.1),  # 0.10‚Äì0.20
    "gbr__n_iter_no_change": randint(5, 16),
    "gbr__tol": loguniform(1e-5, 1e-3),
}

# Consiglio: usa scorer ufficiali negativi e lascia a sklearn scegliere il migliore con refit="RMSE"
scoring = {
    "RMSE": "neg_root_mean_squared_error",
    "MAE": "neg_mean_absolute_error",
}

gbr_rscv = RandomizedSearchCV(
    pipe,
    param_distributions=param_dist,
    n_iter=80,            # compatto ma efficace
    cv=kf,
    scoring=scoring,
    refit="RMSE",         # migliore per RMSE (valori pi√π "alti" perch√© negativi ‚Üí migliore)
    n_jobs=-1,
    verbose=1,
    random_state=42,
    return_train_score=True,
)

gbr_rscv.fit(X_train, y_train)
print("Best params:", gbr_rscv.best_params_)


In [None]:
# ============================================
# Prestazioni del Miglior Modello
# ============================================
# Mostriamo le metriche del miglior modello GradientBoosting trovato

print(" Best GradientBoostingRegressor Performance:\n")

# Mostriamo i punteggi sul training set (valori negativi convertiti in positivi)
print("Train RMSE:", (-gbr_rscv.cv_results_['mean_train_RMSE'][gbr_rscv.best_index_]))
print("Train MAE:", (-gbr_rscv.cv_results_['mean_train_MAE'][gbr_rscv.best_index_]))

# Mostriamo i punteggi sul test set (cross-validation)
print("Test RMSE:", (-gbr_rscv.cv_results_['mean_test_RMSE'][gbr_rscv.best_index_]))
print("Test MAE:", (-gbr_rscv.cv_results_['mean_test_MAE'][gbr_rscv.best_index_]))


# Dopo correzione prof 

Ora sono i 5 positivi

In [None]:
# ============================================
# Visualizzazione dei 5 Migliori Risultati
# ============================================
# Dopo aver eseguito RandomizedSearchCV, vogliamo vedere i 5 migliori modelli
# trovati in base al Mean Absolute Error (MAE)

# IMPORTANTE: I punteggi MAE in cv_results_ sono gi√† NEGATIVI
# Quindi per trovare i 5 MAE pi√π bassi (migliori), cerchiamo i valori
# MENO negativi (pi√π vicini a zero), che sono i valori pi√π ALTI
# argsort ordina dal pi√π piccolo al pi√π grande, quindi prendiamo gli ultimi 5

# Ottieni gli indici dei 5 migliori modelli (MAE pi√π basso = valore meno negativo)
# Non usiamo il segno meno perch√© i valori sono gi√† negativi
best_indices = np.argsort(gbr_rscv.cv_results_['mean_test_MAE'])[:5]

# Mostra i 5 migliori risultati con MAE positivo (pi√π facile da leggere)
print("Top 5 migliori combinazioni per MAE:\n")
for i in best_indices:
    # Prendiamo il valore assoluto per mostrare MAE come numero positivo
    mae = abs(gbr_rscv.cv_results_['mean_test_MAE'][i])
    print(f"Rank {i}: MAE = {mae:.3f}")
    print("Hyperparams:", gbr_rscv.cv_results_['params'][i])
    print()


secondo round

In [None]:
import numpy as np
import pandas as pd
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error

# ‚ö†Ô∏è Prerequisiti: gbr_rscv √® gi√† fit-tato; X_train, X_test, y_train, y_test, kf definiti.

# 1) Prendi i 5 migliori in base a MAE di CV (positivo)
cv_mae_neg = gbr_rscv.cv_results_['mean_test_MAE']              # negativo
cv_rmse_neg = gbr_rscv.cv_results_.get('mean_test_RMSE', None)  # negativo (se presente)

cv_mae = -cv_mae_neg
cv_rmse = -cv_rmse_neg if cv_rmse_neg is not None else None

best_indices = np.argsort(cv_mae)[:5]  # MAE pi√π piccolo ‚Üí migliore

# 2) Refit dei 5 migliori e valutazione su Train/Test
rows = []
for rank, i in enumerate(best_indices, start=1):
    params = gbr_rscv.cv_results_['params'][i]

    model = GradientBoostingRegressor(random_state=42, **params)
    model.fit(X_train, y_train)

    y_pred_tr = model.predict(X_train)
    y_pred_te = model.predict(X_test)

    mae_tr = mean_absolute_error(y_train, y_pred_tr)
    mae_te = mean_absolute_error(y_test,  y_pred_te)
    rmse_tr = np.sqrt(mean_squared_error(y_train, y_pred_tr))
    rmse_te = np.sqrt(mean_squared_error(y_test,  y_pred_te))

    row = {
        "Rank by CV-MAE": rank,
        "CV MAE (mean)": float(cv_mae[i]),
        **({"CV RMSE (mean)": float(cv_rmse[i])} if cv_rmse is not None else {}),
        "Train MAE": mae_tr,
        "Test MAE":  mae_te,
        "Train RMSE": rmse_tr,
        "Test RMSE":  rmse_te,
        "Params": params
    }
    rows.append(row)

# 3) Tabella finale ordinata per Test MAE (migliore in alto)
df_round2 = pd.DataFrame(rows).sort_values(by="Test MAE", ascending=True).reset_index(drop=True)

print("\nüîÅ Round 2 ‚Äî Top-5 (refit con stessi iperparametri, metriche positive):\n")
pd.set_option('display.max_colwidth', None)
print(df_round2.to_string(index=False))

# (Opzionale) prendi il migliore del Round 2 e tienilo pronto
best_params_r2 = df_round2.iloc[0]["Params"]
best_model_r2 = GradientBoostingRegressor(random_state=42, **best_params_r2).fit(X_train, y_train)


pipeline

In [None]:
import numpy as np
import pandas as pd
from scipy.stats import randint, uniform, loguniform
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import RandomizedSearchCV

# Se hai solo feature numeriche, puoi usare preprocessor="passthrough"
numeric_features = X_train.select_dtypes(include=[np.number]).columns
categorical_features = X_train.select_dtypes(exclude=[np.number]).columns

preprocessor = ColumnTransformer(
    transformers=[
        ("num", StandardScaler(with_mean=False), numeric_features),  # ok con OHE (sparse)
        ("cat", OneHotEncoder(handle_unknown="ignore"), categorical_features),
    ],
    remainder="drop"
)

pipe = Pipeline([
    ("pre", preprocessor),
    ("gbr", GradientBoostingRegressor(random_state=42)),
])

param_dist = {
    "gbr__loss": ["squared_error", "huber"],
    "gbr__learning_rate": loguniform(1e-3, 3e-1),
    "gbr__n_estimators": randint(150, 1201),
    "gbr__subsample": uniform(0.6, 0.4),       # 0.6‚Äì1.0
    "gbr__max_depth": randint(2, 5),           # 2‚Äì4
    "gbr__min_samples_split": uniform(0.02, 0.18),
    "gbr__min_samples_leaf": uniform(0.01, 0.09),
    "gbr__max_features": [None, 1.0, 0.8, "sqrt"],
    "gbr__criterion": ["friedman_mse", "squared_error"],
    "gbr__min_impurity_decrease": uniform(0.0, 0.002),
    "gbr__ccp_alpha": uniform(0.0, 0.01),
    # early-stopping interno del GBR
    "gbr__validation_fraction": uniform(0.1, 0.1),  # 0.10‚Äì0.20
    "gbr__n_iter_no_change": randint(5, 16),
    "gbr__tol": loguniform(1e-5, 1e-3),
}

# Usiamo gli scorer "neg_*" standard, ma poi li mostriamo in positivo
scoring = {
    "RMSE": "neg_root_mean_squared_error",
    "MAE": "neg_mean_absolute_error",
}

gbr_rscv = RandomizedSearchCV(
    pipe,
    param_distributions=param_dist,
    n_iter=80,
    cv=kf,                 # il tuo KFold
    scoring=scoring,
    refit="RMSE",
    n_jobs=-1,
    verbose=1,
    random_state=42,
    return_train_score=True,
)

gbr_rscv.fit(X_train, y_train)

# ------------------------------
# Report in POSITIVO (senza cambiare la logica del search)
# ------------------------------
print("\nBest params:", gbr_rscv.best_params_)

idx = gbr_rscv.best_index_
train_rmse = abs(gbr_rscv.cv_results_['mean_train_RMSE'][idx])
val_rmse   = abs(gbr_rscv.cv_results_['mean_test_RMSE'][idx])
train_mae  = abs(gbr_rscv.cv_results_['mean_train_MAE'][idx])
val_mae    = abs(gbr_rscv.cv_results_['mean_test_MAE'][idx])

metrics_table = pd.DataFrame({
    'Metric': ['RMSE', 'MAE'],
    'Train': [round(train_rmse, 4), round(train_mae, 4)],
    'Validation': [round(val_rmse, 4), round(val_mae, 4)],
})
metrics_table['Difference'] = (metrics_table['Validation'] - metrics_table['Train']).round(4)
metrics_table['% Diff'] = ((metrics_table['Difference'] / metrics_table['Train']) * 100).round(2)

print("\nModel Performance Summary (positive values):\n")
print(metrics_table.to_string(index=False))

# ------------------------------
# (Opzionale) Top-5 per MAE (positivi) dalla CV
# ------------------------------
cv_mae_pos = -gbr_rscv.cv_results_['mean_test_MAE']
top5_idx = np.argsort(cv_mae_pos)[:5]  # MAE pi√π piccolo ‚Üí migliore

print("\nTop-5 by CV MAE (positive):\n")
for i in top5_idx:
    mae = cv_mae_pos[i]
    rmse = -gbr_rscv.cv_results_['mean_test_RMSE'][i]
    print(f"MAE={mae:.4f} | RMSE={rmse:.4f} | params={gbr_rscv.cv_results_['params'][i]}")


In [None]:
# ============================================
# Prestazioni del Modello (Valori Positivi)
# ============================================
# Visualizziamo le stesse metriche ma con valori positivi per maggiore chiarezza

print("\n--- Model Performance (positive values) ---\n")

# Convertiamo i valori negativi in positivi per renderli pi√π leggibili
print('Train RMSE:', (-gbr_rscv.cv_results_['mean_train_RMSE'][gbr_rscv.best_index_]))
print('Train MAE:', (-gbr_rscv.cv_results_['mean_train_MAE'][gbr_rscv.best_index_]))
print('Test RMSE:', (-gbr_rscv.cv_results_['mean_test_RMSE'][gbr_rscv.best_index_]))
print('Test MAE:', (-gbr_rscv.cv_results_['mean_test_MAE'][gbr_rscv.best_index_]))


In [None]:
# Visualizziamo il DataFrame di leaderboard prima della pulizia
# Questo mostra ancora tutte le colonne originali
leaderboard_test_df


In [None]:
# ============================================
# Preparazione Dati per Predizione Finale
# ============================================
# Prima di fare le predizioni sul set di leaderboard, dobbiamo rimuovere
# le colonne che non sono features (caratteristiche) utilizzabili dal modello

# Rimuoviamo le colonne non necessarie:
# - 'Split': indica solo se il dato era training o test
# - 'Id': identificatore univoco, non utile per la predizione
# - 'SalePrice': il target (che per il leaderboard non conosciamo)
# 
# NOTA: quando usiamo 'columns=', non serve specificare 'axis=1'
# perch√© √® gi√† implicito che stiamo eliminando colonne
leaderboard_test_df = leaderboard_test_df.drop(columns=['Split', 'Id', 'SalePrice'])

# Visualizziamo il DataFrame risultante
leaderboard_test_df


In [None]:
# Visualizziamo il miglior modello (estimator) trovato da RandomizedSearchCV
# Questo mostra i parametri finali del modello migliore
gbr_rscv.best_estimator_


In [None]:
# ============================================
# Predizione Finale sul Set di Leaderboard
# ============================================
# Ora che abbiamo trovato il miglior modello tramite RandomizedSearchCV,
# lo usiamo per fare le predizioni sul set di leaderboard

# Usiamo il miglior estimatore (modello) trovato da RandomizedSearchCV
# best_estimator_ contiene il modello gi√† addestrato con i migliori iperparametri
# predict() fa le predizioni sulle nuove case (leaderboard_test_df)
predizione = gbr_rscv.best_estimator_.predict(leaderboard_test_df)


In [None]:
# Visualizziamo l'array con tutte le predizioni
# Questo ci mostra i prezzi predetti per ogni casa nel set di leaderboard
predizione


In [None]:
# ============================================
# Anteprima delle Prime Predizioni
# ============================================
# Visualizziamo le prime 10 predizioni per verificare che siano sensate

# Mostriamo i primi 10 valori predetti
# Questo ci aiuta a controllare che i prezzi siano realistici
print("Prime 10 predizioni:")
print(predizione[:10])


In [None]:
# Visualizziamo il DataFrame di leaderboard dopo la pulizia
# Ora contiene solo le features utilizzabili per la predizione
leaderboard_test_df


In [None]:
# ============================================
# Creazione del File di Submission
# ============================================
# Creiamo un DataFrame con gli ID e le predizioni per la submission finale

# IMPORTANTE: range(795, 993) genera gli ID da 795 a 992
# Questo range √® specifico per questo dataset e NON deve essere modificato
# Creiamo un DataFrame con:
# - 'id': gli identificatori delle case (da 795 a 992)
# - 'prediction': i prezzi predetti dal nostro modello
last_pred = pd.DataFrame({
    'id': range(795, 993), 
    'prediction': predizione
})

# Mostriamo le prime righe del DataFrame di submission
last_pred.head()


In [None]:
# ============================================
# Salvataggio del File di Submission
# ============================================
# Salviamo le predizioni in un file CSV per la submission finale

# index=False: non salvare l'indice del DataFrame (solo id e prediction)
# Questo crea il file 'submission.csv' nella cartella corrente
last_pred.to_csv('submission.csv', index=False)

print("‚úì File 'submission.csv' creato con successo!")
print(f"  Contiene {len(last_pred)} predizioni")
