# Parte 1 — Age Regression con MLP “from scratch” + SciPy

Obiettivo: minimizzare
E(ω) = (1/N) Σ_i (y_i - ŷ_i)^2 + λ Σ_l ||W^(l)||^2
senza strumenti di automatic differentiation. L’ottimizzazione è full‑batch con SciPy (L‑BFGS‑B).

Perché questa scelta:
- L‑BFGS‑B è efficiente per problemi con numero di parametri medio‑grande e loss liscia (tanh/sigmoid); funziona bene in full‑batch.
- Backprop manuale: calcoliamo i gradienti analitici di MSE + L2 su pesi (niente autograd).
- Standardizzazione X e (opzionale) y riducono malcondizionamento, favorendo convergenza.
- K‑fold CV per selezionare L (2..4), width, λ e activation (tanh/relu), con metrica MAPE media sui fold (come richiesto dal testo per il tracciamento delle performance).

Architettura:
- Input: vettori di feature (ResNet) da `AGE_REGRESSION.csv`.
- Hidden: L-1 strati con stessa width (hyperparam). Attivazioni: `tanh` o `relu` (derivate incluse).
- Output: 1 neurone lineare (regressione).
- Inizializzazione: Xavier per tanh/sigmoid, He per ReLU.

Forward:
- z_l = a_{l-1} W_l + b_l
- a_l = φ(z_l) per hidden, a_L = z_L (lineare)

Loss:
- data_loss = mean((ŷ - y)^2)
- reg_loss = λ Σ ||W_l||^2 (no bias)
- totale = data_loss + reg_loss

Backward:
- δ_L = dE/dyhat = 2/N (ŷ - y)
- δ_l = (δ_{l+1} W_{l+1}^T) ⊙ φ'(z_l)
- ∂E/∂W_l = a_{l-1}^T δ_l + 2λ W_l
- ∂E/∂b_l = Σ_n δ_l

Ottimizzazione:
- SciPy `minimize(..., method="L-BFGS-B", jac=True)` con callback che salva objective e norma del gradiente (grafico `train_history.png`).
- Convergenza controllata da `gtol`.

Cross‑Validation:
- `kfold_indices` semplice con shuffle (seed fisso).
- Grid su {L, width, λ, activation}; per ogni combinazione si addestra su K-1 fold e si valuta su 1 fold; media MAPE valida il best setting.
- Salviamo `cv_results.json` e un bar‑plot ordinato (`cv_results.png`).

Metriche:
- MSE e MAPE (%) con epsilon sul denominatore per gestire target 0.

Output “catchy”:
- `train_history.png`: andamento objective e ||grad|| (aiuta a raccontare l’ottimizzazione).
- `scatter_train.png` e `scatter_test.png`: Predetto vs Vero con bisettrice.
- `cv_results.png`: confronto immediato degli iperparametri.

Riproducibilità:
- Seed globale su splits, inizializzazioni e CV.

Come lanciare:
```bash
pip install -r requirements.txt
python scripts/train_mlp_age_regression.py --data ./AGE_REGRESSION.csv --k 5 --test-size 0.2 --seed 42 --scale-y
```
Flag utili:
- `--L 2 3 4` `--width 64 128 256` `--l2 0.0 0.0001 0.001 0.01` `--activation tanh relu`
- `--max-iter 800` `--tol 1e-6`

Note pratiche:
- `relu` è veloce ma non liscia in 0; per L‑BFGS di solito `tanh` converge più regolare. La grid decide.
- `--scale-y` spesso migliora la stabilità numerica; per la MAPE riportiamo sempre nella scala originale (inverse transform).
- MAPE penalizza molto errori relativi con età piccole; l’epsilon evita divisioni per zero ma va menzionato nel report.

Estensioni immediate:
- Early‑stopping non è standard con L‑BFGS; si può basare su valid MAPE e salvare il best theta per fold.
- Width per layer non tutti uguali: generalizzabile aggiungendo un parser “128x64x32”.
- Aggiungere gradient‑check a campione (finite differences) per debugging nel report.

In [1]:

import numpy as np
import pandas as pd
import json

CSV_PATH = "AGE_PREDICTION.csv"  # modificare se necessario

def load_csv_auto(path: str) -> pd.DataFrame:
    df = pd.read_csv(path)
    # Coerce numerico (stringhe -> NaN)
    for c in df.columns:
        df[c] = pd.to_numeric(df[c], errors="coerce")
    return df

def detect_target_column(df: pd.DataFrame) -> str:
    return "gt" if "gt" in df.columns else df.columns[-1]

def audit_dataframe(df: pd.DataFrame, target_col: str) -> dict:
    n, d = df.shape
    y = df[target_col].to_numpy(dtype=float)
    nan_total = int(df.isna().sum().sum())
    inf_total = int(np.isinf(df.to_numpy(dtype=float)).sum())
    dup_rows = int(df.duplicated().sum())
    y_min = float(np.nanmin(y)) if n > 0 else float("nan")
    y_max = float(np.nanmax(y)) if n > 0 else float("nan")
    out_of_range = int(np.sum((y < 0) | (y > 100)))
    zero_var_features = [c for c in df.columns if c != target_col and df[c].std(skipna=True) == 0]
    summary = {
        "rows": n, "cols": d,
        "nan_total": nan_total,
        "inf_total": inf_total,
        "duplicated_rows": dup_rows,
        "y_min": y_min, "y_max": y_max,
        "y_out_of_[0,100]": out_of_range,
        "zero_var_features": zero_var_features,
    }
    print("AUDIT:", json.dumps(summary, indent=2))
    return summary

def clean_dataframe(df: pd.DataFrame, target_col: str, impute: bool = True) -> tuple[pd.DataFrame, dict]:
    log: dict = {}
    # Inf -> NaN
    df = df.replace([np.inf, -np.inf], np.nan)
    # Drop righe con y NaN o fuori range [0,100]
    before = len(df)
    df = df[df[target_col].notna()]
    df = df[(df[target_col] >= 0) & (df[target_col] <= 100)]
    log["rows_removed_invalid_y"] = int(before - len(df))
    # Imputazione feature NaN con mediana (robusta, veloce)
    feat_cols = [c for c in df.columns if c != target_col]
    if impute:
        med = df[feat_cols].median()
        df[feat_cols] = df[feat_cols].fillna(med)
        log["imputation"] = "median_per_feature"
    else:
        before = len(df)
        df = df.dropna(subset=feat_cols)
        log["rows_removed_nan_features"] = int(before - len(df))
        log["imputation"] = "none_drop_rows"
    # Drop duplicati esatti
    before = len(df)
    df = df.drop_duplicates()
    log["duplicates_removed"] = int(before - len(df))
    # Drop feature a varianza zero
    zero_var = [c for c in feat_cols if df[c].std(skipna=True) == 0]
    if zero_var:
        df = df.drop(columns=zero_var)
    log["zero_var_features_dropped"] = zero_var
    # Report colonne usate
    log["feature_cols_kept"] = [c for c in df.columns if c != target_col]
    return df.reset_index(drop=True), log

# ---- Esecuzione: load -> audit -> clean -> audit ----
df_raw = load_csv_auto(CSV_PATH)
target_col = detect_target_column(df_raw)
print(f"Target column: {target_col}")

audit_before = audit_dataframe(df_raw, target_col)
df_clean, clean_log = clean_dataframe(df_raw, target_col, impute=True)
audit_after = audit_dataframe(df_clean, target_col)

print("CLEANING_LOG:", json.dumps(clean_log, indent=2))

# ---- Output numpy arrays ----
y = df_clean[target_col].to_numpy(dtype=float)
X = df_clean.drop(columns=[target_col]).to_numpy(dtype=float)
n, d = X.shape
print(f"Dati puliti pronti: N={n}, D={d}")

# X, y, df_clean, audit_before, audit_after, clean_log

Target column: gt
AUDIT: {
  "rows": 20475,
  "cols": 33,
  "nan_total": 0,
  "inf_total": 0,
  "duplicated_rows": 169,
  "y_min": 10.0,
  "y_max": 89.0,
  "y_out_of_[0,100]": 0,
  "zero_var_features": []
}
AUDIT: {
  "rows": 20306,
  "cols": 33,
  "nan_total": 0,
  "inf_total": 0,
  "duplicated_rows": 0,
  "y_min": 10.0,
  "y_max": 89.0,
  "y_out_of_[0,100]": 0,
  "zero_var_features": []
}
CLEANING_LOG: {
  "rows_removed_invalid_y": 0,
  "imputation": "median_per_feature",
  "duplicates_removed": 169,
  "zero_var_features_dropped": [],
  "feature_cols_kept": [
    "feat_1",
    "feat_2",
    "feat_3",
    "feat_4",
    "feat_5",
    "feat_6",
    "feat_7",
    "feat_8",
    "feat_9",
    "feat_10",
    "feat_11",
    "feat_12",
    "feat_13",
    "feat_14",
    "feat_15",
    "feat_16",
    "feat_17",
    "feat_18",
    "feat_19",
    "feat_20",
    "feat_21",
    "feat_22",
    "feat_23",
    "feat_24",
    "feat_25",
    "feat_26",
    "feat_27",
    "feat_28",
    "feat_29",
    "f

In [3]:
# Assicurati che la root che contiene 'dataset/' sia nel sys.path (in genere già vero in Jupyter)
import sys, os
root = os.getcwd()  # cartella del notebook; deve contenere la cartella 'dataset'
if root not in sys.path:
    sys.path.insert(0, root)

# Ora importa dai TUOI moduli ma con il prefisso del package
from dataset.data import load_age_regression_csv, StandardScaler, ScalarStandardizer, train_test_split
from dataset.model import MLPRegressor
from dataset.cv import grid_search_cv, build_hidden_layers
from dataset.metrics import mse, mape
from dataset.plotting import plot_training_history, plot_scatter_pred_vs_true, plot_cv_bars

print("Import OK")

ModuleNotFoundError: No module named 'dataset'