# üß™ Standardizzazione delle Feature con Grafici  
Questo notebook mostra un workflow completo di Machine Learning:

1. Caricamento del dataset  
2. Analisi esplorativa  
3. Train/Test split  
4. Standardizzazione con StandardScaler  
5. Visualizzazione delle distribuzioni prima/dopo lo scaling  
6. Addestramento di un modello  
7. Valutazione  

Il dataset usato √® `dataset.csv`, con tre feature numeriche e un target binario.

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

sns.set(style="whitegrid")

## üì• Caricamento del dataset
Carichiamo `dataset.csv` e visualizziamo le prime righe.

In [7]:
df = pd.read_csv("dataset.csv")
df.head()

FileNotFoundError: [Errno 2] No such file or directory: 'dataset.csv'

## üîç Analisi esplorativa iniziale
Osserviamo la distribuzione delle feature prima dello scaling.

In [None]:
df.hist(figsize=(10, 4), bins=8)
plt.suptitle("Distribuzione delle feature (prima dello scaling)")
plt.show()

## ‚úÇÔ∏è Separazione Feature / Target

In [None]:
X = df.drop("target", axis=1)
y = df["target"]

X.head()

## üîÄ Train/Test Split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

X_train.shape, X_test.shape

## üìè Standardizzazione delle feature
Applichiamo StandardScaler:
- `fit` sul train  
- `transform` su train e test  

In [None]:
scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("Mean:", scaler.mean_)
print("Std:", scaler.scale_)

## üìä Distribuzione delle feature dopo lo scaling
Convertiamo i dati scalati in DataFrame per visualizzarli.

In [None]:
df_scaled = pd.DataFrame(X_train_scaled, columns=X.columns)

df_scaled.hist(figsize=(10, 4), bins=8)
plt.suptitle("Distribuzione delle feature (dopo lo scaling)")
plt.show()

## üì¶ Confronto visivo prima/dopo lo scaling
Boxplot per evidenziare la normalizzazione delle scale.

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

sns.boxplot(data=X_train, ax=axes[0])
axes[0].set_title("Prima dello scaling")

sns.boxplot(data=df_scaled, ax=axes[1])
axes[1].set_title("Dopo lo scaling")

plt.show()

## ü§ñ Addestramento del modello
Usiamo una Logistic Regression come esempio.

In [None]:
model = LogisticRegression()
model.fit(X_train_scaled, y_train)

y_pred = model.predict(X_test_scaled)

## üßÆ Valutazione del modello

In [None]:
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.3f}")

# ‚úÖ Conclusioni

- Le feature sono state standardizzate correttamente.  
- I grafici mostrano chiaramente la differenza prima/dopo lo scaling.  
- Il modello √® stato addestrato senza leakage.  
- Workflow completo e didattico, perfetto per esercitazioni.  

Puoi ora:
- aggiungere nuove feature  
- provare altri modelli  
- integrare una Pipeline sklearn  
- salvare lo scaler per la produzione  