# 📊 Regressione Lineare con il Dataset delle Altezze

In questo notebook esploreremo un dataset contenente l'altezza dei padri (`fheight`) e dei figli (`sheight`), con l'obiettivo di costruire un modello di regressione lineare per prevedere l'altezza del figlio conoscendo quella del padre.

---

## Obiettivo

Guidarti passo dopo passo attraverso il ciclo di vita di un progetto di *Machine Learning supervisionato*, includendo:
- Esplorazione dei dati
- Preprocessing
- Addestramento del modello
- Valutazione
- Visualizzazione dei risultati


## 🔍 1. Esplorazione del dataset

### ✏️ Esercizio 1.1
Carica il dataset `pearson_dataset.csv` e stampa le prime 5 righe per esplorare la struttura dei dati.


In [None]:
# Qui faccio l'esercizio 1.1

import pandas as pd 

dataframe = pd.read_csv("pearson_dataset.csv")

dataframe.head()


: 

### ✏️ Esercizio 1.2
Calcola media, mediana e deviazione standard delle due colonne `fheight` e `sheight`.


In [None]:
# Qui esercizio 1.


fheight = dataframe[["fheight"]]
sheight = dataframe[["sheight"]]


mediana_f = fheight.median()
media_f = fheight.mean()
mediana_s = sheight.median()
media_s = sheight.mean()
std_f = fheight.std()
std_s = sheight.std()


print("Media altezza genitori:\n", media_f[0])
print("Mediana altezza genitori:\n", mediana_f[0])
print("Media altezza figli:\n", media_s[0])
print("Mediana altezza figli:\n", mediana_s[0])
print("Deviazione standard genitori:\n", std_f[0])
print("Deviazione standard figli:\n", std_s[0])

: 

### ✏️ Esercizio 1.3
Invoca la funzione per disegnare uno scatterplot con `fheight` sull'asse X e `sheight` sull'asse Y per visualizzare la relazione tra le due variabili.




In [None]:
import matplotlib.pyplot as plt

def plot_scatter(df, x_col, y_col, x_label=None, y_label=None, title=None):
    """
    Crea uno scatter plot generico tra due colonne di un DataFrame.

    Parametri:
    - df: pandas DataFrame contenente i dati
    - x_col: nome della colonna da usare sull'asse X
    - y_col: nome della colonna da usare sull'asse Y
    - x_label: etichetta asse X (opzionale)
    - y_label: etichetta asse Y (opzionale)
    - title: titolo del grafico (opzionale)
    """
    plt.figure(figsize=(8, 5))
    plt.scatter(df[x_col], df[y_col], alpha=0.7)
    plt.xlabel(x_label if x_label else x_col)
    plt.ylabel(y_label if y_label else y_col)
    plt.title(title if title else f"{y_col} vs {x_col}")
    plt.grid(True)
    plt.show()

# Esempio d'uso
plot_scatter(dataframe, "fheight", "sheight", "Altezza del padre", "Altezza del figlio", "Relazione tra altezze")

## 🧹 2. Preprocessing dei dati

### ✏️ Esercizio 2.1
Verifica se ci sono valori nulli nel dataset.


In [None]:
# Esercizio 2.1
dataframe = pd.read_csv("pearson_dataset.csv")
plt.figure(figsize=(8,6))
plt.boxplot(dataframe.values, vert=False, patch_artist=True)

# Aggiungiamo le etichette delle colonne 
plt.yticks(range(1,len(dataframe.columns)+1),dataframe.columns)

#Titolo e griglia 
plt.title("Box Plot Orizzontale delle Colonne")
plt.grid(axis="x",linestyle="--", alpha=0.7)

#mostriamo il plot 
plt.show()

# Spiegazione Boxplot

### ✏️ Esercizio 2.2
Standardizza o normalizza i dati (opzionale) per sperimentare come cambiano i risultati.


In [None]:
# Esercizio 2.2
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(dataframe)
print(scaler.data_min_)
print(scaler.data_max_)
numpy_array = scaler.transform(dataframe)
dataframe_scaled = pd.DataFrame(numpy_array, columns = dataframe.columns)
dataframe_scaled.head()
dataframe_scaled.plot.kde()
plt.figure(figsize=(8,6))
plt.boxplot(dataframe_scaled.values, vert=False, patch_artist=True)
plt.yticks(range(1,len(dataframe_scaled.columns) + 1), dataframe_scaled.columns)
plt.title("Box Plot Orizzontale delle Colonne")
plt.grid(axis="x", linestyle="--" , alpha=0.7)
plt.show()

: 

: 

: 

: 

: 

## 🤖 3. Creazione del modello

### ✏️ Esercizio 3.1
Dividi il dataset in un training set (80%) e un test set (20%).


In [None]:
# Esercizio 3.1
# 1 - carichiamo i dataset
# 2 - splittiamo dati di train e di test
# 3 - facciamo il preprocessing
#  3a -> facciamo la fit sui dati di train 
#  3b -> facciamo la transform sui dati di test e di train
# 4 - creiamo il modello di regressione lineare 
# 5 - fit(addestriamo il modello)
# 6 - facciamo la fase di test (calcolare l'mse sui dati di test)

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, root_mean_squared_error

#train_test_split mi restituisce 4 variabili: x_train, x_test, y_train, t_test purchè io gli passi come argomenti i dati di input e i dati di output

x = dataframe.drop(columns=['sheight']) #in X ci sarà solo la colonna dell'altezza dei padri
y = dataframe['sheight'] # in y ci sarà la nostra colonna target

x_train,x_test,y_train, y_test = train_test_split(x,y,test_size = 0.2)

print(x_train.shape)
print(x_test.shape)

#Normalizzazione dei dati
scaler = MinMaxScaler()
scaler.fit(x_train)
x_train = scaler.transform(x_train)
x_test = scaler.transform(x_test)

model = LinearRegression()
model.fit(x_train,y_train)

print("Intercetta", model.intercept_)
print("Coefficente angolare", model.coef_)

# Fase di test
y_pred = predictions = model.predict(x_test)
mse = root_mean_squared_error(y_test,y_pred)
print(mse)

### ✏️ Esercizio 3.2
Allena un modello di regressione lineare usando i dati di training.


In [None]:
# Esercizio 3.2
import numpy as np
x_plot = np.linspace(dataframe['fheight'].min(),dataframe['fheight'].max(),100).reshape(-1,1) # partendo
# da una lista monodimensionale, crea un vettore colonna in cui la dimensione II colonna è 1 e la I 100
y_plot = model.predict(x_plot)
print(x.shape)

def plot_scatter_with_line(dataframe,x_col,y_col,model,x_label=None,y_label=None,title=None):
    plt.figure(figsize=(8,5))
    plt.scatter(dataframe[x_col], dataframe_col[y_col], alpha=0.7)
    plt.plot(x_plot,y_plot,color="red", label="Retta di regressione")
    plt.xlabel(x_label if x_label else x_col)
    plt.xlabel(y_label if y_label else y_col)
    plt.title(title if title else f"{y_col} vs {x_col}")
    plt.savefig("retta.png")
    plt.grid(True)
    plt.show()
plot_scatter_with_line(dataframe,"fheight","sheight",model,"Altezza del padre", "Altezza del figlio", "Relazione tra altezze")

### ✏️ Esercizio 3.3
Visualizza la retta di regressione sopra il grafico scatter.

👇 Ti diamo qui un esempio di funzione da utilizzare per questo tipo di visualizzazione:


In [None]:
import matplotlib.pyplot as plt
import numpy as np

def plot_regression_line(x, y, model):
    plt.figure(figsize=(8, 5))
    plt.scatter(x, y, color='blue', label='Dati reali')
    predicted = model.predict(np.array(x).reshape(-1, 1))
    plt.plot(x, predicted, color='red', label='Retta di regressione')
    plt.xlabel("Altezza del padre (fheight)")
    plt.ylabel("Altezza del figlio (sheight)")
    plt.title("Regressione Lineare")
    plt.legend()
    plt.grid(True)
    plt.show()

: 

## 📏 4. Valutazione del modello

### ✏️ Esercizio 4.1
Calcola l’MSE (Mean Squared Error) e R² sul test set per valutare le performance del modello.


In [None]:
# Esercizio 4.1

### ✏️ Esercizio 4.2
Usa il modello per prevedere l’altezza di un figlio dato un valore ipotetico di altezza del padre (es. 70 pollici).


In [None]:
# Esercizio 4.2

## 🚀 5. Pezzi finali

### ✏️ Esercizio 5.1
Aggiungi del rumore casuale ai dati e osserva come cambiano i risultati della regressione.


In [None]:
# Esercizio 5.1

### ✏️ Esercizio 5.2
Crea una funzione che prende in input l’altezza del padre da tastiera e restituisce la previsione dell’altezza del figlio.


In [None]:
# Esercizio 5.2