# 📊 Regressione Lineare con il Dataset delle Altezze

In questo notebook esploreremo un dataset contenente l'altezza dei padri (`fheight`) e dei figli (`sheight`), con l'obiettivo di costruire un modello di regressione lineare per prevedere l'altezza del figlio conoscendo quella del padre.

---

## Obiettivo

Guidarti passo dopo passo attraverso il ciclo di vita di un progetto di *Machine Learning supervisionato*, includendo:
- Esplorazione dei dati
- Preprocessing
- Addestramento del modello
- Valutazione
- Visualizzazione dei risultati


## 🔍 1. Esplorazione del dataset

### ✏️ Esercizio 1.1
Carica il dataset `pearson_dataset.csv` e stampa le prime 5 righe per esplorare la struttura dei dati.


In [16]:
# Qui faccio l'esercizio 1.1
import pandas as pd
import matplotlib.pyplot as plt

dataframe = pd.read_csv("pearson_dataset.csv")
dataframe.head()

Unnamed: 0,fheight,sheight
0,65.04851,59.77827
1,63.25094,63.21404
2,64.95532,63.34242
3,65.7525,62.79238
4,61.13723,64.28113


In [2]:
dataframe.info()

NameError: name 'dataframe' is not defined

### ✏️ Esercizio 1.2
Calcola media, mediana e deviazione standard delle due colonne `fheight` e `sheight`.


In [18]:
# Qui esercizio 1.2
import pandas as pd

dataframe = pd.read_csv("pearson_dataset.csv")
media = dataframe.mean()
print("La media è: ")
print(media)
print("")

mediana = dataframe.median()
print("La mediana è: ")
print(mediana)
print("")

deviazione = dataframe.std()
print("La deviazione standard è: ")
print(deviazione)

La media è: 
fheight    67.687097
sheight    68.684070
dtype: float64

La mediana è: 
fheight    67.76660
sheight    68.61582
dtype: float64

La deviazione standard è: 
fheight    2.744868
sheight    2.814702
dtype: float64


### ✏️ Esercizio 1.3
Invoca la funzione per disegnare uno scatterplot con `fheight` sull'asse X e `sheight` sull'asse Y per visualizzare la relazione tra le due variabili.




In [3]:
import matplotlib.pyplot as plt

def plot_scatter(df, x_col, y_col, x_label=None, y_label=None, title=None):
    """
    Crea uno scatter plot generico tra due colonne di un DataFrame.

    Parametri:
    - df: pandas DataFrame contenente i dati
    - x_col: nome della colonna da usare sull'asse X
    - y_col: nome della colonna da usare sull'asse Y
    - x_label: etichetta asse X (opzionale)
    - y_label: etichetta asse Y (opzionale)
    - title: titolo del grafico (opzionale)
    """
    plt.figure(figsize=(8, 5))
    plt.scatter(df[x_col], df[y_col], alpha=0.7)
    plt.xlabel(x_label if x_label else x_col)
    plt.ylabel(y_label if y_label else y_col)
    plt.title(title if title else f"{y_col} vs {x_col}")
    plt.grid(True)
    plt.show()

# Esempio d'uso
plot_scatter(dataframe, "fheight", "sheight", "Altezza del padre", "Altezza del figlio", "Relazione tra altezze")


ModuleNotFoundError: No module named 'matplotlib'

## 🧹 2. Preprocessing dei dati

### ✏️ Esercizio 2.1
Verifica se ci sono valori nulli nel dataset.


In [10]:
# Esercizio 2.1
import pandas as pd

df = pd.read_csv("pearson_dataset.csv")
df.isnull().sum()
# sum() da la somma dei valori nulli




fheight    0
sheight    0
dtype: int64

In [16]:
import matplotlib.pyplot as plt

plt.figure(figsize=(8, 6))
plt.boxplot(df.values, vert = False, patch_artist = True)

plt.yticks(range(1, len(df.colums) + 1), df.columns)

plt.title("Box Plot Orizzontale delle Colonne")
plt.grid(axis="x", linestyle= "--", alpha = 0.7)

plt.show()

ModuleNotFoundError: No module named 'matplotlib'

### ✏️ Esercizio 2.2
Standardizza o normalizza i dati (opzionale) per sperimentare come cambiano i risultati.


In [None]:
# Esercizio 2.2
dataframe.

## 🤖 3. Creazione del modello

### ✏️ Esercizio 3.1
Dividi il dataset in un training set (80%) e un test set (20%).


In [None]:
# Esercizio 3.1

### ✏️ Esercizio 3.2
Allena un modello di regressione lineare usando i dati di training.


In [None]:
# Esercizio 3.2

### ✏️ Esercizio 3.3
Visualizza la retta di regressione sopra il grafico scatter.

👇 Ti diamo qui un esempio di funzione da utilizzare per questo tipo di visualizzazione:


In [None]:
import matplotlib.pyplot as plt
import numpy as np

def plot_regression_line(x, y, model):
    plt.figure(figsize=(8, 5))
    plt.scatter(x, y, color='blue', label='Dati reali')
    predicted = model.predict(np.array(x).reshape(-1, 1))
    plt.plot(x, predicted, color='red', label='Retta di regressione')
    plt.xlabel("Altezza del padre (fheight)")
    plt.ylabel("Altezza del figlio (sheight)")
    plt.title("Regressione Lineare")
    plt.legend()
    plt.grid(True)
    plt.show()

## 📏 4. Valutazione del modello

### ✏️ Esercizio 4.1
Calcola l’MSE (Mean Squared Error) e R² sul test set per valutare le performance del modello.


In [None]:
# Esercizio 4.1

### ✏️ Esercizio 4.2
Usa il modello per prevedere l’altezza di un figlio dato un valore ipotetico di altezza del padre (es. 70 pollici).


In [None]:
# Esercizio 4.2

## 🚀 5. Pezzi finali

### ✏️ Esercizio 5.1
Aggiungi del rumore casuale ai dati e osserva come cambiano i risultati della regressione.


In [None]:
# Esercizio 5.1

### ✏️ Esercizio 5.2
Crea una funzione che prende in input l’altezza del padre da tastiera e restituisce la previsione dell’altezza del figlio.


In [None]:
# Esercizio 5.2