# 📊 Regressione Lineare con il Dataset delle Altezze

In questo notebook esploreremo un dataset contenente l'altezza dei padri (`fheight`) e dei figli (`sheight`), con l'obiettivo di costruire un modello di regressione lineare per prevedere l'altezza del figlio conoscendo quella del padre.

---

## Obiettivo

Guidarti passo dopo passo attraverso il ciclo di vita di un progetto di *Machine Learning supervisionato*, includendo:
- Esplorazione dei dati
- Preprocessing
- Addestramento del modello
- Valutazione
- Visualizzazione dei risultati


## 🔍 1. Esplorazione del dataset

### ✏️ Esercizio 1.1
Carica il dataset `pearson_dataset.csv` e stampa le prime 5 righe per esplorare la struttura dei dati.


In [None]:
# Qui faccio l'esercizio 1.1
import pandas as pd
import numpy as np
import mathplotlib.pyplot as plt
df = pd.read_csv("pearson_dataset.csv")
df.head()

Unnamed: 0,fheight,sheight
0,65.04851,59.77827
1,63.25094,63.21404
2,64.95532,63.34242
3,65.7525,62.79238
4,61.13723,64.28113


### ✏️ Esercizio 1.2
Calcola media, mediana e deviazione standard delle due colonne `fheight` e `sheight`.


In [None]:
# Qui esercizio 1.
fheight = df[["fheight"]]
sheight = df[["sheight"]]
mean = df.mean()
median = df.median()
std = df.std()
print(mean)
print(median)
print(std)

fheight    67.687097
sheight    68.684070
dtype: float64
fheight    67.76660
sheight    68.61582
dtype: float64
fheight    2.744868
sheight    2.814702
dtype: float64


### ✏️ Esercizio 1.3
Invoca la funzione per disegnare uno scatterplot con `fheight` sull'asse X e `sheight` sull'asse Y per visualizzare la relazione tra le due variabili.




In [7]:
import pandas as pd
import numpy as np
import mathplotlib.pyplot as plt
df = pd.read_csv("pearson_dataset.csv")
def plot_scatter(df, x_col, y_col, x_label=None, y_label=None, title=None):
    """
    Crea uno scatter plot generico tra due colonne di un DataFrame.

    Parametri:
    - df: pandas DataFrame contenente i dati
    - x_col: nome della colonna da usare sull'asse X
    - y_col: nome della colonna da usare sull'asse Y
    - x_label: etichetta asse X (opzionale)
    - y_label: etichetta asse Y (opzionale)
    - title: titolo del grafico (opzionale)
    """
    plt.figure(figsize=(8, 5))
    plt.scatter(df[x_col], df[y_col], alpha=0.7)
    plt.xlabel(x_label if x_label else x_col)
    plt.ylabel(y_label if y_label else y_col)
    plt.title(title if title else f"{y_col} vs {x_col}")
    plt.grid(True)
    plt.show()

# Esempio d'uso
plot_scatter(df, "fheight", "sheight", "Altezza del padre", "Altezza del figlio", "Relazione tra altezze")
df.corr()



ModuleNotFoundError: No module named 'pandas'

## 🧹 2. Preprocessing dei dati

### ✏️ Esercizio 2.1
Verifica se ci sono valori nulli nel dataset.


In [None]:
# Esercizio 2.1
dataframe = pd.read_csv("pearson_dataset.csv")
dataframe.isnull().sum()

### ✏️ Esercizio 2.2
Standardizza o normalizza i dati (opzionale) per sperimentare come cambiano i risultati.


In [1]:
# Esercizio 2.2
dataframe = pd.read_csv("pearson_dataset.csv")
plt.figure(figsize = (8,6))
plt.boxplot(df.values, vert = False, patch_artist = True)

plt.yticks(range(1, len(df.columns) + 1), df.columns)

plt.title("box plot orizzontale delle colonne")
plt.grid(axis = "x", linestyle = "--", alpha = 0.7)

NameError: name 'pd' is not defined

#SPIEGAZZIAMO I BLOXPLOT

Un boxplot, noto anche come diagramma a scatola, è uno strumento grafico utilizzato per rappresentare la distribuzione di un insieme di dati numerici. La sua principale funzione è mostrare la dispersione, la mediana e i valori estremi (outlier) in un'unica rappresentazione visiva. Ecco i principali componenti di un boxplot:
1. **Scatola** (Box)
La scatola rappresenta l'intervallo interquartile (IQR), ovvero l'area che contiene il 50% dei dati centrali.
La scatola è delimitata da due linee: la prima quartile (Q1), che segna il 25% dei dati, e la terza quartile (Q3), che segna il 75% dei dati.
La lunghezza della scatola rappresenta l'IQR, quindi l'ampiezza della distribuzione centrale.


2. **Linea della Mediana**
All'interno della scatola, c'è una linea che rappresenta la mediana (Q2), cioè il valore che separa il 50% centrale dei dati.
Se la mediana è spostata verso uno dei due lati della scatola, significa che la distribuzione dei dati non è simmetrica (skewed).


3. **Whiskers** (Baffi)
I baffi sono le linee che si estendono dalla scatola verso l'alto e verso il basso.
Rappresentano i valori minimo e massimo che non sono considerati outlier.
I baffi terminano a una distanza pari a 1,5 volte l'IQR rispetto ai quartili (Q1 e Q3).
Se i dati vanno oltre questa distanza, vengono considerati outlier.


4. **Outliers** (Valori Anomali)
I valori che si trovano oltre i baffi vengono rappresentati come punti isolati.
Questi valori sono considerati outliers, cioè dati che si discostano significativamente dalla distribuzione centrale.


5. **Interpretazione**
Il boxplot fornisce informazioni sulla simmetria della distribuzione, sulla presenza di outlier e sulla variabilità dei dati.
Un boxplot simmetrico indica una distribuzione normale, mentre un boxplot asimmetrico suggerisce una distribuzione inclinata.


I valori anomali possono essere identificati facilmente grazie ai punti isolati, mentre la scatola e la mediana permettono di analizzare la dispersione e il centro dei dati.

#IQR

L'IQR, acronimo di **Interquartile Range** (intervallo interquartile), è una misura della dispersione dei dati che descrive l'ampiezza dell'intervallo in cui si trova il 50% centrale dei dati in un insieme di valori numerici. In altre parole, l'IQR indica quanto i dati siano concentrati attorno alla mediana.
Come si calcola l'IQR?
L'IQR è la **differenza** tra il **terzo quartile** (Q3) e il **primo quartile** (Q1) di una distribuzione. Per calcolarlo, devi seguire questi passaggi:

Ordina i dati in ordine crescente.

Trova il **primo quartile** (Q1): È il valore che **separa il 25% inferiore dei dati** dal resto. In altre parole, è la **mediana della metà inferiore** dei dati.

Trova il **terzo quartile** (Q3): È il valore che **separa il 75% dei dati inferiori** dal 25% superiore. In altre parole, è la **mediana della metà superiore** dei dati.


Calcola l'IQR come la differenza tra Q3 e Q1:
 IQR=Q3−Q1\text{IQR} = Q3 - Q1IQR=Q3−Q1
Perché l'IQR è importante?
L'IQR è un modo robusto per misurare la dispersione dei dati, in quanto non è influenzato dai valori estremi (outlier). Questo lo rende particolarmente utile quando si lavora con distribuzioni che contengono valori anomali.


Viene utilizzato per identificare outliers in un boxplot. Un outlier è un valore che si trova al di fuori dell'intervallo definito da Q1−1.5×IQRQ1 - 1.5 \times \text{IQR}Q1−1.5×IQR e Q3+1.5×IQRQ3 + 1.5 \times \text{IQR}Q3+1.5×IQR. Valori che superano questi limiti vengono considerati outliers.


Esempio:
Immagina di avere i seguenti dati ordinati:
 1,3,4,6,8,12,15,18,201, 3, 4, 6, 8, 12, 15, 18, 201,3,4,6,8,12,15,18,20
Il primo quartile (Q1) è la mediana della metà inferiore dei dati: tra 1 e 4, quindi Q1=3Q1 = 3Q1=3.

Il terzo quartile (Q3) è la mediana della metà superiore dei dati: tra 15 e 18, quindi Q3=16.5Q3 = 16.5Q3=16.5.

L'IQR è quindi 16.5−3=13.516.5 - 3 = 13.516.5−3=13.5.

L'IQR ci dice che la maggior parte dei dati (il 50%) si trova nell'intervallo che va da 3 a 16.5, e che l'ampiezza di questo intervallo è 13.5.
In sintesi, l'IQR è una misura fondamentale per comprendere la distribuzione dei dati e identificare eventuali valori anomali (outliers) in un dataset.


## 🤖 3. Creazione del modello

### ✏️ Esercizio 3.1
Dividi il dataset in un training set (80%) e un test set (20%).


In [None]:
# Esercizio 3.1

### ✏️ Esercizio 3.2
Allena un modello di regressione lineare usando i dati di training.


In [None]:
# Esercizio 3.2

### ✏️ Esercizio 3.3
Visualizza la retta di regressione sopra il grafico scatter.

👇 Ti diamo qui un esempio di funzione da utilizzare per questo tipo di visualizzazione:


In [None]:
import matplotlib.pyplot as plt
import numpy as np

def plot_regression_line(x, y, model):
    plt.figure(figsize=(8, 5))
    plt.scatter(x, y, color='blue', label='Dati reali')
    predicted = model.predict(np.array(x).reshape(-1, 1))
    plt.plot(x, predicted, color='red', label='Retta di regressione')
    plt.xlabel("Altezza del padre (fheight)")
    plt.ylabel("Altezza del figlio (sheight)")
    plt.title("Regressione Lineare")
    plt.legend()
    plt.grid(True)
    plt.show()

## 📏 4. Valutazione del modello

### ✏️ Esercizio 4.1
Calcola l’MSE (Mean Squared Error) e R² sul test set per valutare le performance del modello.


In [None]:
# Esercizio 4.1

### ✏️ Esercizio 4.2
Usa il modello per prevedere l’altezza di un figlio dato un valore ipotetico di altezza del padre (es. 70 pollici).


In [None]:
# Esercizio 4.2

## 🚀 5. Pezzi finali

### ✏️ Esercizio 5.1
Aggiungi del rumore casuale ai dati e osserva come cambiano i risultati della regressione.


In [None]:
# Esercizio 5.1

### ✏️ Esercizio 5.2
Crea una funzione che prende in input l’altezza del padre da tastiera e restituisce la previsione dell’altezza del figlio.


In [None]:
# Esercizio 5.2