# Introduzione ai Modelli di Machine Learning

## Cos’è un modello di Machine Learning?

Un modello di Machine Learning è un metodo per stimare la relazione tra un input \( x \) e un output \( y \) utilizzando i dati a disposizione. In termini matematici, possiamo rappresentare questa relazione come:

\[$
y = f(x)
$\]

dove \($ f$ \) è una funzione sconosciuta che vogliamo approssimare. Poiché non conosciamo la forma esatta di \($ f $\), utilizziamo un **modello di apprendimento** per stimarla a partire dai dati disponibili. Questa fase viene chiamata **addestramento** o **fit** del modello.

L’obiettivo principale di un modello di Machine Learning è quindi apprendere questa relazione dai dati per poter **predire** il valore di \($ y$ \) anche per nuovi valori di \($ x $\) che non sono presenti nel dataset di partenza.

---

## **Regressione o Classificazione?**

A seconda della natura dell'output \( $y$ \), possiamo distinguere due tipi principali di problemi:

- **Regressione**: quando \( $y$ \) è un valore numerico continuo, come ad esempio la temperatura, il prezzo di una casa o l'altezza di una persona.
- **Classificazione**: quando \($ y $\) è una categoria, come ad esempio "spam" o "non spam" per un'email, o il tipo di malattia diagnosticata in un paziente.

### **Esempi**
| Tipo di Modello  | Esempio di Input (\( x \)) | Esempio di Output (\( y \)) |
|------------------|--------------------------|-----------------------------|
| Regressione     | Anni di esperienza lavorativa | Stipendio stimato (in €) |
| Classificazione | Immagine di un animale | "Cane" o "Gatto" |

---

## **Cos’è la Regressione Lineare?**

La **Regressione Lineare** è uno dei modelli più semplici e comuni in Machine Learning. Essa cerca di trovare una linea retta che meglio rappresenti i dati.

Matematicamente, possiamo esprimerla come:

\[$
y = a + b \cdot x
$\]

dove:
- \( $y$ \) è il valore che vogliamo predire (variabile dipendente),
- \($ x $\) è l'input (variabile indipendente),
- \($ a$ \) è l'intercetta (il valore di \( $y $\) quando \($ x = 0 $\)),
- \($ b $\) è il coefficiente angolare, che indica di quanto cambia \( $y$ \) quando \( $x $\) aumenta di 1 unità.

---

### **Esempio Pratico**
Immaginiamo di voler prevedere lo stipendio di una persona in base agli anni di esperienza lavorativa.

| Anni di Esperienza (\( x \)) | Stipendio (\( y \)) |
|----------------------------|---------------------|
| 1                          | 30.000 €           |
| 2                          | 35.000 €           |
| 3                          | 40.000 €           |
| 4                          | 45.000 €           |

Se applichiamo la regressione lineare a questi dati, potremmo ottenere un'equazione del tipo:

\[$
y = 25.000 + 5.000 \cdot x
$\]

Ciò significa che una persona senza esperienza guadagna circa 25.000€, e per ogni anno di esperienza in più lo stipendio aumenta di 5.000€.

### **Visualizzazione Grafica**
Se rappresentiamo graficamente i dati, la regressione lineare cerca di tracciare una linea che minimizza la distanza tra i punti reali e la linea stessa:

📈 (Grafico con una linea che passa tra i punti dati)

---

## **Come si Addestra un Modello di Regressione Lineare?**

Per trovare i valori ottimali di \($ a $\) e \($ b $\), si utilizza un metodo chiamato **Minimi Quadrati** (Ordinary Least Squares, OLS). Questo metodo minimizza la somma dei quadrati delle differenze tra i valori osservati e quelli previsti dal modello:

\[$
\sum (y_{\text{osservato}} - y_{\text{previsto}})^2
$\]

### **Passaggi per l'addestramento del modello:**
1. **Raccolta dei dati**: Otteniamo un dataset con coppie di valori \( (x, y) \).
2. **Pre-elaborazione**: Puliamo i dati e verifichiamo che siano nel formato corretto.
3. **Suddivisione del dataset**: Dividiamo i dati in un **training set** (per l’addestramento) e un **test set** (per la valutazione).
4. **Calcolo dei parametri \( a \) e \( b \)**: Utilizziamo una formula matematica o un algoritmo per determinare la retta migliore.
5. **Validazione e test**: Verifichiamo l’accuratezza del modello sui dati di test.
6. **Predizione**: Usiamo il modello per predire nuovi valori.

---

## **Implementazione in Python**

Ecco un esempio di come implementare la regressione lineare con **Python** utilizzando la libreria `scikit-learn`:

```python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Dati di esempio: anni di esperienza (X) e stipendio (y)
X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)  # Input deve essere una matrice
y = np.array([30000, 35000, 40000, 45000, 50000])  # Output

# Creazione e addestramento del modello
model = LinearRegression()
model.fit(X, y)

# Predizione per nuovi dati
X_nuovo = np.array([6]).reshape(-1, 1)
y_pred = model.predict(X_nuovo)
print(f"Stipendio stimato per 6 anni di esperienza: {y_pred[0]:.2f}€")

# Visualizzazione grafica
plt.scatter(X, y, color='blue', label="Dati reali")
plt.plot(X, model.predict(X), color='red', label="Linea di regressione")
plt.xlabel("Anni di Esperienza")
plt.ylabel("Stipendio (€)")
plt.legend()
plt.show()
```

### **Output atteso**
- Il modello stimerà lo stipendio per 6 anni di esperienza.
- Il grafico mostrerà i dati reali e la linea di regressione.

---

## **Conclusione**
La regressione lineare è un potente strumento per fare previsioni basate su dati numerici. Anche se è un modello semplice, è molto utile in molti settori come finanza, sanità e marketing. Tuttavia, quando la relazione tra le variabili non è lineare, è necessario utilizzare modelli più avanzati come la regressione polinomiale o le reti neurali.

🚀 **Vuoi approfondire?** Puoi esplorare altri algoritmi di regressione come:
- **Regressione polinomiale**: per dati con andamenti curvi.
- **Regressione logistica**: per problemi di classificazione.
- **Random Forest e Support Vector Machine**: per problemi più complessi.




## **Step 1: Importare le librerie necessarie**  

Per poter lavorare con i dati ed eseguire il modello, dobbiamo prima importare alcune librerie fondamentali di Python:  

### **Librerie importate:**
1. **`numpy` (Numerical Python)**  
   - Utilizzata per lavorare con array e operazioni matematiche avanzate.
2. **`pandas`**  
   - Serve per caricare, manipolare e analizzare i dati in tabelle (DataFrame).
3. **`matplotlib.pyplot`**  
   - Libreria per creare grafici e visualizzare i dati.
4. **`sklearn.model_selection.train_test_split`**  
   - Funzione per dividere i dati in set di addestramento (training) e test.
5. **`sklearn.linear_model.LinearRegression`**  
   - Modello di regressione lineare per analizzare la relazione tra variabili.
6. **`sklearn.preprocessing.PolynomialFeatures`**  
   - Serve per creare caratteristiche polinomiali dei dati (utile per la regressione polinomiale).
7. **`sklearn.pipeline.make_pipeline`**  
   - Aiuta a creare una pipeline di elaborazione, combinando trasformazioni e modelli.
8. **`sklearn.metrics.mean_squared_error, r2_score`**  
   - Metriche per valutare le prestazioni del modello.

**Codice importazione:**
```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline
from sklearn.metrics import mean_squared_error, r2_score
```
---

## **Step 2: Creare o caricare un dataset**

### **Creazione di un dataset fittizio**
Ora creiamo un dataset artificiale che rappresenta una relazione tra la **dimensione di una casa** (in piedi quadrati) e il **prezzo della casa** (in migliaia di dollari).  

1. **Impostiamo un seed casuale (`np.random.seed(42)`)**  
   - Questo ci assicura che ogni volta che eseguiamo il codice, otteniamo sempre gli stessi valori casuali.
   
2. **Definiamo il numero di campioni (`n_samples = 200`)**  
   - Creiamo 200 dati di case con le loro rispettive dimensioni e prezzi.

3. **Generiamo le dimensioni delle case casualmente (`house_sizes`)**  
   - Generiamo 200 numeri casuali tra 1000 e 3000 (in piedi quadrati) con `np.random.randint(1000, 3000, n_samples)`.
   
4. **Calcoliamo i prezzi (`house_prices`)**  
   - I prezzi delle case dipendono dalle dimensioni, ma con una relazione quadratica e un po' di rumore casuale:  
     - `100 + 0.2 * house_sizes - 0.00003 * house_sizes**2 + np.random.normal(0, 50, n_samples)`  
     - `100` è un valore di base (intercetta).
     - `0.2 * house_sizes` rappresenta un aumento lineare del prezzo con la dimensione.
     - `- 0.00003 * house_sizes**2` introduce un effetto di non linearità (le case molto grandi non sono proporzionalmente più costose).
     - `np.random.normal(0, 50, n_samples)` aggiunge rumore casuale ai prezzi per simulare variazioni reali.

5. **Creiamo un DataFrame con Pandas (`data`)**  
   - Struttura tabellare con due colonne: "Size" (dimensione) e "Price" (prezzo).

6. **Mostriamo le prime 5 righe del dataset (`data.head()`)**  
   - Permette di vedere un'anteprima del dataset.

**Codice per la creazione del dataset fittizio:**
```python
np.random.seed(42)  # Per risultati riproducibili
n_samples = 200

# Generiamo dimensioni delle case tra 1000 e 3000 piedi quadrati
house_sizes = np.random.randint(1000, 3000, n_samples)

# Generiamo i prezzi delle case con una relazione non lineare e rumore casuale
house_prices = 100 + 0.2 * house_sizes - 0.00003 * house_sizes**2 + np.random.normal(0, 50, n_samples)

# Creiamo il DataFrame
data = pd.DataFrame({
    'Size': house_sizes,
    'Price': house_prices
})

# Mostriamo le prime 5 righe del dataset
data.head()
```
---

### **Caricamento di un dataset reale (Titanic)**
Se invece vogliamo usare un dataset reale, possiamo caricare il famoso dataset del Titanic che contiene informazioni sui passeggeri della nave affondata nel 1912.

1. **Carichiamo il dataset (`titanic.csv`)**  
   - Il dataset contiene informazioni come età, classe del biglietto, tariffa pagata, sesso, sopravvivenza, ecc.
   - `pd.read_csv('titanic.csv')` carica il dataset dal file CSV.

2. **Visualizziamo le prime righe del dataset (`titanic.head()`)**  
   - Questo ci permette di vedere una parte del dataset.

**Codice per caricare il dataset Titanic:**
```python
titanic = pd.read_csv('titanic.csv')

# Mostriamo le prime 5 righe del dataset Titanic
titanic.head()
```
---

## **Conclusione**
Abbiamo visto due modi per ottenere un dataset:  
1. **Creare dati artificiali** (esempio sulle case).  
2. **Caricare dati reali** (esempio del Titanic).  

Ora che abbiamo i dati, possiamo procedere con l'analisi e la costruzione di modelli di machine learning! 🚀

# STEP 3 :
VISUALIZZAZIONE DEI DATI 



### **1. Importanza della visualizzazione dei dati**
Prima di costruire un modello di machine learning o fare un'analisi statistica, è fondamentale visualizzare i dati per comprendere le relazioni tra le variabili. Nel nostro caso, vogliamo vedere se esiste una relazione tra la **grandezza delle case** (in piedi quadrati) e il **prezzo** (in migliaia di dollari). Questo ci aiuterà a capire se esiste una correlazione tra queste due variabili.

---

### **2. Analisi del codice**
Ora analizziamo il codice riga per riga.

#### **2.1 Creazione della figura**
```python
plt.figure(figsize=(10, 6))
```
- `plt.figure(...)` crea una nuova figura per il grafico.
- `figsize=(10, 6)` imposta le dimensioni della figura (10 pollici di larghezza e 6 di altezza).

Questo passaggio è utile per assicurarsi che il grafico abbia dimensioni adeguate e sia facilmente leggibile.

---

#### **2.2 Creazione dello scatter plot**
```python
plt.scatter(data['Size'], data['Price'])
```
- `plt.scatter(...)` crea un **grafico a dispersione** (scatter plot).
- `data['Size']` rappresenta la variabile sull'asse **X** (dimensione della casa).
- `data['Price']` rappresenta la variabile sull'asse **Y** (prezzo della casa).

Il grafico a dispersione aiuta a identificare se esiste una relazione tra le due variabili:
- Se i punti formano un andamento **crescente**, significa che all'aumentare della grandezza della casa aumenta anche il prezzo (correlazione positiva).
- Se i punti formano un andamento **decrescente**, significa che all'aumentare della grandezza della casa il prezzo diminuisce (correlazione negativa).
- Se i punti sono **distribuiti in modo casuale**, significa che non c’è una chiara relazione tra le due variabili.

---

#### **2.3 Aggiunta di titolo e etichette**
```python
plt.title('House Size vs. Price')
plt.xlabel('House Size (square feet)')
plt.ylabel('House Price (thousands of dollars)')
```
- `plt.title(...)` aggiunge un titolo al grafico.
- `plt.xlabel(...)` etichetta l'asse **X** con "House Size (square feet)", indicando che rappresenta la grandezza delle case in **piedi quadrati**.
- `plt.ylabel(...)` etichetta l'asse **Y** con "House Price (thousands of dollars)", indicando che rappresenta il prezzo della casa in **migliaia di dollari**.

Queste etichette sono fondamentali per rendere il grafico comprensibile.

---

#### **2.4 Aggiunta della griglia**
```python
plt.grid(True)
```
- `plt.grid(True)` attiva la **griglia** nel grafico, rendendo più facile individuare i punti e capire meglio i valori.

---

#### **2.5 Mostrare il grafico**
```python
plt.show()
```
- `plt.show()` visualizza effettivamente il grafico. Senza questa riga, il grafico potrebbe non essere mostrato in alcuni ambienti di programmazione.

---

### **3. Risultato atteso**
Il risultato sarà un **grafico a dispersione** in cui ogni punto rappresenta una casa:
- L'asse **X** (orizzontale) mostra la grandezza della casa.
- L'asse **Y** (verticale) mostra il prezzo della casa.
- Osservando la distribuzione dei punti, possiamo capire se esiste una relazione tra dimensione e prezzo.

Se i punti seguono un andamento chiaro (ad esempio una linea crescente), possiamo dire che esiste una **correlazione positiva** tra la grandezza della casa e il prezzo. Se invece i punti sono dispersi senza un andamento chiaro, significa che non c’è una forte relazione tra queste variabili.

---

### **Conclusione**
- Il **grafico a dispersione** è uno strumento potente per visualizzare la relazione tra due variabili.
- Aiuta a identificare **trend, outlier e correlazioni**.
- Questo passaggio è essenziale prima di costruire un modello di machine learning, perché ci permette di capire meglio i dati.


# **Step 4: Suddividere i dati in training e test set**

Prima di addestrare un modello di Machine Learning, è fondamentale suddividere il dataset in due parti principali:

1. **Training Set (Set di Addestramento)** → Serve per **allenare** il modello.
2. **Testing Set (Set di Test)** → Serve per **valutare** il modello su dati mai visti prima.

---

### **Perché è importante suddividere i dati?**

L'obiettivo del Machine Learning è creare un modello che non solo funzioni bene sui dati con cui è stato addestrato, ma che **generalizzi** bene anche su nuovi dati mai visti.  
Se un modello viene addestrato e testato sugli stessi dati, rischia di **memorizzare** la struttura dei dati invece di imparare la relazione sottostante tra le variabili. Questo fenomeno è noto come **overfitting** (sovradattamento).

Dividendo i dati in due insiemi separati, possiamo:

- **Allenare il modello** con il training set per fargli apprendere le relazioni tra le variabili.
- **Testare il modello** su un dataset separato (test set) per valutare quanto bene riesce a **generalizzare** su dati nuovi.

---

### **Come si suddividono i dati?**
Per suddividere i dati, usiamo la funzione `train_test_split` di **scikit-learn**, una delle librerie più utilizzate per il Machine Learning in Python.

#### **Passaggi dettagliati:**

1. **Importare le librerie necessarie**
   ```python
   from sklearn.model_selection import train_test_split
   ```

2. **Definire le variabili indipendenti (X) e dipendenti (y)**  
   - `X`: Contiene le **feature** (variabili indipendenti, cioè i dati su cui il modello farà previsioni).  
   - `y`: Contiene il **target** (variabile dipendente, il valore che il modello deve prevedere).
   
   Esempio:
   ```python
   X = dataset.drop(columns=['target'])  # Rimuoviamo la colonna target per ottenere le feature
   y = dataset['target']  # La colonna target è la variabile che vogliamo predire
   ```

3. **Dividere i dati in training e test set**
   ```python
   X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
   ```
   - `test_size=0.2`: Il **20%** dei dati sarà riservato al **test set**, mentre l’**80%** sarà usato per l’addestramento.
   - `random_state=42`: Serve a rendere la suddivisione **riproducibile** (se riesegui il codice, otterrai sempre la stessa divisione).

4. **Verificare le dimensioni dei set ottenuti**
   ```python
   print(f"Dimensione del Training Set: {X_train.shape}")
   print(f"Dimensione del Test Set: {X_test.shape}")
   ```
   Questo aiuta a controllare che la suddivisione sia stata eseguita correttamente.

---

### **Riassunto**
- La suddivisione del dataset è essenziale per valutare il modello in modo affidabile.
- Il training set viene utilizzato per addestrare il modello.
- Il test set viene utilizzato per valutare le prestazioni del modello su dati nuovi.
- Il parametro `test_size` definisce la percentuale di dati riservata ai test.
- `random_state` garantisce che la suddivisione sia sempre la stessa se il codice viene rieseguito.



# STEP 5:
CREAZIONE E TRAIN DEL MODELLO



### **1. Definizione delle variabili (Features e Target)**  

```python
X = data[['Size']]  # Features (input)
y = data['Price']   # Target (output)
```
- Qui stiamo definendo le variabili di input (caratteristiche, o **features**) e output (valore da predire, o **target**).
- La variabile **X** contiene solo la colonna `"Size"` del dataset, cioè la grandezza di un immobile, che sarà la nostra variabile indipendente.
- La variabile **y** contiene la colonna `"Price"`, che rappresenta il prezzo dell’immobile, ovvero la variabile dipendente che vogliamo prevedere.

---

### **2. Suddivisione del dataset in training e test set**  

```python
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
- Il dataset viene suddiviso in due insiemi:
  - **Training set (80%)**: Usato per addestrare il modello.
  - **Test set (20%)**: Usato per valutare le prestazioni del modello su dati mai visti prima.
- `test_size=0.2` significa che il 20% dei dati sarà riservato per il test.
- `random_state=42` fissa la casualità della divisione, in modo da ottenere sempre lo stesso risultato se rieseguissimo il codice.

Dopo questa operazione, stampiamo la dimensione dei due set:

```python
print(f"Training data size: {X_train.shape[0]} samples")
print(f"Testing data size: {X_test.shape[0]} samples")
```

Risultato:
```
Training data size: 160 samples
Testing data size: 40 samples
```
- Il training set contiene **160 campioni**.
- Il test set contiene **40 campioni**.

---

### **3. Creazione del modello di regressione lineare**  

```python
model = LinearRegression()
```
- Creiamo un'istanza della classe `LinearRegression()`, che rappresenta un modello di regressione lineare.

---

### **4. Addestramento del modello**  

```python
model.fit(X_train, y_train)
```
- Questo comando **addestra il modello** utilizzando i dati di training (`X_train` e `y_train`).
- Il modello imparerà la relazione tra la grandezza (`Size`) e il prezzo (`Price`).

---

### **5. Estrazione dei parametri della retta di regressione**  

Dopo l'addestramento, possiamo visualizzare i **parametri della retta**:

```python
print(f"Model coefficient (slope): {model.coef_[0]:.4f}")
print(f"Model intercept: {model.intercept_:.4f}")
print(f"y = {model.intercept_:.4f} + {model.coef_[0]:.4f} * x")
```

Risultato:
```
Model coefficient (slope): 0.0959
Model intercept: 250.9276
y = 250.9276 + 0.0959 * x
```

- **Coefficiente angolare (slope)** = `0.0959`
  - Questo valore rappresenta **quanto cambia il prezzo per ogni unità di grandezza**.
  - Significa che per **ogni unità di aumento della grandezza dell’immobile, il prezzo aumenta di circa 0.0959**.
  
- **Intercetta (intercept)** = `250.9276`
  - Questo è il valore del prezzo quando la grandezza è `0`.
  - Non ha sempre un significato pratico, specialmente se `Size = 0` non è un caso reale.

- **Equazione finale del modello**:
  \[$
  y = 250.9276 + 0.0959 \times x
  $\]
  - Se vogliamo prevedere il prezzo di un immobile di grandezza **500**, sostituiamo \( $x = 500$ \) nella formula:
    \[$
    y = 250.9276 + (0.0959 \times 500) = 250.9276 + 47.95 = 298.8776$
    \]
    Quindi il modello stima che un immobile di dimensione 500 avrà un prezzo di circa **298.88**.

---

### **Riepilogo**
1. **Abbiamo definito le variabili** `X` e `y`.
2. **Abbiamo diviso i dati in training (80%) e test (20%)**.
3. **Abbiamo creato un modello di regressione lineare**.
4. **Abbiamo addestrato il modello** con `fit(X_train, y_train)`.
5. **Abbiamo ottenuto l'equazione della retta** che rappresenta la relazione tra grandezza e prezzo.

Adesso possiamo usare questo modello per **fare previsioni** su nuovi dati! 🚀

# STEP 6
FARE PREVISIONI

Vediamo passo dopo passo cosa sta succedendo nel tuo codice e cosa significano i risultati ottenuti.

---

### **1. Fare previsioni sui dati di test**
```python
y_pred = model.predict(X_test)
```
- Qui stiamo utilizzando il modello precedentemente addestrato per fare previsioni sui dati di test (`X_test`).
- Il modello utilizza ciò che ha appreso dai dati di addestramento (`X_train`, `y_train`) per stimare i valori della variabile dipendente (cioè i valori reali che vogliamo prevedere).
- `y_pred` contiene quindi le previsioni fatte dal modello.

---

### **2. Calcolare l'Errore Quadratico Medio (MSE)**
```python
mse = mean_squared_error(y_test, y_pred)
```
- Il **Mean Squared Error (MSE)** è una metrica che misura la precisione del modello nei problemi di regressione.
- Si calcola facendo la media dei quadrati delle differenze tra i valori reali (`y_test`) e i valori previsti (`y_pred`).
- La formula matematica è:
  
  \[$
  MSE = \frac{1}{n} \sum_{i=1}^{n} (y_{\text{test}, i} - y_{\text{pred}, i})^2
  $\]

  Dove:
  - \( $y_{\text{test}, i} $\) è il valore reale
  - \( $y_{\text{pred}, i} $\) è il valore previsto
  - \( $n $\) è il numero totale di osservazioni

- L'**MSE** è sempre positivo: più è basso, migliore è la qualità delle previsioni.

---

### **3. Calcolare la Radice dell'Errore Quadratico Medio (RMSE)**
```python
rmse = np.sqrt(mse)
```
- Il **Root Mean Squared Error (RMSE)** è semplicemente la radice quadrata del MSE.
- Questo valore è utile perché riporta l'errore nella stessa unità di misura della variabile target, rendendo più facile l'interpretazione dei risultati.

  \[$
  RMSE = \sqrt{MSE}
  $\]

- Un valore **RMSE** più basso indica una previsione più accurata.

---

### **4. Calcolare il Coefficiente di Determinazione (R²)**
```python
r2 = r2_score(y_test, y_pred)
```
- L'**R-squared (R²)** è una metrica che indica quanto bene il modello spiega la variabilità dei dati.
- La formula matematica è:

  \[$
  R^2 = 1 - \frac{\sum (y_{\text{test}} - y_{\text{pred}})^2}{\sum (y_{\text{test}} - \bar{y}_{\text{test}})^2}
  $\]

  Dove:
  - Il numeratore rappresenta l'errore del modello (quanto si discosta dai valori reali).
  - Il denominatore rappresenta la varianza totale dei dati (quanto i dati variano rispetto alla loro media).

- **Interpretazione di R²**:
  - **Se R² = 1**, il modello è perfetto e spiega il 100% della varianza dei dati.
  - **Se R² = 0**, il modello non è migliore di una previsione basata sulla media dei dati.
  - **Se R² è negativo**, significa che il modello sta facendo previsioni peggiori rispetto a una previsione casuale.

---

### **5. Stampare i risultati**
```python
print(f"Mean Squared Error: {mse:.2f}")
print(f"Root Mean Squared Error: {rmse:.2f}")
print(f"R-squared Score: {r2:.4f}")
```
- Qui stampiamo i risultati con un formato più leggibile.

---

### **6. Interpretazione dei Risultati**
I valori calcolati sono:
```
Mean Squared Error: 2570.34
Root Mean Squared Error: 50.70
R-squared Score: 0.4739
```
- **MSE = 2570.34**: in media, il quadrato degli errori di previsione è 2570.34. È difficile interpretarlo direttamente, ma ci dà un'idea della dispersione degli errori.
- **RMSE = 50.70**: indica che, mediamente, le previsioni del modello si discostano di circa 50.70 unità dal valore reale.
- **R² = 0.4739**: il modello spiega circa il **47.39%** della varianza dei dati, il che significa che c'è ancora un margine di miglioramento.

---

### **Conclusioni**
- Il modello ha una performance discreta, ma non eccezionale (R² = 0.47 indica che circa metà della variabilità dei dati non è spiegata dal modello).
- Se l'RMSE è elevato rispetto ai valori della variabile target, significa che gli errori di previsione sono significativi.
- Per migliorare il modello, si potrebbe provare:
  - Aggiungere nuove caratteristiche (feature engineering).
  - Provare un modello più complesso (ad esempio Random Forest o Gradient Boosting).
  - Ottimizzare i parametri del modello attuale.


# STEP 7
VISUALIZZAZIONE DEI RISULTATI 


### **Passo 1: Creazione della figura**
```python
plt.figure(figsize=(10, 6))
```
- Questa riga crea una nuova figura per il grafico con dimensioni **10 x 6 pollici**.  
- `plt.figure()` è una funzione di **Matplotlib** che permette di definire le caratteristiche della figura in cui verrà disegnato il grafico.

---

### **Passo 2: Creazione dello scatter plot dei dati reali**
```python
plt.scatter(X_test, y_test, color='blue', label='Actual Prices')
```
- `plt.scatter()` crea un **diagramma a dispersione (scatter plot)**, utile per visualizzare punti isolati.  
- `X_test` e `y_test` sono i **valori reali** del test set:
  - **X_test** rappresenta la grandezza delle case in **piedi quadrati**.
  - **y_test** rappresenta il **prezzo reale** delle case (espresso in migliaia di dollari).
- `color='blue'` rende i punti di colore **blu**, per distinguere i prezzi reali da quelli previsti.  
- `label='Actual Prices'` imposta un'etichetta per la legenda.

---

### **Passo 3: Creazione dello scatter plot dei dati previsti**
```python
plt.scatter(X_test, y_pred, color='red', label='Predicted Prices')
```
- Anche qui viene usato `plt.scatter()` per creare un altro **scatter plot**, ma questa volta per i prezzi **predetti** dal modello.
- `X_test` è sempre la grandezza delle case.  
- `y_pred` contiene i **prezzi predetti** dal modello di regressione lineare.
- `color='red'` colora i punti in **rosso**, distinguendoli da quelli reali.  
- `label='Predicted Prices'` aggiunge un'etichetta per la legenda.

---

### **Passo 4: Disegno della retta di regressione**
```python
plt.plot(X_test, y_pred, color='green', linewidth=2, label='Regression Line')
```
- `plt.plot()` crea un **grafico a linee** per mostrare la **retta di regressione**.  
- La retta viene disegnata utilizzando **gli stessi valori di X_test** ma con i **valori previsti (y_pred)** dal modello.
- `color='green'` colora la retta in **verde** per distinguerla dai punti.
- `linewidth=2` imposta lo spessore della linea a **2 pixel**.
- `label='Regression Line'` aggiunge un'etichetta per la legenda.

---

### **Passo 5: Aggiunta di titolo ed etichette**
```python
plt.title('House Price Prediction (Test Data)')
plt.xlabel('House Size (square feet)')
plt.ylabel('House Price (thousands of dollars)')
```
- `plt.title()` imposta il **titolo del grafico**:  
  - "House Price Prediction (Test Data)" indica che il grafico mostra le **previsioni dei prezzi delle case** sui dati di test.
- `plt.xlabel()` etichetta l'asse **X** con "House Size (square feet)" (**dimensione della casa in piedi quadrati**).
- `plt.ylabel()` etichetta l'asse **Y** con "House Price (thousands of dollars)" (**prezzo della casa in migliaia di dollari**).

---

### **Passo 6: Aggiunta della legenda**
```python
plt.legend()
```
- `plt.legend()` aggiunge una **legenda** che mostra il significato dei colori:
  - **Blu** → Prezzi reali.
  - **Rosso** → Prezzi predetti.
  - **Verde** → Retta di regressione.

---

### **Passo 7: Aggiunta della griglia**
```python
plt.grid(True)
```
- `plt.grid(True)` attiva una **griglia** nel grafico, utile per leggere meglio i valori.

---

### **Passo 8: Visualizzazione del grafico**
```python
plt.show()
```
- `plt.show()` mostra il grafico a schermo.

---

### **Risultato Finale**
Il grafico finale avrà:
1. **Punti blu** che rappresentano i prezzi reali delle case nel dataset di test.
2. **Punti rossi** che rappresentano i prezzi previsti dal modello di regressione lineare.
3. **Una linea verde** che rappresenta la retta di regressione, ovvero il modello di previsione.

---

### **Conclusione**
Questa visualizzazione ti permette di verificare **quanto bene il modello si adatta ai dati di test**.  
Se i punti rossi (previsioni) sono vicini ai punti blu (valori reali), allora il modello ha fatto un buon lavoro.  
Se invece i punti rossi sono molto distanti dai blu, significa che il modello ha difficoltà a prevedere con precisione i prezzi delle case.

Se vuoi migliorare il modello, potresti:
- Aggiungere più dati di addestramento.
- Provare altre tecniche di regressione più avanzate.
- Aggiungere più variabili (oltre alla dimensione della casa) per migliorare la previsione.


# STEP 8 
USO DEL MODELLO PER FARE NUOVE PREVISIONI


## **Obiettivo**
Ora che abbiamo addestrato il nostro modello di machine learning per prevedere il prezzo delle case in base alla loro dimensione, vogliamo usarlo per fare delle nuove previsioni su case di dimensioni che non erano presenti nel nostro dataset originale.

---

### **1. Creazione di nuovi dati da prevedere**
```python
new_house_sizes = np.array([[1500], [2000], [2500]])
```
Qui creiamo un array NumPy che contiene le dimensioni di tre case:  
- 1500 piedi quadrati  
- 2000 piedi quadrati  
- 2500 piedi quadrati  

L'array è scritto in una forma bidimensionale (`[[1500], [2000], [2500]]`) perché la maggior parte dei modelli di machine learning di scikit-learn si aspetta che i dati di input abbiano questa forma (matrice con righe e colonne), anche se abbiamo solo una singola colonna.

---

### **2. Uso del modello per fare previsioni**
```python
predicted_prices = model.predict(new_house_sizes)
```
Qui utilizziamo il metodo `.predict()` del modello che abbiamo addestrato in precedenza. Questo metodo prende come input le nuove dimensioni delle case (`new_house_sizes`) e restituisce i prezzi previsti per ciascuna dimensione.

Il modello, essendo stato addestrato con dati precedenti sulle case e i loro prezzi, applica la sua funzione matematica interna per calcolare una previsione per ciascuna nuova dimensione.

---

### **3. Visualizzazione dei risultati**
```python
for size, price in zip(new_house_sizes.flatten(), predicted_prices):
    print(f"A house with {size} square feet is predicted to cost ${price:.2f} thousand")
```
- `zip(new_house_sizes.flatten(), predicted_prices)`:  
  - `new_house_sizes.flatten()` converte l'array bidimensionale in un array monodimensionale `[1500, 2000, 2500]`, così possiamo accedere direttamente ai numeri.  
  - `zip()` associa ogni dimensione di casa al rispettivo prezzo previsto.

- Il ciclo `for` scorre attraverso ogni coppia (`size`, `price`) e stampa il risultato in un formato leggibile, dove:  
  - `{size}` inserisce la dimensione della casa nel testo.  
  - `{price:.2f}` mostra il prezzo previsto arrotondato a due decimali.  

---

### **4. Risultati finali**
Il codice stampa le seguenti previsioni:

```
A house with 1500 square feet is predicted to cost $394.76 thousand
A house with 2000 square feet is predicted to cost $442.71 thousand
A house with 2500 square feet is predicted to cost $490.65 thousand
```

Questo significa che, secondo il modello addestrato:
- Una casa di **1500 piedi quadrati** costerà **circa 394.76 mila dollari**.
- Una casa di **2000 piedi quadrati** costerà **circa 442.71 mila dollari**.
- Una casa di **2500 piedi quadrati** costerà **circa 490.65 mila dollari**.

Queste stime sono basate sui dati su cui il modello è stato addestrato, quindi la precisione dipende dalla qualità e quantità dei dati originali.

---


### **Overfitting e Underfitting**

Quando addestriamo un modello di machine learning, il nostro obiettivo è trovare un equilibrio tra **underfitting** e **overfitting**. Se il modello è troppo semplice, non sarà in grado di cogliere i pattern reali nei dati (underfitting). Se è troppo complesso, si adatterà troppo bene ai dati di addestramento, catturando anche il rumore e perdendo capacità di generalizzazione su nuovi dati (overfitting).

Vediamo questi concetti in pratica utilizzando un dataset ipotetico sui **prezzi delle case in base alla loro dimensione**.

---

## **1. Preparazione dei dati**
Per addestrare i modelli, seguiamo questi passaggi:

### **Importiamo le librerie necessarie**
```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline
from sklearn.metrics import mean_squared_error
```

### **Carichiamo i dati**
Supponiamo di avere un dataset con due colonne:
- **Size** (dimensione della casa)
- **Price** (prezzo della casa)

```python
data = pd.DataFrame({
    'Size': np.random.randint(50, 500, 100),  # Dimensioni tra 50 e 500 mq
    'Price': np.random.randint(50000, 500000, 100)  # Prezzi tra 50k e 500k
})
```

### **Separiamo le variabili indipendenti e dipendenti**
Qui selezioniamo la colonna `Size` come variabile indipendente (**X**) e la colonna `Price` come variabile dipendente (**y**):

```python
X = data[['Size']]
y = data['Price']
```

### **Dividiamo il dataset in training e test set**
Per valutare il modello in modo equo, dividiamo i dati in due parti:
- **Training set** (80% dei dati): utilizzato per addestrare il modello.
- **Test set** (20% dei dati): utilizzato per valutare il modello su dati mai visti prima.

```python
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```

---

## **2. Creazione di modelli con diversi livelli di complessità**
Per capire meglio il concetto di overfitting e underfitting, creiamo tre modelli con diversi livelli di complessità:

1. **Modello troppo semplice (Underfitting)**  
   Usiamo una **regressione lineare** (una retta) che non cattura relazioni più complesse tra dimensione e prezzo della casa.

2. **Modello giusto (Good Fit)**  
   Usiamo un modello **quadratico** (un polinomio di grado 2), che può catturare meglio le variazioni nei dati.

3. **Modello troppo complesso (Overfitting)**  
   Usiamo un **polinomio di grado 10**, che si adatta perfettamente ai dati di training, ma rischia di essere troppo rigido e poco generalizzabile.

```python
models = [
    ('Underfit (Linear)', LinearRegression()),
    ('Just Right (Quadratic)', make_pipeline(PolynomialFeatures(2), LinearRegression())),
    ('Overfit (High Degree Polynomial)', make_pipeline(PolynomialFeatures(10), LinearRegression()))
]
```

---

## **3. Addestramento e Valutazione dei Modelli**
Per ciascun modello, eseguiamo i seguenti passaggi:

1. **Addestriamo il modello sui dati di training** con `.fit(X_train, y_train)`.
2. **Facciamo previsioni** sia sui dati di training che su quelli di test.
3. **Calcoliamo l'errore quadratico medio (MSE)** per capire la bontà del modello.
4. **Visualizziamo le previsioni del modello**.

```python
plt.figure(figsize=(15, 5))

for i, (name, model) in enumerate(models, 1):
    # Addestriamo il modello
    model.fit(X_train, y_train)
    
    # Previsioni sui dati di training e test
    y_train_pred = model.predict(X_train)
    y_test_pred = model.predict(X_test)
    
    # Calcoliamo l'errore quadratico medio (MSE)
    train_mse = mean_squared_error(y_train, y_train_pred)
    test_mse = mean_squared_error(y_test, y_test_pred)
    
    # Ordiniamo i dati per una curva più fluida
    sort_axis = np.argsort(X_test.values.flatten())
    X_test_sorted = X_test.values[sort_axis]
    y_test_sorted = y_test.values[sort_axis]
    y_pred_sorted = y_test_pred[sort_axis]
    
    # Creiamo il grafico
    plt.subplot(1, 3, i)
    
    # Scatter plot dei dati reali
    plt.scatter(X_test, y_test, color='blue', alpha=0.5, label='Dati reali')
    
    # Linea della previsione del modello
    plt.plot(X_test_sorted, y_pred_sorted, color='red', label='Previsione modello')
    
    plt.title(f'{name}\nTrain MSE: {train_mse:.2f}\nTest MSE: {test_mse:.2f}')
    plt.xlabel('Dimensione Casa')
    plt.ylabel('Prezzo Casa')
    plt.legend()

plt.tight_layout()
plt.show()
```

---

## **4. Analisi dei Risultati**
### **Caso 1: Underfitting (Modello Lineare)**
- Il modello usa una **semplice retta** per rappresentare la relazione tra dimensione e prezzo.
- Non cattura bene la variazione nei dati reali.
- Il valore dell'errore (MSE) è **alto sia per il training che per il test set**.
- Segnale di un modello troppo semplice, che non apprende abbastanza dai dati.

### **Caso 2: Modello Ottimale (Polinomio di grado 2)**
- Il modello usa una **curva** per rappresentare meglio i dati.
- Il **MSE per il training set è basso**, e quello per il test set è simile.
- Segnale che il modello **generalizza bene** su nuovi dati.

### **Caso 3: Overfitting (Polinomio di grado 10)**
- Il modello è **eccessivamente complesso** e si adatta perfettamente ai dati di training.
- Il **MSE per il training set è quasi nullo**, segno che il modello ha imparato troppo bene i dati di training.
- Il **MSE per il test set è molto più alto**, segno che il modello **non generalizza bene**.

---

## **5. Come evitare Overfitting e Underfitting?**
### **Soluzioni per Underfitting**
✅ Aggiungere più caratteristiche (features) nel dataset.  
✅ Usare modelli più complessi (es. polinomi di grado maggiore).  
✅ Addestrare il modello più a lungo.  

### **Soluzioni per Overfitting**
✅ Usare meno parametri nel modello (ridurre la complessità).  
✅ Aumentare il numero di dati di training.  
✅ Applicare tecniche di **regolarizzazione** (es. Ridge o Lasso Regression).  

---

### **Conclusione**
Abbiamo visto come l'underfitting e l'overfitting influenzano il modello. L'obiettivo è trovare un giusto equilibrio scegliendo un modello che si adatta bene ai dati di training ma che generalizza anche ai dati di test. Il modello **quadratico** è risultato il migliore in questo caso, bilanciando accuratezza e capacità predittiva.