# Partiamo dalla Regressione Lineare Semplice
La regressione lineare semplice o a variabile singola è il caso più semplice di regressione lineare, poiché ha un'unica variabile indipendente, 𝐱 = 𝑥.

La figura seguente illustra una regressione lineare semplice:

<br>

![grafico](./dati/img/grafico%20regressione%20lineare%20semplice.webp)


Quando si implementa una regressione lineare semplice, in genere si inizia con un determinato insieme di coppie input-output (𝑥-𝑦). Queste coppie sono le tue osservazioni, mostrate come cerchi verdi nella figura. Ad esempio, l'osservazione più a sinistra ha l'input 𝑥 = 5 e l'output effettivo, o risposta, 𝑦 = 5. Quella successiva ha 𝑥 = 15 e 𝑦 = 20 e così via.

La funzione di regressione stimata, rappresentata dalla linea nera, ha l'equazione 𝑓(𝑥) = 𝑏₀ + 𝑏₁𝑥. Il nostro obiettivo è calcolare i valori ottimali dei pesi previsti 𝑏₀ e 𝑏₁ che minimizzano l'SSR e determinano la funzione di regressione stimata.

Il valore di 𝑏₀, chiamato anche intercetta , mostra il punto in cui la linea di regressione stimata incrocia l'asse 𝑦. È il valore della risposta stimata 𝑓(𝑥) per 𝑥 = 0. Il valore di 𝑏₁ determina la pendenza della linea di regressione stimata.

Le risposte previste, visualizzate come quadrati rossi, sono i punti sulla linea di regressione che corrispondono ai valori di input. Ad esempio, per l'input 𝑥 = 5, la risposta prevista è 𝑓(5) = 8,33, che rappresenta il quadrato rosso più a sinistra.

Le linee grigie tratteggiate verticali rappresentano i residui, che possono essere calcolati come 𝑦ᵢ - 𝑓(𝐱ᵢ) = 𝑦ᵢ - 𝑏₀ - 𝑏₁𝑥ᵢ per 𝑖 = 1, …, 𝑛. Sono le distanze tra i cerchi verdi e i quadrati rossi. Quando implementiamo la regressione lineare, stiamo effettivamente cercando di ridurre al minimo queste distanze e di rendere i quadrati rossi il più vicino possibile ai cerchi verdi predefiniti.

### Ora andiamo a implementare la regressione lineare semplice con la libreria scikit-learn

# Esistono cinque passaggi fondamentali quando si implementa la regressione lineare:

1) Installare e importare i pacchetti e le classi di cui abbiamo bisogno.
2) Fornire i dati con cui lavorare ed eventualmente eseguire le trasformazioni appropriate.
3) Creare un modello di regressione e adattarlo ai dati esistenti.
4) Controllare i risultati dell'adattamento del modello per sapere se il modello è soddisfacente.
5) Applicare il modello per le previsioni.

### Passaggio 1: importa pacchetti e classi

Il primo passo è installare e importare il pacchetto numpy e installare sklearn e importare la classe Linear Regression da sklearn.linear_model:

In [None]:
!pip install numpy scikit-learn matplotlib

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

Ora abbiamo tutte le funzionalità necessarie per implementare la regressione lineare.

Il tipo di dati fondamentale di NumPy è il tipo di array chiamato numpy.ndarray. Nel resto di questo esercizio utilizzeremo il termine array per fare riferimento a istanze del tipo numpy.ndarray.

Utilizzeremo la classe sklearn.linear_model.LinearRegression per eseguire regressioni lineari fare previsioni di conseguenza.

### Passaggio 2: fornire i dati

Il secondo passo è definire i dati con cui lavorare. Gli input (regressori, 𝑥) e l'output (risposta, 𝑦) dovrebbero essere array o oggetti simili. Questo è il modo più semplice per fornire dati per la regressione:

In [None]:
X = np.array([5, 15, 25, 35, 45, 55]).reshape((-1, 1))
y = np.array([5, 20, 14, 32, 22, 38])

Ora abbiamo due array: l'input, X e l'output, y. Utilizzeremo .reshape() perché questo array deve essere bidimensionale o, più precisamente, deve avere una colonna e tutte le righe necessarie . Questo è esattamente ciò che specifica l'argomento (-1, 1)di .reshape().

In [None]:
print(X)

print(y)
plt.scatter(X,y)
plt.show()

Come possiamo vedere, X ha due dimensioni, mentre y ha una sola dimensione.

### Passaggio 3: crea un modello e adattalo

Il passaggio successivo consiste nel creare un modello di regressione lineare e adattarlo utilizzando i dati esistenti.

Creiamo un'istanza della classe LinearRegression, che rappresenterà il modello di regressione:

In [None]:
model = LinearRegression()

Questa istruzione crea la variabile model come istanza di LinearRegression. È possibile fornire diversi parametri facoltativi per LinearRegression:

- fit_intercept è un booleano che, se True, decide di calcolare l'intercetta 𝑏₀ oppure, se False, la considera uguale a zero. Il valore predefinito è True.
- normalize è un booleano che, se True, decide di normalizzare le variabili di input. Il valore predefinito è False, nel qual caso non normalizza le variabili di input.
- copy_X è un booleano che decide se copiare ( True) o sovrascrivere le variabili di input ( False). È True per impostazione predefinita.
- n_jobs è un numero intero o None. Rappresenta il numero di iterazioni utilizzate nel calcolo parallelo. Il valore predefinito è None, che di solito significa una iterazione. -1 significa utilizzare tutti i processori disponibili.

Sopra abbiamo definito model utilizzando i valori predefiniti di tutti i parametri.

È ora di iniziare a utilizzare il modello. 
#### Per prima cosa è necessario chiamare .fit() model:

In [None]:
model.fit(X, y)

Con .fit(), calcoliamo i valori ottimali dei pesi 𝑏₀ e 𝑏₁, utilizzando l'input e l'output esistenti X e y, come argomenti. In altre parole, .fit() si adatta al modello . Restituisce self, che è la variabile model stessa.

### Passaggio 4: ottieni risultati

Una volta adattato il modello, è possibile ottenere i risultati per verificare se il modello funziona in modo soddisfacente e per interpretarlo.

È possibile ottenere il coefficiente di determinazione, 𝑅², con .score() chiamato su model:

In [None]:
r_sq = model.score(X, y)
print(f"coefficient of determination: {r_sq}")

Quando si applica .score(), gli argomenti sono anche il predittore X e la risposta y e il valore restituito è 𝑅².

Gli attributi di model sono .intercept_, che rappresenta il coefficiente 𝑏₀, e .coef_, che rappresenta 𝑏₁:

In [None]:
print(f"intercept: {model.intercept_}")


print(f"slope: {model.coef_}")

<b>Nota</b>: in scikit-learn, per convenzione , un carattere di sottolineatura finale indica che un attributo è stimato. In questo esempio, .intercept_e .coef_sono valori stimati.

Il valore di 𝑏₀ è circa 5,63. Ciò dimostra che il nostro modello prevede la risposta 5,63 quando 𝑥 è zero. Il valore 𝑏₁ = 0,54 significa che la risposta prevista aumenta di 0,54 quando 𝑥 viene aumentato di uno.

Possiamo fornire y anche come un array bidimensionale. In questo caso, otterremo un risultato simile. Ecco come potrebbe apparire:

In [None]:
new_model = LinearRegression().fit(X, y.reshape((-1, 1)))
print(f"intercept: {new_model.intercept_}")


print(f"slope: {new_model.coef_}")

### Passaggio 5: prevedere la risposta

Una volta ottenuto un modello soddisfacente, è possibile utilizzarlo per previsioni con dati esistenti o nuovi. Per ottenere la risposta prevista, utilizzeremo .predict():

In [None]:
y_pred = model.predict(X)
print(f"predicted response:\n{y_pred}")

Quando si applica .predict(), si passa il regressore come argomento e si ottiene la risposta prevista corrispondente. Questo è un modo quasi identico per prevedere la risposta:

In [None]:
y_pred = model.intercept_ + model.coef_ * X
print(f"predicted response:\n{y_pred}")

In questo caso, moltiplichiamo ciascun elemento di X al prodotto di model.coef_ e model.intercept_.

L'output qui differisce dall'esempio precedente solo nelle dimensioni. La risposta prevista è ora una matrice bidimensionale, mentre nel caso precedente aveva una dimensione.

Se riduciamo il numero di dimensioni di X a uno, questi due approcci produrranno lo stesso risultato. Possiamo farlo sostituendo X con X.reshape(-1).

In pratica, i modelli di regressione vengono spesso applicati per le previsioni. Ciò significa che è possibile utilizzare modelli adattati per calcolare gli output sulla base di nuovi input:

In [None]:
x_new = np.arange(5).reshape((-1, 1))
print(x_new)

y_new = model.predict(x_new)
print(y_new)

Qui .predict() viene applicato al nuovo regressore x_new che produce la risposta y_new. Questo esempio utilizza arange() da numpy per generare un array con gli elementi da 0, compreso, fino a 5 escluso, ovvero 0, 1, 2, 3 e 4.

### Finora non abbiamo tenuto conto della precisione del modello
Nel Machine Learning creiamo infatti modelli per prevedere l'esito di determinati eventi, ma come facciamo a capire con i dati in nostro possesso se il modello funziona correttamente?

Per misurare se il modello è sufficientemente buono, possiamo utilizzare un metodo chiamato Train/Test.

### Cos'è Train/Test
Train/Test è un metodo per misurare la precisione del modello.

Si chiama Train/Test perché dividiamo il set di dati in due set: un set di training e un set di test.

Per convenzione 80% per la formazione e 20% per i test, quindi: 

- Addestriamo il modello utilizzando il set di training;

- Testiamo il modello utilizzando il set di test.



### Quindi ripartiamo nel creare i nostri set di dati:


In [None]:
np.random.seed(2)

"""
numpy.random.seed è una funzione nella libreria NumPy che imposta il seed per generare numeri casuali. 
Specificando un valore seed, la funzione garantisce che la sequenza di numeri casuali generati rimanga la stessa in più esecuzioni, 
fornendo un comportamento deterministico e consentendo la riproducibilità nella generazione di numeri casuali.
"""
#Il nostro set di dati possiamo considerarlo come l'esempio di 100 clienti in un negozio e le loro abitudini di acquisto.

#L'asse X rappresenta il numero di minuti prima di effettuare un acquisto.

#L'asse y rappresenta la quantità di denaro spesa per l'acquisto.

X = np.random.normal(3, 1, 100)
y = np.random.normal(150, 40, 100) / X

plt.scatter(X, y)
plt.show()

Suddividiamo in Train/Test <br>
Il set di addestramento dovrebbe essere una selezione casuale dell'80% dei dati originali.

Il set di test dovrebbe essere il restante 20%.

In [None]:
train_X = X[:80]
train_y = y[:80]

test_X = X[80:]
test_y = y[80:]

o in alternativa possiamo usare la funzione integrata di scikit-learn

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    X, y)


### Attributi opzionali
- test_size: float o int, default=Nessuno
Se float, dovrebbe essere compreso tra 0,0 e 1,0 e rappresentare la proporzione del set di dati da includere nella suddivisione del test. Se int, rappresenta il numero assoluto di campioni di prova. Se Nessuno, il valore viene impostato sul complemento della dimensione del train. Se train_size è anche None, verrà impostato su 0,25.

- train_size: float o int, default=Nessuno
Se float, deve essere compreso tra 0,0 e 1,0 e rappresentare la proporzione del set di dati da includere nella suddivisione del train. Se int, rappresenta il numero assoluto di campioni di train. Se Nessuno, il valore viene impostato automaticamente sul complemento della dimensione del test.

- random_state: int, istanza RandomState o None, default=None
Controlla il mescolamento applicato ai dati prima di applicare la suddivisione. Passa un int per un output riproducibile tra più chiamate di funzione.

- shuffle: bool, impostazione predefinita=Vero
Se mescolare o meno i dati prima di dividerli. Se shuffle=False allora la stratificazione deve essere None.

- stratify: array, default=Nessuno
Se non è impostato su Nessuno, i dati vengono suddivisi in modo stratificato, utilizzandolo come etichetta della classe. 

### Ora visualizziamo il set di allenamento e il set di test

In [None]:
plt.scatter(X_train, y_train)
plt.show()

In [None]:
plt.scatter(X_test, y_test)
plt.show()

Assomigliano molto al set originale quindi possiamo riternerci soddisfatti.
### Ora procediamo a:
- Allenare il modello con i set di allenamento;
- Usare il modello per prevedere in base ai dati di allenamento il target di allenamento;
- Confrontare le previsioni con i dati reali.


In [None]:
model = LinearRegression()
model.fit(X_train.reshape(-1, 1), y_train)
y_pred = model.predict(X_train.reshape(-1, 1))
errore = y_train - y_pred
media_errore = errore.mean()
mediana_errore = np.median(errore)
print(f"media: {media_errore}, mediana: {mediana_errore}")




### Ora facciamo la stessa cosa con i dati di test

In [None]:
y_pred_test = model.predict(X_test.reshape(-1, 1))
errore = y_test - y_pred_test
media_errore = errore.mean()
mediana_errore = np.median(errore)
print(f"media: {media_errore}, mediana: {mediana_errore}")

### Scikit learn ci permette anche di calcolare l'errore quadratico medio di cui abbiamo parlato in precedenza

In [None]:
from sklearn.metrics import mean_squared_error

error_train = mean_squared_error(y_train, y_pred)
error_test = mean_squared_error(y_test, y_pred_test)
print(f"test: {error_train}, train: {error_train}")


### Ma anche di visualizzazire l'errore di previsione di un modello di regressione.

Questo strumento può visualizzare “residui rispetto a quelli previsti” o “effettivi rispetto a quelli previsti” utilizzando grafici a dispersione per valutare qualitativamente il comportamento di un regressore, preferibilmente su punti dati non disponibili.

In [None]:
from sklearn.metrics import PredictionErrorDisplay
display = PredictionErrorDisplay(y_true=y_train, y_pred=y_pred)
display.plot()
plt.show()

In [None]:
display = PredictionErrorDisplay(y_true=y_test, y_pred=y_pred_test)
display.plot()
plt.show()

## Primo Esempio pratico
### L'esempio seguente utilizza solo la prima caratteristica di un dataset sul diabete fornito da scikit learn per testare un algoritmo di machine learning su dati reali.
La linea retta vista nel grafico, mostra come la regressione lineare tenta di tracciare una linea retta che minimizzi al meglio la somma residua dei quadrati tra le risposte osservate nel set di dati e le risposte previste dall'approssimazione lineare.

Vengono inoltre calcolati i coefficienti, la somma residua dei quadrati e il coefficiente di determinazione.

In [None]:
import matplotlib.pyplot as plt
import numpy as np

from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score

# carichiamo il dataset
diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)

# utilizziamo una sola caratteristicha
diabetes_X = diabetes_X[:, np.newaxis, 2]

# dividiamo i dati in train e test
diabetes_X_train = diabetes_X[:-20]
diabetes_X_test = diabetes_X[-20:]

# dividiamo le etichette in train e test
diabetes_y_train = diabetes_y[:-20]
diabetes_y_test = diabetes_y[-20:]

# Creaiamo l'oggetto del modello
regr = linear_model.LinearRegression()

# Alleniamo il modello sul set di allenamento
regr.fit(diabetes_X_train, diabetes_y_train)

# Facciamo una predizione sui dati usando i dati di test
diabetes_y_pred = regr.predict(diabetes_X_test)

# Stampiamo il coefficente
print("Coefficients: \n", regr.coef_)
# L'errore quadratico medio 
print("Mean squared error: %.2f" % mean_squared_error(diabetes_y_test, diabetes_y_pred))
# Il coefficiente di determinazione: 1 è la previsione perfetta
print("Coefficient of determination: %.2f" % r2_score(diabetes_y_test, diabetes_y_pred))

# Creiamo i grafici
plt.scatter(diabetes_X_test, diabetes_y_test, color="black")
plt.plot(diabetes_X_test, diabetes_y_pred, color="blue", linewidth=3)

plt.xticks(())
plt.yticks(())

plt.show()

## Primo Esercizio
Utilizzate la linear regression per analizzare il dataframe di esempio in cui abbiamo le Calorie bruciate in base al peso della persona che fa esercizio fisico con la montain bike, allenate l'algoritmo, testatelo e poi realizzate un grafico

## Secondo Esercizio
Utilizzate la linear regression per analizzare il dataframe di esempio con Fabbisogno calorico giornaliero di un uomo in base alla sua età, allenate l'algoritmo, testatelo e poi realizzate un grafico.