# Regressione lineare multipla
La regressione lineare multipla o multivariata è un caso di regressione lineare con due o più variabili indipendenti.

Se ci sono solo due variabili indipendenti, la funzione di regressione stimata è 𝑓(𝑥₁, 𝑥₂) = 𝑏₀ + 𝑏₁𝑥₁ + 𝑏₂𝑥₂. Rappresenta un piano di regressione in uno spazio tridimensionale. L'obiettivo della regressione è determinare i valori dei pesi 𝑏₀, 𝑏₁ e 𝑏₂ in modo tale che questo piano sia il più vicino possibile alle risposte effettive, producendo al contempo l'SSR minimo.

Il caso di più di due variabili indipendenti è simile, ma più generale. La funzione di regressione stimata è 𝑓(𝑥₁, …, 𝑥ᵣ) = 𝑏₀ + 𝑏₁𝑥₁ + ⋯ +𝑏ᵣ𝑥ᵣ, e ci sono 𝑟 + 1 pesi da determinare quando il numero di input è 𝑟.

## Implementiamo la Regressione lineare multipla con scikit-learn
È possibile implementare una regressione lineare multipla seguendo gli stessi passaggi della regressione semplice. La differenza principale è che ora il nostro x array avrà due o più colonne.

#### Passaggi 1 e 2: importiamo pacchetti e classi e forniamo i dati

Innanzitutto, importiamo numpy e sklearn.linear_model.LinearRegression e forniamo input e output noti:

In [2]:
import numpy as np
from sklearn.linear_model import LinearRegression

x = [
  [0, 1], [5, 1], [15, 2], [25, 5], [35, 11], [45, 15], [55, 34], [60, 35]
]
y = [4, 5, 20, 14, 32, 22, 38, 43]
x, y = np.array(x), np.array(y)

In [3]:
x

array([[ 0,  1],
       [ 5,  1],
       [15,  2],
       [25,  5],
       [35, 11],
       [45, 15],
       [55, 34],
       [60, 35]])

In [4]:
y

array([ 4,  5, 20, 14, 32, 22, 38, 43])

Come abbiamo già detto, nella regressione lineare multipla, x è una matrice bidimensionale con almeno due colonne, mentre y di solito è una matrice unidimensionale. Questo è un semplice esempio di regressione lineare multipla e x ha esattamente due colonne.

### Passaggio 3: creiamo un modello e lo adattiamo

Il passaggio successivo consiste nel creare il modello di regressione come istanza LinearRegressione per poi allenarlo con .fit():

In [5]:
model = LinearRegression().fit(x, y)

Il risultato di questa istruzione è la variabile model che fa riferimento all'oggetto di tipo LinearRegression. Rappresenta il modello di regressione adattato ai dati esistenti.

### Passaggio 4: ottieniamo i risultati

È possibile ottenere le proprietà del modello come nel caso della regressione lineare semplice:

In [6]:
r_sq = model.score(x, y)
print(f"coefficient of determination: {r_sq}")


print(f"intercept: {model.intercept_}")


print(f"coefficients: {model.coef_}")

coefficient of determination: 0.8615939258756776
intercept: 5.52257927519819
coefficients: [0.44706965 0.25502548]


Si ottiene il valore di 𝑅² utilizzando .score() i valori degli stimatori dei coefficienti di regressione con .intercept_e .coef_. Ancora una volta, .intercept_ mantiene il bias 𝑏₀, mentre ora .coef_è un array contenente 𝑏₁ e 𝑏₂.

In questo esempio, l'intercetta è circa 5,52 e questo è il valore della risposta prevista quando 𝑥₁ = 𝑥₂ = 0. Un aumento di 𝑥₁ di 1 produce un aumento della risposta prevista di 0,45. Allo stesso modo, quando 𝑥₂ cresce di 1, la risposta aumenta di 0,26.

### Passaggio 5: prevedere la risposta

Anche le previsioni funzionano allo stesso modo del caso della regressione lineare semplice:

In [7]:
y_pred = model.predict(x)
print(f"predicted response:\n{y_pred}")

predicted response:
[ 5.77760476  8.012953   12.73867497 17.9744479  23.97529728 29.4660957
 38.78227633 41.27265006]


La risposta prevista si ottiene con .predict(), che equivale alla seguente formula:

In [8]:
y_pred = model.intercept_ + np.sum(model.coef_ * x, axis=1)
print(f"predicted response:\n{y_pred}")

predicted response:
[ 5.77760476  8.012953   12.73867497 17.9744479  23.97529728 29.4660957
 38.78227633 41.27265006]


È possibile prevedere i valori di output moltiplicando ciascuna colonna dell'input con il peso appropriato, per poi sommare questo valore con l'intercetta.

Possiamo applicare questo modello anche a nuovi dati:

In [9]:
x_new = np.arange(10).reshape((-1, 2))
x_new

y_new = model.predict(x_new)
y_new

array([ 5.77760476,  7.18179502,  8.58598528,  9.99017554, 11.3943658 ])

## Primo Esempio pratico
### Analizzando il dataset cardata.csv possiamo prevedere le emissioni CO2 in base alle dimensioni del motore e al peso dell'auto, con la possibilità di analizzare 2 carretteristiche invece che una sola possiamo infatti rendere la previsione più accurata.


Prima cosa da fare importiamo scikit-learn per il modello e pandas per leggere il csv:

In [None]:
import pandas
from sklearn import linear_model
df = pandas.read_csv("cardata.csv")
print(df)

Analizzato il dataset possiamo creare le nostre variabili:
- X per contenente i valori indipendenti;
- y per contenere i valori target.

Poi utilizziamo il nostro modello e il metodo .fit() per allenarerlo:

In [None]:
X = df[['Weight', 'Volume']]
y = df['CO2']
regr = linear_model.LinearRegression()
regr.fit(X, y)

In [None]:
r_sq = regr.score(X, y)
print(f"coefficient of determination: {r_sq}")

In [None]:
y_pred = regr.predict(X)

In [None]:
y.min()

In [None]:
y.max()

In [None]:
from sklearn.metrics import PredictionErrorDisplay
import matplotlib.pyplot as plt
display = PredictionErrorDisplay(y_true=y, y_pred=y_pred)
display.plot()
plt.show()

Ora possiamo prevedere i valori di CO2 in base al peso e al volume di un'auto:

In [None]:
#predict the CO2 emission of a car where the weight is 2300kg, and the volume is 1300cm3:
predictedCO2 = regr.predict([[2300, 1300]])
print(predictedCO2)

### Passiamo al Coefficiente
Abbiamo detto che il coefficiente è un fattore che descrive la relazione con una variabile sconosciuta.

In questo caso, possiamo chiedere il valore del coefficiente di peso rispetto a CO2 e di volume rispetto a CO2. Le risposte che otteniamo ci dicono cosa accadrebbe se aumentassimo o diminuissimo uno dei valori indipendenti.

In [None]:
print(regr.coef_)

La matrice dei risultati rappresenta i valori dei coefficienti di peso e volume.

Peso: 0,00755095
Volume: 0,00780526

Questi valori ci dicono che se il peso aumenta di 1kg, l'emissione di CO2 aumenta di 0,00755095g.

E se la cilindrata (Volume) aumenta di 1 centimentro cubo, l'emissione di CO2 aumenta di 0,00780526 g.

Considerando che sia una supposizione giusta andiamo a fare altre prove.

Abbiamo già previsto che se un'auto con motore da 1300 cm 3 pesa 2300 kg, l'emissione di CO2 sarà di circa 107 g.

Cosa succede se aumentiamo il peso di 1000 kg?

In [None]:
predictedCO2 = regr.predict([[3300, 1300]])

print(predictedCO2)

Abbiamo previsto che un'auto con motore da 1,3 litri e peso di 3300 kg rilascerà circa 115 grammi di CO2 per ogni chilometro percorso.

Ciò dimostra che il coefficiente di 0,00755095 è corretto:

107,2087328 + (1000 * 0,00755095) = 114,75968

In [None]:
X

In [None]:
X.describe()

In [None]:
X_stand.min()

In [None]:
X_stand.max()

In [None]:
from sklearn.preprocessing import StandardScaler

X_scaler = StandardScaler()

X_stand = X_scaler.fit_transform(X)

X_stand

## Primo Esercizio
 Utilizzate la linear regression multipla per analizzare il dataframe a questo link https://www.kaggle.com/datasets/nikhil7280/student-performance-multiple-linear-regression utilizzate i dati sulle ore di studio e le ore di sonno , allenate l'algoritmo, testatelo e poi realizzate i vari grafici

## Secono Esercizio
Utilizzate la linear regression multipla per analizzare il dataframe a questo link https://www.kaggle.com/datasets/quantbruce/real-estate-price-prediction utilizzate i dati sulle età delle case e la distanza dalla metro per prevedere il costo della casa , allenate l'algoritmo, testatelo e poi realizzate i vari grafici

## SAVE THE MODEL

In [None]:
import pickle

In [None]:
diz = {"chiave":"valore","chiave2":"valore2"}

In [None]:
with open("file.pkl", "wb") as f:
    pickle.dump(diz, f)

In [None]:
with open("file.pkl", "rb") as f:
    diz2 = pickle.load(f)

In [None]:
diz2

In [None]:
TRAINED_MODEL = "trained_model.pkl"

In [None]:
with open(TRAINED_MODEL, "wb") as f:
    pickle.dump(regr, f)

## MODEL DEPLOYMENT

In [None]:
with open(TRAINED_MODEL, "rb") as f:
    trained_regressor = pickle.load(f)

In [None]:
trained_regressor

# Regressione polinomiale
Se i nostri punti chiaramente non si adattano a una regressione lineare (una linea retta che passa attraverso tutti i punti dati), potrebbe essere ideale utilizzare la regressione polinomiale.

La regressione polinomiale, come la regressione lineare, utilizza la relazione tra le variabili X e y per trovare il modo migliore per tracciare una linea attraverso i punti dati.



![grafico](./dati/img/img_polynomial_regression.png)

### Regressione polinomiale con scikit-learn
L'implementazione della regressione polinomiale con scikit-learn è molto simile alla regressione lineare. Ma c'è solo un passaggio in più: dobbiamo trasformare l'array di input per includere termini non lineari come 𝑥².

### Passaggio 1: importiamo pacchetti e classi

Oltre a numpy e sklearn.linear_model.LinearRegression, dobbiamo anche importare la classe PolynomialFeatures da sklearn.preprocessing:


In [None]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures

L'importazione è ora completata e abbiamo tutto ciò di cui abbiamo bisogno per lavorare.

### Passaggio 2a: forniamo i dati

Questo passaggio definisce l'input e l'output:

In [None]:
x = np.array([5, 15, 25, 35, 45, 55]).reshape((-1, 1))
y = np.array([15, 11, 2, 8, 25, 32])

Ora abbiamo l'input e l'output in un formato adatto. Dobbiamo ricordarci che è necessario che l'input sia un array bidimensionale . Ecco perché .reshape() viene utilizzato.

### Passaggio 2b: trasformarmiamo i dati di input

Questo è il nuovo passaggio che dobbiamo implementare per la regressione polinomiale!

Come abbiamo imparato in precedenza, dobbiamo includere 𝑥² come funzionalità aggiuntive quando implementiamo la regressione polinomiale. Per questo motivo, dobbiamo trasformare l'array di input X per contenere eventuali colonne aggiuntive con i valori di 𝑥² ed eventualmente più funzionalità.

È possibile trasformare l'array di input in diversi modi, ad esempio utilizzando insert() from numpy. Ma nel nostro caso la funzione PolynomialFeatures è molto più conveniente per questo scopo:

In [None]:
transformer = PolynomialFeatures(degree=2, include_bias=True)

La variabile transformer si riferisce a un'istanza PolynomialFeatures che è possibile utilizzare per trasformare l'input X.

È possibile fornire diversi parametri facoltativi per PolynomialFeatures:

- degree è un numero intero ( 2 per impostazione predefinita) che rappresenta il grado della funzione di regressione polinomiale.
- interaction_only è un valore booleano ( False per impostazione predefinita) che decide se includere solo le funzionalità di interazione ( True) o tutte le funzionalità ( False).
- include_bias è un valore booleano ( True per impostazione predefinita) che decide se includere la colonna di valori ( True) o meno ( False).

In questo esempio vengono utilizzati i valori predefiniti di tutti i parametri tranne include_bias. A volte vorrai sperimentare il grado della funzione e può essere utile per la leggibilità fornire comunque questo argomento.

Prima di applicare transformer è necessario munirlo di .fit(), una volta fatto è pronto per creare un nuovo array di input modificato. Utilizziamo .transform() per farlo:

In [None]:
transformer.fit(x)
x_ = transformer.transform(x)

Questa trasformazione dell'array di input con .transform() prende l'array di input come argomento e restituisce l'array modificato.

Per velocità si può anche usare .fit_transform() per sostituire le tre affermazioni precedenti con una sola:

In [None]:
x_ = PolynomialFeatures(degree=2, include_bias=False).fit_transform(x)

Con .fit_transform(), stiamo adattando e trasformando l'array di input in un'unica istruzione. Anche questo metodo accetta l'array di input e fa effettivamente la stessa cosa di .fit() e .transform()c hiamato in quest'ordine. Restituisce anche l'array modificato. Ecco come appare il nuovo array di input:

In [None]:
x

In [None]:
x_

L'array di input modificato contiene due colonne: una con gli input originali e l'altra con i relativi quadrati.

### Passaggio 3: creiamo un modello e adattalo

Anche questo passaggio è lo stesso del caso della regressione lineare. Creiamo e adattiamo il ​​modello:

In [None]:
model = LinearRegression().fit(x_, y)

Il modello di regressione è ora creato e adattato. È pronto per l'applicazione. Ricordiamoci che il primo argomento di .fit() è l' array di input modificato x_ e non l'originale x.

### Passaggio 4: ottieniamo i risultati

È possibile ottenere le proprietà del modello allo stesso modo del caso della regressione lineare:

In [None]:
r_sq = model.score(x_, y)
print(f"coefficient of determination: {r_sq}")


print(f"intercept: {model.intercept_}")


print(f"coefficients: {model.coef_}")

Ancora una volta, .score() ritorna 𝑅². Anche il suo primo argomento è l'input modificato x_, non x. I valori dei pesi sono associati a .intercept_ e .coef_. Qui .intercept_ rappresenta 𝑏₀, mentre .coef_ fa riferimento all'array che contiene 𝑏₁ e 𝑏₂.

### Passaggio 5: prevedere la risposta

Se vogliamo ottenere la risposta prevista, usiamo semplicemente .predict(), ma ricordiamo che l'argomento dovrebbe essere l'input modificato x_ anziché il vecchio x:

In [None]:
y_pred = model.predict(x_)
print(f"predicted response:\n{y_pred}")

Come possiamo vedere, la previsione funziona quasi allo stesso modo del caso della regressione lineare. Richiede solo l'input modificato anziché l'originale.

È possibile applicare una procedura identica se si hanno più variabili di input . Avremo un array di input con più di una colonna, ma tutto il resto sarà lo stesso. Ecco un esempio:

In [None]:
# Step 1: Import packages and classes
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures

# Step 2 a: Provide data
x = [
  [0, 1], [5, 1], [15, 2], [25, 5], [35, 11], [45, 15], [55, 34], [60, 35]
]
y = [4, 5, 20, 14, 32, 22, 38, 43]
x, y = np.array(x), np.array(y)

# Step 2 b: Transform input data
x_ = PolynomialFeatures(degree=2, include_bias=False).fit_transform(x)

# Step 3: Create a model and fit it
model = LinearRegression().fit(x_, y)

# Step 4: Get results
r_sq = model.score(x_, y)
intercept, coefficients = model.intercept_, model.coef_

# Step 5: Predict response
y_pred = model.predict(x_)

Questo esempio di regressione produce i seguenti risultati e previsioni:

In [None]:
print(f"coefficient of determination: {r_sq}")


print(f"intercept: {intercept}")


print(f"coefficients:\n{coefficients}")



print(f"predicted response:\n{y_pred}")

Possiamo notare che la regressione polinomiale ha prodotto un coefficiente di determinazione più elevato rispetto alla regressione lineare multipla per lo stesso problema. Inizialmente si potrebbe pensare che ottenere un 𝑅² così grande sia un ottimo risultato.

Tuttavia, nelle situazioni del mondo reale, anche avere un modello complesso e 𝑅² molto vicino a uno potrebbe essere un problema di overfitting (di cui parleremo a brevissimo). Per verificare le prestazioni di un modello, dovremmo testarlo con nuovi dati, ovvero con osservazioni non utilizzate per adattare o addestrare il modello.

### Altro esempio

Nell'esempio seguente abbiamo immortalato 18 automobili mentre transitavano davanti ad un determinato casello.

Abbiamo registrato la velocità dell'auto e l'ora del giorno in cui è avvenuto il passaggio.

L'asse x rappresenta le ore del giorno e l'asse y rappresenta la velocità, iniziamo disegnando un grafico a dispersione:



In [None]:
import matplotlib.pyplot as plt

x = [1,2,3,5,6,7,8,9,10,12,13,14,15,16,18,19,21,22]
y = [100,90,80,60,60,55,60,65,70,70,75,76,78,79,90,99,99,100]

plt.scatter(x, y)
plt.show()

In [None]:
#Usiamo numpy per creare un modello polinomiale:
import numpy
mymodel = numpy.poly1d(numpy.polyfit(x, y, 3))

#Quindi specifichiamo come verrà visualizzata la linea, iniziamo dalla posizione 1 e terminiamo alla posizione 22:

myline = numpy.linspace(1, 22, 100)

#Disegnamo il grafico a dispersione originale:

plt.scatter(x, y)

#Disegna la linea di regressione polinomiale:

plt.plot(myline, mymodel(myline))

#Visualizza il diagramma:

plt.show()

Naturalmente è importante sapere quanto è buona la relazione tra i valori degli assi x e y, se non esiste alcuna relazione la regressione polinomiale non può essere utilizzata per prevedere nulla.

Misuriamo la relazione con il valore r-quadrato che ricordiamo varia da 0 a 1, dove 0 significa nessuna relazione e 1 significa correlato al 100%.

Come abbiamo già visto, Python e il modulo Sklearn calcoleranno questo valore per noi, tutto ciò che dobbiamo fare è alimentarlo con gli array X e y:

In [None]:
import numpy
from sklearn.metrics import r2_score

x = [1,2,3,5,6,7,8,9,10,12,13,14,15,16,18,19,21,22]
y = [100,90,80,60,60,55,60,65,70,70,75,76,78,79,90,99,99,100]

mymodel = numpy.poly1d(numpy.polyfit(x, y, 3))

print(r2_score(y, mymodel(x)))

### Il risultato 0,94 mostra che esiste un'ottima relazione e possiamo utilizzare la regressione polinomiale nelle previsioni future.

# Ora torniamo alle slide per parlare dell'overfitting e underfitting