# La tua prima Regressione
La regressione è uno dei due principali problemi dell'apprendimento supervisionato, la branca del machine learning che vuole insegnare ai computer a risolvere un determinato problema mostrandogli come questo problema è stato già risolto in passato.
<br><br>
**Intuitivamente** la regressione consente di trovare la relazione tra input e output, in modo da predire output futuri avendo a disposizione solamente l'input.<br><br>
Ad esempio, avendo a disposizione un set di dati contenente le specifiche di diversi smartphone e il relativo prezzo di listino, potremmo utilizzare la regressione per predire a che prezzo potrà essere venduto un nuovo smartphone basandoci sulle sue specifiche.

Altri esempi molto comuni sono il provare a predire il valore futuro di un titolo in borsa in base ai valori passati, provare a predire l'affluenza di utenti al blog in base ai contenuti di un articolo che si vuole pubblicare o il numero di nuovi iscritti in base a delle campagne di advertising in pianificazione.

<br><br>
**Matematicamente** la regressione può essere intesa come il trovare la funzione che meglio approssima la relazione tra la variabile dipendente X (l'input) e la variabile indipendente Y (l'output). Nel caso di una regressione lineare questa funzione è un polinomio.

$$ f(x)=xw+b $$

**Graficamente** questa relazione lineare può essere rappresentata come una retta che passa il più vicino possibile a tutti i punti costituiti da input X e output Y.
<img src="res/linear.jpg" width="750px"/>

## Predire il valore di un'abitazione
Per questo primo esempio utilizzeremo il popolarissimo **Boston Housing Dataset**,  un dataset contenente diverse informazioni riguardo alcune abitazioni nei dintorni di Boston.
<br><br>
Un dataset strutturato si può presentare in diversi formati: CSV, TSV, XML, HTTP, JSON, EXCEL eccetera, in ogni caso questo ha una struttura tabulare.<br>
 * Una delle colonne della tabella è il valore che vogliamo addestrare il nostro modello a predire e prende il nome di **target**.
 * Tutte le altre colonne sono proprietà che possiamo potenzialmente usare per creare il nostro modello, purchè abbiano una relazione con il target, e vengono chiamate **features**.

Pandas è una libreria Python sviluppata appositamente per chi lavora con i dati e mette a disposizione una particolare struttura dati chiamata **DataFrame** che si presta particolarmente bene a contenere dati in forma tabulare.<br><br>
Carichiamo il Boston Housing Dataset all'interno di un DataFrame utilizzando la funzione <span style="font-family: Monaco">read_csv</span>
, seguita dal metodo <span style="font-family: Monaco">head</span>
 del DataFrame per vedere le sue prime 5 righe.

In [3]:
import pandas as pd

boston = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data", 
                     sep='\s+', #le colonne all'interno del file sono separate da un numero variabile di spazi, in questo caso dobbiamo utilizzare l'espressione regolare '\s+'
                     names=["CRIM","ZN","INDUS","CHAS","NOX","RM","AGE","DIS","RAD","TAX","PRATIO","B","LSTAT","MEDV"]) # impostiamo dei nomi per le colonne

boston.head() # passando un valore n a questo metodo stamperemo i primi n esempi del dataset

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


La colonna che abbiamo denominato MEDV contiene il valore dell'abitazione in `1000$` (es. un MEDV di 24 corrisponde a `24000$`) ed è il nostro target.

## Regressione lineare semplice
Una regressione lineare semplice è un modello che utilizza un'unica feature, nel nostro caso utilizzeremo solo il numero di stanze, cioè la colonna che abbiamo denominato RM.
<br><br>
Estraiamo la feature RM  e il target MEDV e salviamo i valori all'interno di due array numpy che ci serviranno per l'addestramento.

In [4]:
X = boston[['RM']].values # con l'attributo values ottieniamo l'array
Y = boston["MEDV"].values

E' buona pratica nel machine learning eseguire l'addestramento su un set di dati per poi verificare i risultati delle sue predizioni con un altro set contente dati non visti durante l'addestramento.<br><br>
Questo garantisce che il nostro modello è in grado di generalizzare su dati sconosciuti e quindi ha realmente "imparato" dai dati, piuttosto che limitarsi a memorizzare il set di addestramento, condizione conosciuta come **overfitting**.
<br><br>
Per fare questo dobbiamo suddividere il nostro dataset in due set distinti, uno da utilizzare unicamente per l'addestramento e un altro da utilizzare per il test, possiamo farlo utilizzando il metodo <span style="font-family: Monaco">train_test_split</span> di scikit-learn.

In [28]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size=0.3, random_state=0)

Adesso abbiamo tutto ciò che ci serve per costruire il modello di regressione lineare, facciamolo utilizzando la classe LinearRegression di scikit-learn:
 * con il metodo **fit** eseguiamo l'addestramento
 * con il metodo **predict** eseguiamo la predizione
 
 
Queste due semplici API sono comuni tra tutti i modelli definiti in scikit-learn, questo rende il sostituire un modello con un altro estremamente semplice.

In [29]:
from sklearn.linear_model import LinearRegression

ll = LinearRegression()
ll.fit(X_train, Y_train) # passiamo i set di addestramento 
Y_pred_train = ll.predict(X_train) # eseguiamo la predizione sul train set
Y_pred_test = ll.predict(X_test) # eseguiamo la predizione anche sul test set

Congratulazione ! Hai costruito il tuo primo modello di regressione e hai eseguito la tua prima predizione. Adesso bisogna vedere quanto buono è questo modello.<br>
Per farlo dobbiamo definire una metrica che ci permetterà di misurare quanto le predizioni del modello si avvicinano ai valori corretti.<br>
Una metrica semplice che fa proprio questo è **l'errore quadratico medio (mean squadred error - MSE)**

In [30]:
from sklearn.metrics import mean_squared_error

print("MSE train: %f" % mean_squared_error(Y_train, Y_pred_train))
print("MSE test: %f" % mean_squared_error(Y_test, Y_pred_test))

MSE train: 42.157651
MSE test: 47.033047


Come vanno interpretati questi valori ? Estraendo la radice quadrata dell'MSE otteniamo un valore che indica mediamente di quanto si è sbagliato il modello. Nel nostro caso, il test set ha ottenuto un MSE di 47 la cui radice quadrata è circa 6.9, considerando che i prezzi delle case sono rappresentati in `1000$` questo ci dice che in media il modello ha fatto cilecca per `6900$`
<br><br>
Una metrica più intuitiva è **il coefficiente di indeterminazione** (anche conosciuto come **punteggio R2**), che può essere inteso come una versione standardizzata del MSE e ritorna un valore compreso tra 0 e 1 che può essere letto in questo modo:
* **R2_score < 0.3** il modello è inutile.
* **0.3 < R2_score < 0.5** il modello è scarso.
* **0.5 < R2_score < 0.7** il modello è discreto.
* **0.7 < R2_score < 0.9** il modello è buono.
* **0.9 < R2_score < 1** il modello è ottimo.
* **R2_score = 1** molto probabilmente c'è un errore nel modello.

In [32]:
from sklearn.metrics import r2_score

print("R2 train: %f" % r2_score(Y_train, Y_pred_train))
print("R2 test: %f" % r2_score(Y_test, Y_pred_test))

R2 train: 0.502650
R2 test: 0.435144


Il risultato non è così male considerando le poche informazioni che abbiamo utilizzato (solamente il numero di stanze), ma possiamo fare meglio !

## Regressione lineare multipla
Una regressione lineare multipla è un modello che utilizza due o più features per l'addestramento.
<br><br>
Proviamo a predire il valore delle abitazioni utilizzando tutte le 13 features presenti nel nostro dataset, ricreiamo i nostri array con features e target, questa volta selezionando tutte le proprietà.

In [33]:
X = boston.drop("MEDV", axis=1).values # utilizzando drop rimuoviamo la colonna del prezzo e selezioniamo tutte le altre
Y = boston["MEDV"].values

X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size=0.3, random_state=0)

Quando lavoriamo con più features dobbiamo essere sicuri che queste siano comprese in un range di valori comune, per far questo abbiamo due possibilità:
* **Normalizzazione**: portiamo tutti i dati in un range compreso tra 0 e 1
* **Standardizzazione**: convertiamo i dati in una distribuzione normale con media 0 e deviazione standard 1.

Standardizziamo l'array con le features utilizzando la classe StandardScaler di scikit-learn

In [34]:
from sklearn.preprocessing import StandardScaler

ss = StandardScaler()
X_train_std = ss.fit_transform(X_train)
X_test_std = ss.transform(X_test)

Adesso possiamo creare il modello esattamente come fatto prima...

In [35]:
from sklearn.linear_model import LinearRegression

ll = LinearRegression()
ll.fit(X_train_std, Y_train)
Y_pred_train = ll.predict(X_train_std)
Y_pred_test = ll.predict(X_test_std)

... e calcolare le metriche

In [36]:
print("MSE train: %f" % mean_squared_error(Y_train, Y_pred_train))
print("MSE test: %f" % mean_squared_error(Y_test, Y_pred_test))

print("R2 train: %f" % r2_score(Y_train, Y_pred_train))
print("R2 test: %f" % r2_score(Y_test, Y_pred_test))

MSE train: 19.958220
MSE test: 27.195966
R2 train: 0.764545
R2 test: 0.673383


Come vedi il risultato è nettamente superiore rispetto a quanto ottenuto con un'unica feature, avendo più informazioni a disposizione l'algoritmo di machine learning è riuscito a individuare pattern migliori e quindi a eseguire predizioni migliori.<br><br>
Infatti una cosa da tenere sempre a mente è che, spesso, nel machine learning la qualità e la quantità di dati riveste un ruolo anche superiore a quello degli algoritmi stessi.

**Puoi leggere l'articolo di questo notebook sul [blog ufficiale di ProfessionAI](http://blog.profession.ai/la-tua-prima-regressione/)**

### Ti interessa il Machine Learning ? 
Se vuoi approfondire più nel dettaglio la regressione e altri argomenti come classficazione e clustering allora dai uno sguardo al nostro **[Corso Pratico sul Machine Learning con Python](https://www.udemy.com/machine-learning-pratico/?couponCode=GITHUB_REPO)**, disponbile su Udemy a soli 9.90 per un periodo di tempo limitato.