<a href="https://colab.research.google.com/github/ccasadei/corso-ia/blob/master/01Regressione/03RegressionePolinomiale/regressionePolinomiale01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regressione polinomiale
## Esercizio 1
**Author: Cristiano Casadei**

In [1]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures, StandardScaler

In [2]:
# importiamo il solito dataset al completo
dataset = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data",
                      sep="\s+",
                      names=["CRIM", "ZN", "INDUS", "CHAS", "NOX", "RM", "AGE", "DIS", "RAD", "TAX", "PRATIO", "B", "LSTAT", "MEDV"])

print("Utilizzo solo LSTAT")

# associamo ad X i valori di input di LSTAT
# associamo ad Y i valori di output
X = dataset[["LSTAT"]].values
Y = dataset["MEDV"].values

# suddividiamo il dataset in due dataset, uno di training ed uno di test
# questa volta uso un random state fisso, in modo che i dati vengano mischiati, ma sempre allo stesso modo
# così da poter confrontare direttamente i vari metodi di regressione
# in pratica random_state è il seed del generatore random
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=1234)

# ciclo il procedimento per vedere i risultati dei vari gradi del polinomio
# in questo caso vado da grado 1 (lineare) a grado 10
for grado in range(1, 11):
    # istanzo il generatore di feature polinomiali per il grado corrente
    # successivamente lo utilizzo per generare le feature per i set di training e di test
    polyfeatures = PolynomialFeatures(degree=grado)
    X_train_poly = polyfeatures.fit_transform(X_train)
    X_test_poly = polyfeatures.transform(X_test)

    # istanzio la classe di standardizzazione e standardizzo le feature polinomiali dei due set
    ss = StandardScaler()
    X_train_poly_std = ss.fit_transform(X_train_poly)
    X_test_poly_std = ss.transform(X_test_poly)

    # la regressione polinomiale è un caso particolare di regressione lineare multipla,
    # quindi proseguo come già visto utilizzando però i set arricchiti con le feature polinomiali
    lRegr = LinearRegression()
    lRegr.fit(X_train_poly_std, Y_train)
    Y_pred = lRegr.predict(X_test_poly_std)

    # calcoliamo l'errore quadratico medio e il coefficiente di determinazione
    errore = mean_squared_error(Y_test, Y_pred)
    punteggio = r2_score(Y_test, Y_pred)
    print("Grado:", grado, " - MSE:", punteggio, " - R2:", punteggio)

Utilizzo solo LSTAT
Grado: 1  - MSE: 0.561293110009808  - R2: 0.561293110009808
Grado: 2  - MSE: 0.6561389171118858  - R2: 0.6561389171118858
Grado: 3  - MSE: 0.6770922322673483  - R2: 0.6770922322673483
Grado: 4  - MSE: 0.695860782301003  - R2: 0.695860782301003
Grado: 5  - MSE: 0.6826978684220155  - R2: 0.6826978684220155
Grado: 6  - MSE: 0.6749390736563452  - R2: 0.6749390736563452
Grado: 7  - MSE: 0.6747390224812388  - R2: 0.6747390224812388
Grado: 8  - MSE: 0.6754703185274076  - R2: 0.6754703185274076
Grado: 9  - MSE: 0.6773603201346436  - R2: 0.6773603201346436
Grado: 10  - MSE: 0.6792253949025571  - R2: 0.6792253949025571


In [3]:
print("Utilizzo tutte le colonne")
# associamo ad X i valori di tutte le colonne meno MEDV
# associamo ad Y i valori di output
X = dataset.drop("MEDV", axis=1).values
Y = dataset["MEDV"].values

# suddividiamo il dataset in due dataset, uno di training ed uno di test
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=1234)

# ciclo da grado 1 (lineare) a grado 4
for grado in range(1, 5):
    # genero le feature per i set di training e di test
    polyfeatures = PolynomialFeatures(degree=grado)
    X_train_poly = polyfeatures.fit_transform(X_train)
    X_test_poly = polyfeatures.transform(X_test)

    # standardizzo le feature polinomiali dei due set
    ss = StandardScaler()
    X_train_poly_std = ss.fit_transform(X_train_poly)
    X_test_poly_std = ss.transform(X_test_poly)

    # eseguo la regressione lineare multipla,
    lRegr = LinearRegression()
    lRegr.fit(X_train_poly_std, Y_train)
    Y_pred = lRegr.predict(X_test_poly_std)

    # visualizzo i risultati
    errore = mean_squared_error(Y_test, Y_pred)
    punteggio = r2_score(Y_test, Y_pred)
    print("Grado:", grado, " - MSE:", punteggio, " - R2:", punteggio)

Utilizzo tutte le colonne
Grado: 1  - MSE: 0.738410984790933  - R2: 0.738410984790933
Grado: 2  - MSE: 0.8492301327888622  - R2: 0.8492301327888622
Grado: 3  - MSE: -125.96148346681773  - R2: -125.96148346681773
Grado: 4  - MSE: -10.802897842510832  - R2: -10.802897842510832
