# ESERCIZIO 2: 
Implement polynomial regression using the Ridge Regression method available in scikit-learn, see sklearn.linear model.Ridge() and look at the behavior of the solution when changing the parameter alpha (𝛼).

In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt # plot
from sklearn.linear_model import Ridge # ridge
from sklearn.preprocessing import PolynomialFeatures # PolynomialFeatures, per costruire equazioni di grado superiore al primo
from sklearn.pipeline import make_pipeline # make_pipeline, per costruire equazioni di grado superiore al primo


# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 5GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

# Creazione del dataframe iris

Caricamento dei dati dal dataset iris:

In [None]:
iris = pd.read_csv('../input/iris/Iris.csv', nrows=1500, usecols=[0, 3], encoding='latin-1') # creazione del dataframe con campi identifivo del fiore (Id) e lunghezza del petalo in cm (PetalLengthCm)
iris.head(10) # stampa delle prime 10 righe del dataframe

# Analisi dei dati

Rappresento le relazioni tra l'identificativo del fiore e la lunghezza del suo petalo (in cm).

In [None]:
plt.rcParams['figure.figsize'] = [15, 10]

plt.xlabel('Id flowers')
plt.ylabel('Petal length (cm)')
plt.scatter(iris.Id, iris.PetalLengthCm, marker='o', color='black')
plt.show()

Il grafico mette in evidenza, visuale, come i fiori si posizionano su 3 categorie:
- da id 0 a circa 50, con lunghezza del petalo che varia da 1 a 1.8 cm circa;
- da id 51 a circa 100, con lunghezza del petalo che varia da 3 a 5 cm circa;
- da id 101 a circa 160, con lunghezza del petalo che varia da 5.1 a 6.8 cm circa.

Mi sembra, dunque, corretto poter classificare i fiori in piccoli, medi o grandi.

# Applicazione della Ridge Regression Linear

La Ridge Regression e' una tecnicha di restringimento (regolarizzazione), che utilizza parametri e valori diversi, per ridurre o penalizzare i coefficienti; in modo da poter descrivere, nel modo migliore, l'andamento dei dati.

Lo scopo e' quello di ridurre al minimo la funzione obiettivo:

||y - Xw||^2_2 + alpha * ||w||^2_2

in modo da risolvere un modello di regressione in cui:
1. la funzione di perdita' e' la funzione dei minimi quadrati lineari;
2. la regolarizzazione viene fornita dalla norma L2. La cui, contiene una penalita', che permette:
    *  che le variabili con un contributo inferiore al risultato non siano annullate, come accadrebbe invece utilizzando un calcolo di frequenza. Ma che gli venga attribuito un valore vicino allo 0. 
    * di evitare il problema del overfitting (apprendimento esclusivo su una sola parte del dominio a causa, per esempio, di un numero di variabili superiore ai fenomeni osservati), attribuendo un peso inferiore a variabili che descrivono la stessa proprieta'.
    
In questo modo si riduce la complessita' del modello, senza l'eliminazione di variabili, non memorizzando esclusivamente i dati di addestramento, ma dando la possibilita' di generalizzare su nuovi dati.

**Il valore alpha**

La penalita', che chiamero', alpha e' fondamentale per stimare la retta di regressione (ridge) adeguatamente.

Quando alpha e' uguale a 0, nessuna penalita' ha effetto sulla regressione, che produrra' dei minimi quadrati classici, non rilevando variabili con un basso contributo e tendendo all'overfitting. Invece quando alpha cresce, avvicinandosi a infinito, l'impatto che la penalita' ha sulla regressione aumenta, portando tutti i coefficienti di regressione prossimi allo 0. Dunque la soluzione migliore, sembra quella di trovare un'alpha medio del modello di dati in esame.

Di seguito mostro alcuni casi di variazione di alpha.

In [None]:
# Applicazione della Ridge Regression con alpha uguale a 0, su equazione di primo grado

length_petal = list(iris.PetalLengthCm)

x_train = []
for y in iris.index:
    x_train.append([y])
    
ridg = Ridge(alpha=0) # riduce al minimo la funzione obiettivo: ||y - Xw||^2_2 + alpha * ||w||^2_2 con alpha a 0
ridg.fit(x_train, length_petal) # linearizza il modello
prediction = ridg.predict(x_train) # effettua la previsione utilizzando il modello lineare 

# disegno del plot
plt.xlabel('Id flowers')
plt.ylabel('Petal Length (cm)')
plt.scatter(iris.Id, iris.PetalLengthCm, marker='o', color='black')
plt.plot(iris.Id, prediction, color='orange', linewidth='1')
plt.show()

L'andamento dei dati, descritti dalla retta di regressione, si presenta crescere in modo costante, di pari passo con l'aumentare dell'identificativo del fiore.
Questo prova in modo formale l'esistenza delle 3 cateogire dimensionali (piccoli, medi, grandi). Inoltre, come si nota dalla figura, i punti che hanno posizioni differenti da quelli medi, non vengono presi in considerazione, prediligendo situazioni di overfitting (come mi aspettavo).

In [None]:
# alpha uguale a 1
ridg1 = Ridge(alpha=1) # riduce al minimo la funzione obiettivo: ||y - Xw||^2_2 + alpha * ||w||^2_2 con alpha a 1
ridg1.fit(x_train, length_petal) # linearizza il modello
prediction1 = ridg1.predict(x_train) # effettua la previsione utilizzando il modello lineare

# alpha uguale a 100
ridg2 = Ridge(alpha=100) # riduce al minimo la funzione obiettivo: ||y - Xw||^2_2 + alpha * ||w||^2_2 con alpha a 100
ridg2.fit(x_train, length_petal) # linearizza il modello
prediction2 = ridg2.predict(x_train) # effettua la previsione utilizzando il modello lineare


# disegno plot
plt.xlabel('Id flowers')
plt.ylabel('Petal Length (cm)')
plt.scatter(iris.Id, iris.PetalLengthCm, marker='o', color='black')
plt.plot(iris.Id, prediction, color='orange', linewidth='1')
plt.plot(iris.Id, prediction1, 'r--', color='purple')
plt.plot(iris.Id, prediction2, '.', color='green')
plt.legend(['alpha = 0','alpha = 1','alpha = 100'], numpoints=1)
plt.show()



Come si vede dalla figura sopra, i valori di alpha assegnati (1 e 100) sono troppi piccoli, per poter rendere evidente delle oscillazioni, nella descrizione dell'andamento dei dati, rispetto ad alpha uguale a 0 (la cui linea viene addirittura coperta in figura).

Per rilevare delle variazione nella rappresentazione, devo aumentare notevolmente il valore della panalita' (prendendo due casi limiti, ad es. alpha = 50 000 e 1 000 000).

In [None]:
# alpha uguale a 50000
ridg3 = Ridge(alpha=50000) # riduce al minimo la funzione obiettivo: ||y - Xw||^2_2 + alpha * ||w||^2_2 con alpha a 50000
ridg3.fit(x_train, length_petal) # linearizza il modello
prediction3 = ridg3.predict(x_train) # effettua la previsione utilizzando il modello lineare

# alpha uguale a 1000000
ridg4 = Ridge(alpha=1000000) # riduce al minimo la funzione obiettivo: ||y - Xw||^2_2 + alpha * ||w||^2_2 con alpha a 1000000
ridg4.fit(x_train, length_petal) # linearizza il modello
prediction4 = ridg4.predict(x_train) # effettua la previsione utilizzando il modello lineare



# disegno plot
plt.xlabel('Id flowers')
plt.ylabel('Petal Length (cm)')
plt.scatter(iris.Id, iris.PetalLengthCm, marker='o', color='black')
plt.plot(iris.Id, prediction, color='orange', linewidth='1')
plt.plot(iris.Id, prediction3, 'r--', color='blue')
plt.plot(iris.Id, prediction4, 'r--', color='pink')
plt.legend(['alpha = 0','alpha = 50000','alpha = 1000000'], numpoints=1)
plt.show()

La figura sopra, mostra un aspetto interessante.

Nel caso di alpha 50 000 (linea tratteggiata blu) le variabili o punti, che hanno valore differente della media, dei punti, cominciano a incidere sulla posizione della retta di regressione. Questo appare evidente nei primi identificativi.
Per, invece, alpha uguale a 1 000 000 (linea tratteggiata rosa), i coefficienti delle variabili iniziano a tendere a 0, sinomino di valore di alpha eccessivo per permettere una corretta rappresentazione dei dati.

**Polinomi di grado superiore al primo**


Di seguito studio cosa accade incrementando il grado della retta di regressione con alpha a 0, 50 000 e 1 000 000.

In [None]:
# polinomio di secondo grado

alphas = [0, 50000, 1000000] # valore di alpha, mi baso sui valori provati con la retta
prediction = []
for n in range(0, 3): # per i 3 valori di alpha
    # PolynomialFeatures: genera caratteristiche polinomiali e di interazione (combinazione dei coefficienti da grado 0 a 2)
    # make_pipeline: costruisce una pipeline dagli stimatori dati
    ridg = make_pipeline(PolynomialFeatures(2), Ridge(alpha=alphas[n])) 
    ridg.fit(x_train, length_petal)
    prediction.append(ridg.predict(x_train))

# disegno plot
plt.xlabel('Id flowers')
plt.ylabel('Petal Length (cm)')
plt.scatter(iris.Id, iris.PetalLengthCm, marker='o', color='black')
plt.plot(iris.Id, prediction[0], color='orange', linewidth='1')
plt.plot(iris.Id, prediction[1], 'r--', color='blue')
plt.plot(iris.Id, prediction[2], 'r--', color='pink')
plt.legend(['alpha = 0','alpha = 50000','alpha = 1000000'], numpoints=1)
plt.show()

Inoltre metto a confronto le funzioni di primo, secondo e quarto grado con parametro alpha 50 000 (che dal mio studio risulta in grado di fornire una buona approssimazione).

In [None]:
# Confronto fra le equazioni polinomiali di 1, 2 e 4 grado con alfa 50 000


alpha = 50000
prediction = []
degree_eq = [1,2,4]
for n in degree_eq: # iterazione sui gradi dell'equazione
    ridg = make_pipeline(PolynomialFeatures(n), Ridge(alpha)) 
    ridg.fit(x_train, length_petal)
    prediction.append(ridg.predict(x_train))

# disegno plot
plt.xlabel('Id flowers')
plt.ylabel('Petal Length (cm)')
plt.scatter(iris.Id, iris.PetalLengthCm, marker='o', color='black')
plt.plot(iris.Id, prediction[0], color='green', linewidth='1')
plt.plot(iris.Id, prediction[1], 'r--', color='orange')
plt.plot(iris.Id, prediction[2], color='purple', linewidth='1')
plt.legend(['equazione di grado 1','equazione di grado 2', 'equazione di grado 4'], numpoints=1)
plt.show()

I due grafici, appena plottati, rendono evidente come con l'aumentare del grado, che chiamo p, del polinomio di regressione, aumenta anche l'accuratezza con il quale la funzione approssima i valori del dataset.

Gia', con un polinomio di secondo grado e con alpha = 0 (linea continua arancio del primo grafico) si ottiene una buona rappresentazione dei dati.
Tuttavia dalla teoria so, che un aumento eccessivo di p causa complessita' nello spazio delle ipotesi H, che non risulta piu' in grado di generalizzare bene, e quindi inefficace nel prevedere il risultato per coppie di valori mai viste prima.



Inoltre, per concludere questa trattazione, nel caso specifico del dataset iris, quando il grado del polinomio supera il quarto grado, il risultato perde di accuratezza. Questo mi fa pensare, a causa di una problema mal condizionato. Difatti a mano a mano che il grado del polinomio aumenta, le tre funzioni, anche se con alpha differenti, si avvicinano fino a collassare; come si puo' vedere dal grafico seguente.

In [None]:
# polinomio di quarto grado

alphas = [0, 50000, 1000000] # valore di alpha, mi baso sui valori provati con la retta
prediction = []
for n in range(0, 3): # per i 3 valori di alpha
    ridg = make_pipeline(PolynomialFeatures(4), Ridge(alpha=alphas[n])) 
    ridg.fit(x_train, length_petal)
    prediction.append(ridg.predict(x_train))

# disegno plot
plt.xlabel('Id flowers')
plt.ylabel('Petal Length (cm)')
plt.scatter(iris.Id, iris.PetalLengthCm, marker='o', color='black')
plt.plot(iris.Id, prediction[0], color='orange', linewidth='1')
plt.plot(iris.Id, prediction[1], 'r--', color='blue')
plt.plot(iris.Id, prediction[2], 'r--', color='pink')
plt.legend(['alpha = 0','alpha = 50000','alpha = 1000000'], numpoints=1)
plt.show()

# dal quinto grado in poi il risultato non e' piu' accurato. Fa pensare che il problema sia mal condizionato