In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import Ridge
from sklearn.utils import resample
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 12,10

In [None]:
df = pd.read_csv("SeoulBikeData.csv", encoding='unicode_escape')
df.info()

In [None]:
data = df[['Rented Bike Count', 'Temperature(°C)']].copy()
data.columns = ['y', 'X']
display(data)
plt.figure(figsize=(16, 8))
plt.scatter(
    data['X'],
    data['y'],
    c='black'
)

In [None]:
for i in range(2,16):
    colname = 'X_{}'.format(i)
    data.loc[:, colname] = data['X']**i
data.head()

In [None]:
data.shape

# Linear Regression
Tecnica statistica che cerca di modellare la relazione tra una variabile dipendente e una o più variabili indipendenti attraverso una relazione lineare. Questo è espressamente utile quando si desidera comprendere il comportamento di una variabile risposta in base a una o più variabili predittive.

**Codice:** Funzione che esegue una regressione lineare sul dataset _data_, consentendo al modello di avere un grado di polinomio specificato da _power_. La funzione restituisce il risultato della regressione lineare in un formato predefinito, inclusi l'**RSS** _(Residual Sum of Squares)_, l'**intercetta** e i **coefficienti dei predittori**. 

In [None]:
from sklearn.linear_model import LinearRegression
def linear_regression(data, power, models_to_plot):
    # Initialize predictors:
    predictors = ['X']
    if power >= 2:
        predictors.extend(['X_{}'.format(i) for i in range(2, power+1)])

    # Fit the model:
    scaler = StandardScaler()
    data_scaled = scaler.fit_transform(data[predictors])
    linreg = LinearRegression()
    linreg.fit(data_scaled, data['y'])
    y_pred = linreg.predict(data_scaled)

    #Check if a plot is to be made for the entered power:
    if power in models_to_plot:
        plt.subplot(models_to_plot[power])
        plt.tight_layout()
        plt.plot(data['X'], data['y'], '.')
        plt.plot(data['X'], y_pred)
        plt.title('Plot for power: {}'.format(power))

    #Return the result in pre-defined format:
    rss = sum((y_pred-data['y'])**2)
    ret = [rss]
    ret.extend([linreg.intercept_])
    ret.extend(linreg.coef_)
    return ret

In [None]:
col = ['rss', 'intercept'] + ['coeff_X_{}'.format(i) for i in range(1,16)]
ind = ['model_pow_{}'.format(i) for i in range(1,16)]
coeff_matrix_simple = pd.DataFrame(index=ind, columns=col)

In [None]:
models_to_plot = {1:231,3:232,6:233,9:234,12:235,15:236}
for i in range(1,16):
    coeff_matrix_simple.iloc[i-1, 0:i+2] = linear_regression(data, i, models_to_plot)

In [None]:
#Set the display format to be scientific for ease of analysis
pd.options.display.float_format = '{:,.2g}'.format
coeff_matrix_simple

# Ridge Regression
Tecnica di regressione lineare regolarizzata che aggiunge un termine di regolarizzazione L2 alla funzione obiettivo. Questo termine di regolarizzazione aiutà a ridurre la complessità del modello impedendo ai coefficienti dei predittori di diventare troppo grandi, prevenendo l'overfitting.

**Codice:** Funzione che implementa la regressione Ridge sul dataset _data_, utilizzando i predittori specificati. La variabile _alpha_ rappresenta il parametro di regolarizzazione, che controlla il grado di regolarizzazione applicato al modello. La funzione restituisce il risultato della regressione Ridge in un formato predefinito, incluso l'**RSS** _(Residual Sum of Squares)_, l'**intercetta** e i **coefficienti dei predittori**.

In [None]:
from sklearn.linear_model import Ridge
def ridge_regression(data, predictors, alpha, models_to_plot):
    #Fit the model
    scaler = StandardScaler()
    data_scaled = scaler.fit_transform(data[predictors])
    ridgereg = Ridge(alpha=alpha)
    ridgereg.fit(data_scaled, data['y'])
    y_pred = ridgereg.predict(data_scaled)

    #Check if a plot is to be made for the entered alpha
    if alpha in models_to_plot:
        plt.subplot(models_to_plot[alpha])
        plt.tight_layout()
        plt.plot(data['X'],data['y'],'.')
        plt.plot(data['X'],y_pred)
        plt.title('Plot for alpha: {}'.format(alpha))
    
    #Return the result in pre-defined format
    rss = sum((y_pred-data['y'])**2)
    ret = [rss]
    ret.extend([ridgereg.intercept_])
    ret.extend(ridgereg.coef_)
    return ret

In [None]:
#Initialize predictors to be set of 15 powers of x
predictors=['X']
predictors.extend(['X_{}'.format(i) for i in range(2,16)])

#Set the different values of alpha to be tested
alpha_ridge = [1e-15, 1e-10, 1e-8, 1e-4, 1e-3,1e-2, 1, 5, 10, 20]
#Initialize the dataframe for storing coefficients.
col = ['rss','intercept'] + ['coef_X_{}'.format(i) for i in range(1,16)]
ind = ['alpha_{}'.format(alpha_ridge[i]) for i in range(0,10)]
coef_matrix_ridge = pd.DataFrame(index=ind, columns=col)

models_to_plot = {1e-15:231, 1e-10:232, 1e-4:233, 1e-3:234, 1e-2:235, 5:236}
for i in range(10):
    coef_matrix_ridge.iloc[i,] = ridge_regression(data, predictors, alpha_ridge[i], models_to_plot)

In [None]:
#Set the display format to be scientific for ease of analysis
pd.options.display.float_format = '{:,.2g}'.format
coef_matrix_ridge

In [None]:
# determining the number of zeros in each row of the coefficients data set:
coef_matrix_ridge.apply(lambda x: sum(x.values==0),axis=1)

# Lasso Regression
La regressione Lasso è una tecnica di regressione lineare regolarizzata che aggiunge un termine di regolarizzazione L1 alla funzione obiettivo. Questo termine di regolarizzazione aiuta a ridurre la complessità del modello e a selezionare automaticamente un sottoinsieme dei predittori più rilevanti, ponendo i coefficienti dei predittori meno importanti a zero.

**Codice:** Funzione che implementa la regressione Lasso su un dataset _data_, utilizzando i predittori specificati. La variabile _alpha_ rappresenta il parametro di regolarizzazione, che controlla il grado di regolarizzazione applicato al modello. La funzione restituisce il risultato della regressione Lasso in formato predefinito, inclusi l'**RSS** _(Residual Sum of Squares)_, l'**intercetta** e i **coefficienti dei predittori**.

In [None]:
from sklearn.linear_model import Lasso
def lasso_regression(data, predictors, alpha, models_to_plot={}):
    #Fit the model
    scaler = StandardScaler()
    data_scaled = scaler.fit_transform(data[predictors])
    lassoreg = Lasso(alpha=alpha, max_iter=1000000)
    lassoreg.fit(data_scaled,data['y'])
    y_pred = lassoreg.predict(data_scaled)

    #Check if a plot is to be made for the entered alpha
    if alpha in models_to_plot:
        plt.subplot(models_to_plot[alpha])
        plt.tight_layout()
        plt.plot(data['X'],data['y'],'.')
        plt.plot(data['X'],y_pred)
        plt.title('Plot for alpha: {}'.format(alpha))

    #Return the result in pre-defined format
    rss = sum((y_pred-data['y'])**2)
    ret = [rss]
    ret.extend([lassoreg.intercept_])
    ret.extend(lassoreg.coef_)
    return ret

In [None]:
#Initialize predictors to all 15 powers of x
predictors=['X']
predictors.extend(['X_{}'.format(i) for i in range(2,16)])

#Define the alpha values to test
alpha_lasso = [1e-15, 1e-10, 1e-8, 1e-5,1e-4, 1e-3,1e-2, 1, 5, 10]

#Initialize the dataframe to store coefficients
col = ['rss','intercept'] + ['coef_X_{}'.format(i) for i in range(1,16)]
ind = ['alpha_{}'.format(alpha_lasso[i]) for i in range(0,10)]
coef_matrix_lasso = pd.DataFrame(index=ind, columns=col)

#Define the models to plot
models_to_plot = {1e-10:231, 1e-5:232,1e-4:233, 1e-3:234, 1e-2:235, 1:236}

#Iterate over the 10 alpha values:
for i in range(10):
    coef_matrix_lasso.iloc[i,] = lasso_regression(data, predictors, alpha_lasso[i], models_to_plot)

In [None]:
pd.options.display.float_format = '{:,.2g}'.format
coef_matrix_lasso

In [None]:
coef_matrix_lasso.apply(lambda x: sum(x.values==0),axis=1)