In [23]:
import pandas as pd

import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

In [24]:
data = pd.read_csv('datasets/diamonds_processed.csv', index_col=0)

data.head()

Unnamed: 0_level_0,price,cut_Fair,cut_Good,cut_Ideal,cut_Premium,cut_Very Good,color_D,color_E,color_F,color_G,color_H,color_I,color_J,carat,depth,table,x,y,z
clarity,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
4,755,0,0,0,0,1,0,1,0,0,0,0,0,-1.044963,-0.039076,-0.647096,-1.273878,-1.22862,-1.258205
2,990,0,0,0,1,0,1,0,0,0,0,0,0,-0.835861,-0.242558,-0.647096,-0.803053,-0.888263,-0.871936
1,650,0,0,0,1,0,1,0,0,0,0,0,0,-0.961322,-1.734764,0.655005,-1.02514,-1.045351,-1.20098
5,878,0,0,1,0,0,0,0,0,1,0,0,0,-1.044963,-0.174731,-0.647096,-1.238344,-1.246074,-1.258205
3,9533,0,0,0,0,1,0,0,0,0,0,1,0,1.464255,1.046165,-1.081129,1.391174,1.328423,1.531517


In [25]:
# On definit ici une fonction par type d'algorithm afin de pouvoir les appeler rapidement
# On commence par la regression lineaire que l'on a vu auparavant
from sklearn.linear_model import LinearRegression

def linear_model(x_train, y_train):
    
    print ("Linear Regression")
    linear_regression = LinearRegression()
    
    linear_regression.fit(x_train, y_train)
    
    return linear_regression

In [26]:
# on implemente maintenant la méthode permettant de réaliser le lassot
# Pour rapplel, grace a son coefficient le lasso va permettre d'éviter que les data soient
# sur entrainer avec les données de train (overfit) en pondérant les colonnes
# alpha est la force de la regularisation sur les résultats
from sklearn.linear_model import Lasso

def lasso_model(x_train, y_train):
    
    print("Lasso Regression")
    lasso_regression = Lasso(alpha=0.8, max_iter=10000)
    
    lasso_regression.fit(x_train, y_train)
    
    return lasso_regression

In [27]:
# On effectue la meme chose avec le ridge regression model qui est assez proche du lasso (cf formule)

from sklearn.linear_model import Ridge

def ridge_model(x_train, y_train):
    
    print("Ridge Regression")
    ridge_regression = Ridge(alpha=0.9)
    
    ridge_regression.fit(x_train, y_train)
    
    return ridge_regression

In [32]:
# On implemente un dernier type de données qui est le SGD Regressor
# Comme nous l'avons vu dans la partie theorique, celui-ci utilise la méthode itérative du gradient
# Descendant pour trouver le MSE minimale.
# Celui-ci est idéal pour des dataset tres grand (plus de 100 000 lignes)

from sklearn.linear_model import SGDRegressor

def sgd_model(x_train, y_train):
    
    print("SGD Regression")
    sgd_regression = SGDRegressor(max_iter=2000)
    
    sgd_regression.fit(x_train, y_train)
    
    return sgd_regression

In [33]:
# On créé ensuite une fonction qui va permettre d'évaluer facilement les fonctions
# que l'on vient d'établir sur chacun des modèles

def build_and_train_model(data, target_name, reg_fn):
    
    X = data.drop(target_name, axis=1)
    Y = data[target_name]
    
    x_train, x_test, y_train, y_test = \
        train_test_split(X, Y, test_size = 0.2, random_state = 0)
    model = reg_fn(x_train, y_train)
    
    score = model.score(x_train, y_train)
    print("Training Score : ", score)
    
    y_pred = model.predict(x_test)
    r_score = r2_score(y_test, y_pred)
    print("Testing Score : ", r_score)
    
    return {'model' : model,
           'x_train' : x_train,
           'x_test' : x_test,
           'y_train' : y_train,
           'y_pred' : y_pred}
    
    

In [34]:
# On a construit toutes nos fonctions on les appelle puis on compare les performances
linear_reg = build_and_train_model(data, "price", linear_model)

Linear Regression
Training Score :  0.8687159077114386
Testing Score :  0.8902332254504001


In [35]:
lasso_reg = build_and_train_model(data, "price", lasso_model)

Lasso Regression
Training Score :  0.8687077356234202
Testing Score :  0.8904033689237156


In [36]:
ridge_reg = build_and_train_model(data, "price", ridge_model)

Ridge Regression
Training Score :  0.8687277142815064
Testing Score :  0.8902786982041868


In [37]:
sgd_reg = build_and_train_model(data, "price", sgd_model)

SGD Regression
Training Score :  0.867244050454426
Testing Score :  0.8913836069089198


In [38]:
# On constate ici que les résultats sont très proches quelque soit la méthode
# Cela est du au fait que la linear regression n'a pas overfit au vu du fait que les données
# était assez peu nombreuses et qu'il y avait peu de colonnes.