In [3]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV

import sys
sys.path.append('../src')
from functions import *

df = pd.read_csv('/home/apprenant/house_price/Data/02_processed/cleaned_data.csv')
pd.set_option('display.max_columns', None)

## Création de modèles de machine Learning (variables quantitatives)

### 1. Modèle de régression linéaire

In [4]:
X = df[['OverallQual', 'GrLivArea', 'GarageCars', 'GarageArea', 'TotalBsmtSF', '1stFlrSF']]
y = df[['SalePrice']]

In [5]:
# Division of dataset between training/validation/testing sets
xtrain, xtest, ytrain, ytest = train_test_split(X, y, train_size=0.8)

In [6]:
# Learning about the training set
model_uni = linear_model.LinearRegression().fit(xtrain, ytrain)

In [7]:
# Test of prediction
x_predict = [7, 1800, 2, 630, 910, 960]
x_df =  pd.DataFrame([{'OverallQual': x_predict[0],
                     'GrLivArea': x_predict[1], 
                     'GarageCars': x_predict[2],
                     'GarageArea': x_predict[3],
                     'TotalBsmtSF': x_predict[4], 
                     '1stFlrSF' : x_predict[5]
                     }])

print ("On remarque que la maison a une valeur de {} USD pour les paramètres indiqués."
       .format(x_predict[0]*np.round(model_uni.coef_[0][0],2)+
               x_predict[1]*np.round(model_uni.coef_[0][1],2)+
               x_predict[2]*np.round(model_uni.coef_[0][2],2)+
               x_predict[3]*np.round(model_uni.coef_[0][3],2)+
               x_predict[4]*np.round(model_uni.coef_[0][4],2)+
               x_predict[5]*np.round(model_uni.coef_[0][5],2)+
               np.round(model_uni.intercept_[0])
              ))

On remarque que la maison a une valeur de 214502.61 USD pour les paramètres indiqués.


In [8]:
# Calculation of coefficient of determination
ytrainpred = model_uni.predict(xtrain)
ytestpred = model_uni.predict(xtest)

print ("Pour les données d'entrainement le R2 vaut {} alors que pour les données de test, il est de {}" 
      .format(round(r2_score(ytrain, ytrainpred),3), round(r2_score(ytest, ytestpred),3)))

Pour les données d'entrainement le R2 vaut 0.761 alors que pour les données de test, il est de 0.754


In [9]:
print ("Pour les données d'entrainement le RMSE vaut {} alors que pour les données de test, il est de {}" 
      .format(round(mean_squared_error(ytrain, ytrainpred, squared=False),3), 
              round(mean_squared_error(ytest, ytestpred, squared=False),3)))

Pour les données d'entrainement le RMSE vaut 37342.971 alors que pour les données de test, il est de 44756.774


### 2. Modèle de régression linéaire Ridge

In [10]:
randomized_search_cv_ridge(100000, xtrain, ytrain)

Ridge(alpha=79)

In [11]:
get_best_alpha(clf)

NameError: name 'clf' is not defined

In [11]:
# Learning about the training set
model_uni = linear_model.Ridge(alpha=max_alpha).fit(xtrain, ytrain)

NameError: name 'max_alpha' is not defined

In [34]:
# Calculation of coefficient of determination
ytrainpred = model_uni.predict(xtrain)
ytestpred = model_uni.predict(xtest)

print ("Pour les données d'entrainement le R2 vaut {} alors que pour les données de test, il est de {}" 
      .format(round(r2_score(ytrain, ytrainpred),3), round(r2_score(ytest, ytestpred),3)))

Pour les données d'entrainement le R2 vaut 0.752 alors que pour les données de test, il est de 0.8


In [35]:
print ("Pour les données d'entrainement le RMSE vaut {} alors que pour les données de test, il est de {}" 
      .format(round(mean_squared_error(ytrain, ytrainpred, squared=False),3), 
              round(mean_squared_error(ytest, ytestpred, squared=False),3)))

Pour les données d'entrainement le RMSE vaut 39760.427 alors que pour les données de test, il est de 34622.229


### 3. Modèle de régression linéaire Lasso

In [12]:
# Learning about the training set
randomized_search_cv_lasso(100000, xtrain, ytrain)

Lasso(alpha=27)

In [13]:
df1 = pd.DataFrame(clf.cv_results_).sort_values(by=['rank_test_score'])

NameError: name 'clf' is not defined

In [38]:
max_alpha = df1['param_alpha'].index[0]

0

In [39]:
model_uni = linear_model.Lasso(alpha=max_alpha).fit(xtrain, ytrain)

  """Entry point for launching an IPython kernel.
  positive)
  positive)


In [40]:
# Calculation of coefficient of determination
ytrainpred = model_uni.predict(xtrain)
ytestpred = model_uni.predict(xtest)

print ("Pour les données d'entrainement le R2 vaut {} alors que pour les données de test, il est de {}" 
      .format(round(r2_score(ytrain, ytrainpred),3), round(r2_score(ytest, ytestpred),3)))

Pour les données d'entrainement le R2 vaut 0.752 alors que pour les données de test, il est de 0.799


In [41]:
print ("Pour les données d'entrainement le RMSE vaut {} alors que pour les données de test, il est de {}" 
      .format(round(mean_squared_error(ytrain, ytrainpred, squared=False),3), 
              round(mean_squared_error(ytest, ytestpred, squared=False),3)))

Pour les données d'entrainement le RMSE vaut 39752.463 alors que pour les données de test, il est de 34760.566


## Création de modèles de machine Learning (variables qualitatives)

### 1. Modèle de regression linéaire

In [42]:
df_object = df_object.dropna()

In [43]:
# Encoding all text values to numeric values
encoded_series = df.copy()
columns = df_object.columns.tolist()
le = LabelEncoder()
encoded_series[columns] = df_object[columns].apply(le.fit_transform)

In [44]:
encoded_series = encoded_series.dropna()

In [45]:
X = encoded_series.loc[:, encoded_series.columns != 'SalePrice']
y = encoded_series[['SalePrice']]

In [46]:
# Division of dataset between training/validation/testing sets
xtrain, xtest, ytrain, ytest = train_test_split(X, y, train_size=0.8)

In [47]:
# Learning about the training set
model_uni = linear_model.LinearRegression().fit(xtrain, ytrain)

In [48]:
# Calculation of coefficient of determination
ytrainpred = model_uni.predict(xtrain)
ytestpred = model_uni.predict(xtest)

print ("Pour les données d'entrainement le R2 vaut {} alors que pour les données de test, il est de {}" 
      .format(round(r2_score(ytrain, ytrainpred),3), round(r2_score(ytest, ytestpred),3)))

Pour les données d'entrainement le R2 vaut 0.869 alors que pour les données de test, il est de 0.726


In [49]:
print ("Pour les données d'entrainement le RMSE vaut {} alors que pour les données de test, il est de {}" 
      .format(round(mean_squared_error(ytrain, ytrainpred, squared=False),3), 
              round(mean_squared_error(ytest, ytestpred, squared=False),3)))

Pour les données d'entrainement le RMSE vaut 28707.532 alors que pour les données de test, il est de 41361.926


### 2. Modèle de régression linéaire Ridge

In [50]:
clf = GridSearchCV(estimator=linear_model.Ridge(), 
                    param_grid={'alpha': range(100)},
                    cv=5,
                    refit=True,
                    error_score=0,
                    n_jobs=-1)

clf.fit(xtrain, ytrain)

clf.best_estimator_

Ridge(alpha=65)

In [51]:
df1 = pd.DataFrame(clf.cv_results_).sort_values(by=['rank_test_score'])

In [52]:
max_alpha = df1['param_alpha'].index[0]

In [53]:
# Learning about the training set
model_uni = linear_model.Ridge(alpha=max_alpha).fit(xtrain, ytrain)

In [54]:
# Calculation of coefficient of determination
ytrainpred = model_uni.predict(xtrain)
ytestpred = model_uni.predict(xtest)

print ("Pour les données d'entrainement le R2 vaut {} alors que pour les données de test, il est de {}" 
      .format(round(r2_score(ytrain, ytrainpred),3), round(r2_score(ytest, ytestpred),3)))

Pour les données d'entrainement le R2 vaut 0.867 alors que pour les données de test, il est de 0.726


In [55]:
print("Pour les données d'entrainement le RMSE vaut {} alors que pour les données de test, il est de {}" 
      .format(round(mean_squared_error(ytrain, ytrainpred, squared=False),3), 
              round(mean_squared_error(ytest, ytestpred, squared=False),3)))

Pour les données d'entrainement le RMSE vaut 28906.697 alors que pour les données de test, il est de 41369.897


### 3. Modèle de régression linéaire Lasso

In [56]:
# Learning about the training set
clf = GridSearchCV(estimator=linear_model.Lasso(), 
                    param_grid={'alpha': range(1000)},
                    cv=5,
                    refit=True,
                    error_score=0,
                    n_jobs=-1)

clf.fit(xtrain, ytrain)
clf.best_estimator_

Lasso(alpha=99)

In [57]:
df1 = pd.DataFrame(clf.cv_results_).sort_values(by=['rank_test_score'])

In [58]:
max_alpha = df1['param_alpha'].index[0]

99

In [61]:
# Learning about the training set
model_uni = linear_model.Lasso(alpha=max_alpha).fit(xtrain, ytrain)

In [62]:
# Calculation of β1 and β2
encoded_series['predict_saleprice'] = pd.DataFrame(model_uni.predict(X))

print("Le coefficient β1 est égal à {} tandis que l'intercept β0 est égal à {}"
      .format(np.round(model_uni.coef_[0],2),np.round(model_uni.intercept_[0])))

Le coefficient β1 est égal à -95.62 tandis que l'intercept β0 est égal à 1408345.0


In [63]:
# Calculation of coefficient of determination
ytrainpred = model_uni.predict(xtrain)
ytestpred = model_uni.predict(xtest)

print ("Pour les données d'entrainement le R2 vaut {} alors que pour les données de test, il est de {}" 
      .format(round(r2_score(ytrain, ytrainpred),3), round(r2_score(ytest, ytestpred),3)))

Pour les données d'entrainement le R2 vaut 0.868 alors que pour les données de test, il est de 0.725


In [64]:
print ("Pour les données d'entrainement le RMSE vaut {} alors que pour les données de test, il est de {}" 
      .format(round(mean_squared_error(ytrain, ytrainpred, squared=False),3), 
              round(mean_squared_error(ytest, ytestpred, squared=False),3)))

Pour les données d'entrainement le RMSE vaut 28821.148 alors que pour les données de test, il est de 41462.755
