# House prices linear regression

### Nous allons travailler avec le jeu de données "House Prices" de Kaggle. Téléchargez ici les fichiers "train.csv" et "test.csv": https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data

## Importing libraries

In [5]:
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns

#supress warnings
pd.options.mode.chained_assignment = None

print("numpy: " + np.__version__)
print("pandas: " + pd.__version__)
print("seaborn: " + sns.__version__)
print("matplotlib: " + matplotlib.__version__)

numpy: 1.18.5
pandas: 1.1.3
seaborn: 0.11.0
matplotlib: 3.3.2


## Importing the data

In [7]:
#Assurez-vous de changer le chemin lors de l'importation des données
#Make sure to change the path

train= pd.read_csv("../../data/housePrices/train.csv")
test= pd.read_csv("../../data/housePrices/test.csv")

In [8]:
print(train.shape)

(1460, 81)


In [11]:
#Nous avons une colonne de moins dans l'ensemble de test. 
#C'est parce que nous n'avons pas la valeur du prix de vente qui devrait être prédite.
print(test.shape)

(1459, 80)


In [10]:
train.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


In [13]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   MSSubClass     1460 non-null   int64  
 2   MSZoning       1460 non-null   object 
 3   LotFrontage    1201 non-null   float64
 4   LotArea        1460 non-null   int64  
 5   Street         1460 non-null   object 
 6   Alley          91 non-null     object 
 7   LotShape       1460 non-null   object 
 8   LandContour    1460 non-null   object 
 9   Utilities      1460 non-null   object 
 10  LotConfig      1460 non-null   object 
 11  LandSlope      1460 non-null   object 
 12  Neighborhood   1460 non-null   object 
 13  Condition1     1460 non-null   object 
 14  Condition2     1460 non-null   object 
 15  BldgType       1460 non-null   object 
 16  HouseStyle     1460 non-null   object 
 17  OverallQual    1460 non-null   int64  
 18  OverallC

## Diviser le jeu de données "train"

In [14]:
from sklearn.model_selection import train_test_split

In [15]:
X_train,X_test,y_train,y_test=train_test_split(train,train["SalePrice"],test_size=0.33,random_state=7)

In [16]:
X_train.shape, X_test.shape

((978, 81), (482, 81))

## Vérifiez les colonnes catégorielles avec des valeurs manquantes
## Check categorical columns with missing values

In [18]:
cat_col_na=[]

for label,content in X_train.items():
    #Je considère que si une colonne contient une chaîne, elle est catégorique
    if pd.api.types.is_string_dtype(content) and X_train[label].isnull().sum()>0:
        cat_col_na.append(label)

In [19]:
X_train[cat_col_na].isnull().sum()

Alley           913
MasVnrType        6
BsmtQual         29
BsmtCond         29
BsmtExposure     29
BsmtFinType1     29
BsmtFinType2     30
FireplaceQu     451
GarageType       54
GarageFinish     54
GarageQual       54
GarageCond       54
PoolQC          974
Fence           785
MiscFeature     943
dtype: int64

In [21]:
#show percentage
X_train[cat_col_na].isnull().sum()*100/len(X_train)

Alley           93.353783
MasVnrType       0.613497
BsmtQual         2.965235
BsmtCond         2.965235
BsmtExposure     2.965235
BsmtFinType1     2.965235
BsmtFinType2     3.067485
FireplaceQu     46.114519
GarageType       5.521472
GarageFinish     5.521472
GarageQual       5.521472
GarageCond       5.521472
PoolQC          99.591002
Fence           80.265849
MiscFeature     96.421268
dtype: float64

# Je vais diviser les colonnes en deux listes. Une qui contient les colonnes qui ont moins de 5% de valeurs manquantes et l'autre qui contient les colonnes qui ont plus de 5% de valeurs manquantes.

In [23]:
cat_col_lt5=[]
cat_col_gt5=[]

for col in cat_col_na:
    if X_train[col].isnull().sum()*100/len(X_train) >=5:
        cat_col_gt5.append(col)
    else:
        cat_col_lt5.append(col)

In [24]:
X_train[cat_col_lt5].isnull().sum()*100/len(X_train)

MasVnrType      0.613497
BsmtQual        2.965235
BsmtCond        2.965235
BsmtExposure    2.965235
BsmtFinType1    2.965235
BsmtFinType2    3.067485
dtype: float64

In [25]:
X_train[cat_col_gt5].isnull().sum()*100/len(X_train)

Alley           93.353783
FireplaceQu     46.114519
GarageType       5.521472
GarageFinish     5.521472
GarageQual       5.521472
GarageCond       5.521472
PoolQC          99.591002
Fence           80.265849
MiscFeature     96.421268
dtype: float64

## Remplissez les valeurs manquantes pour les colonnes ayant moins de 5% de valeurs manquantes 

In [None]:
for col in cat_col_lt5:
    #Le mode d'un ensemble de valeurs est la valeur qui apparaît le plus souvent. 
    #Il peut s'agir de plusieurs valeurs.
    mode_col=X_train[col].mode()[0]
    X_train[col]= X_train[col].fillna(mode_col)
    X_test[col]= X_test[col].fillna(mode_col)
    test[col]= test[col].fillna(mode_col)

## Remplissez les valeurs manquantes pour les colonnes ayant plus de 5% de valeurs manquantes

In [26]:
X_train[cat_col_gt5] = X_train[cat_col_gt5].fillna("Missing")
X_test[cat_col_gt5] = X_test[cat_col_gt5].fillna("Missing")
test[cat_col_gt5] = test[cat_col_gt5].fillna("Missing")