Imports csvs

In [None]:
import pandas as pd

train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")


Verification des doublons

In [None]:
print(train.duplicated().sum(),test.duplicated().sum())

0 0


In [None]:
na_train = train.isna().sum()
na_train = na_train[na_train > 0].sort_values(ascending=False)
na_train

Unnamed: 0,0
PoolQC,1453
MiscFeature,1406
Alley,1369
Fence,1179
MasVnrType,872
FireplaceQu,690
LotFrontage,259
GarageType,81
GarageYrBlt,81
GarageFinish,81


In [None]:
na_test = test.isna().sum()
na_test = na_test[na_test > 0].sort_values(ascending=False)
na_test

Unnamed: 0,0
PoolQC,1456
MiscFeature,1408
Alley,1352
Fence,1169
MasVnrType,894
FireplaceQu,730
LotFrontage,227
GarageQual,78
GarageCond,78
GarageYrBlt,78


Nb de colonnes avec des colonnes manquantes


In [None]:
# Nombre de variables avec des NA pour train et test( respctivement)
na_train = train.isna().sum()
na_train = na_train[na_train > 0]
na_test = test.isna().sum()
na_test = na_test[na_test > 0]

len(na_train), len(na_test)

(19, 33)

Remplacement des "na" pour les colonnes ou "na" correspond simplement à l'absence de la la carctéristique en question, on remplace par "None"

In [None]:
cols_na_abs = [
    "Alley", "BsmtQual", "BsmtCond", "BsmtExposure", "BsmtFinType1",
    "BsmtFinType2", "FireplaceQu", "GarageType", "GarageFinish",
    "GarageQual", "GarageCond", "PoolQC", "Fence", "MiscFeature"
]

for col in cols_na_abs:
    train[col] = train[col].fillna("None")
    test[col] = test[col].fillna("None")


Remplacement des "na" pour les colonnes ou "na" signifie que la variable (caractéristique) vaut 0 (ex : surface, equipements, ...)

In [None]:
cols_zeros= [
    "GarageYrBlt", "GarageArea", "GarageCars",
    "BsmtFinSF1", "BsmtFinSF2", "BsmtUnfSF", "TotalBsmtSF",
    "BsmtFullBath", "BsmtHalfBath", "MasVnrArea"
]

for col in cols_zeros:
    train[col] = train[col].fillna(0)
    test[col] = test[col].fillna(0)

**Nb de colonnes avec des colonnes manquantes après le traitement précedent**

In [None]:
# Nombre de colonnes avec des NA pour train et test( respctivement)
na_train = train.isna().sum()
na_train = na_train[na_train > 0]
na_test = test.isna().sum()
na_test = na_test[na_test > 0]

len(na_train), len(na_test)

(3, 9)

Tableau récapitulatif des variables avec encore des NA dans les 2 jeux de données

In [None]:
na_restants= pd.DataFrame({
    "nb_na_train": na_train,
    "nb_na_test": na_test
})

na_restants = na_restants[(na_restants["nb_na_train"] > 0) |
                              (na_restants["nb_na_test"] > 0)]

na_restants


Unnamed: 0,nb_na_train,nb_na_test
Electrical,1.0,
Exterior1st,,1.0
Exterior2nd,,1.0
Functional,,2.0
KitchenQual,,1.0
LotFrontage,259.0,227.0
MSZoning,,4.0
MasVnrType,872.0,894.0
SaleType,,1.0
Utilities,,2.0


Traitement colonne "MasVnrTypre" (Masonry veneer type) : colonne correspondant au type de revêtement mais en regardant le fichier texte, on se rend compte que les Na signifie "pas de revêtement" donc on peut mettre "None" ici également.

In [None]:
train["MasVnrType"] = train["MasVnrType"].fillna("None")
test["MasVnrType"] = test["MasVnrType"].fillna("None")

Traitement des colonnes [Exterior1st, Exterior2nd, SaleType, Functional, Utilities, MSZoning,etc]

Pour ces variables il manque seulement une ou deux valeurs, on va les remplacer par la valeur observée la plus fréquente dans la colonne.
Par exemple, la variable "KitchenQual" donne la qualité de la cuisine(soit Ex, Gd, TA, Fa ou Po).
C'est une variable qualitative ordinale qui possède une seule valeur manquante, pour éviter de supprimer un indicidu, on remplace cette valeur par le mode de la colonne.

In [None]:
cols_mode = [
    "Electrical", "Exterior1st", "Exterior2nd", "KitchenQual",
    "Functional", "SaleType", "Utilities", "MSZoning"
]

for col in cols_mode:
    train[col] = train[col].fillna(train[col].mode()[0])
    test[col] = test[col].fillna(train[col].mode()[0])

**Nb de colonnes avec des colonnes manquantes après les traitements précedents**

In [None]:
na_train = train.isna().sum()
na_test = test.isna().sum()

In [None]:
na_restants= pd.DataFrame({
    "nb_na_train": na_train,
    "nb_na_test": na_test
})

na_restants = na_restants[(na_restants["nb_na_train"] > 0) |
                              (na_restants["nb_na_test"] > 0)]

na_restants

Unnamed: 0,nb_na_train,nb_na_test
LotFrontage,259,227.0


Traitement colonne "LotFrontage" (Linear feet of street connected to property) : colonne correspondant à la longueur de la façade qui donne sur la rue, on remplace les valeurs manquantes par la mediane de la varaibale dans le train.


In [None]:
mediane= train["LotFrontage"].median()

train["LotFrontage"] = train["LotFrontage"].fillna(mediane)
test["LotFrontage"] = test["LotFrontage"].fillna(mediane)

On verifie qu'il n'y a plus aucune valeur manquante dans le train et le test.

In [None]:
na_train = train.isna().sum()
na_test = test.isna().sum()

In [None]:
na_restants= pd.DataFrame({
    "nb_na_train": na_train,
    "nb_na_test": na_test
})

na_restants = na_restants[(na_restants["nb_na_train"] > 0) |
                              (na_restants["nb_na_test"] > 0)]

na_restants

Unnamed: 0,nb_na_train,nb_na_test


In [None]:
train["SalePrice"].describe()


Unnamed: 0,SalePrice
count,1460.0
mean,180921.19589
std,79442.502883
min,34900.0
25%,129975.0
50%,163000.0
75%,214000.0
max,755000.0


Transformation logarithmique de la colonne "SalePrice" dans le train, le prix de vente

In [None]:
import numpy as np
train["SalePrice_log"] = np.log(train["SalePrice"])

In [None]:
print(train.head)

<bound method NDFrame.head of         Id  MSSubClass MSZoning  LotFrontage  LotArea Street Alley LotShape  \
0        1          60       RL         65.0     8450   Pave  None      Reg   
1        2          20       RL         80.0     9600   Pave  None      Reg   
2        3          60       RL         68.0    11250   Pave  None      IR1   
3        4          70       RL         60.0     9550   Pave  None      IR1   
4        5          60       RL         84.0    14260   Pave  None      IR1   
...    ...         ...      ...          ...      ...    ...   ...      ...   
1455  1456          60       RL         62.0     7917   Pave  None      Reg   
1456  1457          20       RL         85.0    13175   Pave  None      Reg   
1457  1458          70       RL         66.0     9042   Pave  None      Reg   
1458  1459          20       RL         68.0     9717   Pave  None      Reg   
1459  1460          20       RL         75.0     9937   Pave  None      Reg   

     LandContour Util

In [None]:
print(test.head)

<bound method NDFrame.head of         Id  MSSubClass MSZoning  LotFrontage  LotArea Street Alley LotShape  \
0     1461          20       RH         80.0    11622   Pave  None      Reg   
1     1462          20       RL         81.0    14267   Pave  None      IR1   
2     1463          60       RL         74.0    13830   Pave  None      IR1   
3     1464          60       RL         78.0     9978   Pave  None      IR1   
4     1465         120       RL         43.0     5005   Pave  None      IR1   
...    ...         ...      ...          ...      ...    ...   ...      ...   
1454  2915         160       RM         21.0     1936   Pave  None      Reg   
1455  2916         160       RM         21.0     1894   Pave  None      Reg   
1456  2917          20       RL        160.0    20000   Pave  None      Reg   
1457  2918          85       RL         62.0    10441   Pave  None      Reg   
1458  2919          60       RL         74.0     9627   Pave  None      Reg   

     LandContour Util

In [None]:
print(test)

        Id  MSSubClass MSZoning  LotFrontage  LotArea Street Alley LotShape  \
0     1461          20       RH         80.0    11622   Pave  None      Reg   
1     1462          20       RL         81.0    14267   Pave  None      IR1   
2     1463          60       RL         74.0    13830   Pave  None      IR1   
3     1464          60       RL         78.0     9978   Pave  None      IR1   
4     1465         120       RL         43.0     5005   Pave  None      IR1   
...    ...         ...      ...          ...      ...    ...   ...      ...   
1454  2915         160       RM         21.0     1936   Pave  None      Reg   
1455  2916         160       RM         21.0     1894   Pave  None      Reg   
1456  2917          20       RL        160.0    20000   Pave  None      Reg   
1457  2918          85       RL         62.0    10441   Pave  None      Reg   
1458  2919          60       RL         74.0     9627   Pave  None      Reg   

     LandContour Utilities  ... ScreenPorch PoolAre

In [None]:
train.to_csv("train_bis.csv", index=False)
test.to_csv("test_bis.csv", index=False)