# Traitement, nettoyage et transformation des caractéristiques

## Introduction

+ Sélectionner uniquement les colonnes du dataframe train qui ne contiennent aucune valeur manquante.
+ Assigner le dataframe résultant, qui contient uniquement ces colonnes à la variable df_no_mv.
+ Afficher le résultat pour vous familiariser avec ces colonnes


In [15]:
import pandas as pd
pd.options.mode.chained_assignment = None

data = pd.read_csv('AmesHousing.txt', delimiter="\t")
train = data[0:1460]
test = data[1460:]

In [16]:
train_null_counts = train.isnull().sum() # Conte le nombre de valeur manquante 
train_null_counts

Order               0
PID                 0
MS SubClass         0
MS Zoning           0
Lot Frontage      249
                 ... 
Mo Sold             0
Yr Sold             0
Sale Type           0
Sale Condition      0
SalePrice           0
Length: 82, dtype: int64

In [17]:
# On prend uniquement les colonnes qui ne contiennet pas de valeurs manquantes
df_no_mv = train[train_null_counts[train_null_counts==0].index] 

In [18]:
print(df_no_mv.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 58 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Order            1460 non-null   int64  
 1   PID              1460 non-null   int64  
 2   MS SubClass      1460 non-null   int64  
 3   MS Zoning        1460 non-null   object 
 4   Lot Area         1460 non-null   int64  
 5   Street           1460 non-null   object 
 6   Lot Shape        1460 non-null   object 
 7   Land Contour     1460 non-null   object 
 8   Utilities        1460 non-null   object 
 9   Lot Config       1460 non-null   object 
 10  Land Slope       1460 non-null   object 
 11  Neighborhood     1460 non-null   object 
 12  Condition 1      1460 non-null   object 
 13  Condition 2      1460 non-null   object 
 14  Bldg Type        1460 non-null   object 
 15  House Style      1460 non-null   object 
 16  Overall Qual     1460 non-null   int64  
 17  Overall Cond  

In [21]:
df_no_mv.isnull().sum()

Order              0
PID                0
MS SubClass        0
MS Zoning          0
Lot Area           0
Street             0
Lot Shape          0
Land Contour       0
Utilities          0
Lot Config         0
Land Slope         0
Neighborhood       0
Condition 1        0
Condition 2        0
Bldg Type          0
House Style        0
Overall Qual       0
Overall Cond       0
Year Built         0
Year Remod/Add     0
Roof Style         0
Roof Matl          0
Exterior 1st       0
Exterior 2nd       0
Exter Qual         0
Exter Cond         0
Foundation         0
Heating            0
Heating QC         0
Central Air        0
Electrical         0
1st Flr SF         0
2nd Flr SF         0
Low Qual Fin SF    0
Gr Liv Area        0
Full Bath          0
Half Bath          0
Bedroom AbvGr      0
Kitchen AbvGr      0
Kitchen Qual       0
TotRms AbvGrd      0
Functional         0
Fireplaces         0
Garage Cars        0
Garage Area        0
Paved Drive        0
Wood Deck SF       0
Open Porch SF

## Caractéristiques de catégorie


+ Convertir toutes les colonnes de texte train au type de données 'category'. 
+ Afficher le nombre d'éléments uniques pour chacune de ces colonnes.
+ Sélectionner la colonne 'Utilities', retourner les codes de catégorie, et afficher le décompte des valeurs pour chacun de ces codes.


In [16]:
text_cols = df_no_mv.select_dtypes(include=['object']).columns

for col in text_cols:
    print((col+":",len(train[col].unique())))
    
for col in text_cols:
    train[col] = train[col].astype('category')

train['Utilities'].cat.codes.value_counts()

('MS Zoning:', 6)
('Street:', 2)
('Lot Shape:', 4)
('Land Contour:', 4)
('Utilities:', 3)
('Lot Config:', 5)
('Land Slope:', 3)
('Neighborhood:', 26)
('Condition 1:', 9)
('Condition 2:', 6)
('Bldg Type:', 5)
('House Style:', 8)
('Roof Style:', 6)
('Roof Matl:', 5)
('Exterior 1st:', 14)
('Exterior 2nd:', 16)
('Exter Qual:', 4)
('Exter Cond:', 5)
('Foundation:', 6)
('Heating:', 6)
('Heating QC:', 4)
('Central Air:', 2)
('Electrical:', 4)
('Kitchen Qual:', 5)
('Functional:', 7)
('Paved Drive:', 3)
('Sale Type:', 9)
('Sale Condition:', 5)


0    1457
2       2
1       1
dtype: int64

## Technique pour gérer les caractéristiques de catégorie: colonnes factices

+ Convertir toutes les colonnes de text_cols du DataFrame train à l'aide de la 
    méthode get_dummies().
    
+ Ajouter ces nouvelles colonnes au DataFrame train.
    
+ Supprimer les colonnes d'origine de text_cols du DataDrame train.

+ Afficher les 5 premières lignes de train


In [17]:
# pd.concat([df, cols], axis=1)

In [18]:
for col in text_cols:
    col_dummies = pd.get_dummies(train[col])
    train = pd.concat([train, col_dummies], axis=1)
    del train[col]
    
train.head()

Unnamed: 0,Order,PID,MS SubClass,Lot Frontage,Lot Area,Alley,Overall Qual,Overall Cond,Year Built,Year Remod/Add,...,ConLI,ConLw,New,Oth,WD,Abnorml,Alloca,Family,Normal,Partial
0,1,526301100,20,141.0,31770,,6,5,1960,1960,...,0,0,0,0,1,0,0,0,1,0
1,2,526350040,20,80.0,11622,,5,6,1961,1961,...,0,0,0,0,1,0,0,0,1,0
2,3,526351010,20,81.0,14267,,6,6,1958,1958,...,0,0,0,0,1,0,0,0,1,0
3,4,526353030,20,93.0,11160,,7,5,1968,1968,...,0,0,0,0,1,0,0,0,1,0
4,5,527105010,60,74.0,13830,,5,5,1997,1998,...,0,0,0,0,1,0,0,0,1,0


## Transformer des caractéristiques numériques inappropriées


+ Créer une nouvelle colonne years_until_remod dans le dataframe train qui représente la différence entre Year Remod/Add (la dernière valeur) et Year Built (la plus ancienne).


In [23]:
train['years_until_remod'] = train['Year Remod/Add'] - train['Year Built']

## Valeurs manquantes


+ Sélectionner uniquement les colonnes du DataFrame train qui contiennent entre 0 valeur manquante et 584 valeurs manquantes. Assigner le dataframe résultant à la variable df_missing_values.
+ Afficher le nombre de valeurs manquantes pour chaque colonne de df_missing_values.
+ Afficher le type de données pour chaque colonne de df_missing_values.


In [20]:
import pandas as pd

data = pd.read_csv('AmesHousing.txt', delimiter="\t")
train = data[0:1460]
test = data[1460:]

train_null_counts.isnull().sum()
df_missing_values = train[train_null_counts[(train_null_counts>0) 
                                            & (train_null_counts<584)].index]

print(df_missing_values.isnull().sum())
print(df_missing_values.dtypes)

Lot Frontage      249
Mas Vnr Type       11
Mas Vnr Area       11
Bsmt Qual          40
Bsmt Cond          40
Bsmt Exposure      41
BsmtFin Type 1     40
BsmtFin SF 1        1
BsmtFin Type 2     41
BsmtFin SF 2        1
Bsmt Unf SF         1
Total Bsmt SF       1
Bsmt Full Bath      1
Bsmt Half Bath      1
Garage Type        74
Garage Yr Blt      75
Garage Finish      75
Garage Qual        75
Garage Cond        75
dtype: int64
Lot Frontage      float64
Mas Vnr Type       object
Mas Vnr Area      float64
Bsmt Qual          object
Bsmt Cond          object
Bsmt Exposure      object
BsmtFin Type 1     object
BsmtFin SF 1      float64
BsmtFin Type 2     object
BsmtFin SF 2      float64
Bsmt Unf SF       float64
Total Bsmt SF     float64
Bsmt Full Bath    float64
Bsmt Half Bath    float64
Garage Type        object
Garage Yr Blt     float64
Garage Finish      object
Garage Qual        object
Garage Cond        object
dtype: object


## Imputer des valeurs manquantes


+ Imputer les valeurs manquantes de float_cols avec la moyenne de la colonne.
+ Afficher les valeurs manquantes de float_cols.

In [21]:
# On selectionne uniquement les colonnes type "float"
float_cols = df_missing_values.select_dtypes(include=['float'])

# Calcul la moyenne de chaque valeur manquante et remplacer les valeurs manquantes par la moyenne
# de la colonne concernée.
float_cols = float_cols.fillna(df_missing_values.mean())
print(float_cols.isnull().sum())

Lot Frontage      0
Mas Vnr Area      0
BsmtFin SF 1      0
BsmtFin SF 2      0
Bsmt Unf SF       0
Total Bsmt SF     0
Bsmt Full Bath    0
Bsmt Half Bath    0
Garage Yr Blt     0
dtype: int64
