# Data Cleaning

Cleaning des données dans le but de créer un modele de prédiction de prix 

- Traiter les données manquantes
- Regrouper/supprimer les données inutiles
- Supprimer les doublons
- Convertir string en int/float/bool

In [None]:
# importation des libs/datasets...
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv('./dataset/immo_collect.csv', index_col=0)
df.head()

In [None]:
df.shape

In [None]:
df.dtypes

In [None]:
df.describe(include='object')

In [None]:
df.describe(include='bool')

In [None]:
# Affichage des valeurs manquantes
df.isna().sum()
# Pour le coup, pas case vide ! Nice ...

In [None]:
# Print the heatmap
plt.subplots(figsize=(20, 12))   
sns.heatmap(df.corr(), annot=True, linewidths=0.05, fmt= '.2f', vmin=-1, vmax=1, center=0, cmap=sns.diverging_palette(20, 220, n=200))

plt.show()

Z'est partit !

In [None]:
# On commence par la suppression des doublons s'il y en a
df.drop_duplicates(inplace=True)

In [None]:
# Suppression préliminaires des collonnes inutiles
df.drop(columns=['Lien'],inplace=True)
df.drop(columns=['Type de cuisine'],inplace=True)
df.drop(columns=['Sous-type de propriété'],inplace=True)
df.drop(columns=['Surface de la terrasse'],inplace=True)

In [None]:
def drop_string_and_float_transform(element):
    """
    Essaye de transformer un element en float
    Si pas, cela return un np.nan (non attribuate number)
    """
    try:
        transformed = float(element)
    except:
        transformed = np.nan
    finally:
        return transformed

## Nettoyage des collonnes
### Prix

In [None]:
# suppresion des strings et transformations des données en integer
print(df.shape)
df['Prix'] = df['Prix'].apply(drop_string_and_float_transform)
print(df['Prix'].isna().value_counts())
df.dropna(subset=['Prix'],inplace=True)
print(df.shape)

In [None]:
df['Prix'] = df['Prix'].astype(int)

In [None]:
df.dtypes

### Nombre de chambre(s)

In [None]:
# Nombre de fois ou les différentes valeurs sont entrées
df['Nombre de chambre(s)'].value_counts()

In [None]:
# Suppression des lignes ou le nombres de chambre n'est pas indiqué
print(df.shape)
df = df[(df['Nombre de chambre(s)'] != 'None')]
print(df.shape)

In [None]:
df['Nombre de chambre(s)'] = df['Nombre de chambre(s)'].apply(drop_string_and_float_transform)
print(df['Nombre de chambre(s)'][0].dtype)

df['Nombre de chambre(s)'] = df['Nombre de chambre(s)'].astype(int)
df['Nombre de chambre(s)'].value_counts().head(10)

In [None]:
# affichage des outliers
sns.boxplot(x=df['Nombre de chambre(s)'])

A partir de la je n'ai plus qu'a identifier les outliers et filtrer mes lignes en conséquences

In [None]:
df = df[(df['Nombre de chambre(s)'] < 8) & (df['Nombre de chambre(s)'] > 0)]
sns.boxplot(x=df['Nombre de chambre(s)'])

In [None]:
print(df['Nombre de chambre(s)'].value_counts())
df.shape

### Type de propriété

In [None]:
df['Type de propriété'].value_counts()

In [None]:
def property_to_bool(element):
    if element == "Maison":
        return 1
    else: 
        return 0
    
df['Type de propriété'] = df['Type de propriété'].apply(property_to_bool)

In [None]:
# 0 = Appartement
# 1 = Maison
df['Type de propriété'].value_counts()

### Nombre de façades

In [None]:
print(df.shape)
df['Nombre de façades'].value_counts()

In [None]:
# Il faudrait supprimer trop d'entrée pour pouvoir l'utiliser dans un model de prédiction
# De plus la collonne n'est pas très pertinente, je vais donc la supprimer

df.drop(columns=['Nombre de façades'],inplace=True)

### Etat du bâtiment

In [None]:
df['Etat du bâtiment'].value_counts()

In [None]:
# Encore une fois trop de données manquantes pour la suite du projet
df.drop(columns=['Etat du bâtiment'],inplace=True)

### Surface habitable

In [None]:
df['Surface habitable'].value_counts()

In [None]:

print(df.shape)
df['Surface habitable'] = df['Surface habitable'].apply(drop_string_and_float_transform)
print(df['Surface habitable'].isna().value_counts())
df.dropna(subset=['Surface habitable'],inplace=True)
print(df.shape)

In [None]:
df['Surface habitable'] = df['Surface habitable'].astype(int)
df['Surface habitable'].value_counts()

In [None]:
sns.boxplot(x=df['Surface habitable'])

In [None]:
df = df[(df['Surface habitable'] < 310) & (df['Surface habitable'] > 0)]
sns.boxplot(x=df['Surface habitable'])
df.shape

### Surface du jardin

In [None]:
df['Surface du jardin'].value_counts()

In [None]:
# 11k None .... drop it fast !
df.drop(columns=['Surface du jardin'],inplace=True)

### Jardin

In [None]:
df['Jardin'].value_counts()

In [None]:
plt.scatter(df['Surface habitable'],df['Prix'], c=df['Jardin'])

## Heatmap

In [None]:
# Print the heatmap
plt.subplots(figsize=(20, 12))   
sns.heatmap(df.corr(), annot=True, linewidths=0.05, fmt= '.2f', vmin=-1, vmax=1, center=0, cmap=sns.diverging_palette(20, 220, n=200))

plt.show()

In [None]:
df.dtypes