<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Importation-des-librairies-utiles" data-toc-modified-id="Importation-des-librairies-utiles-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Importation des librairies utiles</a></span></li><li><span><a href="#Obtention-des-données" data-toc-modified-id="Obtention-des-données-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Obtention des données</a></span></li><li><span><a href="#Exploration-de-la-Donnée" data-toc-modified-id="Exploration-de-la-Donnée-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Exploration de la Donnée</a></span></li><li><span><a href="#Préparation-des-données" data-toc-modified-id="Préparation-des-données-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Préparation des données</a></span></li></ul></div>

<img src="https://miro.medium.com/v2/resize:fit:1400/0*-G8VWk7x24EcOyza" alt="image" width="100%">

L'objectif de ce Lab est de préparer les données permettant de prédire les prix de l'immobilier en Californie en 1990.

Les données concernent les maisons trouvées dans un district californien donné et quelques statistiques récapitulatives à leur sujet basées sur les données du recensement de 1990. Soyez averti que les données ne sont pas nettoyées, certaines étapes de prétraitement sont donc requises ! Les colonnes sont les suivantes, leurs noms sont assez explicites :

longitude

latitude

logement_âge médian_

total_chambres

total_chambres

population

ménages

revenu_médian

valeur médiane_de la maison

océan_proximité

Le prétraitement comprend la détection et la gestion des valeurs manquantes, l'enodage des caractéristiques catégorielles et ne se limite pas à ces étapes.

## Importation des librairies utiles

In [1]:
import warnings
warnings.filterwarnings("ignore")

In [2]:
# import des librairies
import os, random

import numpy as np # manipulation de matrices
import pandas as pd # chargement de donnees

#visualisation
import seaborn as sns 
import matplotlib.pyplot as plt 

# visualition de valeurs manquantes
import missingno as msno

# gestion des valeurs manquantes
from sklearn.impute import SimpleImputer

# encodage des variables categorielles
from sklearn.preprocessing import OneHotEncoder  

# mise a l'echelle des variables numeriques
from sklearn.preprocessing import StandardScaler  

# separation de la donnee en train, validation, et test
from sklearn.model_selection import train_test_split

# création de pipeline
from sklearn.pipeline import Pipeline


In [3]:
# ne modifier pas ce bout de code
seed = 2024
random.seed(seed)
np.random.seed(seed)

## Obtention des données

La donnée nécessaire pour ce Lab se trouve dans le dossier data/housing.csv.

In [4]:
# charger la donée  
housing_df = _

In [5]:
# afficher les 5 premières lignes


In [6]:
# vérifier la taille de la donnée


In [7]:
# vérifier le type de donnée (série temporelle, échantillon, géographique, ...)


Le data dredging (également connu sous le nom de data snooping ou p-hacking) est l'utilisation abusive de l'analyse de données pour trouver des modèles dans les données qui peuvent être présentés comme statistiquement significatifs, augmentant ainsi considérablement le risque de faux positifs et le sous-estimant.

In [8]:
# mettez un échantillon de 20% de la donnée de côté que vous ne regarderez jamais 
# en utilisant train_test_split. Utiliser random_state = 67
housing_train_df, housing_test_df = _, _

# sauvegarder les ensembles crees a l'aide de pd.to_csv dans le dossier data
# sous les noms housing_train.csv et housing_test.csv


Pour les analyses subséquentes, veillez à ne travailler qu'avec la donnée d'entraînement.

## Exploration de la Donnée

### Identifier les features et le Label

- Combien de features/ caractéristiques sont présentes dans le jeu de données?
- Quels sont leurs types?
- Le Label est-il continu ou catégoriel?

### Etude des valeurs dupliquées

### Etude basique de valeurs aberrantes

In [9]:
## description du jeu de données et interpretation
# comparaison des valeurs extrêmes au valeurs centrales


### Etude des valeurs manquantes

In [10]:
# visualiser les valeurs manquantes de quatre façons différentes
# et interpréter chaque visualisation
# simple tableau


In [11]:
# dendograme


In [12]:
# heatmap de correlations


In [13]:
# Matrice


### Distribution des données

In [14]:
# Boxplot du Label vs chaque variable categorielle 
# si le nombre de catégories n'excède 10, sinon des barplots


In [15]:
# subplots des distributions de toutes les variables numériques


### Matrice de correlations

### Résumé de la partie exploratoire - transformations pertinentes?

## Préparation des données

### Gestion des données manquantes

- Utilisez l'une des trois approches classiques de gestion de données manquantes (suppression, encodage, imputation) à ce jeu de données et justifier votre choix. Discuter égalment de l'impact de votre approche sur les performances du modèle de prédiction du pric médian que vous concevrez plutard.

In [16]:
# gestion des données manquantes
housing_train_clean_df = _

### Correction ou suppression de valeurs aberrantes

### Sélection de feature

In [17]:
# supprimez les variables ne fournissant pas d'informations utiles
# pour prédire le prix médian des maisons


### Feature engineering

- Discrétisez les variables continues
- Décomposez les features si nécessaire : catégorie, date/time,...
- Effectuez des transformations prometeuses : aggrégation, log(x), sqrt(x),...


### [Feature Scaling and/or Normalization](https://colab.research.google.com/github/ml-course/master/blob/master/notebooks/06%20-%20Data%20Preprocessing.ipynb)

- Réduiser à la même échelle entre 0 et 1 toutes les variables numériques

### Encoder les variables catégorielles

### Créer un pipeline 

- Créez un pipeline pour automatiser les transformations effectuer sur l'ensemble d'entraînement et éviter les fuites de données

- Séparez la donnée d'entraînement en ensemble d'entraînement et de validation

- Appliquer le pipeline créer dessus