# Objectifs 

Prise en main des fonctionnalité de `scikit-learn` suivants.
- Normalisation (`StandardScaler`, `MinMaxScaler`, `MaxAbsScaler`, `RobustScaler`)
- Transformation de données catégorielle en quantitative (`LabelEncoder`, `OneHotEncoder`) 
- Gestion des données manquantes (`SimpleImputer`, `KNNImputer`) 
- Composition de différentes étapes (`Pipeline`, `ColumnTransformer`, `FeatureUnion`)

Mise en oeuvre sur le tableau de données [immobilier](https://raw.githubusercontent.com/VPerrollaz/immobilier/master/donnees/data.tsv) pour obtenir un prédicteur de prix le plus fiable possible.

1. Charger les données dans un dataframe pandas. (on pourra regarder aussi le module `pathlib` pour explorer les fichiers de manière robuste)
2. Explorer les données via pandas : quelles sont les features, y-a-t il beaucoup de NaN, quelles sont les variables importantes, quelles sont leurs types, quelles sont les plages de variations.
3. En déduire des pipelines sklearn (avec preprocessing et algorithme) avant de choisir le meilleur par crossvalidation.

# Chargement avec pandas

In [1]:
import pandas as pd

In [6]:
donnees = pd.read_csv("https://raw.githubusercontent.com/VPerrollaz/immobilier/master/donnees/data.tsv", sep="\t")

In [7]:
donnees.describe()

Unnamed: 0,Neuf,Surface,Pieces,Prix
count,1647.0,1639.0,1646.0,1646.0
mean,0.138434,97.953392,4.047388,262181.4
std,0.345459,82.332672,2.436838,266652.2
min,0.0,11.96,1.0,29800.0
25%,0.0,57.205,3.0,122500.0
50%,0.0,73.19,3.0,179673.5
75%,0.0,108.0,5.0,294150.0
max,1.0,1400.0,25.0,5596080.0


In [8]:
donnees.head()

Unnamed: 0,Id,Genre,Neuf,Surface,Pieces,Quartier,Prix
0,annonce-138905473-376235,Appartement,0,90.0,3.0,cathédrale,374400.0
1,annonce-140620177-376235,Appartement,0,146.27,5.0,sud,499200.0
2,annonce-140620179-376235,Appartement,0,110.0,5.0,prébendes,499200.0
3,annonce-133494153-376235,Maison,0,132.0,6.0,prébendes,508000.0
4,annonce-137425993-376235,Maison,0,185.0,7.0,strasbourg,676000.0


**ATTENTION**
Pour les versions et les identifiants même si on n'utilise que des chiffres on utilise le type `str` pour éviter les erreurs d'arrondis si jamais ils sont interprétés comme `float`.

In [13]:
donnees.dtypes

Id           object
Genre        object
Neuf          int64
Surface     float64
Pieces      float64
Quartier     object
Prix        float64
dtype: object

# Premières modifications et Exploration avec Pandas

**Modifications**

- Supprimer les éventuels doublons
- Attribuer les bons types aux colonnes.

**Remarque** 

- L'API de `pandas` est gigantesque et peu "*découvrable*" on pourra commencer par se concentrer sur la [cheatsheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf) 
- On pourrait utiliser la librairie [`pyjanitor`](https://pyjanitor.readthedocs.io/)

In [17]:
donnees = donnees.convert_dtypes()

In [18]:
donnees.dtypes

Id           string
Genre        string
Neuf          Int64
Surface     float64
Pieces        Int64
Quartier     string
Prix          Int64
dtype: object

On pourrait vouloir forcer la conversion de la colonne `Surface` en `Int`.

In [20]:
donnees.Surface = donnees.Surface.apply(int)

ValueError: cannot convert float NaN to integer

**ATTENTION** en python `NaN` est forcément un flottant...

**Remarque** on aurait pu utiliser une méthode spécifique pour les types : `astype`.

In [22]:
donnees = donnees.drop_duplicates()

Regarder les valeurs manquantes, regarder les variables importantes.