<img src="http://naonedia.fr/wp-content/uploads/2018/10/logoNaonedia.png" style="height:100px">
<h1>
    <center>Expérience Logement</center>
    <center>-</center>
    <center>Préparations des données</center>
</h1>


<h3> Introduction </h3>

Dans ce dernier notebook, nous allons voir comment finaliser notre jeux de données, à la fin nous obtiendrons un jeux de données prêt à l'emploi.
Celui pourra être ensuite utilisé dans un réseaux de neurones.


<h3>Informations</h3>

Il est fortement conseillé d'utiliser Python3.x
Si vous ne disposez pas de toutes les librairies requises , il suffit de l'installer en utilisant la commande suivante.
<br>
<code>pip3 install ....</code>

<h3>Authors:</h3>
<cite>Thibault Brocherieux - Ippon Technologies</cite>

## Import des librairies requises

In [25]:
import pandas as pd
import numpy as np
from os import path

import plotly.offline as py
import plotly.figure_factory as ff
import plotly.graph_objs as go

## Chargement du jeux de données à finaliser

In [32]:
df = pd.read_csv('data/datasets/origin_enriched_v3.csv', delimiter=',', header=0)
df.head()

Unnamed: 0,date_mutation,valeur_fonciere,code_postal,nom_commune,surface_carrez,type_local,surface_reelle_bati,nombre_pieces_principales,surface_terrain,mois,...,0-3-pa_rdb,0-3-pa_rdb_uc,0-3-taux_epargne,0-3-taux_epargne_financier,0-4-rdb,0-4-rdb_uc,0-4-pa_rdb,0-4-pa_rdb_uc,0-4-taux_epargne,0-4-taux_epargne_financier
0,2016-05-27,240000.0,44800,ST-HERBLAIN,145.0,Maison,145.0,7,352.0,5,...,126.351721,111.880979,587654.396848,2024.920706,154.887308,136.523181,127.109831,112.328503,669926.012407,2116.042138
1,2016-06-09,104450.0,44800,ST-HERBLAIN,54.5,Appartement,54.0,2,54.0,6,...,126.351721,111.880979,587654.396848,2024.920706,154.887308,136.523181,127.109831,112.328503,669926.012407,2116.042138
2,2016-06-21,230000.0,44100,NANTES,92.0,Maison,92.0,3,192.0,6,...,126.351721,111.880979,587654.396848,2024.920706,154.887308,136.523181,127.109831,112.328503,669926.012407,2116.042138
3,2016-06-03,122000.0,44300,NANTES,58.61,Appartement,59.0,3,59.0,6,...,126.351721,111.880979,587654.396848,2024.920706,154.887308,136.523181,127.109831,112.328503,669926.012407,2116.042138
4,2016-05-23,159000.0,44000,NANTES,49.58,Appartement,52.0,3,52.0,5,...,126.351721,111.880979,587654.396848,2024.920706,154.887308,136.523181,127.109831,112.328503,669926.012407,2116.042138


Nous commencons par regarder si notre jeux de données a des données manquantes.
Le code ci-dessous nous permet de fournir le nom des colonnes possédant un/des valeur(s) manquantes.

In [33]:
[i for i in df.columns if df[i].isnull().any()]

[]

Dans notre cas nous ne possédons aucunes données manquantes. Nous allons maintenant regarder les types de données.

In [34]:
list(set(df.dtypes))

[dtype('int64'), dtype('float64'), dtype('O')]

Nous ne disposons que de 3 types, nous allons regarder de plus proche le type 'O'. Nous allons sélectionner toutes les colonnes concernées.

In [35]:
df.select_dtypes(exclude=['float64', 'int64'])

Unnamed: 0,date_mutation,nom_commune,type_local
0,2016-05-27,ST-HERBLAIN,Maison
1,2016-06-09,ST-HERBLAIN,Appartement
2,2016-06-21,NANTES,Maison
3,2016-06-03,NANTES,Appartement
4,2016-05-23,NANTES,Appartement
5,2016-06-21,ST-SEBASTIEN,Appartement
6,2016-06-03,NANTES,Maison
7,2016-06-09,NANTES,Maison
8,2016-05-27,NANTES,Maison
9,2016-05-28,NANTES,Maison


Nous ne nécessitons pas de la colonne `date_mutation`, nous avons déjà isolé l'année et le mois dans d'autres colonnes. Il nous suffit donc d'encoder les colonnes `nom_commune` et `type_local`. En faisant attentention au début, on peut aussi remarquer la colonne `code_postal`, celle-ci doit aussi être encodé.

In [36]:
# Dropping date_mutation columns
df.drop('date_mutation', axis = 1, inplace=True)

# One hot encoding `nom_commune` column
one_hot = pd.get_dummies(df['nom_commune'])
df.drop('nom_commune', axis = 1, inplace=True)
df = df.join(one_hot)

# One hot encoding `type_local` column
one_hot = pd.get_dummies(df['type_local'])
df.drop('type_local', axis = 1, inplace=True)
df = df.join(one_hot)

# One hot encoding `type_local` column
one_hot = pd.get_dummies(df['code_postal'])
df.drop('code_postal', axis = 1, inplace=True)
df = df.join(one_hot)

In [37]:
df.head()

Unnamed: 0,valeur_fonciere,surface_carrez,surface_reelle_bati,nombre_pieces_principales,surface_terrain,mois,annee,mois_sin,mois_cos,foot/vie_courante/townhall,...,44620,44640,44700,44710,44800,44830,44840,44860,44880,44980
0,240000.0,145.0,145.0,7,352.0,5,2016,0.5,-0.866025,1.0,...,0,0,0,0,1,0,0,0,0,0
1,104450.0,54.5,54.0,2,54.0,6,2016,1.224647e-16,-1.0,0.0,...,0,0,0,0,1,0,0,0,0,0
2,230000.0,92.0,92.0,3,192.0,6,2016,1.224647e-16,-1.0,0.0,...,0,0,0,0,0,0,0,0,0,0
3,122000.0,58.61,59.0,3,59.0,6,2016,1.224647e-16,-1.0,0.0,...,0,0,0,0,0,0,0,0,0,0
4,159000.0,49.58,52.0,3,52.0,5,2016,0.5,-0.866025,0.0,...,0,0,0,0,0,0,0,0,0,0


In [38]:
df.to_csv('data/datasets/dataset_ready_v1.csv', index=False)