
# Apprendre à préparer les données

## Les fichiers avec Google Colab files module

text import files ...

In [0]:
from google.colab import files

Vous pourrez sélectionner les fichiers à partir d'une interface graphique. Nous allons tester en important le dataset *'housing.csv'*


**Important** 

Il n'est pas recommandé d'utiliser cette méthode pour les fichiers de grande taille. C'est très lent.

In [0]:
dataset = files.upload()

Saving housing.csv to housing.csv


le fichier est chargé en mémoire.

On l'ouvre avec la librairie Pandas qui permet de réaliser facilement ce type d'opération.

On lit les données et on les met sous forme d'un table Pandas (Data frame).


In [0]:
import pandas as pd
dataframe = pd.read_csv("housing.csv",  header=None)# , delim_whitespace=True)

La description du Data set se trouve [ici](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_boston.html).


## Dimension du tableau et échantillon de quelques lignes

In [0]:
# la dimension du tableau (lignes, colonnes)
dataframe.shape

(506, 15)

In [0]:
# échantillon de 5 lignes au hasard dans le tableau
dataframe.sample(5)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
318,317.0,0.40202,0.0,9.9,0,0.544,6.382,67.2,3.5325,4,304.0,18.4,395.21,10.36,23.1
279,278.0,0.21038,20.0,3.33,0,0.4429,6.812,32.2,4.1007,5,216.0,14.9,396.9,4.85,35.1
473,472.0,4.64689,0.0,18.1,0,0.614,6.98,67.6,2.5329,24,666.0,20.2,374.68,11.66,29.8
463,462.0,5.82115,0.0,18.1,0,0.713,6.513,89.9,2.8016,24,666.0,20.2,393.82,10.29,20.2
305,304.0,0.05479,33.0,2.18,0,0.472,6.616,58.1,3.37,7,222.0,18.4,393.36,8.93,28.4


## séparation du tableau en input & output

Les colonnes indicées 0 à 13 sont les inputs

La colonnes 13 est l'output. Ce qu'on cherche à prédire

In [0]:
dataset = dataframe.values
# split into input (X) and output (Y) variables
X = dataset[1:,0:13]
y = dataset[1:,13]

## Préparation des données avec Scikit-Learn

On utilise la librairie [Scikit Learn](https://scikit-learn.org/stable/)

On sépare les données en 2 échantillons :
* apprentissage (*train*)
* test 

In [0]:
import numpy as np
from sklearn import model_selection

X_train, X_test, y_train, y_test = model_selection.train_test_split(X, np.log(y), test_size=0.33, random_state= 12345)

### Remise à l'échelle des données



#### Motivation
Cette étape est **indispensable** lorsqu'on fait du Deep Learning

C'est une transformation simple qui permet d'éviter qu'une variable, une colonne (*une feature*) du data-set ne soit trop importante par rapport aux autres.

#### Exemple:
Si on a un data set avec 2 features (colonnes) décrivant les salariés d'une entreprise : 
* salaire annuel en Euros 
* age en année

Le *salaire* annuel domine fortement la colonne *age*

exemple : salaire = 75 000 € et age = 28 ans

*salaire* est plusieurs milliers de fois supérieur à *age*

#### Centrage et réduction
On utilise un *standard scaler* pour remettre dans une échelle commune les colonnes du data set (centrer et réduire).
#### Résultat de la remise à l'échelle
Après cette opération 
toutes les *colonnes* du data set ont 
* une moyenne égale à zéro (c'est le centrage)
* un écart type égal à un (c'est la réduction)

#### Détails techniques
Centrer et réduire les données consiste à ôter la moyenne et ensuite diviser par l'écart-type.

C'est une opération classique 


In [0]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

In [0]:
scaler.fit(X_train)
X_train = scaler.transform(X_train) 
X_test = scaler.transform(X_test)

Apres cette opération, on peut envoyer les données dans un algorithme de Deep Learning 
;-)

## Vérification

**remarque :**
Cette étape peut être passée si vous ne souhaitez pas entrer dans les détails statistiques.

Pour vérifier si tout c'est bien passé.
On calcule la moyenne puis l'écart-type (étendue autour de la moyenne)

In [0]:
# moyenne
np.mean(X_train)

2.3253537870346473e-15

In [0]:
# étendue (écart type)
np.std(X_train)

1.0

Comme attendue la moyenne est nulle (négligeable) et l'étendue (écart type) est égale à un