# Machine Learning

## Sommaire
-------------------

### 1 - [Scikit-Learn](## Scikit-Learn)
* #### _[Exercice 1](## Exercice 1)_

### 2 - [Le framework](## Le framework)
* #### _[Exercice 2](## Exercice 2)_

### 3 - [Qualité des données](## Qualité des données)
* #### _[Exercice 3](## Exercice 3)_
* #### _[Exercice 4](## Exercice 2)_

### 4 - [Cross Validation](## Cross Validation)
* #### _[Exercice 5](## Exercice 5)_

### 4 - [Evaluation](## Evaluation)
* #### _[Exercice 6](## Exercice 6)_

-------------------

## 1 - Scikit-Learn <a class="anchor" id="Scikit-Learn"></a>
[`Sklearn`](http://scikit-learn.org/stable/) est la librairie de machine learning de Python. Elle regroupe des algorithmes de:

* Classification
* Regression
* Clustering
* Dimensionality reduction
* Model selection
* Preprocessing

L'objectif d'un algorithm d'apprentissage supervisé est de créer une variable de sortie qui résume correctement le(s) variable(s) d'entrée(s). Pour créer cette variable, l'algorithme doit capturer les régularités dans les variables d'entrée mais aussi généraliser à des données non encore observées.

L'objectif d'entrainement d'un algorithme est de trouver l'equilibre entre deux types d'erreurs qu'un model peut produire:
* biais: la modélisation de la variable de sortie ne prend pas suffisament en compte les variations des variables d'entrée. On parle d'underfiting.
* variance: le modèle prend trop en compte les variations des variables d'entrée. On parle d'overfiting.

Pour équilibrer ces deux types d'erreurs, on utilise un échantillon d'entrainement et un échantillon de test. 


--------------------

### _ Exercice 1_ <a class="anchor" id="Exercice 1"></a>

Utiliser le librairie `train_test_split()` sur les données carsdata pour générer un jeu d'entrainement de 75% et un jeu de test de 25% des données.

---------------------

## 2 - Le framework <a class="anchor" id="Le framework"></a>
L'algorithme est entrainé sur le training set, les prédictions se font sur le testing set et on évalue l'erreur du modèle.
* fit
* predict
* evaluate


--------------------

### _ Exercice 2_ <a class="anchor" id="Exercice 2"></a>

* Entrainer une modèle de régression linéaire (`linear_model.LinearRegression()`)pour prédire la vitesse max à partir des données carsdata.
* Prédir la vitesse max des données de test.
* Evaluer la différence moyenne entre les prédictions et les valeurs réelles.

---------------------

## 3 - Qualité des données <a class="anchor" id="Qualité des données"></a>

La plupart des algorithmes de Machine Learning utilisent des données dans une matrice numpy stockées sous forme de `float`.
La première étape de la mise en forme des données est d'identifier:
* Les valeurs manquantes (NaN)
* Les valeurs -Inf et +Inf
* Les valeurs qui ne peuvent pas être castés en `float()`

In [None]:
float('-1,0')

In [None]:
float(1/0)

In [10]:
import numpy as np

In [24]:
X = np.array([1.0,2.0,np.nan, np.inf]).reshape(2,2)

In [39]:
X = X*10
X

array([[ 10.,  20.],
       [ nan,  inf]])

La bibliothèque sklearn dispose d'outils pour corriger facilement la qualité des données. 

In [20]:
from sklearn.preprocessing import Imputer

In [21]:
imp = Imputer()

In [22]:
imp

Imputer(axis=0, copy=True, missing_values='NaN', strategy='mean', verbose=0)

Cette class va identifier les valeurs manquantes et les remplacer par la moyenne de l'axe. Ici l'axe est 0, donc les valeurs seront remplacées par la moyenne de la colone.

In [42]:
imp.fit(X)

Imputer(axis=0, copy=True, missing_values='NaN', strategy='mean', verbose=0)

In [43]:
imp.transform(X)

array([[ 10.],
       [ 10.]])

In [57]:
imp_inf = Imputer(missing_values=np.inf)

In [58]:
imp_inf

Imputer(axis=0, copy=True, missing_values=inf, strategy='mean', verbose=0)

In [59]:
imp_inf.fit(X)

Imputer(axis=0, copy=True, missing_values=inf, strategy='mean', verbose=0)

In [60]:
imp_inf.transform(X)

array([[ 20.],
       [ 20.]])

In [61]:
np.where(np.isinf(X))

(array([1], dtype=int64), array([1], dtype=int64))

In [62]:
X

array([[ 10.,  20.],
       [ nan,  inf]])

In [63]:
np.where(np.isnan(X))

(array([1], dtype=int64), array([0], dtype=int64))

In [64]:
X[np.where(np.isinf(X))] = np.nan

In [65]:
X

array([[ 10.,  20.],
       [ nan,  nan]])

In [68]:
X = imp.fit_transform(X)
X

array([[ 10.,  20.],
       [ 10.,  20.]])


--------------------

### _ Exercice 3_ <a class="anchor" id="Exercice 3"></a>

* A partir de `carsdata_features.csv`, créer une nouvelle DataFrame contenant les variables:
`"capacite_charge_max_kg","empattement","capacite_moteur_cc","masse_admissible_max",
"couple_max","puissance_max_HP"`

* Vérifier et redresser la qualité des données

---------------------

Les algorithmes de Machine Learning attendent des variable standardisées, c'est à dire de moyenne égale à 0 et une stadanrd deviation égale à 1. La raison principale est qu'une variable avec la variance la plus grande va dominer lors de l'entrainement. Le model predictif ne sera représentatif que de cette variable.

Cette mise à l'echelle est gérée par un `StandardScaler`

In [69]:
from sklearn.preprocessing import scale

In [70]:
scale(X)

array([[ 0.,  0.],
       [ 0.,  0.]])


--------------------

### _ Exercice 4_ <a class="anchor" id="Exercice 4"></a>

* Standardiser la DataFrame créée à l'Exercice 3

---------------------

## 4 - Cross Validation <a class="anchor" id="Cross Validation"></a>

Lors de l'entrainement d'un algorithme on veut s'assurer que les résultats des prédictions soient le plus représentatif possible des résultats qu'on obtiendra sur des données réelles. La clef est de répliquer de nombreuses fois l'entrainement et les tests puis d'aggréger les résultats des prédictions. Puisque ne nous n'avons pas accès à une quantité de données infinie, on utilise le hasard pour générer des échantillons d'entrainements différents.

Cette boucle est gérée par `cross_validation.KFold`.
`K` est le nombre de jeux d'entrainement différents qu'on veut générer à partir des données.

In [71]:
from sklearn.cross_validation import KFold


--------------------

### _ Exercice 5_ <a class="anchor" id="Exercice 5"></a>

* Entrainer un algorithme de classification de votre choix pour prédire le type de voiture à partir de la DataFrame créée à l'Exercice 3.

* Vous pouvez encoder les différents types de voitures de manière numérique pour créer la cible `y`

```
data["classe"] = 0
data.ix[data["bus"]==1,"classe"] = 1 
data.ix[data["cabriolet"]==1,"classe"] = 2
data.ix[data["coupe"]==1,"classe"] = 3
data.ix[data["hatchback"]==1,"classe"] = 4
data.ix[data["mpv"]==1,"classe"] = 5
data.ix[data["pickup"]==1,"classe"] = 6
data.ix[data["sedan"]==1,"classe"] = 7
data.ix[data["stationwagon"]==1,"classe"] = 8
data.ix[data["suv_crossover"]==1,"classe"] = 9
y = data.classe.as_matrix()
```

---------------------

## 4 - Evaluation <a class="anchor" id="Evaluation"></a>

Les résultats de classifications multiclasses sont évalués par les mesures de precision et recall.


\\[Precision = { tp \over tp + fp } \\]

\\[Recall = { tp \over tp + fn } \\]

En d'autres termes, la Precision mesure la quantité de faux positifs prédits dans une classe, et le Recall le nombre de faux negatifs manquants dans la prédiction d'une classe.


--------------------

### _ Exercice 6_ <a class="anchor" id="Exercice 6"></a>

* Utiliser la librairie `sklearn.metrics.classification_report` pour générer les statistiques d'évaluation de la qualité des prédictions de l'Exercice 5.

---------------------