# Initiation au Machine Learning avec Python
Elias Hariz - Mars 2018

In [None]:
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

Importation des outils qu'on utilisera pour analyser nos données. En particulier, on utilisera :
* Pandas pour importer nos données à partir d'un fichier csv
* NumPy pour manipuler nos données sous forme de matrices
* PyPlot et Seaborn pour représenter graphiquement les données 

In [None]:
df = pd.read_csv("../library/Iris.csv")

Notre dataset (ou jeu de données) est un tableau contenant les caractéristiques de 150 fleurs d'Iris. Notre objectif sera de déterminer l'espèce d'Iris (virginica, setosa, versicolor) à partir des autres caractéristiques. Pour ce faire, nous allons construire un modéle prédictif ! 

In [None]:
df.isnull().any()

Après importation du dataset, on vérifie qu'il ne contient pas de valeurs nulles (=cases vides dans certaines colonnes). En effet, les valeurs nulles peuvent impacter (parfois significativement) la fiabilité des prédictions de nos algorithmes de Machine Learning. Il existe plusieurs solutions pour éviter ce problème, comme remplacer les valeurs nulles par la moyenne ou la médiane de leur série statistique.

Il est important de bien connaitre le dataset pour obtenir un modèle prédictif fiable et précis. Commençons par étudier les types des variables : 

In [None]:
df.dtypes

Notre dataset contient différentes caractéristiques de nos Iris :
* Longeur des sépales en cm (SepalLengthCm)
* Largeur des sépales en cm (SepalWidthCm) 
* Longeur des pétales en cm (PetalLengthCm)
* Largeur des pétales en cm (PetalWidthCm)
* Espèce de l'Iris (Species)  
  
Voyons ceci dans un échantilon de notre dataset :

In [None]:
df.sample(5)

Il semblerait que les iris de l'espèce *setosa* aient des pétales plus petites que celles des autres espèces. Peut-on utiliser la taille des pétales pour différencier les *setosa* des autres iris ? 

In [None]:
sns.stripplot(x="Species", y="PetalWidthCm", data=df)

Intéressons-nous ensuite à quelques indicateurs statistiques : 

In [None]:
df.describe()

Pour bâtir notre modèle prédictif, il est important de bien choisir les variables (également appelées *features* ) sur lesquelles nous allons nous baser pour effectuer nos prédictions. L'**Id** n'ayant logiquement pas de corrélation avec le type d'Iris, nous allons le retirer afin d'éviter des problèmes d'overfitting :

In [None]:
df = df.drop(['Id'], axis=1) 

Maintenant, essayons de déterminer les **features** de notre modèle prédictif, c'est à dire les attributs à partir desquels il est le plus fiable de prédire le type d'Iris. Pour cela, nous allons utiliser le **pairplot** de Seaborn :

In [None]:
sns.pairplot(df, hue='Species')

On constate ici que les espèces d'Iris se distinguent plutot bien avec les **features** retenues ! Par la suite, nous allons donc essayer de classifier nos fleurs à partir de ces **features**. 

In [None]:
from sklearn.model_selection import train_test_split 

inputs = df[['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm']].values
outputs = df['Species'].values

(train_inputs, test_inputs, train_outputs, test_outputs) = train_test_split(inputs, output, train_size=0.8, random_state=1)

Dans le but de garder cette introduction simple et accesible, on opte ici pour un arbre de décision (**DecisionTreeClassifier**) comme algorithme de prédiction. Mais il en existe bien d'autres !  
On sépare ensuite notre dataset entre l'attribut qu'on souhaite prédire (**Species**) et les **features** sur lesquels on compte se baser pour effectuer les prédictions (**SepalLengthCm, SepalWidthCm, PetalLengthCm, PetalWidthCm**).  
Enfin, on sépare encore une fois notre dataset en 2 : les données sur lesquelles l'algorithme va s'entrainer et "apprendre" (**train_inputs** et **train_outputs**), et les données sur lesquelles nous allons mettre notre modèle à l'épreuve (**test_inputs** et **test_outputs**) en testant la fiabilité de ses prédictions !

In [None]:
from sklearn.tree import DecisionTreeClassifier

dtc = DecisionTreeClassifier()
dtc.fit(train_inputs, train_outputs)
dtc.score(test_inputs, test_outputs)

Notre modèle atteint environ 97% de fiabilité. Beau travail ! 