# C'est quoi scikit-learn et comment fonctionne il?


>**Scikit-Learn** est une bibliothèque **Python** spécialisée dans dans les travaux de **Data Science**. C’est une bibliothèque spécialement réputée pour faire du **machine learning**

### Introduction à la base de donnée iris (iris dataset)

- 50 échantillons de 3 différentes espèces d'iris (150 échantillions au total)
- Mesures: sepal length, sepal width, petal length, petal width

## Machine Learning et la base de données iris

- L'objectif est de prédire l'espèce d'une fleur iris en se basant sur ces mesures

## Charger  la dataset iris dans scikit-learn

In [None]:
# import load_iris function from datasets module
from sklearn.datasets import load_iris

# save "bunch" object containing iris dataset and its attributes
iris = load_iris()

# print the iris data
print(iris.data)

## Terminologies du marchine learning 
- La base de donnée ici est vue comme un tableau où ...
>- Chaque ligne est appelée **observation** ( ou : échantillon, example, instance, enrégistrement)
>- Chaque colonne est appelée **feature** (ou: predictor, attribute)

In [None]:
# print the names of the four features
print(iris.feature_names)

# print integers representing the species of each observation
print(iris.target)

# print the encoding scheme for species: 0 = setosa, 1 = versicolor, 2 = virginica
print(iris.target_names)

## Pré-requis pour travailler avec les datasets dans scikit-learn

1. Les "features" et "response" sont des **objets séparés**
2. Les "features" et "response" sont des **tableaux NumPy**

# Les Modèles de traitement de données avec scikit-learn

Scikit-learn intègre plusieurs **datasets** et plusieurs modèles pour le traitements de ces données.

Nous allons voir le traitement et la **prédiction** des données du **dataset iris** avec deux principaux modèles (**KNN** et **LogisticRegression**)

## Chargement des données

In [None]:
# import load_iris function from datasets module
from sklearn.datasets import load_iris

# save "bunch" object containing iris dataset and its attributes
iris = load_iris()

# store feature matrix in "X"
X = iris.data

# store response vector in "y"
y = iris.target


In [None]:
# print the shapes of X and y
print(X.shape)
print(y.shape)

## Les quatres principales étapes de scikit-learn

**Etape 1:** Importer la class de modèle à utiliser.

In [None]:
from sklearn.neighbors import KNeighborsClassifier

**Etape 2:** "Instantier" le "estimator" (l'estimateur)

- Instancier l'estimateur de model.
- Cela revient à instancier un élément de la classe en passant les paramètres si nécéssaire

In [None]:
knn = KNeighborsClassifier(n_neighbors=1)

- Le nom de l'objet n'importe pas

In [None]:
print(knn)

**Etape 3:** Fournir en entrée au model les données

- Le model apprend donc les relations éventuelles entre X et y

In [None]:
knn.fit(X, y)

**Etape 4:** Prédire alors la réponse pour une nouvelle observation

- Le model utilise les informations apprises durant le traning (**Etape 3**)

In [None]:
knn.predict([[3, 5, 4, 2]])

- Retourne un **tableau NumPy**
- Peut aussi prédire pour de **multiples observations à la fois**.

In [None]:
X_new = [[3, 5, 4, 2], [5, 4, 3, 2]]
knn.predict(X_new)

### Logistic regression

In [None]:
# import the class
from sklearn.linear_model import LogisticRegression

# instantiate the model
logreg = LogisticRegression(solver='liblinear')

# fit the model with data
logreg.fit(X, y)

# predict the response values for the observations in X
logreg.predict(X)

In [None]:
# store the predicted response values
y_pred = logreg.predict(X)

# check how many predictions were generated
len(y_pred)

### Jusque là on a entrainé et évalué le model sur le même ensemble de donnée

>Deux approches sont fréquentes avec scikit-learn

### Procedure #1: Train and test sur la dataset tout entier

1. Entraine le model sur la **dataset en entier**
2. Test le model sur le même ensemble et l'évalue

### Procedure #2: Train/test split

1. Divise la dataset en deux parties: **training set** et **testing set**.
2. Entraine le modèle sur le **training set**.
3. Teste le modèle sur **testing set**, et faire ensuite **l'évaluation**

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics


# read in the iris data
iris = load_iris()

# create X (features) and y (response)
X = iris.data
y = iris.target

# use train/test split with different random_state values
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=4)

# check classification accuracy of KNN with K=5
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(metrics.accuracy_score(y_test, y_pred))