<a href="https://colab.research.google.com/github/lsteffenel/M2Atmo_et_Climat/blob/main/02-Algorithmes%20de%20machine%20learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Principes de base de Machine Learning

Nous allons tout d'abord présenter la classe object *Estimator* de scikit-learn avant de revenir sur la notion d'**apprentissage supervisé**, sur des problèmes de *classification* et de *régression*, ainsi que l'**apprentissage
non supervisé** sur des problèmes de *clustering* et *reduction de dimensions*.


In [None]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('seaborn')

## L'objet Estimator de Scikit-Learn

Tout algorithme présent dans Scikit-learn hérite de la classe objet ''Estimator''. C'est le cas par exemple de la régression linéaire:


In [None]:
from sklearn.linear_model import LinearRegression

**Paramètres de l'estimateur**: tous les paramètres de l'estimateur sont initialisés (en général sur des valeurs par défaut pertinentes):

In [None]:
model = LinearRegression()

In [None]:
print(model)

**Paramètre du modèle à estimer**: Quand un modèle est appris sur des données, la valeur des paramètres du modèle est stockée dans des attributs de l'object estimateur qui se termine par un underscore:

In [None]:
x = np.arange(10)
y = 2 * x + 1

In [None]:
print(x)
print(y)

In [None]:
plt.plot(x, y, 'o');

In [None]:
# Données en 2D: ( 10 exemples et une seule features X)
X = x[:, np.newaxis]
print(X)
print(y)

In [None]:
# On apprend le model à partir des données
model.fit(X, y)

In [None]:
# les paramètres appris se terminent par un underscore
print(model.coef_)
print(model.intercept_)

Notre modèle de regression linéaire à une pente égale à 2 et l'origine vaut 1 (plus exactement, 0.999999...).

## Apprentissage supervisé: Classification

En **apprentissage supervisé**, nous diposons d'un jeu de données constitué de descripteurs (features) couplées à des annotations (labels). La tâche consiste à contruire un estimateur qui va prédire l'annotations en utilisant uniquement des descripteurs. Pour donner un exemple simple: on cherche à prédire l'espèce d'une iris (une plante) en considérant uniquement les dimensions mesurées de ses feuilles.
D'autres exmples plus difficles à résoudre:
- à partir d'une image capturé via un téléscope, déterminer si elle contient une étoile, un rayonnement stellaire ou une galaxie.
- indentifier une personne sur une photo.
- à partir d'un historique de films vus par un utilisateur et de notes attribuées, recommander des films d'intérêts à l'utilisateur. (Le système de recommandation: un exemple connu est celui du [Challenge Netflix](http://en.wikipedia.org/wiki/Netflix_prize))


Le point commun entre ces exemples est que l'on cherche toujours à prédire une variable (ou plusieurs) à partir d'autres variables observées.

L'apprentissage supervisé se divise en 2 grandes sous-catégories: la **classification** et la **régression**, selon la nature de la variable à prédire. Si la variable est discrète, on parle de classification. Si la variable est continue, on parle de régression.

### Exemple de classification
La **méthode des K plus proches voisins** est une des méthodes les plus simple: pour un nouvel exemple, on cherche les exemples similaires dans nos données et on prédit la classe dominante dans son voisinage.

Regardons ce que cela donne en pratique sur les **données d'iris**. Les données d'Iris contiennent 4 variables descriptives :
- longueurs des sépales,
- largeurs des sépales,
- longueurs des pétales,
- et largeur des pétales;

pour sur 3 types d'iris distinct:
- setosa (rouge)
- versicolor (vert)
- virginia (bleu)


<img src="https://github.com/lsteffenel/M2Atmo_et_Climat/blob/main/images/Iris_dataset_scatterplot.svg.png?raw=1" width="500"/>

In [None]:
!wget https://github.com/lsteffenel/M2Atmo_et_Climat/raw/main/fig_code/fig_code.tar.gz
!tar -xzf fig_code.tar.gz

In [None]:
from sklearn import neighbors, datasets

iris = datasets.load_iris()
X, y = iris.data, iris.target

# définition du modèle
knn = neighbors.KNeighborsClassifier(n_neighbors=5)

# apprentissage
knn.fit(X, y)

# Quel type d'iris pour une sépale de 3cm x 5cm et pétale de 4cm x 2cm?
# on utilise la méthode .predict():
result = knn.predict([[3, 5, 4, 2],])

print(iris.target_names[result])

On peut accéder aux prédictions sous forme de probabilités d'appartenance aux classes:

In [None]:
knn.predict_proba([[3, 5, 4, 2],])

In [None]:
from fig_code import plot_iris_knn
plot_iris_knn()

---

Dans le prochain TP vous allez utiliser des arbres de décision pour la classification.