In [None]:
import numpy as np
from matplotlib import pyplot as plt
import outils

In [None]:
# Pour forcer le « jupyter notebook » à mettre les graphes dans la page web.
%matplotlib inline

# Machine Learning : régression

- On va charger des données sur des chats (poids, taille du cœur et sexe).
- On voudra ensuite trouver le liens entre le poids du chat et la taille du cœur.

In [None]:
import pandas as pd

- On charge les données à partir d'un fichier CSV et on affiche les premières lignes.
- On utilise « pandas » qui permet de manipuler des tableaux type Excel (ou comme les dataframe du langage R).

In [None]:
dataframe = pd.read_csv('cats.csv')
dataframe.head() # afficher les premières lignes

In [None]:
# récupérer certains colonnes
corps = dataframe['Bwt']
coeur = dataframe['Hwt']
classe = dataframe['Sex']

In [None]:
# afficher, par sexe, un nuage de points avec une couleur
for cla,col in [['M', 'red'], ['F', 'blue']]:
    plt.scatter(corps[classe==cla], coeur[classe==cla], marker="x", c=col)

plt.xlabel('Poids')
plt.ylabel('Cœur')
plt.show()

- nous allons faire une régression
- en particulier, nous allons trouver les paramètres a et b dans « taille cœur = a . poids + b »
- nous allons utiliser la bibliothèque scikit learn (sklearn)

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
# créer un modèle
model_lineaire = LinearRegression()
# reformater les données en 2D (dimension 1 = les exemples, dimensions 2 = les caractéristiques)
Xcorps = corps.reshape((-1,1))
# apprendre le modèle
model_lineaire.fit(Xcorps, coeur)

# afficher les coefficients appris
print(model_lineaire.coef_, model_lineaire.intercept_)

In [None]:
# afficher la droite apprise par dessus les points

for cla,col in [['M', 'red'], ['F', 'blue']]:
    plt.scatter(corps[classe==cla], coeur[classe==cla], marker="x", c=col)

plt.xlabel('Poids')
plt.ylabel('Cœur')

# droite de regression
xtest = np.array([1.5, 3, 4.5]).reshape((-1, 1))
plt.plot(xtest, model_lineaire.predict(xtest), c='green')
plt.show()

- par curiosité, nous allons faire une regression par sexe

In [None]:
for cla,col in [['M', 'red'], ['F', 'blue']]:
    plt.scatter(corps[classe==cla], coeur[classe==cla], marker="x", c=col)
    # droite de regression
    
    model_lineaire = LinearRegression()
    Xcorps = corps[classe==cla].reshape((-1,1))
    model_lineaire.fit(Xcorps, coeur[classe==cla])
    xtest = np.array([1.5, 3, 4.5]).reshape((-1, 1))
    plt.plot(xtest, model_lineaire.predict(xtest), c=col)


plt.xlabel('Poids')
plt.ylabel('Cœur')

plt.show()

# Machine Learning : classification 

La classification est similaire à la regression mais on ne va pas vers un nombre mais vers une classe (chien/chat, chiffre 0/1/2, ...).
On s'intéresse au final plutôt à trouver des séparateurs, des frontière de décision.
Mathématiquement le problème est en fait très proche d'une régression (linéaire).

- on va prendre un jeu de données « jouet » avec des images de chiffres (0/1/2)

In [None]:
from sklearn import datasets

In [None]:
# charger les images des nombres 0/1/2
data = datasets.load_digits(3)

In [None]:
print(data.target.shape)
print(data.target[:15]) # voir les 15 première annotations de classes

### QUESTION : quelle est la différence entre data.images et data.data ?

In [None]:
# Zone de code pour expérimenter

# aide : quelles sont leurs dimensions (shape) respectives ?

### RÉPONSE : …

-----

- on affiche quelques images

In [None]:
for i,j in enumerate([0, 5, 15]):
    plt.subplot(1, 3, i+1)
    plt.imshow(data.images[j], cmap='gray', interpolation='nearest')
plt.show()

- on va selectionner deux pixels parmis les 64
- on va ajouter un peu de bruit sur les valeurs pour l'affichage (il n'y a que 16 niveaux de gris)
- on appelle X les données d'entrée
- on appelle Y les étiquetes (de sortie)

In [None]:
p1 = 28  # irdice du premier pixel d'intérêt
p2 = 10  # indice du second
X = data.data[:, [p1, p2]]
X = X + (np.random.uniform(size = X.shape)-0.5)/2
Y = data.target

In [None]:
X.shape

In [None]:
# afficher les points
plt.scatter(X[:,0], X[:,1], c=data.target, marker='x')
plt.show()

- on utilise sklearn
- on fait une « regression logistique multiclasses »

In [None]:
from sklearn.linear_model import LogisticRegression

print(X.shape, Y.shape)
model = LogisticRegression()
model.fit(X, Y)

In [None]:
# on utilise une fonction utilitaire qui affiche les frontières (apprises) entres classes
outils.render2dmodel(model, X, Y)

- on voit qu'avec 2 pixels bien choisis, on peu ne faire que 51 erreurs (sur l'ensemble d'apprentissage)
- on va essayer une regression de 64 pixels vers la classe

In [None]:
X = data.data
X = X + (np.random.uniform(size = X.shape)-0.5)/2
Y = data.target

print(X.shape, Y.shape)
model = LogisticRegression()
model.fit(X, Y)
print("Erreur d'entraînement :", np.sum(model.predict(X) != Y))
print("Attention au sur-apprentissage !")