**BIF7010 | Bioinformatique des structures**

UQAM - Hiver 2019

Amine Remita


**Apprentissage automatique - Partie 1**


Introduction à l'apprentissage supervisé



<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a>
BIF7101_S1 by Amine Remita is licensed under a Creative Commons Attribution-
ShareAlike 4.0 International License.


Quelques sous-sections et figures sont prises (avec autorisation) à partir des cours de Mohamed Bouguessa Ph.D. (DIC9370) et Ahmed Halioui Ph.D. (BIF7101)

## Introduction

### Apprentissage naturel

* La faculté d'apprendre de ces expériences passées et de s'adapter est une caractéristique essentielle des formes de vies
* Elle est essentielle dans les premières étapes de la vie pour apprendre des choses aussi fondamentales que reconnaître une voix, un visage familier, apprendre à comprendre ce qui est dit, à marcher et à parler

### Apprentissage artificiel (machine learning)

* Une tentative de comprendre et reproduire cette faculté d'apprentissage dans des systèmes artificiels
* Concevoir des algorithmes capables à partir d'un nombre important d'exemples (expériences passées) d'en assimiler la nature afin de pouvoir appliquer ce qu'ils ont appris aux cas futurs
* Objectif de l'apprentissage : déterminer la relation entre les exemple et leurs catégories pour la prédiction et la découverte des connaissances

* Un programme possède des capacités d'apprentissage si au cours du traitement d'exemples représentatifs de données il est capable de construire et d'utiliser une représentation de ce traitement en vue de son exploitation
* => Élaboration d'un modèle pour la prédiction et la découverte des connaissances
* Modèle = Description formelle des relations qui existent entre l'ensemble des attributs qui décrivent les données à traiter.

### Applications de l'apprentissage artificiel

* Traitement automatique du langage naturel
    * Classification de texte
    * Identification de langues
    * Identification des auteurs


* Bioinformatique et biologie computationnnelle
    * Identification et prédiction des gènes
    * Annotation fonctionnelle des séquences
    * Analyse des données d'expression de génes


* Imagerie Médicale


* Reconnaissance automatique de la parole


* Robotique
    * Véhicule autonome
    * Planification automatique




## Logiciels d'apprentissage automatique

![](figs/ml_software.png)

### Scikit-Learn

![](figs/scikit-learn.png)

#### Logiciel
* open-source
* gratuit
* python
* implémente des algorithmes d'apprentissage automatique
* https://scikit-learn.org/

### Environnement

* Python
* IPython
* Scipy et Numpy
* Matplotlib
* Scikit-learn

### Fouille de données

![](figs/data_mining_chain.png)

## Les données

Dans un problème d'apprentissage automatique, les informations caractérisant une étude sont présentées sous la forme d'**attributs** et d'**objets**

**Attribut** : un discripteur d'une entité (dimension, variable)

**Objet** : un ensemble d'attributs (enregistrement, exemple, vecteur, tuple)

In [None]:
# Chargement du jeu de données breast cancer

from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
type(cancer)

In [None]:
# Matrice objets/attributs

X = cancer.data
print(X.shape)

In [None]:
# Valeurs du premier objet

print(X[:,0])

In [None]:
# Visualisation de la matrice objets/attributs

import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
plt.figure(figsize=(20,6))

ax = sns.heatmap(X)
plt.show()

In [None]:
# Noms des attributs
print(cancer.feature_names)

In [None]:
# Noms des classes cibles
print(cancer.target_names)

In [None]:
# Liste des classes des objets 

y = cancer.target
print(y[:30])

### Types d'attributs

**Attribut discret**


* Numérique discret : la valeur de l'attribut est un entier
* Catégorie/symbole exemple {rouge, vert, bleu}
* Données binaires

**Attribut numérique continu**


La valeur de l'attribut peut prendre une valeur numérique
* Montant du compte en banque
* poids

## Prétraitement des données

* Le prétraitement des données est crucial dans le processus de l'apprentissage automatique car les résultats dépendent de leur qualité

* Les données réelles sont souvent :
  * Incomplètes
  * Bruitées
  * Incohérentes

**Principales étapes de prétraitement**

* Intégration
* Nettoyage
* Transformation
* Réduction

### Integration

Combiner des sources de données différentes dans une seule structure
* Détecter et résoudre les conflits de valeurs
  * Dans un seul attribut on peut avoir plusieurs mesures différentes (cm et pouces)

* Gestion de la redondance
  * Le même attribut peut avoir des noms différents
  * Un attribut peut être déduit d'un autre
  * Solution : analyse de corrélation entre les attributs

### Nettoyage

#### Données manquantes

Données non disponible / certaines attributs n'ont pas de valeurs

1. Causes
 
    * Mauvais fonctionnement de l'équipement
    * Incohérences avec d'autres données => supprimées
    * Non saisies car non ou mal comprises (considérées peu importantes au moment de la saisie)

2. Solutions

Ces données doivent être inférées/imputées
* Ignorer le tuple
* Utiliser une constante globale
* Utiliser la moyenne de l'attribut
* Utiliser la valeur la plus probable : formule Bayésienne ou arbre de decision

In [None]:
# From https://scikit-learn.org/stable/modules/impute.html

import numpy as np
from sklearn.impute import SimpleImputer

imp = SimpleImputer(missing_values=np.nan, strategy='mean')

imp.fit([[1, 2], [np.nan, 3], [7, 6]])

data = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(data))

#### Données bruitées

Bruit :
  * Une erreur ou une valeur aléatoire (excessive)
  * Un objet qui a des caractéristiques complètement difféfrentes du reste de l'ensemble de données

1. Causes
  * Instrument de mesure défectueux
  * Problème de saisie
  * Problème de transmission
  
2. Solutions
  * Clustering
  * Écart interquartile pour identifier les valeurs aberrantes (outliers)
    * $IQR=Q3-Q1$
    * Inférieur à $Q1-(\alpha \times IQR)$
    * Supérieur à $Q3+(\alpha \times IQR)$
  

In [None]:
from sklearn.preprocessing import RobustScaler

D = X[:, 23:24]
transformer = RobustScaler().fit(D)

D_t = transformer.transform(D)

f, axs = plt.subplots(1, 2, figsize=(20,5))


axs[0].hist(D, bins='auto', label='x')
axs[1].hist(D_t, bins='auto', label='y')
plt.legend()
plt.show()

### Transformation

#### Standardisation et normalisation

* **Z-score**
  * Même ordre de grandeurs pour les valeurs des attributs
  * $v' = \frac{v - \mu_A}{\sigma_A}$

In [None]:
from sklearn.preprocessing import StandardScaler

D = X[:, 23:24]

scaler = StandardScaler().fit(D)

print(scaler.mean_)
print(scaler.scale_)

D_t = scaler.transform(D)

f, axs = plt.subplots(1, 2, figsize=(20,5))

axs[0].hist(D, bins='auto')
axs[1].hist(D_t, bins='auto')

plt.show()

* **Méthode min-max**
  * Mise à l'échelle pour avoir un petit intervalle spécifié
  * $v' = \frac{v - min_A}{max_A - min_A} (new\_max_A - new\_min_A) + new\_min_A$

In [None]:
from sklearn.preprocessing import MinMaxScaler

D_train = X[:, 23:24]
D_test = X[:, 24:25]

min_max_scaler = MinMaxScaler(feature_range=(0, 1))
D_train_minmax = min_max_scaler.fit_transform(D_train)
#print(X_train_minmax)

D_test_minmax = min_max_scaler.transform(D_test)
#print(X_test_minmax)


f, axs = plt.subplots(1, 2, figsize=(20,5))

axs[0].hist(D_train_minmax, bins='auto')
axs[1].hist(D_test_minmax, bins='auto')

plt.show()

#### Discrétisation
* Attributs numérique => attributs nominaux
* Découper le domaine de variation en un nombre fini d'intervalles
* Discrétisation supervisée (Découper en K domaines égaux)
* Discrétisation non  supervisée (Découper itérativement en 2 sous ensembles jusqu'à une certaine condition d'arrêt)

In [None]:
from sklearn.preprocessing import KBinsDiscretizer

D = [[-2, 1, -4,   -1],
     [-1, 2, -3, -0.5],
     [ 0, 3, -2,  0.5],
     [ 1, 4, -1,    2]]

est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
est.fit(D)  

Xt = est.transform(D)
Xt

### Réduction de la dimension

* Certains attributs contiennent de l'information non pertinente et rend l'analyse des données plus complexe
* La présence des attributs non pertinents augmente potentiellement le temps d'exécution des algorithmes
* Solution : Réduction de la dimension
  
  Obtenir une représentation réduite du jeu de données, plus petit en volume mais qui produit (ou presque) les mêmes résultats analytiques
    * Analyse en composantes principales (PCA) : création d'un nouvel attribut à partir des attributs originaux
    * Techniques de sélection d'attributs (feature selection)

In [None]:
import numpy as np
from sklearn.decomposition import PCA


pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X)

plt.figure(figsize=(20,6))
plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y, cmap=plt.cm.Set1, edgecolor='k')

plt.show()

## Apprentissage automatique

1. *Apprentissage supervisé* : la décision est connue
    * Classification : décision / classe = catégorie
    * Régression : décision / classe = nombre continu
2. *Apprentissage non supervisé* : la décision est inconnue
    * Partitionnement (Clustering)

### Apprentissage supervisé

* Entrée : base de données d'apprentissage, ensemble d'exemples
* Trouver une fonction (un modèle) $c : X -> Y$ qui approxime et généralise au mieux la relation entre les exemples $x_i$ et leurs catégories $y_i$

* But:
    * Modèle de prédiciton : classificaiton de nouvelle données
    * Schéma explicatif : aide à comprendre les relations qui existent entre les entrées et les sorties
    * Régression : approximation de fonction

![](figs/fig_ml_supervised.png)

In [None]:

import numpy as np
import matplotlib.pyplot as pld
from matplotlib.colors import ListedColormap
from sklearn.model_selection import train_test_split


def plot_decision(data, targets, clf):
    h = .02  # step size in the mesh

    x_min, x_max = data[:, 0].min() - .5, data[:, 0].max() + .5
    y_min, y_max = data[:, 1].min() - .5, data[:, 1].max() + .5

    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
            np.arange(y_min, y_max, h))


    D_train, D_test, yd_train, yd_test = \
            train_test_split(data, targets, test_size=.4, random_state=42)

    cm = pld.cm.RdBu
    cm_bright = ListedColormap(['#FF0000', '#0000FF'])

    clf.fit(D_train, yd_train)

    if hasattr(clf, "decision_function"):
        Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()])
    else:
        Z = clf.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]

    Z = Z.reshape(xx.shape)

    pld.contourf(xx, yy, Z, cmap=cm, alpha=.8)

    pld.scatter(D_train[:, 0], D_train[:, 1], c=yd_train, cmap=cm_bright,
            edgecolors='k')

    pld.scatter(D_test[:, 0], D_test[:, 1], c=yd_test, cmap=cm_bright,
            edgecolors='k', alpha=0.6)

    pld.xlim(xx.min(), xx.max())
    pld.ylim(yy.min(), yy.max())
    pld.xticks(())
    pld.yticks(())

    pld.tight_layout()
    pld.show()

**Algorithmes d'apprentissage supervisé**

### Classification bayésienne naïve

* Calcule la probabilité d'appartenance d'un objet $X$ à une classe $y$

* Modèlise la distribution co-jointe $P(Y,\, X)$
    
    => **Modèle génératif**


* Se base sur le **théorème de Bayes** : 

$P(Y=benign|X) = \frac{P(Y=benign, \,X)}{P(X)} = \frac{P(X|Y=benign) \, P(Y=benign)}{P(X)}$


#### Algorithme de prédiction

* La classification d’un nouvel objet $X^{'}$ est effectuée par l'identification de la classe $Y^{'}$ qui maximise la probabilité *a posteriori* $P(Y^{'}|X^{'})$


* $Y^{'} = arg\,max_{y\in \{benign,\, malignant\}} \, P(Y=y|X^{'})$


#### Apprentissage

* Estimer les probabailités *a posteriori* $P(Y=benign|X)$ et $P(Y=malignant|X)$ par le théorème de Bayes
* Supposer que les attributs sont conditionnellement indépendants étant donnée une classe $y$


* $P(Y=benign|X) = P(X|Y=benign) \, P(Y=benign) \, /\, P(X)$


* $P(Y=benign|X) = \prod_i P(x_i|Y=benign) \, P(Y=benign) \, /\,\, P(X)$


* $P(Y=benign|X) \propto \prod_i P(x_i|Y=benign) \, P(Y=benign)$

#### Apprentissage

* $P(Y=benign)$ peut être estimée par Maximum de vraisemblance

* **Bayes naif gaussien**
    * $P(x_i|Y=benign) = \frac{1}{\sqrt{2\pi\sigma^2_{benign}}} \exp\left(-\frac{(x_i - \mu_{benign})^2}{2\sigma^2_{benign}}\right)$
    

* **Bayes naif multinomial**
    * $P(x_i|Y=benign) = \frac{ N_{benign} + \alpha}{N_y + \alpha n}$
    

In [None]:
from sklearn.naive_bayes import GaussianNB, MultinomialNB

min_max_scaler = MinMaxScaler(feature_range=(0, 10))
X_new = min_max_scaler.fit_transform(X_reduced)

X_train, X_test, y_train, y_test = \
    train_test_split(X_new, y, test_size=.4, random_state=42)

# Instanciation du classifieur
clf = MultinomialNB()

# Apprentissage/entrainement
clf.fit(X_train, y_train)

# Prédiction 
y_pred = clf.predict(X_test)

#plot_decision(X[:, 0:12], y ,clf)
plot_decision(X_new, y ,clf)

In [None]:
# Instanciation du classifieur
clf = GaussianNB()

# Apprentissage/entrainement
clf.fit(X_train, y_train)

# Prédiction 
y_pred = clf.predict(X_test)

#plot_decision(X[:, 0:12], y ,clf)
plot_decision(X_new, y ,clf)

### Régression logistique

* Calcule la probabilité d'appartenance d'un objet $X$ à une classe $y$

* Modèlise directement la probabilité  $P(Y|\,X)$
    
    => **Modèle discriminatif**

#### Algorithme de prédiction

* La classification d’un nouvel objet $X^{'}$ est effectuée par l'identification de la classe $Y^{'}$ qui maximise la probabilité *a posteriori* $P(Y^{'}|X^{'})$


* $Y^{'} = arg\,max_{y\in \{benign,\, malignant\}} \, P(Y=y|X^{'})$

#### Algorithme d'apprentissage 

$P(Y=benign|X) = \frac{1}{1 + exp(w_0 + \sum_{i=1}^{n}w_i X_i)}$

$P(Y=malignant|X) = \frac{exp(w_0 + \sum_{i=1}^{n}w_i X_i)}{1 + exp(w_0 + \sum_{i=1}^{n}w_i X_i)}$


* Estimation des poids **w** à partir des données d'apprentissage se fait par optimisation d'une fonction objective

In [None]:
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(C=10, penalty='l2', solver='saga', max_iter=10000)

clf.fit(X_train, y_train)

# Prédiction 
y_pred = clf.predict(X_test)

plot_decision(X_new, y ,clf)

### Séparateurs à vaste marge (SVM)

* SVM séparent les objets en deux classes par un hyperplan en utilisant des exemples essentiels appelés vecteurs de support
* SVM cherchent à trouver l’hyperplan qui minimise le risque empirique de classification (le nombre d’exemples de test mal classés)
* L’hyperplan avec une marge maximale minimise ce risque


![](figs/svm.png)

In [None]:
from sklearn.svm import SVC

# linéaire
clf = SVC(kernel="linear", C=0.025)

clf.fit(X_train, y_train)

# Prédiction 
y_pred = clf.predict(X_test)

plot_decision(X_new, y ,clf)

In [None]:
# Non linéaire
# Noyau Radial Basis Function
clf = SVC(kernel="rbf", gamma=2, C=1)


clf.fit(X_train, y_train)

# Prédiction 
y_pred = clf.predict(X_test)

plot_decision(X_new, y ,clf)

### Arbres de décision


#### Algorithme d'apprentissage 
À partir des données d'apprentissage, identifier des règles de décision qui permettent la séparation des classes

#### Structure de l'arbre de décision
* Noeud interne correspond à un test sur un attribut
* Branche représente le résultats du test
* Feuille contient une classe (une classe peut correspondre à plusieurs feuilles)

![](figs/build_tree.png)

#### Classement des attributs

La probabilité qu'un objet de classe $C_i$ appartient à $X$ ($p_i$) est estimée par $|C_{i,D}|/|D|$

1. **Gain d'information** (utilisé par ID3)

$Gain(X, A) = Entropie(X) - \sum_{v\in valeur(A)}^{}\frac{|X_v|}{|X|} \times Entropie(X_v)$

$Entropie(X) = -\sum_{i=1}^{m} p_i log_2(p_i)$

2. **indice de Gini** (utilisé par CART)

$Gini(A) = \sum_{i=1}^{v}\frac{|X_v|}{|X|} \times Gini(X_v)$

$Gini(X_v) = 1-\sum_{i=1}^{m} p_i^2$

#### Algorithme de prédiction

La classification des objets se fait par une séquence de tests successifs de l'arbre

In [None]:
from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier(criterion='gini', max_depth=5)

clf.fit(X_train, y_train)

# Prédiction 
y_pred = clf.predict(X_test)

plot_decision(X_new, y ,clf)

### K plus proches voisins (KNN)

* Conserve les objets d'apprentissage pour les utiliser dans la classification des objets inconnus
* La classification se fait la recherche et la comparaison avec les $k$ objets proches
* la proximité est définie par une distance 
* Exemple : distance euclidienne:

Si $X_1 = (x_{11}, x_{12},..., x_{1n})$ et $X_2 = (x_{21}, x_{22},..., x_{2n})$

$dist(X_1, X_2) = \sqrt{\sum_{i=1}^{n}(x_{1i} - x_{2i})^2}$

In [None]:
from sklearn.neighbors import KNeighborsClassifier

clf = KNeighborsClassifier(n_neighbors=3, metric='euclidean')

clf.fit(X_train, y_train)

# Prédiction 
y_pred = clf.predict(X_test)

plot_decision(X_new, y ,clf)

### Réseaux de neurones

In [None]:
from sklearn.neural_network import MLPClassifier

clf = MLPClassifier(alpha=1, activation='relu', solver='sgd',\
                    max_iter=1000)

clf.fit(X_train, y_train)

# Prédiction 
y_pred = clf.predict(X_test)

plot_decision(X_new, y ,clf)