# 2017-12-11 - Apprendre le machine learning
---
Cet après-midi 14h : rencontre avec Daucé (modèle + machine learning + tensorflow)

Butko,2010 émet deux points importants, qui ne sont pas pris en compte dans son modèle : l'incertitude (à propos de l'environnement, de ses propres mouvements et de sa perception) et l'existance de plusieurs types de mouvements oculaires (pas seulement les saccades).

TensorFlow est une libraire (majoritairement python, d'autres *API* sont disponibles : Java, C++ et Go) opensource développée par Google offrant une interface pour modéliser des réseaux de neurones artificiels et réaliser du *machine learning*.  
Leur [site officiel](https://www.tensorflow.org/) montre qu'elle est utilisée par de nombreuses entreprises et contient une grande quantité de [documentation](https://www.tensorflow.org/get_started/).  
L'ensemble du projet est présent sur leur [GitHub](https://github.com/tensorflow/) et contient même un [site interactif](http://playground.tensorflow.org) permettant de prendre en main son fonctionnement.  

Suite de **ressources à maitriser** pour bosser sur le projet :
+ [Cours CNAM machine learning/deep learning](http://cedric.cnam.fr/vertigo/Cours/ml2/preambule.html)
+ [Cours Coursera machine learning](https://www.coursera.org/learn/machine-learning?action=enroll)
+ [Cours Google deep learning](https://www.udacity.com/course/deep-learning--ud730)

J'ai commencé à bosser la [première ressource](http://cedric.cnam.fr/vertigo/Cours/ml2/preambule.html) et je suis presque arrivé à la fin de la première partie.

# 2017-12-12
---

## Introduction à l'apprentissage supervisé

Pour évaluer la puissance d'un modèle, notamment son risque : méthode de l'**échantillon-test**. Division de la base d'apprentissage (D) en deux ensembles mutuellements exclusifs par sélection aléatoire (ex. D(100) = A(70)+V(30)). Réduit la taille de la base d'apprentissage (A) mais permet de calculer le risque espéré du modèle sur V (données n'ayant pas servi à l'apprentissage).  

Plus robuste, la méthode de **validation croisée** propose de moyenner les résultats obtenus par plusieurs découpages différents de D.  
Il existe plusieurs méthodes pour découper D (*Leave P out*, *Leave one out*, *k-fold*, *suffle and split*).  

Evaluer la puissance d'un modèle passe aussi par la construction d'une **courbe ROC** permettant de montrer le taux de **vrais positifs**. Plus l'aire sous la courbe (*AUC*) est importante, plus le modèle est intéressant. 

---
Plus d'informations sur le [mountain car problem](https://en.wikipedia.org/wiki/Mountain_car_problem) : problème communément appliqué aux modèles de *reinforcement learning* pour observer leur comportement et leur puissance.   
L'agent comprends deux variables (position et vélocité) et trois actions (vers la gauche, neutre, vers la droite) et doit apprendre à les utiliser pour remonter une pente (qu'il ne peut pas simplement grimper, la puissance du moteur n'est pas assez importante) lui permettant d'obtenir une récompense (conséquence positive). Classiquement, chaque temps passé sans réaliser l'objectif (obtenir la récompense) est récompensé négativement (conséquence négative).  
[Exemple d'application](https://github.com/vikasjiitk/Deep-RL-Mountain-Car)  

Plus d'informations sur le [*whitening*](http://ufldl.stanford.edu/wiki/index.php/Whitening) : méthode de pré-traitement des données permettant de réduire leur dimension (en les rendant moins redondantes).  

Il peut être intéressant de jeter un oeil à [ce livre](http://www.deeplearningbook.org/) disponible entièrement sur le net et écrit par des *deep-learning researchers* du MIT.

---

## Arbres de décision

Les arbres de décision sont des graphes utilisant une représentation hiérarchique des données et comprenant trois types de noeuds :
+ **Noeud racine** (d'où se fait l'accès à l'arbre)
+ **Noeuds internes** (noeuds ayant des descendants et réalisant les **tests**)
+ **Noeuds terminaux** (ou feuilles; qui n'ont pas de descendants et représentent les **décisions**)  

Un élément de la base d’apprentissage situé dans un noeud ne pourra se retrouvera que dans un seul de ses descendants.  

Au départ, les points des la base d’apprentissage sont tous placés dans le noeud racine.  

Une des variables de description des points est la classe du point, dite « **variable cible** » (catégorielle dans un problème de classification, réelle dans un problème de régression).  

Le processus s’arrête quand les éléments d’un noeud ont la même valeur pour la variable cible (homogénéité).

Plusieurs types d'implantation : 
+ Iterative Dichotomiser 3 (ID3) et ses extensions ID4, ID5
+ CART
+ Bagging decision trees
+ Forêts d'arbres décisionnels

## Support vector machine (SVM)

Base d'apprentissage {(xi,yi)} (i=1,...,n) avec :  

    xi ∈ X  
    yi ∈ {−1,+1}  

Construction d'une fonction f:X→R tel que si f(x)>0 alors x est affecté à la classe +1 et si f(x)<0 alors x est affecté à la classe -1.   
La ligne séparatrice (ou **hyperplan**) sera alors :

    f(x)=0.  

Pour juger la qualité d’un hyperplan en tant que séparateur on utilise la distance (marge) entre les exemples d’apprentissage et ce séparateur.   
Les SVM linéaires cherchent l'hyperplan qui maximise la **marge** :

    f(x) = ⟨w,x⟩+b = w(⊤)x+b

    Si yi=1 alors w⋅xi+b≥1 et donc yi(w⋅xi+b)≥1
    Si yi=−1 alors w⋅xi+b≤−1 et donc yi(w⋅xi+b)≥1
  
    Marge = 2/||w||
    
Souvent il arrive que les deux classes de données se retrouvent mélangées autours de l’hyperplan de séparation (donc non séparables linéairements). Pour gérer ce type de problème, on utilise une technique dite de **marge souple**, qui tolère les mauvais classements (compromis).  
Dans cette technique, on introduit des **variables de relachement des contraintes ξi** (Absence d'erreur  ξi=0; Présence d'erreur ξi>0) qui permettent de modéliser les erreur potentielles (variables du mauvais côté de l'hyperplan) et de les pénaliser.  

On introduit une **variable d’équilibrage C** (>0) qui permet d’avoir une seule fonction objectif :

    min(w,b)(1/2*||w||²)+C*∑ξi
    
    
Librairies majeures : **LibLinear**, **LibSVM**, **SVM-toy** et **Scikit-learn**
L’intérêt de LibLinear est la vitesse, permettant de l’appliquer sur des grands jeux de données, mais ne peut l'être qu'à des problèmes linéaires.  
LibSVM semble être plus puissant LibLinear (précision plus importante de la prédiction).  
SVM-toi permet la visualisation de la classification pour des problèmes en deux dimensions.  

---
# To Do
+ ~~Je dois me renseigner sur les *mountain car models* et sur ZcA (*whitening decorrelation method* correspondant à un pré-traitement de l'image avant de la passer dans les *wavelets* et le modèle)~~
+ Je dois me renseigner sur Mendeley pour gérer efficacement ma biblio, et la partager en ligne avec Daucé et Perrinet
+ Je dois m'inscrire sur la liste de diffusion privée de l'INS
+ ~~Je dois me renseigner sur TensorFlow~~

---
# A lire
+ https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3361132/
+ http://bethgelab.org/media/publications/Kuemmerer_High_Low_Level_Fixations_ICCV_2017.pdf
+ https://pdfs.semanticscholar.org/0182/5573781674bcf85d0f5d2ec456842f75ad3c.pdf
+ Schmidhuber, 1991 (voir mail Daucé)