# 2017-12-11 - Apprendre le machine learning
---
Cet après-midi 14h : rencontre avec Daucé (modèle + machine learning + tensorflow)

Butko,2010 émet deux points importants, qui ne sont pas pris en compte dans son modèle : l'incertitude (à propos de l'environnement, de ses propres mouvements et de sa perception) et l'existance de plusieurs types de mouvements oculaires (pas seulement les saccades).

TensorFlow est une libraire (majoritairement python, d'autres *API* sont disponibles : Java, C++ et Go) opensource développée par Google offrant une interface pour modéliser des réseaux de neurones artificiels et réaliser du *machine learning*.  
Leur [site officiel](https://www.tensorflow.org/) montre qu'elle est utilisée par de nombreuses entreprises et contient une grande quantité de [documentation](https://www.tensorflow.org/get_started/).  
L'ensemble du projet est présent sur leur [GitHub](https://github.com/tensorflow/) et contient même un [site interactif](http://playground.tensorflow.org) permettant de prendre en main son fonctionnement.  

Suite de **ressources à maitriser** pour bosser sur le projet :
+ [Cours CNAM machine learning/deep learning](http://cedric.cnam.fr/vertigo/Cours/ml2/preambule.html)
+ [Cours Coursera machine learning](https://www.coursera.org/learn/machine-learning?action=enroll)
+ [Cours Google deep learning](https://www.udacity.com/course/deep-learning--ud730)

J'ai commencé à bosser la [première ressource](http://cedric.cnam.fr/vertigo/Cours/ml2/preambule.html) et je suis presque arrivé à la fin de la première partie.

# 2017-12-12 - Cours CNAM
---

## Introduction à l'apprentissage supervisé

Pour évaluer la puissance d'un modèle, notamment son risque : méthode de l'**échantillon-test**. Division de la base d'apprentissage (D) en deux ensembles mutuellements exclusifs par sélection aléatoire (ex. D(100) = A(70)+V(30)). Réduit la taille de la base d'apprentissage (A) mais permet de calculer le risque espéré du modèle sur V (données n'ayant pas servi à l'apprentissage).  

Plus robuste, la méthode de **validation croisée** propose de moyenner les résultats obtenus par plusieurs découpages différents de D.  
Il existe plusieurs méthodes pour découper D (*Leave P out*, *Leave one out*, *k-fold*, *suffle and split*).  

Evaluer la puissance d'un modèle passe aussi par la construction d'une **courbe ROC** permettant de montrer le taux de **vrais positifs**. Plus l'aire sous la courbe (*AUC*) est importante, plus le modèle est intéressant. 

---
Plus d'informations sur le [mountain car problem](https://en.wikipedia.org/wiki/Mountain_car_problem) : problème communément appliqué aux modèles de *reinforcement learning* pour observer leur comportement et leur puissance.   
L'agent comprends deux variables (position et vélocité) et trois actions (vers la gauche, neutre, vers la droite) et doit apprendre à les utiliser pour remonter une pente (qu'il ne peut pas simplement grimper, la puissance du moteur n'est pas assez importante) lui permettant d'obtenir une récompense (conséquence positive). Classiquement, chaque temps passé sans réaliser l'objectif (obtenir la récompense) est récompensé négativement (conséquence négative).  
[Exemple d'application](https://github.com/vikasjiitk/Deep-RL-Mountain-Car)  

Plus d'informations sur le [*whitening*](http://ufldl.stanford.edu/wiki/index.php/Whitening) : méthode de pré-traitement des données permettant de réduire leur dimension (en les rendant moins redondantes).  

Il peut être intéressant de jeter un oeil à [ce livre](http://www.deeplearningbook.org/) disponible entièrement sur le net et écrit par des *deep-learning researchers* du MIT.

---

## Arbres de décision

Les arbres de décision sont des graphes utilisant une représentation hiérarchique des données et comprenant trois types de noeuds :
+ **Noeud racine** (d'où se fait l'accès à l'arbre)
+ **Noeuds internes** (noeuds ayant des descendants et réalisant les **tests**)
+ **Noeuds terminaux** (ou feuilles; qui n'ont pas de descendants et représentent les **décisions**)  

Un élément de la base d’apprentissage situé dans un noeud ne pourra se retrouvera que dans un seul de ses descendants.  

Au départ, les points des la base d’apprentissage sont tous placés dans le noeud racine.  

Une des variables de description des points est la classe du point, dite « **variable cible** » (catégorielle dans un problème de classification, réelle dans un problème de régression).  

Le processus s’arrête quand les éléments d’un noeud ont la même valeur pour la variable cible (homogénéité).

Plusieurs types d'implantation : 
+ Iterative Dichotomiser 3 (ID3) et ses extensions ID4, ID5
+ CART
+ Bagging decision trees
+ Forêts d'arbres décisionnels

## Support vector machine (SVM)

Base d'apprentissage {(xi,yi)} (i=1,...,n) avec :  

    xi ∈ X  
    yi ∈ {−1,+1}  

Construction d'une fonction f:X→R tel que si f(x)>0 alors x est affecté à la classe +1 et si f(x)<0 alors x est affecté à la classe -1.   
La ligne séparatrice (ou **hyperplan**) sera alors :

    f(x)=0.  

Pour juger la qualité d’un hyperplan en tant que séparateur on utilise la distance (marge) entre les exemples d’apprentissage et ce séparateur.   
Les SVM linéaires cherchent l'hyperplan qui maximise la **marge** :

    f(x) = ⟨w,x⟩+b = w(⊤)x+b

    Si yi=1 alors w⋅xi+b≥1 et donc yi(w⋅xi+b)≥1
    Si yi=−1 alors w⋅xi+b≤−1 et donc yi(w⋅xi+b)≥1
  
    Marge = 2/||w||
    
Souvent il arrive que les deux classes de données se retrouvent mélangées autours de l’hyperplan de séparation (donc non séparables linéairements). Pour gérer ce type de problème, on utilise une technique dite de **marge souple**, qui tolère les mauvais classements (compromis).  
Dans cette technique, on introduit des **variables de relachement des contraintes ξi** (Absence d'erreur  ξi=0; Présence d'erreur ξi>0) qui permettent de modéliser les erreur potentielles (variables du mauvais côté de l'hyperplan) et de les pénaliser.  

On introduit une **variable d’équilibrage C** (>0) qui permet d’avoir une seule fonction objectif :

    min(w,b)(1/2*||w||²)+C*∑ξi
    
    
Librairies majeures : **LibLinear**, **LibSVM**, **SVM-toy** et **Scikit-learn**
L’intérêt de LibLinear est la vitesse, permettant de l’appliquer sur des grands jeux de données, mais ne peut l'être qu'à des problèmes linéaires.  
LibSVM semble être plus puissant LibLinear (précision plus importante de la prédiction).  
SVM-toi permet la visualisation de la classification pour des problèmes en deux dimensions.  

# 2017-12-13 - Cours CNAM (suite)
---
## Méthodes à noyaux
nb. *Nombreuses formules, disponibles sur le [site](http://cedric.cnam.fr/vertigo/Cours/ml2/coursMethodesNoyaux.html).*

Méthode permettant de passer d'un algorithme linéaire à une version non-linéaire, grâce à sa projection dans un espace de dimension plus grande.  
La projection dans un espace de dimension plus grand permet de transposer les données dans un autre espace dans lequel elles devraient être **linéairement séparables** et d'y appliquer l'algorithme SVM.
Cette projection est réalisée par des **fonctions noyaux** qui calculent un [produit scalaire](https://fr.wikipedia.org/wiki/Produit_scalaire).  
Une fonction noyau ressemble à une **mesure de similarité** (rends une valeur importante sur les vecteurs sont similaires et une valeur faible si les vecteurs sont très différents).  

Plusieurs méthodes (se basant sur le **théorème de Mercer**) permettant de construire plusieurs types de noyaux, nécessairement associés à une **matrice de Gramm** :
+ **Noyau positif défini**
+ **Noyau conditionnellement positif défini**
+ **Noyau d'appariement intermédiaire**

Plusieurs approches pour obtenir des fonctions noyaux :
+ Construction directe en utilisant la projection Φ 
+ Transformation des noyaux existants (ex. l'exponentielle d'un noyau est un noyau)
+ Combinaison des noyaux existants

Pour l'estimation d'une densité de variables et de la présence ou non d'un nouveau point dans l'ensemble, il existe deux grandes approches : 
+ **SVDD** (Support Vector Data Description) qui cherche la sphère minimale englobant tous les points d'apprentissage, moins les *outliers*
+ **OCSVM** (One Class SVM) qui cherche l'hyperplan le plus éloigné de l'origine qui contient tous les points d'apprentissages moins les *outliers*

## Deep-learning

Les méthodes de deep-learning (DL) répondent à un besoin : la **surabondance de données** disponibles (ex. Facebook stock 350 milliard d'images, +1 milliard/jour), nécessitant des techniques de tri et de reconnaisance automatique pour fouiller ces données et les utiliser.  

Deux fonctions principales : 
+ **Classification** : assigner une donnée à une classe pré-déterminée
+ **Reconnaissance** : mécanisme plus général que la classification (ex. localisation d'objects dans une image; indexage de documents)

DL a été une grande avancée (avant = nécessitait des connaissances poussées niveau PhD pour étudier chacun d'entre eux) dans les techniques de reconnaissance de signaux de bas-niveau (correspond ~ modalités sensorielles), en permettant l'apprentissage des représentations intermédiaires.  
En addition, le DL a fortement augmenté la puissance des modèles de reconnaissance et a permi de travailler sur ceux-ci sans nécessairement être un spécialiste du domaine modélisé.

Le **neurone formel** :

    y = f((wi^T)*xi+b)
    
       xi = inputs 1 -> i
       wi, b = poids 1 -> i
       f = activation function
       y = output du neurone
       
L'apprentissage supervisé consiste en l'application d'un ensemble de paires annotées (xi,y\*i) pendant la phase d'entraînement.

    ŷi correspond à l'output prédit
    y*i correspond à l'output réel
    
L'objectif de l'apprentissage supervisé est de minimiser une **fonction d'objectif** (correspond globalement à la différence entre ŷi et y\*i ou à l'entropie croisée) et d'obtenir un modèle parametré :

    fw(xi) = ŷi
    
Un neurone simple ne pourra réaliser que des prédictions (~projections) scalaires (ex. classification binaire).  
Un réseau de neurones pourra réaliser des prédictions vectorielles (ex. régression logique).

Le **perceptron multi-couche** (MLP) :

Système basique du DL, le MLP consiste en l'accumulation de couches de réseaux de neurones pour complexifier le comportement de l'ensemble (peut approximer n'importe quelle fonction avec un nombre de neurones/couches suffisants). Considéré comme du DL dès la présence d'une couche cachée (donc dès 3 couches en tout, avec celles d'entrée et de sortie).

---
Pour la suite des exercices du cours, je dois installer [Keras](https://keras.io/), qui lui-même nécessite d'installer [TensorFlow](https://www.tensorflow.org/install/install_linux).  

TensorFlow peut tourner sur GPU (CPU+GPU au lieu de CPU seul) lui permettant d'augmenter fortement sa vitesser de calcul, mais pour ça il faut posséder une carte graphique NVIDIA pouvant faire tourner [CUDA](http://docs.nvidia.com/cuda/cuda-installation-guide-linux/#axzz4VZnqTJ2A) (un toolkit de développement/programmation de NVIDIA).  
C'est le cas sur ma machine physique, mais je programme sous une machine virtuelle (VirtualBox + Ubuntu) qui n'a pas nativement accès à mon GPU physique ([lien](https://devtalk.nvidia.com/default/topic/384440/cuda-programming-and-performance/cuda-on-a-virtual-machine/) et [lien](https://askubuntu.com/questions/598317/enable-cuda-gpu-working-under-vm)). Il serait possible de passer outre cette limitation via un *PCI Passthrough* ([lien](https://stackoverflow.com/questions/31627565/is-it-possible-to-develop-a-cuda-program-in-a-virtual-machine-that-has-a-ubuntu) et [lien](https://www.ibm.com/developerworks/library/l-pci-passthrough/). Ca peut valoir le coup de le mettre en place, mais la démarche est longue, technique et expérimentale; je la met de côté pour le moment.

TensorFlow possède plusieurs moyens d'installation, j'ai choisi de passer par PyPI

    sudo pip3 install tensorflow
    
J'ai ensuite pu vérifier l'intégrité de l'installation en faisant tourner un bloc basique de TF (selon [ces instructions](https://www.tensorflow.org/install/install_linux#ValidateYourInstallation)) :

    python3
    import tensorflow as tf
    hello = tf.constant('Hello, TensorFlow!')
    sess = tf.Session()
    print(sess.run(hello))
    > Hello, TensorFlow!
    
Puis j'ai pu installer Keras :

    sudo pip3 install keras
---

# 2017-12-14 - Cours Coursera
---
Exemple de modèle machine-learning simple pour la classification d'images sur mes notes manuscrites (page 7 et 8).

Etant donné les deadlines, j'ai commencé le [cours de Coursera](https://www.coursera.org/learn/machine-learning/lecture/Ujm7v/what-is-machine-learning) en parallèle. Le cours est réalisé en Matlab/Octave (version opensource de Matlab), il faudra donc que j'installe Octave au moins pour le cours. Andrew Ng qui propose le cours décrit Octave comme le langage de programmation optimal pour faire du machine learning.  
La traduction semble possible entre Octave et Python, mais Octave permet de passer un certain nombre d'étapes (fourni d'office certaines formules/algorithmes mathématiques). 

# 2017-12-15 - Cours Coursera (suite)

Peu de notes hier et aujourd'hui, je suis en train de suivre le cours [Machine Learning](https://www.coursera.org/learn/machine-learning/) de Coursera.  
Pour suivre les travaux pratiques, je dois installer Octave (nb. *Coursera possède un partenariat avec MatLab permettant de l'utiliser gratuitement pendant la durée du cours, ça peut être intéressant pour quelqu'un qui voudrait se familiariser avec cet environnement, mais je préfère l'option opensource).

    sudo apt-get update
    sudo apt-get install octave
    
La documentation complète de Octave est disponible [en ligne](http://www.gnu.org/software/octave/doc/interpreter/).  

Pour l'instant, j'ai terminé la première semaine du cours Coursera, et débuté la seconde.

---
# To Do
+ ~~Je dois me renseigner sur les *mountain car models* et sur ZcA (*whitening decorrelation method* correspondant à un pré-traitement de l'image avant de la passer dans les *wavelets* et le modèle)~~
+ Je dois me renseigner sur Mendeley pour gérer efficacement ma biblio, et la partager en ligne avec Daucé et Perrinet
+ Je dois m'inscrire sur la liste de diffusion privée de l'INS
+ ~~Je dois me renseigner sur TensorFlow~~
+ ~~Je dois jeter un oeil à [Keras](https://keras.io/), une API python dédiée au machine learning et à la modélisation des réseaux de neurones, fonctionnant au dessus de TensorFlow, CNTK et Theano~~
+ ~~Se renseigner sur cuDNN, permettant à Keras de tourner sur les GPU~~

---
# A lire
+ https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3361132/
+ http://bethgelab.org/media/publications/Kuemmerer_High_Low_Level_Fixations_ICCV_2017.pdf
+ https://pdfs.semanticscholar.org/0182/5573781674bcf85d0f5d2ec456842f75ad3c.pdf
+ Schmidhuber, 1991 (voir mail Daucé)
+ Parr and Friston, 2017 (voir mail Perrinet)