# Machine Learning 

## Avant le Machine Learning

En TAL comme dans la plupart des domaines liés au traitement de l'information et à l'informatique, l'objectif a toujours été d'élaborer des méthodes et des systèmes capables de faire sens des données. Dans les premières décennies de l'informatique, ces systèmes fonctionnaient grâce à un ensemble de règles établies manuellement. Par opposition aux modèles automatiques fonctionnant grâce au Machine Learning, les systèmes à base de règles sont appelés ``systèmes symboliques``.


Par exemple, on peut créer un système pour filtrer les spams des mails en utilisant par exemple un vocabulaire de termes présents dans les spams. On peut également créer des grammaires pour identifier des propositions que l'on ne retrouve que dans ce genre de mail. Ces règles auront au préalable été établies par une équipe de linguistes, qui sont experts dans l'analyse de la langue, mais aussi par une équipe de développeurs, qui implémentent ces règles pour que l'ordinateur soit capable de faire les traitements. 

## Force et faiblesse des systèmes symboliques

Les systèmes symboliques, établis par des équipes d'experts du domaine traité, ont pour force de reposer sur un nombre vaste de règles très précises et qui peuvent traiter des cas très variés. Ces systèmes permettent donc d'obtenir des résultats très précis par rapport au problème traité. 

Cependant, développer ces règles est une tâche extrêmement fastidieuse, et qui peut prendre plusieurs mois voir plusieurs années de développement à elles seules. De plus, malgré la participation d'experts, certaines tâches restent difficiles à traiter et d'autres sont tout simplement intraitables via un système symbolique classique: les traductions automatiques étaient loin d'être parfaites; demander à un ordinateur de distinguer une pomme d'une orange était impossible jusqu'en 2001. De plus, ces systèmes étaient développés dans des domaines très précis, et s'adaptaient donc difficilement à d'autres domaines ou à des échelles plus larges.

Si les systèmes symboliques ne suffisaient pas à résoudre toutes les problématiques liées au traitement de l'information, il est devenu encore plus difficile de développer des systèmes efficaces pour traiter la masse de données produites liées à l'avènement du Big Data dans les années 2000. Cependant, c'est également au cours de ces années que le Machine Learning est réellement apparu, rendu possible par les progrès en informatique et à l'augmentation de la puissance de calcul.

## Apprentissage automatique / Approche stochastique

A son apparition, le Machine Learning apportait une nouvelle approche du traitement des données. Le Machine Learning est un domaine qui regroupe plusieurs domaines des mathématiques, en particulier les statistiques, les probabilités et l'algèbre linéaire. Le fait de reposer sur un traitement avant tout mathématique fait que ces algorithmes sont biens plus adaptés au traitement du Big Data que les systèmes symboliques. Ainsi ces dernières années, le Machine Learning s'est imposé dans un nombre toujours plus grand de domaines d'études, et a permis de traiter différents problèmes tels que:

* La reconnaissance d'images
* La traduction automatique
* La génération de texte
* L'analyse de sentiments
* ...

## Objectif

On parle d'apprentissage automatique puisque contrairement au modèle symbolique, il n'y a pas besoin de définir en amont les règles permettant de résoudre une tâche: c'est l'algorithme lui-même qui va apprendre ces règles à partir des données qui lui sont données. 

Il existe un très grand nombre d'algorithmes, chacun traitant les données d'une manière différente et donc adaptés à différents types de problèmes. Cependant, ils sont de manière générale comparables à des fonctions mathématiques simples, comme la fonction linéaire ci-dessous:

``f(y) = ax + b``

Dans ces fonctions, x est la valeur donnée en entrée et y est le résultat que l'on veut obtenir, tandis que les variables a et b sont les paramètres qui vont influencer sur le résultat. Si l'on doit comparer à notre système symbolique précédent:

* x est un mail issu de notre corpus
* y est la catégorie associée à ce mail (spam ou non)
* a et b sont les règles définies pour classer ce mail comme spam ou non

Comme dit précédemment, les domaines d'application du Machine Learning sont très vastes. Cependant, on peut regrouper ces applications selon deux grandes catégories:

* L'apprentissage supervisé
* L'apprentissage non-supervisé


# Apprentissage supervisé

L'apprentissage supervisé est une des formes du Machine Learning qui englobe le plus de problèmes, et qui par conséquent est une des plus populaires et des plus pratiquées. On est dans un cas d'apprentissage supervisé lorsque nos données d'entrées x sont associées à une donnée de sortie y. 

Typiquement, la détection de spams est un cas d'apprentissage supervisé, puisque chaque mail de notre corpus est associé à une catégorie (spam ou non-spam). 

Dans cette forme de Machine Learning, l'objectif pour l'algorithme sera au cours de la phase d'entraînement de tenter de deviner pour chaque donnée la valeur à laquelle elle est associée. S'il se trompe (en prédisant qu'un mail est un spam alors qu'il ne l'est pas), l'algorithme met automatiquement à jour les paramètres (a et b par exemple) qu'il a appris, puis passe à la prochaine donnée. L'algorithme voit l'ensemble du dataset plusieurs fois jusqu'à ce que l'entraînement soit terminé. 

Les paramètres appris au cours de l'entraînement sont conservés, même après la phase d'apprentissage. Lorsque l'on veut associer une nouvelle donnée à une catégorie, on peut alors utiliser l'algorithme entraîné, qui se basera sur ces paramètres pour prédire un résultat. Ainsi, contrairement à un modèle symbolique, il n'y a pas besoin de repasser par toutes les règles pour obtenir le résultat, celui-ci est obtenu immédiatement.

De même, l'apprentissage supervisé se divise généralement en deux types de problèmes: les problèmes de ``classification`` et les problèmes de ``régression``.

## Classification

Dans des problèmes de classification, l'objectif est de prédire à quelle classe ou catégorie une donnée peut appartenir parmi un ensemble de catégories pré-définies.

Exemples:

* Déterminer si un mail est un spam ou non (classification binaire)
* Déterminer si un tweet est positif, négatif ou neutre (classification multiclasses)
* Déterminer à quelle variété d'iris une fleur appartient en se basant sur certaines mesures (classification multiclasses)
* Déterminer si un tweet est positif ou négatif (classification binaire)

### Note

Une classification binaire peut se comparer à une question en oui / non : est-ce que ce mail est un spam ou non ? Dans ces cas-là, on parle généralement d'une classe positive (*spam*) et d'une classe (*non-spam*).

## Régression

Dans les problèmes de régression, l'objectif est de prédire une valeur continue à partir d'un ensemble de données. Ici la valeur prédite est un nombre réel, et ne fait donc pas partie d'un ensemble fini.

Exemples:

* Prédire le salaire mensuel d'une personne en fonction de son âge, son ancienneté, ses études
* Prédire la valeur boursière d'une action par rapport aux valeurs précédentes
* Prédire la note d'un étudiant à un contrôle par rapport à ses notes précédentes

### Note

A de rares exceptions, les problèmes traités par le TAL en Machine Learning sont quasi-exclusivement des problèmes de classification.

## Apprentissage non-supervisé

L'autre grande forme de Machine Learning est l'apprentissage non-supervisé (*Unsupervised Learning*). Contrairement à l'apprentissage supervisé, il n'y a pas de données de sortie associées aux données d'entrées. Ainsi, l'objectif est d'extraire automatiquement les caractéristiques des données d'entraînement.

Un des avantages est que ce type d'algorithme est plus facile à appliquer à des datasets, puisque l'on a juste besoin des données d'entrées. A l'inverse, ce type de modèle est plus difficile à évaluer, puisque l'on a aucune catégories pour comparer.

Ainsi, les méthodes non-supervisées sont généralement utilisées pour explorer les données (clustering, réduction du nombre de dimensions, ...) ou pour transformer les données de telle sorte à les utiliser pour un apprentissage supervisé.

## Les données

Pour l'apprentissage supervisé comme non-supervisé, les algorithmes de Machine-Learning ont besoin de données sous forme numérique pour pouvoir s'entraîner. En général, ces données sont représentées sous forme de matrice, ce qui nous permet d'une part d'aborder ces données plus facilement, et d'autre part permet aux algorithmes d'opérer les calculs plus rapidement. 

Ci-dessous, un dataset typique que l'on peut retrouver en Machine-Learning:

In [19]:
from sklearn.datasets import load_wine
import pandas as pd

wine = load_wine()
# boston
data = pd.DataFrame(data = wine['data'], columns=wine['feature_names'])
data['target'] = wine['target']
data.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0


Ce dataset contient la description de différents vins, et est composé de 178 lignes et de 13 colonnes. Chaque ligne du dataset est l'observation d'un vin différent, tandis que chaque colonne est une des caractéristique observée pour ce vin. 

En Machine-Learning, une observation ou une ligne d'un dataset est appelée ``sample`` tandis qu'une caractéristique ou une colonne du dataset est appelée ``feature``. Notre dataset est donc une matrice de 178 par 13, composée de 178 samples et de 13 features.

### Important

Une ligne ou une colonne d'une matrice est appelée un ``vecteur``. Un vecteur peut se comparer à une liste d'éléments. Le nombre d'éléments dans un vecteur est exprimé en dimension: par exemple, le vecteur ci-dessous:

``[14.23 	1.71 	2.43 	15.6 	127.0 	2.80 	3.06]``

est composé de 7 éléments. Il a donc 7 dimensions. 

# Outils et librairies

## Scikit-learn

``scikit-learn`` est une des principales librairies de Machine Learning en Python. Elle permet d'utiliser un ensemble considérable d'algorithmes déjà implémentés, est extrêmement bien documentée. Bien qu'aujourd'hui elle est légèrement dépassée en terme de popularité par des librairies telles que ``Pytorch`` ou ``Tensorflow`` (qui se consacre au Deep Learning),  ``scikit-learn`` est toujours prédominent dans l'industrie comme dans la recherche.

In [1]:
!pip install -U scikit-learn

Requirement already up-to-date: scikit-learn in /home/gutyh/anaconda3/envs/cours_dl/lib/python3.8/site-packages (0.23.2)


## NumPy

``NumPy`` est une des principales librairies de calcul en Python. Elle permet de manipuler des données très large et d'y effectuer des opérations rapidement. Aujourd'hui, toutes les librairies de traitement de données (pandas, scikit-learn, PyTorch, ...) reposent sur NumPy.

In [2]:
!pip install numpy



## Jupyter Notebook - Lab

Jupyter (Notebook et Lab) est un environnement de travail et de développement pour Python et R très apprécié dans le milieu des data science. Il permet d'exécuter des portions de codes dans des cellules, mais aussi d'utiliser du texte, des images. C'est donc un excellent outil pour expérimenter.

## Pandas

``pandas`` est une librairie permettant la manipulation de données, en les représentant sous forme de ``DataFrame``, qui sont comparables à des fichiers .csv ou Excel. Reposant sur ``NumPy``, elle permet de charger rapidement des grandes quantités de données à partir de différents types de fichiers (csv, json, sqlite, ...), d'obtenir des statistiques, de les visualiser à l'aide de ``matplotlib`` et de les modifier.

In [3]:
!pip install pandas



## matplotlib

``matplotlib`` est la principale et l'une des plus anciennes librairie de visualisation de données. Elle permet de rapidement d'afficher les données sur des graphiques, les rendant plus faciles à comprendre. Très utilisé dans le milieu de la recherche, ``matplotlib`` souffre de visuels vieillisants. Pour cette raison, des librairies utilisant ``matplotlib`` comme base mais proposants des graphismes plus modernes ont vues le jour telles que ``seaborn``.

In [4]:
!pip install matplotlib



## Références

* Documentations:
    * scikit-learn : https://scikit-learn.org/stable/
    * NumPy: https://numpy.org/
    * pandas: https://pandas.pydata.org/
    * matplotlib: https://matplotlib.org/