# Chapitre 1 : Introduction aux Machine Learning
Email : <a href='mailto:madani.a@ucd.ac.ma'>madani.a@ucd.ac.ma</a>
<img src='images/robot.png'>
## Introduction
<p>
Pour résoudre un problème sur un ordinateur, nous avons besoin d'un algorithme. Un algorithme est une séquence d'instructions qui devrait être effectuée pour transformer une entrée en une sortie. Par exemple, on peut concevoir un algorithme pour trier des nombres. L'entrée est un ensemble de nombres et la sortie est une liste ordonnée contenant ces nombres. Pour la même tâche, il peut y avoir différents algorithmes et nous pouvons être intéressé à trouver le plus efficace en terme de temps d'exécution et de capacité de mémoire.
</p>
<p>
Pour certaines tâches, cependant, nous n'avons pas d'algorithmes. Par exemple, pour distinguer des spams des emails légitimes. Dans ce cas, nous savons que l'entrée est un document email qui, dans le cas le plus simple, est un fichier de caractères. Nous savons aussi que la sortie est une réponse de la forme oui ou non, indiquant si le message est un spam ou non. Mais, nous ne savons pas comment transformer l'entrée (l'email dans notre cas) à la sortie (spam ou non).
</p>
<p>
Ce qui nous manque dans la connaissance, nous le compensons dans les données. Nous pouvons facilement compiler des milliers de messages d'exemple dont certains sont des spam et ce que nous voulons, c'est "apprendre" ce qui les rend indésirables. En d'autres termes, nous aimerions que l'ordinateur (machine) extraie automatiquement l'algorithme pour réaliser cette tâche.
</p>

## Machine learning ?

<p>
En 1959, Arthur Samuel a défini le terme de machine learning comme <i>"Field of study that gives computers the ability to learn without being explicitly programmed"</i>.
</p>
<p>
Les algorithmes de machine learning peuvent apprendre à effectuer des tâches importantes en généralisant des comportements à partir d'exemples. Ceci est souvent réalisable et rentable là où la programmation classique (procédurale) ne l'est pas. À mesure que des données deviennent davantage disponibles, des problèmes plus ambitieux peuvent être résolus. En conséquence, le machine learning est largement utilisé en informatique et dans d'autres domaines.
</p>
<p>
<img src="images/machine_learning.png" width="400">
</p>

## Types de problèmes et de tâches

<p>
Les tâches de machine learning sont généralement classées en deux grandes catégories. Ce sont :
<ul>
<li>Apprentissage supervisé : On fournit à l'ordinateur des exemples d'entrées et leurs sorties souhaitées, et le but est de déduire une règle générale qui mappe les entrées aux sorties. Par exemple, étant donné un email, on veut prédire s'il s'agit d'un un "spam" ou non<br>
<img src="images/spam_filter.png">
Un apprentissage supervisé peut a son tour être :</li>
    <ul>
        <li>Une Classification, quand les labels sont discrets</li>
        <li>Une Régression, quand les labels sont continues</li>
    </ul>
<li>Apprentissage non supervisé: aucune étiquette n'est donnée à l’algorithme d'apprentissage. L’algorithme doit trouver seul une relation structurelle dans son entrée. </li>
</ul>
<img src="images/clustering.png">

Les machine learning couvre plusieurs domaines :

<ul>
<li><b>Classification :</b> affecte une catégorie (un label) à chaque objet (text classification, speech recognition)</li>

<li><b>Regression : </b>prédit une valeur réelle pour chaque objet (prices, stock values, economic variables, ratings)</li>

<li><b>clustering : </b> partionne (regroupe) les données en groupes homogènes (analysis of very large data sets)</li>

<li><b>ranking : </b>tri les objets suivant quelques critères (relevant web pages returned by a search engine)</li>

<li><b>dimensionality reduction :  </b>trouver un moyen de réduire la dimension en préservant certaines propriétés des données (computer vision)</li>

</ul>
</p>

## Feuille de route pour la construction de systèmes de machine learning
<p>
Dans les sections précédentes, nous avons discuté des concepts de base de machine learning et des deux différents types d'apprentissage. Dans cette section, nous aborderons d'autres parties importantes d'un système de machine learning. La figure ci-dessous présente un diagramme de flux typique pour l'utilisation de l'apprentissage automatique dans la modélisation prédictive :
</p>
<img src="images/road_map.png">

<p>
Les données brutes s’obtiennent rarement sous la forme requise par un algorithme d'apprentissage. Ainsi, le prétraitement des données est l'une des étapes les plus cruciales de toute application d'apprentissage automatique. Si nous prenons l'exemple des fleurs, nous pourrions considérer les données brutes comme une série d'images de fleurs dont nous voulons extraire des caractéristiques significatives. Les caractéristiques utiles pourraient être la couleur, la teinte, l'intensité des fleurs, la hauteur et la longueur et la largeur des fleurs.
</p>
<p>
D’un autre côté, de nombreux algorithmes d'apprentissage automatique exigent également que les caractéristiques sélectionnées soient à la même échelle pour des performances optimales, ce qui est souvent obtenu en transformant les caractéristiques dans la plage [0, 1], par exemple.
</p>
<p>
Certaines des caractéristiques choisies peuvent être fortement redondantes. Dans ces cas, les techniques de réduction de dimensionnalité sont utiles pour compresser les entités sur un sous-espace de dimension inférieure. La réduction de la dimensionnalité de notre espace de caractéristiques a l'avantage de réduire l'espace de stockage et l'algorithme d'apprentissage peut fonctionner beaucoup plus rapidement.
</p>
<p>
Enfin, pour déterminer si notre algorithme de machine learning fonctionne bien non seulement sur l'ensemble d'apprentissage, mais aussi se généralise bien aux nouvelles données, nous devons également diviser de façon aléatoire les données du dataset en deux sous-ensembles, un sous-ensemble d’entrainement et un sous-ensemble de test.
</p>

<p>
Après avoir sélectionné un modèle, nous pouvons utiliser le sous-ensemble de test pour estimer la qualité de son exécution sur ces données invisibles afin d'estimer l'erreur de généralisation. Si nous sommes satisfaits de ses performances, nous pouvons maintenant utiliser ce modèle pour prédire de nouvelles données futures.
</p>