# Chapitre 1 : Introduction aux Machine Learning
Email : <a href='mailto:madani.a@ucd.ac.ma'>madani.a@ucd.ac.ma</a>
<img src='images/robot.png'>
## Introduction
<p>
Pour résoudre un problème sur un ordinateur, nous avons besoin d'un algorithme. Un algorithme est une séquence d'instructions qui devrait être effectuée pour transformer une entrée en une sortie. Par exemple, on peut concevoir un algorithme pour trier des nombres. L'entrée est un ensemble de nombres et la sortie est une liste ordonnée contenant ces nombres. Pour la même tâche, il peut y avoir différents algorithmes et nous pouvons être intéressé à trouver le plus efficace en terme de temps d'exécution et de capacité de mémoire.
</p>
<p><img src='images/algo_classique.png'></p>
<p>
Pour certaines tâches, cependant, nous n'avons pas d'algorithmes. Par exemple, pour distinguer des spams des emails légitimes. Dans ce cas, nous savons que l'entrée est un document email qui, dans le cas le plus simple, est un fichier de caractères. Nous savons aussi que la sortie est une réponse de la forme oui ou non, indiquant si le message est un spam ou non. Mais, nous ne savons pas comment transformer l'entrée (l'email dans notre cas) à la sortie (spam ou non).
</p>
<p>
Ce qui nous manque dans la connaissance, nous le compensons dans les données. Nous pouvons facilement compiler des milliers de messages d'exemple dont certains sont des spam et ce que nous voulons, c'est "apprendre" ce qui les rend indésirables. En d'autres termes, nous aimerions que l'ordinateur (machine) extraie automatiquement l'algorithme pour réaliser cette tâche.
</p>
<p><img src='images/algo_ML.png'></p>

## Machine learning ?

<p>
En 1959, Arthur Samuel a défini le terme de machine learning comme <i>"Field of study that gives computers the ability to learn without being explicitly programmed"</i>.
</p>
<p>
Les algorithmes de machine learning peuvent apprendre à effectuer des tâches importantes en généralisant des comportements à partir d'exemples. Ceci est souvent réalisable et rentable là où la programmation classique (procédurale) ne l'est pas. À mesure que des données deviennent davantage disponibles, des problèmes plus ambitieux peuvent être résolus. En conséquence, le machine learning est largement utilisé en informatique et dans d'autres domaines.
</p>
<p>
<img src="images/machine_learning.png" width="400">
</p>

## Un prérequis indispensable : Donnée

<p>
Le data science en général, et le machine learning en particulier, est une démarche empirique qui se base sur des données pour apporter une réponse à des problèmes. Donc, avant toute chose, il faut s'assurer d’avoir des données. Cela peut paraître idiot de le préciser, mais nous voyons souvent dans nos projets que l’accès aux données utiles à l’analyse n’est pas toujours aisé. Tantôt elles ne sont pas disponibles ou certaines manipulations techniques (jointure, etc.) ne sont pas faisables, ou encore interdites pour des raisons de confidentialité, tantôt le service informatique n’est pas capable de les extraire, tantôt elles n’existent tout simplement pas.
</p>
<p>
Dodge défint une donnée comme <u>«le résultat d’une observation faite sur une population ou sur un échantillon »</u> (Dodge, 2007). Une donnée est donc un nombre, une caractéristique, qui apporte une information sur un individu, un objet ou une observation. Par exemple, 33 est un nombre sans intérêt, mais si quelqu’un vous dit « J’ai 33 ans », 33 devient une donnée qui vous permettra d’en savoir un peu plus sur lui.
</p>   

### Les principaux types de données
<p>
On distingue généralement les données quantitatives des données qualitatives.
</p>
<p>
Les données quantitatives sont des valeurs qui décrivent une quantité mesurable, sous la
forme de nombres sur lesquels on peut faire des calculs (moyenne, etc.) et des
comparaisons (égalité/différence, infériorité/supériorité, etc.). Elles répondent typiquement
à des questions du type « combien ». On fait parfois la différence entre :
</p> 
<p>
<ul>
<li>les données quantitatives continues, qui peuvent prendre n’importe quelle valeur dans un
    ensemble de valeurs : la température, le PIB, le taux de chômage, en sont des exemples ;</li>
<li> et les données quantitatives discrètes, qui ne peuvent prendre qu’un nombre limité de
valeurs dans un ensemble de valeurs : le nombre d’enfants par famille, le nombre de
    pièces d’un logement, etc.</li>
</ul>
</p>
<p>
Les données qualitatives décrivent quant à elles des qualités ou des caractéristiques. Elles répondent à des questions de la forme « quel type » ou « quelle catégorie ». Ces valeurs ne sont plus des nombres, mais un ensemble de modalités. On ne peut pas faire de calcul sur ces valeurs, même dans l’éventualité où elles prendraient l’apparence d’une série numérique. Elles peuvent toutefois être comparées entre elles et éventuellement triées. On distingue :
    <ul>
<li>les données qualitatives nominales (ou catégorielles), dont les modalités ne peuvent être
ordonnées. Par exemple : la couleur des yeux (bleu, vert, marron, etc.), le sexe (homme,
    femme), la région d’appartenance (68, 38, etc.) ;</li>
<li>et les données qualitatives ordinales, dont les modalités sont ordonnées selon un ordre
« logique ». Par exemple : les tailles de vêtements (S, M, L, XL), le degré d’accord à un
    test d’opinion (fortement d’accord, d’accord, pas d’accord, fortement pas d’accord).</li>
        </ul>
</p>
<p>
    Le tableau ci-dessous résume les différents types de données ainsi que les opérations qu'ils supportent :
    <img src='images/types_donnees.png' width='80%'>
    </p>
    
### Différents niveaux de structuration de données

<p>
    Le machine learning permet de traiter différent types de données : structurée, semi-structurées et non structurées. 
</p>
<p>
    <li>Les données structurées proviennent directement de bases de données. Ces données sont indexées et sont prêtes à être traitées. Ce type de données sont plus faciles à traiter.</li>
</p>
<p>
    <li>Les données semi-strcturées est un niveau de structuration intermédiaire. Ce type correspond à divers formats de fichiers informatiques simples à traiter, mais qui ne bénéficient pas de l'indexation propre aux données extraites des bases de données informatiques.</li>
</p>
<p>
    <li>Les données non structurées est le type de données le plus complexes à traiter. Elles correspondent aux données brutes (texte, vidéos, ...), et nécessitent un pré-traitement complexe avant de les passer aux algorithme de machine learning.</li>
</p>
<p>
    Le tableau ci-dessous résume ces différents niveaux de structuration :
    <img src='images/niveaux_tructuration.png' width='80%'>
</p>    


## Types de problèmes et de tâches

<p>
Les tâches de machine learning sont généralement classées en deux grandes catégories. Ce sont :
<ul>
<li>Apprentissage supervisé : On fournit à l'ordinateur des exemples d'entrées et leurs sorties souhaitées, et le but est de déduire une règle générale qui mappe les entrées aux sorties. Par exemple, étant donné un email, on veut prédire s'il s'agit d'un un "spam" ou non<br>
<img src="images/spam_filter.png">
Un apprentissage supervisé peut à son tour être :</li>
    <ul>
        <li>Une Classification, quand les labels sont discrets</li>
        <li>Une Régression, quand les labels sont continues</li>
    </ul>
<li>Apprentissage non supervisé: aucune étiquette n'est donnée à l’algorithme d'apprentissage. L’algorithme doit trouver seul une relation structurelle dans son entrée. </li>
</ul>
<img src="images/clustering.png">

Les machine learning couvre plusieurs domaines :

<ul>
<li><b>Classification :</b> affecte une catégorie (un label) à chaque objet (text classification, speech recognition)</li>

<li><b>Regression : </b>prédit une valeur réelle pour chaque objet (prices, stock values, economic variables, ratings)</li>

<li><b>Clustering : </b> partionne (regroupe) les données en groupes homogènes (analysis of very large data sets)</li>

<li><b>Ranking : </b>tri les objets suivant quelques critères (relevant web pages returned by a search engine)</li>

<li><b>Dimensionality reduction :  </b>permet de trouver un moyen de réduire la dimension en préservant certaines propriétés des données (computer vision)</li>

</ul>
</p>

## Les 4 notions clés du Machine Learning

<p>
    Pour avoir les idées clairs sur les bases du machine learning, il faut comprendre les 4 notions clés suivantes :
</p>  
<ol>
    <li><b>Le Dataset</b> : En Machine Learning, tout démarre d’un Dataset qui contient nos données. Dans l’apprentissage supervisé, par exemple, le Dataset contient les questions (𝑥) et les réponses (𝑦) au problème que la machine doit résoudre. 
    <br>
        Généralement, on représente les exemples (𝒙,𝒚) du Dataset par un tableau : 
        <ul>
            <li>La variable 𝒚 porte le nom de target (la cible). C’est la valeur que l’on cherche à prédire.</li>
            <li>La variable 𝒙 porte le nom de feature (caractéristique). Un feature influence la valeur de 𝒚, et on a en général beaucoup de features (𝒙𝟏,𝒙𝟐,…) dans notre Dataset que l’on regroupe dans une matrice 𝑿.
                <br>
Ci-dessous, un Dataset qui regroupe des exemples d’appartements avec leur prix 𝒚 ainsi que certaines de leurs caractéristiques (features).<br>
<img src='images/Dataset.png'>                
            </li>
        </ul>    
    </li>
    <li><b>Le modèle et ses paramètres</b> : A partir de ce Dataset, on crée un modèle, qui n’est autre qu’une fonction mathématique. Les coefficients de cette fonction sont les paramètres du modèle.
    <br>
On développe un modèle à partir de ce Dataset. Il peut s’agir d’un modèle linéaire comme on peut le voir à gauche de la figure ci-dessous, ou bien un modèle non-linéaire comme on peut le voir à droite.<br>
<img src='images/modeles.png'>  <br>
On définit 𝒂,𝒃,𝒄, etc. comme étant les paramètres d’un modèle.        
    </li> 
    <li><b>La Fonction Coût</b> : Lorsqu’on teste notre modèle sur le Dataset, celui-ci nous donne des erreurs. L’ensemble de ces erreurs, c’est ce qu’on appelle la Fonction Coût.
    <br>
Autre chose à noter est qu’un modèle nous retourne des erreurs par rapport à notre Dataset. On appelle Fonction Coût l’ensemble de ces erreurs.<br>
<img src='images/cout.png'>    <br>
Avoir un bon modèle, c’est avoir un modèle qui nous donne de petites erreurs, donc une petite Fonction Coût. <br>
<img src='images/cout2.png'>    <br>        
    </li> 
    <li><b>L’Algorithme d’apprentissage</b> : L’idée centrale du Machine Learning, c’est de laisser la machine trouver quels sont les paramètres de notre modèle qui minimisent la Fonction Coût.
    <br>
L’objectif principal de cette étape est de trouver les paramètres du modèle qui minimisent la Fonction Coût. Pour cela, on utilise un algorithme d’apprentissage, l’exemple le plus courant étant l’algorithme de Gradient Descent, que nous allons voir ultérieurement.        
    </li>
</ol>

## Feuille de route pour la construction de systèmes de machine learning
<p>
Dans les sections précédentes, nous avons discuté des concepts de base de machine learning et des deux différents types d'apprentissage. Dans cette section, nous aborderons d'autres parties importantes d'un système de machine learning. La figure ci-dessous présente un diagramme de flux typique pour l'utilisation de l'apprentissage automatique dans la modélisation prédictive :
</p>
<img src="images/road_map.png">

<p>
Les données brutes s’obtiennent rarement sous la forme requise par un algorithme d'apprentissage. Ainsi, le prétraitement des données est l'une des étapes les plus cruciales de toute application d'apprentissage automatique. Si nous prenons l'exemple des fleurs, nous pourrions considérer les données brutes comme une série d'images de fleurs dont nous voulons extraire des caractéristiques significatives. Les caractéristiques utiles pourraient être la couleur, la teinte, l'intensité des fleurs, la hauteur et la longueur et la largeur des fleurs.
</p>
<p>
D’un autre côté, de nombreux algorithmes d'apprentissage automatique exigent également que les caractéristiques sélectionnées soient à la même échelle pour des performances optimales, ce qui est souvent obtenu en transformant les caractéristiques dans la plage [0, 1], par exemple.
</p>
<p>
Certaines des caractéristiques choisies peuvent être fortement redondantes. Dans ces cas, les techniques de réduction de dimensionnalité sont utiles pour compresser les entités sur un sous-espace de dimension inférieure. La réduction de la dimensionnalité de notre espace de caractéristiques a l'avantage de réduire l'espace de stockage et l'algorithme d'apprentissage peut fonctionner beaucoup plus rapidement.
</p>
<p>
Enfin, pour déterminer si notre algorithme de machine learning fonctionne bien non seulement sur l'ensemble d'apprentissage, mais aussi se généralise bien aux nouvelles données, nous devons également diviser de façon aléatoire les données du dataset en deux sous-ensembles, un sous-ensemble d’entrainement et un sous-ensemble de test.
</p>

<p>
Après avoir sélectionné un modèle, nous pouvons utiliser le sous-ensemble de test pour estimer la qualité de son exécution sur ces données invisibles afin d'estimer l'erreur de généralisation. Si nous sommes satisfaits de ses performances, nous pouvons maintenant utiliser ce modèle pour prédire de nouvelles données futures.
</p>