# 4I SI2 - Mini projet Machine Learning

## Sommaire

* [Introduction](#introduction)
* [Etat de l'art](#etat_de_lart)
    * [Convolutional Neural Networks](#cnn)
    * [Regression Logistique](#regression_logistique)
* [Ressources](#ressources)

## Introduction <a class="anchor" id="introduction"></a>

Dans le but de créer une application de reconnaissance de Pokémon, type Pokedex, il nous a été demandé de developper la partie reconnaissance de Pokémon. Afin de réaliser cet objectif, nous utiliserons une méthode de reconnaissance d'image.<br/>
Dans un second temps, nous detaillerons une méthode que nous trouverons la plus adaptée a notre problématique et nous essayerons de la mettre en oeuvre. <br/>
Enfin nous concluerons sur les resultats que nous obtiendrons.

<img src="https://assets.pokemon.com/assets/cms2/img/pokedex/full/025.png" style="width: 100px;"></img>
<img src="https://res.cloudinary.com/practicaldev/image/fetch/s--ugAVgNoo--/c_imagga_scale,f_auto,fl_progressive,h_420,q_auto,w_1000/https://cdn-images-1.medium.com/max/2000/0%2A0Y5OTBWR-YCcfel5.png" style="width: 500px;"></img>

## Etat de l'art de la reconnaissance d'images <a class="anchor" id="ressources"></a>

La reconnaissance d'images, est une sous-catégorie de la vision par ordinateur et de l'intelligence artificielle. Elle représente un ensemble de méthodes de détection et d'analyse d'images permettant l'automatisation d'une tâche spécifique. Il s'agit d'une technologie capable d'identifier des lieux, des personnes, des objets et de nombreux autres types d'éléments dans une image, et d'en tirer des conclusions en les analysant.<br/>

Il existe donc différentes "tâches" que la reconnaissance d'images peut effectuer : 

- La classification. C'est l'identification de la "classe", c'est-à-dire de la catégorie à laquelle appartient une image. Une image ne peut avoir qu'une seule classe.  
- Le marquage. Il s'agit également d'une tâche de classification, mais avec un degré de précision plus élevé. Elle permet de reconnaître la présence de plusieurs concepts ou objets dans une image. Une ou plusieurs étiquettes peuvent donc être attribuées à une image particulière.  
- Détection. Cette tâche est nécessaire lorsque l'on veut localiser un objet dans une image. Une fois l'objet localisé, une boîte de délimitation est placée autour de l'objet en question.   
- Segmentation. Il s'agit également d'une tâche de détection. La segmentation permet de localiser un élément sur une image au pixel près. Dans certains cas, il est nécessaire d'être extrêmement précis, comme pour le développement des voitures autonomes.

Ainsi pour notre problématique, nous utiliserons une tache de classification d'images. Il s'agit d'un problème d'apprentissage supervisé, c'est à dire qu'il est capable réaliser une tâche d'apprentissage automatique consistant à apprendre une fonction de prédiction à partir d'exemples annotés. Il s'agit, dans un premier temps, de définir un ensemble de classes cibles (objets à identifier dans les images) et d'entraîner un modèle à les reconnaître à l'aide de photos exemples labelées. <br/>
Les premiers modèles de vision par ordinateur s'appuyaient sur des données de pixels brutes comme entrée du modèle. Cependant, les données de pixels brutes ne fournissent pas à elles seules une représentation suffisamment stable pour englober la multitude de variations d'un objet capturé dans une image. La position de l'objet, l'arrière-plan derrière l'objet, l'éclairage ambiant, l'angle de la caméra et la mise au point de la caméra peuvent tous produire des fluctuations dans les données de pixels brutes ; ces différences sont suffisamment importantes pour ne pas pouvoir être corrigées en prenant des moyennes pondérées des valeurs RVB des pixels. <br/>
Nous étudierons différentes méthodes utilisées dans la reconnaissance d'images, et réaliserons un descriptif succincte de celles-ci.

### Convolutional Neural Networks <a class="anchor" id="cnn"></a>

Au lieu de prétraiter les données pour en extraire des caractéristiques telles que les textures et les formes, un réseau neuronal convolutif prend en entrée les données brutes des pixels de l'image et "apprend" à extraire ces caractéristiques, pour finalement déduire l'objet qu'elles constituent. <br/>
Afin de réaliser cette prédiction, le modèle reçoit une carte de caractéristiques en entrée : une matrice tridimensionnelle où la taille des deux premières dimensions correspond à la longueur et à la largeur des images en pixels. La taille de la troisième dimension est 3 (correspondant aux 3 canaux d'une image couleur : rouge, vert et bleu). Le modèle est composé d'une pile de modules, chacun d'entre eux effectuant trois opérations.<br/>

<img src="https://miro.medium.com/max/2000/1*vkQ0hXDaQv57sALXAJquxA.jpeg" style="width: 700px;"></img>

#### Convolution

Une convolution extrait des portions de la carte de caractéristiques (matrice) d'entrée et leur applique des filtres pour calculer de nouvelles caractéristiques, produisant une carte de caractéristiques de sortie, ou caractéristique convoluée. Cette matrice de sortie peut avoir une taille et une profondeur différentes de celle de la carte de caractéristique. <br/>
<img src="https://developers.google.com/machine-learning/practica/image-classification/images/convolution_overview.gif" style="width: 700px;"></img>

#### ReLU

Après chaque opération de convolution, le modèle applique une transformation ReLU (Rectified Linear Unit) à la caractéristique de sortie de la convolution, afin d'introduire une non-linéarité dans le modèle. La fonction ReLU, renvoie x pour toutes les valeurs de x > 0, et renvoie 0 pour toutes les valeurs de x ≤ 0. <br/>

#### Pooling

Après ReLU vient une étape de pooling, dans laquelle le modèle sous-échantillonne la caractéristique de sortie de ReLU (pour gagner du temps de traitement), réduisant ainsi le nombre de dimensions de la carte de caractéristiques, tout en préservant les informations les plus critiques de la caractéristique. Un algorithme couramment utilisé pour ce processus est appelé max pooling. <br/>

<img src="https://developers.google.com/machine-learning/practica/image-classification/images/maxpool_animation.gif" style="width: 700px;"></img>

À la fin d'un réseau neuronal convolutif se trouvent une ou plusieurs couches entièrement connectées. Leur tâche consiste à effectuer une classification sur la base des caractéristiques extraites par les convolutions. En général, la dernière couche entièrement connectée contient une fonction d'activation softmax, qui produit une valeur de probabilité de 0 à 1 pour chacune des étiquettes de classification que le modèle tente de prédire.

### Regression logistique <a class="anchor" id="regression_logistique"></a>

La régression logistique est une méthode d'analyse statistique qui consiste à prédire une valeur de données d'après les observations réelles d'un jeu de données. Cette approche permet d'utiliser un algorithme dans l'application d'apprentissage automatique pour classer les données entrantes en fonction des données historiques.<br/>
Cette méthode est particulièrement efficace sur la classification binaire, c'est à dire, qui a deux issues possibles. Mais on peut également faire de la classification multi classes, c'est à dire, avec plusieurs issues possibles.
Il faut alors trouver une ligne capable de délimiter les ensembles.<br/>
<img src="https://media.geeksforgeeks.org/wp-content/uploads/classification-1.png" style="width: 500px;"></img>
<img src="https://miro.medium.com/max/972/1*SwXHlCzh-d9UqHOglp3vcA.png" style="width: 500px;"></img>

Le traitement a effectuer ensuite est différent en fonction de la classification a effectuer (binaire ou multi classes).

#### Classification binaire (Sigmoid Function)

La regression logistique est un modèle de classification linéaire, quand Y ne doit prendre que deux valeurs possibles (0 ou 1). Le modèle étant linéaire, la fonction hypothèse pourra s'écrire : $ S(X) = \sum \limits _{i=0} ^{n+1} {\theta}_{i}x_{i} $. <br/>
Avec :
- $X$ : une observation, cette variable est un vecteur contenant $x_{0}, x_{1},..., x_{n}$.
- $x_{i}$ : est une variable prédictive qui servira dans le calcul du modèle prédictif.
- ${\theta}_{i}$ : est un poids/paramètre de la fonction hypothèse. Ce sont ces ${\theta}_{i}$ qu’on cherche à calculer pour obtenir notre fonction de prédiction.

Cette fonction est appelée la fonction **score**. L’idée est alors de trouver des coefficients $ {\theta}_{0}, {\theta}_{1}, …,{\theta_{n}} $ de sorte que :

- $S(X) > 0$ quand la classe vaut valeur 1
- $S(X) < 0$ quand la classe vaut valeur 0

Cette fonction score obtenue intègre les différentes variables prédictive $x_{i}$. On y appliquera ensuite, la fonction **sigmoid** qui permet de produire des valeurs comprises entre 0 et 1. Le résultat obtenu peut être alors interprété comme la probabilité qui l'observation $X$ soit la valeur 1.

La fonction sigmoid, est définie par $Sigmoid(x) = \frac{1}{1 + e^{-x}}$.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/5/53/Sigmoid-function-2.svg/2560px-Sigmoid-function-2.svg.png" style="width: 500px;"></img>

En appliquant cette fonction sigmoid a notre fonction score, nous obtenons la fonction suivante : $H(X)=\frac{1}{1 + e^{S(X)}}$. <br/>
Pour interpreter les résultats, si $H(X)=0.3$, cela signifie que $X$ a 30% de chance d'être la valeur 1.

#### Classification multi classes (Algorithme All-vs-One)

L'algorithme All-vs-One consiste à découper le problème de classification multi-classes en une multitude de problèmes de classification binaires.

<img src="https://miro.medium.com/max/1400/1*RElrybCZ4WPsUfRwDl7fqA.png" style="width: 500px;"></img>

1. On considère que les triangles sont la classe positive et le reste comme la classe négative (dans ce cas, les carrés et les croix seront dans le même groupe de classe négative), et on entraîne la régression logistique sur cette configuration de données. Ce qui produira une fonction de prédiction $H^1(X)$.
2. On considère les carrés comme la classe positive et le reste comme la classe négative, et on entraîne la régression logistique pour obtenir une deuxième fonction de prédiction : $H^2(X)$.
3. On considère les croix comme la classe positive et le reste comme la classe négative, et on entraîne la régression logistique pour obtenir $H^3(X)$.

Chacune des ces fonctions de prédiction $H^1(X)$, $H^2(X)$ et $H^3(X)$ nous donnera la probabilité que $X$ soit de la classe étudiée respectivement. La bonne classe de l’observation x est celle pour laquelle on a obtenu la plus grande probabilité. $max(H^1(X),H^2(X),...,H^n(X))$


## Ressources <a class="anchor" id="etat_de_lart"></a>

- [Google ML Practicum: Image Classification](https://developers.google.com/machine-learning/practica/image-classification?hl=en)
- [Classifying Pokémon Images with Machine Learning](https://medium.com/m2mtechconnect/classifying-pok%C3%A9mon-images-with-machine-learning-79b9bc07c080)
- [Regression lineaire mrmint](https://mrmint.fr/logistic-regression-machine-learning-introduction-simple)
- [Regression lineaire whatis](https://whatis.techtarget.com/fr/definition/Regression-logistique)
- [Dataset de Pokémon](https://www.kaggle.com/kvpratama/pokemon-images-dataset)