## Arbre de décision

#### Courbe d'apprentissage

<img src="learning_curve.png">

On constate que plus on a de données en entrainement plus on performe bien. \
Aussi, on observe deux grandes phases sur ce graphe:
- Une augmentation fulgurante pour les premières tailles de notre jeu de données;
- Et une phase où les performances n'évoluent que très peu.

Cette 2ème phase nous permet donc de déduire qu'on pourrait réduire le jeu d'entrainement
pour gagner en temps sans toute fois perdre en terme de généralisation sur le jeu de test.

#### Comparaison avec le classifieur scikit-learn

Nous obetenons des résultats similaires sur le jeu de données iris. \
Sur le de données wine, le classifieur de sklearn perfome mieux que le notre. \
Tandis que sur le jeu de données abalone, c'est notre classifieur qui a les meilleurs performances.

Les résultats obtenus sont regroupés dans les tableaux ci-bas:

##### Custom
<table>
    <tr>
        <th></th>
        <th>Accuracy</th>
        <th>Precision</th>
        <th>Recall</th>
        <th>F1-score</th>
    </tr>
    <tr>
        <th>iris</th>
        <td>[100, 91.67, 91.67]</td>
        <td>[100, 75, 100]</td>
        <td>[100, 100, 80]</td>
        <td>[100, 85.71, 88.89]</td>
    </tr>
    <tr>
        <th>wine</th>
        <td>85.43</td>
        <td>79.89</td>
        <td>86.14</td>
        <td>82.90</td>
    </tr>
    <tr>
        <th>abalone</th>
        <td>[93.54, 84.05, 90.51]</td>
        <td>[69.80, 80.25, 62.79]</td>
        <td>[74.29, 88.54, 66.26]</td>
        <td>[71.97, 89.38, 64.48]</td>
    </tr>
</table>

##### Sklearn
<table>
    <tr>
        <th></th>
        <th>Accuracy</th>
        <th>Precision</th>
        <th>Recall</th>
        <th>F1-score</th>
    </tr>
    <tr>
        <th>iris</th>
        <td>[100, 91.67, 91.67]</td>
        <td>[100, 75, 100]</td>
        <td>[100, 100, 80]</td>
        <td>[100, 85.71, 88.89]</td>
    </tr>
    <tr>
        <th>wine</th>
        <td>88.15</td>
        <td>87.62</td>
        <td>88.49</td>
        <td>87.91</td>
    </tr>
    <tr>
        <th>abalone</th>
        <td>[94.25, 83.65, 89.39]</td>
        <td>[72.67, 90.28, 58.43]</td>
        <td>[77.86, 87.90, 63.80]</td>
        <td>[75.17, 89.08, 61.00]</td>
    </tr>
</table>

#### Comparaison avec élagage

Les résultats ci-bas montrent l'évaluation de notre classifieur après élagage.

##### Prune
<table>
    <tr>
        <th></th>
        <th>Accuracy</th>
        <th>Precision</th>
        <th>Recall</th>
        <th>F1-score</th>
    </tr>
    <tr>
        <th>iris</th>
        <td>[100, 91.67, 91.67]</td>
        <td>[100, 75, 100]</td>
        <td>[100, 100, 80]</td>
        <td>[100, 85.71, 88.89]</td>
    </tr>
    <tr>
        <th>wine</th>
        <td>85.43</td>
        <td>79.89</td>
        <td>86.14</td>
        <td>82.90</td>
    </tr>
    <tr>
        <th>abalone</th>
        <td>[92.98, 83.25, 90.35]</td>
        <td>[66.25, 90.05, 62.65]</td>
        <td>[75.71, 87.59, 63.80]</td>
        <td>[70.67, 88.89, 63.22]</td>
    </tr>
</table>

On constate, qu'on a une dégradation des performances sur le jeu de test. \
Ce qui signifie qu'on a probablement mal élagué notre arbre. Mais on n'a pas eu assez de temps pour vérifier d'où vient le problème 

# Réseaux de Neurones Artificiels

### Initialisation des poids du réseau de neurones

Nous avons choisi d’utiliser la technique d’initialisation Normal de Xavier. Elle consiste à initialiser les poids de façon aléatoire suivant une loi Normal avec une moyenne de 0 et un écart-type de $$\sigma=\sqrt{\frac{2}{Nombre\ d'input\ +\ Nombre\ d'output}}.$$

Toutes les figures suivantes représentent les courbes d’apprentissage des réseaux neurones en utilisant l’initialisation Normal de Xavier et l’initialisation des poids à zéros pour les trois jeux de données.

<img src="Images\XavierIris.png">

<img src="Images\ZeroIris.png">

En comparant les figures 1 et 2, on remarque que l’apprentissage avec l’initialisation de Xavier est beaucoup plus constant qu’avec l’initialisation à zéro. Cependant, l’initialisation à zéro commence avec une meilleure prédiction. Le modèle semble ensuite rester constant sans s’améliorer, mais il y a beaucoup d’inconstance lorsque le jeu de donnée devient plus grand. Pour ce qui est de l’initialisation de Xavier, il semble toujours y avoir une certaine amélioration du modèle même si elle est de moins en moins grande.

<img src="Images\XavierWine.png">

<img src="Images\ZeroWine.png">

Les apprentissages pour les figures 3 et 4 utilisent le même learning rate, mais on voit que l’initialisation à zéro converge beaucoup plus rapidement tandis que l’initialisation de Xavier s’améliore constamment. L’initialisation à zéro risque donc de converger à un taux plus faible.

<img src="Images\XavierAbalone.png">

<img src="Images\ZeroAbalone.png">

Sur le jeu de données Abalone, on observe la même chose que sur le jeu de donnée Wine. C’est-à-dire que l’initialisation à zéro converge trop rapidement donc elle pourrait mal converger.


### Évaluation

Pour les jeux de données Iris, Wine et Abalone, on utilise respectivement 3, 8 et 6 couches cachées. On utilise un learning rate de 0.01 pour les 3 modèles.

<table>
    <tr>
        <th></th>
        <th>Accuracy</th>
        <th>Precision</th>
        <th>Recall</th>
        <th>F1-score</th>
        <th>Temps d'entrainement</th>
        <th>Temps d'évaluation</th>
    </tr>
    <tr>
        <th>iris</th>
        <td>[100, 58, 58]</td>
        <td>[100, 37.5, nan]</td>
        <td>[100, 100, 0]</td>
        <td>[100, 54.54, 0]</td>
        <td>18.79</td>
        <td>0.00523</td>
    </tr>
    <tr>
        <th>wine</th>
        <td>71.48</td>
        <td>72.25</td>
        <td>83.89</td>
        <td>77.63</td>
        <td>347.356</td>
        <td>0.13299</td>
    </tr>
    <tr>
        <th>abalone</th>
        <td>[87, 79.27, 91.79]</td>
        <td>[50, 78.62, 97.435]</td>
        <td>[2.45, 99.79, 27.14]</td>
        <td>[4.678, 87.95, 42.46]</td>
        <td>491.70</td>
        <td>0.1595</td>
    </tr>
</table>

Matrices de confusion Iris: 

$$\begin{bmatrix} 8 & 0\\ 0 & 4 \end{bmatrix}$$
$$\begin{bmatrix} 4 & 5\\ 0 & 3 \end{bmatrix}$$
$$\begin{bmatrix} 7 & 0\\ 5 & 0 \end{bmatrix}$$


Matrice de confusion Wine: 
$$\begin{bmatrix} 178 & 154\\ 77 & 401 \end{bmatrix}$$


Matrices de confusion Abalone : 
$$\begin{bmatrix} 1087 & 4\\ 159 & 4 \end{bmatrix}$$
$$\begin{bmatrix} 45 & 258\\ 2 & 949 \end{bmatrix}$$
$$\begin{bmatrix} 1113 & 1\\ 102 & 38 \end{bmatrix}$$



## Recherche d'hyperparamètres

### Choix du nombre de neurones dans la couche cachée

#### Iris

La figure ci-dessous montre que, pour le jeu de données Iris, l'erreur est minimale lorsqu'on utilise 2, 4, 5 ou 6 neurones. Nous avons décidé d'en utiliser 4.

<img src="Images\nb_neurones_Iris.png">


#### Wine

La figure ci-dessous montre que, pour le jeu de données Wine, l'erreur est minimale lorsqu'on utilise 7 neurones. C'est donc le nombre de neurones que nous avons utilisé.

<img src="Images\nb_neurones_Wine.png">


#### Abalone

La figure ci-dessous est pour le jeu de donnée Abalone. On remarque que plus il y a de neurones, plus l'erreur est petite. Nous utilisons 6 neurones selon ce graphique.

<img src="Images\nb_neurones_Abalone.png">


### Choix du nombre de couches cachées

#### Iris

Selon la figure ci-dessous, on utilise une seule couche cachée pour le jeu de donnée Iris. En effet, plus il y a de couches, plus l'erreur est grande. On utilise donc un réseau ayant une couche cachée et 4 neurones.

<img src="Images\nb_couches_Iris.png">


#### Wine

Encore une fois, la figure semble montrer que le meilleur réseau utilise une seule couche cachée. On utilise donc un réseau ayant une couche cachée et 7 neurones. 

<img src="Images\nb_couches_Wine.png">


#### Abalone

On observe la même tendance par rapport au fait que plus il y a de couche, plus l'erreur est grande. On utilise donc un modèle avec 2 couches cachées et 6 neurones par couche.

<img src="Images\nb_couches_Abalone.png">

#### Phénomène de Vanishing Gradient
Le Vanishing Gradient est un phénomène qui se produit lorsqu'il y a beaucoup de couches dans un réseau de neurones. Ce phénomène rend l'apprentissage beaucoup plus lent. En effet, plus il y a de couches, moins la variation dans les premiers poids est grande. C'est le cas car, pour obtenir le gradient d'un poids, il faut passer par chacun des autres noeuds. On a donc une chaîne de multiplication de plusieurs petites valeurs. Donc plus un poids est loin de la dernière couche, moins il changement rapidement.

Dans les figures pour les choix de nombres de couches, on a pu observer qu'un plus grand nombre de couches apportait généralement plus d'erreur. C'est peut-être dù au fait que nous avons utiliser le même nombre d'itérations maximum pour tous les nombres de couches. Les modèles avec plus de couches auraient probablement nécessité plus d'entraînement.

### Entraînement et test

Avec les choix de nombres de neurones et de nombres de couches, on obtient les résultats suivant :


<table>
    <tr>
        <th></th>
        <th>Accuracy</th>
        <th>Precision</th>
        <th>Recall</th>
        <th>F1-score</th>
    </tr>
    <tr>
        <th>iris</th>
        <td>58.33</td>
        <td>45.83</td>
        <td>66.66</td>
        <td>51.51</td>
    </tr>
    <tr>
        <th>wine</th>
        <td>81.73</td>
        <td>81.28</td>
        <td>80.70</td>
        <td>80.95</td>
    </tr>
    <tr>
        <th>abalone</th>
        <td>82.70</td>
        <td>74.96</td>
        <td>64.79</td>
        <td>68.72</td>
    </tr>
</table>

Matrices de confusion Iris : 
$$\begin{bmatrix} 8 & 0\\ 0 & 4 \end{bmatrix}$$
$$\begin{bmatrix} 4 & 5\\ 0 & 3 \end{bmatrix}$$
$$\begin{bmatrix} 7 & 0\\ 5 & 0 \end{bmatrix}$$


Matrice de confusion Wine : 
$$\begin{bmatrix} 249 & 83\\ 65 & 413 \end{bmatrix}$$


Matrices de confusion Abalone: 
$$\begin{bmatrix} 1089 & 25\\ 55 & 85 \end{bmatrix}$$
$$\begin{bmatrix} 151 & 152\\ 65 & 886 \end{bmatrix}$$
$$\begin{bmatrix} 1051 & 40\\ 97 & 66 \end{bmatrix}$$

  


# Comparaison entre les algorithmes expérimentés dans le cours

<img src="Images\Comparaison.png" style="width:100%;">

L'arbre de décision a les meilleurs résultats pour tous les jeux de données tout en ayant des temps d'entraînement et de prédiction raisonnablement petits. Le KNN performe également très bien dans tous les jeux de données, mais il a un temps de prédiction beaucoup plus long. L'arbre est donc préférable pour nos jeux de données.

Pour le jeu de données Iris, le réseau de neurones a très mal performé. C'est probablement parce que ce genre de modèle nécessite beaucoup de données pour bien s'entraîner. Ce modèle est également très long à entraîner et il aurait peut-être performé mieux avec davantage d'entraînement.

Contrairement aux réseaux neurones, le classifieur naïf de Bayes semble être meilleur sur les plus petits jeux de données comme Iris. Il performe très mal sur abalone.

# Conclusion

Ce projet nous a permis d'apprendre comment fonctionne les algorithmes de KNN, de CNB, d'arbres de décisions et de réseaux neurones.

Nous avons également appris des techniques qui nous permettent de combattre l'overfitting, comme l'élagage des arbres et le choix du nombre d'itérations dans les réseaux neurones.

Nous avons appris à utiliser la validation croisée pour faire la sélection d'hyperparamètres de nos modèles.