# Classification bayésienne naïve

Dans le cadre de ce TP, on va générer et charger des jeux de données classiques dans le cadre d'une découverte des outils de classification automatique. Ces derniers serviront de cas tests pour l'utilisation des routines de classification bayésienne naïve implémentées dans scikit-learn.

## 1. Jeux de données élémentaires

### 1.1 Classification gaussienne

On travaille dans $\mathbb{R}^2$ : les positions des points du dataset appartiennent au plan.

$\textbf{Question 1}$ :

a) Générer un dataset constitué de $500$ couples $(x^{(k)},y^{(k)})$ avec $y_k \in \left[ 1,3 \right]$ tel que les points de chaque classe soient générés à partir de vecteurs gaussiens indépendants de moyennes (centres) distinctes.

->https://scikit-learn.org/stable/datasets/sample_generators.html#sample-generators

La fonction utilisée dépend d'un paramètre *cluster_std* que l'on fixera *égal à 1.0* pour le moment.

b) Quel est le modèle probabiliste de données sous-jacent ?

c) Fournir une représentation graphique des données ainsi générées.

$\textbf{Question 2}$ :

a) A l'aide du jeu de données créé à la question précédente, produire deux lots de données destinés à l'entrainement et au test de votre modèle de classification (prévoir 20% des données pour la phase de test)

->https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html?highlight=train_test_split#sklearn.model_selection.train_test_split

b) Construire à l'aide de scikit-learn un modèle de classificateur bayésien gaussien et l'appliquer au lot de données de test.

c) Quel est le taux d'erreur ? Représenter sur une même figure les données étiquetées d'entrainement et de test.

$\textbf{Question 3}$ :

a) Générer et visualiser deux nouveaux datasets en suivant la même procédure que dans le cadre de la question 1 mais en modifiant le paramètre cluster_std $= \{0.1, 4.0 \}$

b) Mesurer les taux d'erreur sur les échantillons de test pour la méthode de classification bayésienne gaussienne. Les résultats étaient-ils attendus ? Commenter.

$\textbf{Question 4}$ :

a) Générer et visualiser deux nouveaux datasets en suivant la même procédure que dans le cadre de la question 1 mais en modifiant le paramètre n_features $= \{10, 100 \}$ à nombre d'échantillon et variance constants

b) Mesurer dans chaque cas les taux d'erreur sur les échantillons de test pour la méthode de classification bayésienne gaussienne. Les résultats étaient-ils attendus ? Commenter.

### 1.2 Classification multinomiale

Dans cette section, on applique un modèle de classificateur bayésien multinomial à un nouveau jeu de données, simple et adapté à ce type de modèle.

$\textbf{Question 5}$ :

a) Pourquoi les réalisations d'un vecteur aléatoire distribué selon une loi de Dirichlet peuvent-ils servir de paramètres à une loi multinomiale ?

b) Générer "à la main" un jeu de données constitué des 3*100 réalisations de 3 types de lois multinomiales (50 épreuves avec 4 issues possibles) dont les paramètres sont tirés selon une loi de Dirichlet.

c) Quelles sont les différences principales entre ce jeu de données et celui étudié à la question précédente ?

$\textbf{Question 6}$ :

a) A l'aide du jeu de données créé à la question précédente, produire deux lots de données destinés à l'entrainement et au test de votre modèle de classification.

b) Construire à l'aide de scikit-learn un modèle de $\textbf{classificateur bayésien multinomial}$ et l'appliquer au lot de données de test.

c) Quel est le taux d'erreur ? Représenter sur une même figure les données étiquetées d'entrainement et de test.

## 2. Jeux de données tests

### 2.1 Classification sur l'Iris dataset

L'objectif de cette section est la mise en oeuvre du modèle de classification bayésienne sur le classique "iris dataset".

$\textbf{Question 7}$ :

a) A l'aide de scikit-learn, charger l'iris data set dans l'environnement de travail.

b) Quelle est la dimension de ce jeu de données ? Combien de classes d'iris figurent dans les données ?

c) Toutes les représentations dans le plan sont-elles équivalentes du point de vue de la classification ?

$\textbf{Question 8}$ :

a) Produire deux lots de données destinés à l'entrainement et au test de votre modèle de classification.

b) Quel type de classificateur bayésien naïf faut-il utiliser dans cette situation ?

c) Construire à l'aide de scikit-learn un modèle de $\textbf{classificateur bayésien}$ et l'appliquer au lot de données de test.

d) Quel est le taux d'erreur ?

### 2.2 Classification sur le "news data set"

$\textbf{Question 9}$ :

a) A l'aide de scikit-learn, charger le "news data set". Quelles sont les dimensions du jeu de données ?

Utiliser à cet effet la fonction fetch_20newsgroups_vectorized

b) Quelle structure particulière possède les représentations vectorielles $\texttt{X}$ ?

b) Extraire du jeu de données complet, un sous-jeu de données ne contenant que 5000 données étiquetées.

$\textbf{Question 10}$ :

a) Produire deux lots de données destinés à l'entrainement et au test de votre modèle de classification (vous pouvez utiliser l'argument subset)

b) A l'aide de la fonction $\texttt{TruncatedSVD}$, représenter la projection en 2D du jeu de données d'entrainement

c) Construire à l'aide de scikit-learn un modèle de $\textbf{classificateur bayésien}$ et l'appliquer au lot de données de test.

d) Quels sont les taux d'erreur, précision et F1 score ?