# TP : Classification de Texte avec Scikit-Learn

Dans ce TP, nous allons explorer les outils principaux de Scikit-Learn pour une tâche de classification de documents textuels, en utilisant le dataset des *Twenty Newsgroups*.

Objectifs :

- Charger et préparer les données
- Extraire des caractéristiques des textes
- Entraîner un modèle de classification
- Évaluer les performances du modèle

Nous aborderons aussi la recherche de paramètres optimaux via une recherche en grille.


### Préparation

Pour commencer, assurez-vous d'avoir installé *scikit-learn* et les autres dépendances nécessaires.

Commençons par charger les données et définir les catégories que nous utiliserons dans cet exercice.

> Question 1 : Importez les bibliothèques nécessaires et configurez le dataset pour contenir les catégories `alt.atheism`, `soc.religion.christian`, `comp.graphics`, et `sci.med`.

In [1]:
# Votre code ici

### Analyse des Données Chargées

Les données sont chargées sous forme d'un *bunch*, un objet contenant plusieurs attributs utiles pour notre analyse.

> Question 2 : Affichez le nombre de documents et les catégories de nouvelles chargées dans le dataset.

In [None]:
# Votre code ici

### Exploration des Données Textuelles

> Question 3 : Affichez les premières lignes du premier document, ainsi que sa catégorie associée.

Cela nous donnera un aperçu des documents et de leur contenu.

In [None]:
# Votre code ici

### Extraction des Caractéristiques des Textes

Pour entraîner un modèle, nous devons transformer les documents textuels en vecteurs de caractéristiques numériques.

> Question 4 : Utilisez la méthode `CountVectorizer` pour transformer les textes en une matrice de fréquences de mots, puis affichez la taille de cette matrice.

Cette matrice, de type "sac de mots", représente chaque document par les occurrences des mots qu'il contient.

In [None]:
# Votre code ici

### Passage aux Fréquences Relatives (tf-idf)

Pour équilibrer l'importance des mots entre documents de différentes longueurs, on utilise la fréquence de termes (TF) ou bien TF-IDF.

> Question 5 : Transformez la matrice en représentation TF-IDF et affichez la dimension de cette nouvelle matrice.


In [None]:
# Votre code ici

### Entraînement d'un Classifieur Naïve Bayes

Avec notre matrice de caractéristiques prête, entraînons un classifieur Naïve Bayes pour prédire la catégorie de chaque document.

> Question 6 : Entraînez un classifieur `MultinomialNB` sur le jeu de données transformé en TF-IDF.


In [6]:
# Votre code ici

### Prédiction sur des Nouveaux Documents

> Question 7 : Prédisez les catégories pour les phrases `"God is love"` et `"OpenGL on the GPU is fast"`.

Affichez la catégorie prédite pour chaque document.


In [None]:
# Votre code ici

### Construction d'un Pipeline pour Simplifier le Workflow

> Question 8 : Créez un `Pipeline` qui enchaîne `CountVectorizer`, `TfidfTransformer` et `MultinomialNB`, puis entraînez le modèle sur le jeu de données.

Cela rend le processus d'extraction de caractéristiques et d'entraînement plus facile et modulaire.


In [None]:
# Votre code ici

### Évaluation des Performances du Modèle

> Question 9 : Chargez le sous-ensemble de test et évaluez les performances du modèle en termes de précision moyenne.

Affichez également le rapport de classification et la matrice de confusion pour une évaluation plus détaillée.


In [None]:
# Votre code ici

### Optimisation des Paramètres avec Grid Search

Scikit-Learn permet d'optimiser les paramètres des composants du pipeline par une recherche en grille.

> Question 10 : Utilisez `GridSearchCV` pour trouver les meilleurs paramètres parmi différents modèles de machine learning.

Testez les modèles `MultinomialNB` et `SVC`, avec une recherche de paramètres pour le modèle `SVC`.


In [10]:
# Votre code ici

> Question 11 : Affichez les meilleurs paramètres trouvés et la précision obtenue pour ces paramètres optimaux.


In [None]:
# Votre code ici

 🎉