# TP : Classification de Texte avec Scikit-Learn

Dans ce TP, nous allons explorer les outils principaux de Scikit-Learn pour une t√¢che de classification de documents textuels, en utilisant le dataset des *Twenty Newsgroups*.

Objectifs :

- Charger et pr√©parer les donn√©es
- Extraire des caract√©ristiques des textes
- Entra√Æner un mod√®le de classification
- √âvaluer les performances du mod√®le

Nous aborderons aussi la recherche de param√®tres optimaux via une recherche en grille.


### Pr√©paration

Pour commencer, assurez-vous d'avoir install√© *scikit-learn* et les autres d√©pendances n√©cessaires.

Commen√ßons par charger les donn√©es et d√©finir les cat√©gories que nous utiliserons dans cet exercice.

> Question 1 : Importez les biblioth√®ques n√©cessaires et configurez le dataset pour contenir les cat√©gories `alt.atheism`, `soc.religion.christian`, `comp.graphics`, et `sci.med`.

In [1]:
from sklearn.datasets import fetch_20newsgroups

categories = ["alt.atheism", "soc.religion.christian", "comp.graphics", "sci.med"]

dataset = fetch_20newsgroups(categories=categories, shuffle=True, random_state=13)

### Analyse des Donn√©es Charg√©es

Les donn√©es sont charg√©es sous forme d'un *bunch*, un objet contenant plusieurs attributs utiles pour notre analyse.

> Question 2 : Affichez le nombre de documents et les cat√©gories de nouvelles charg√©es dans le dataset.

In [4]:
print(len(dataset.data))
print(dataset.target_names)

2257
['alt.atheism', 'comp.graphics', 'sci.med', 'soc.religion.christian']


### Exploration des Donn√©es Textuelles

> Question 3 : Affichez les premi√®res lignes du premier document, ainsi que sa cat√©gorie associ√©e.

Cela nous donnera un aper√ßu des documents et de leur contenu.

In [9]:
dataset.data[0].split("\n")[:20]

['From: geb@cs.pitt.edu (Gordon Banks)',
 'Subject: Re: Update (Help!) [was "What is This [Is it Lyme\'s?]"]',
 'Article-I.D.: pitt.19436',
 'Reply-To: geb@cs.pitt.edu (Gordon Banks)',
 'Organization: Univ. of Pittsburgh Computer Science',
 'Lines: 42',
 '',
 "In article <1993Mar29.181958.3224@equator.com> jod@equator.com (John Setel O'Donnell) writes:",
 '>',
 ">I shouldn't have to be posting here.  Physicians should know the Lyme",
 ">literature beyond Steere & co's denial merry-go-round.  Patients",
 '>should get correctly diagnosed and treated.',
 '>',
 '',
 "Why do you think Steere is doing this?  Isn't he acting in good faith?",
 'After all, as the "discoverer" of Lyme for all intents and purposes,',
 "the more famous Lyme gets, the more famous Steere gets.  I don't",
 'see the ulterior motive here.  It is easy for me to see it the',
 'those physicians who call everything lyme and treat everything.',
 'There is a lot of money involved.']

### Extraction des Caract√©ristiques des Textes

Pour entra√Æner un mod√®le, nous devons transformer les documents textuels en vecteurs de caract√©ristiques num√©riques.

> Question 4 : Utilisez la m√©thode `CountVectorizer` pour transformer les textes en une matrice de fr√©quences de mots, puis affichez la taille de cette matrice.

Cette matrice, de type "sac de mots", repr√©sente chaque document par les occurrences des mots qu'il contient.

In [10]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(dataset.data)

In [11]:
X_train_counts.shape

(2257, 35788)

### Passage aux Fr√©quences Relatives (tf-idf)

Pour √©quilibrer l'importance des mots entre documents de diff√©rentes longueurs, on utilise la fr√©quence de termes (TF) ou bien TF-IDF.

> Question 5 : Transformez la matrice en repr√©sentation TF-IDF et affichez la dimension de cette nouvelle matrice.


In [16]:
from sklearn.feature_extraction.text import TfidfTransformer

tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)

In [18]:
X_train_tfidf.shape

(2257, 35788)

### Entra√Ænement d'un Classifieur Na√Øve Bayes

Avec notre matrice de caract√©ristiques pr√™te, entra√Ænons un classifieur Na√Øve Bayes pour pr√©dire la cat√©gorie de chaque document.

> Question 6 : Entra√Ænez un classifieur `MultinomialNB` sur le jeu de donn√©es transform√© en TF-IDF.


In [23]:
from sklearn.naive_bayes import MultinomialNB

clf_nb = MultinomialNB()

clf_nb.fit(X_train_tfidf, dataset.target)

### Pr√©diction sur des Nouveaux Documents

> Question 7 : Pr√©disez les cat√©gories pour les phrases `"God is love"` et `"OpenGL on the GPU is fast"`.

Affichez la cat√©gorie pr√©dite pour chaque document.


In [None]:
docs =  ["God is love", "OpenGL on the GPU is fast"]
X_docs_tfidf = tfidf_transformer.transform(
    count_vect.transform(docs)
)

y_pred_sample = clf_nb.predict(X_docs_tfidf)

In [25]:
print(y_pre_sample)

[3 1]


In [27]:
dataset.target_names

['alt.atheism', 'comp.graphics', 'sci.med', 'soc.religion.christian']

### Construction d'un Pipeline pour Simplifier le Workflow

> Question 8 : Cr√©ez un `Pipeline` qui encha√Æne `CountVectorizer`, `TfidfTransformer` et `MultinomialNB`, puis entra√Ænez le mod√®le sur le jeu de donn√©es.

Cela rend le processus d'extraction de caract√©ristiques et d'entra√Ænement plus facile et modulaire.


In [28]:
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer

pipeline_clf = Pipeline(steps=[
    ("vect", TfidfVectorizer()),
    ("clf", MultinomialNB()),
])
pipeline_clf.fit(dataset.data, dataset.target)

### √âvaluation des Performances du Mod√®le

> Question 9 : Chargez le sous-ensemble de test et √©valuez les performances du mod√®le en termes de pr√©cision moyenne.

Affichez √©galement le rapport de classification et la matrice de confusion pour une √©valuation plus d√©taill√©e.


In [29]:
dataset_test = fetch_20newsgroups(subset="test", categories=categories, shuffle=True, random_state=13)
X_test = dataset_test.data
y_test = dataset_test.target
y_pred = pipeline_clf.predict(X_test)

In [30]:
import numpy as np
from sklearn import metrics

print("Pr√©cision moyenne :", np.mean(y_pred == y_test))
print(metrics.classification_report(y_test, y_pred, target_names=dataset_test.target_names))
print(metrics.confusion_matrix(y_test, y_pred))

Pr√©cision moyenne : 0.8348868175765646
                        precision    recall  f1-score   support

           alt.atheism       0.97      0.60      0.74       319
         comp.graphics       0.96      0.89      0.92       389
               sci.med       0.97      0.81      0.88       396
soc.religion.christian       0.65      0.99      0.78       398

              accuracy                           0.83      1502
             macro avg       0.89      0.82      0.83      1502
          weighted avg       0.88      0.83      0.84      1502

[[192   2   6 119]
 [  2 347   4  36]
 [  2  11 322  61]
 [  2   2   1 393]]


### Optimisation des Param√®tres avec Grid Search

Scikit-Learn permet d'optimiser les param√®tres des composants du pipeline par une recherche en grille.

> Question 10 : Utilisez `GridSearchCV` pour trouver les meilleurs param√®tres parmi diff√©rents mod√®les de machine learning.

Testez les mod√®les `MultinomialNB` et `SGD`, avec une recherche de param√®tres pour le mod√®le `SGD`.


In [31]:
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import SGDClassifier

parameters = {
    "clf": [MultinomialNB(), SGDClassifier(max_iter=500, tol=1e-3)],
    "clf__alpha": (1e-2, 1e-3)
}

gridsearch_clf = GridSearchCV(pipeline_clf, parameters, cv=5)
gridsearch_clf.fit(dataset.data, dataset.target)

> Question 11 : Affichez les meilleurs param√®tres trouv√©s et la pr√©cision obtenue pour ces param√®tres optimaux.


In [33]:
print(gridsearch_clf.best_params_)
print(gridsearch_clf.best_score_)

{'clf': MultinomialNB(alpha=0.01), 'clf__alpha': 0.01}
0.9756313403842002


 üéâ