# ***Classification de Texte à l'aide de Scikit-learn,python et NLTK***   

***Classification des documents/Texte*** est l'une des tâches importantes et typique de *supervisé* du Machine learning. L'attribution de catégories à des documents, qui peut être une page Web, un livre de bibliothèque, des articles médiatiques, une galerie, etc. a de nombreuses applications telles que le filtrage anti-spam, le routage des e-mails, l'analyse des sentiments etc. classification en utilisant python, scikit-learn et un peu de NLTK.  
   
Divisons le problème de classification en étapes ci-dessous:  
1. Prérequis et mise en place de l'environnement.  
2. Chargement de l'ensemble de données dans jupyter.  
3. Extraction de fonctionnalités à partir de fichiers texte.  
4. Exécution d'algorithmes de ML.  
5. Grille Recherche pour le réglage des paramètres.  
6. Conseils utiles et une touche de NLTK.  
   
***Étape 1: Prérequis et mise en place de l'environnement***  
Les prérequis pour suivre cet exemple sont python version 2.7.3 et jupyter notebook. Vous pouvez simplement installer anaconda et il aura tout pour vous. En outre, un peu de bases de python et de ML, y compris la classification de texte, est nécessaire. Nous utiliserons les bibliothèques scikit-learn (python) pour notre exemple.  
   
***Étape 2: chargement de l'ensemble de données dans jupyter.***  
Le jeu de données utilisé pour cet exemple est le fameux jeu de données "20 Newsgroup".   
L'ensemble de données des 20 groupes de discussion est une collection d'environ 20000 documents de groupes de discussion, répartis(presque) uniformément sur 20 groupes de discussion différents. A ma connaissance, il a été collecté à l'origine par *Ken Lang*, probablement pour son *Newsweeder:Apprendre à filtrer* le papier de *netnews, bien qu'il ne mentionne pas explicitement cette collection. La collection de 20 groupes de discussion est devenue un ensemble de données populaire pour les expériences dans les applications textuelles des techniques d'apprentissage automatique, telles que la classification de texte et le clustering de texte.  
   
Cet ensemble de données est intégré à scikit, nous n'avons donc pas besoin de le télécharger explicitement.  
  
**chargement de l'ensemble de données**  

  


   



In [6]:
# Loading the dataset -training data.  
from sklearn.datasets import fetch_20newsgroups

twenty_train = fetch_20newsgroups(subset='train', shuffle=True)

# we can check the target names (categories) and some data files by following commands.  
twenty_train.target_names       # prints all the categories

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

Remarque: ci-dessus, nous ne chargeons que les données d' entraînement . Nous chargerons les données de test séparément plus tard dans l'exemple.

On peut vérifier les noms des cibles (catégories) et certains fichiers de données en suivant les commandes.

In [7]:
print("\n".join(twenty_train.data[0].split("\n")[:3]))    # prints first line of the first data file

From: lerxst@wam.umd.edu (where's my thing)
Subject: WHAT car is this!?
Nntp-Posting-Host: rac3.wam.umd.edu


***Étape 3: extraction de fonctionnalités à partir de fichiers texte***  
  
Les fichiers texte sont en fait des séries de mots (ordonnés). Afin d'exécuter des algorithmes d'apprentissage automatique, nous devons convertir les fichiers texte en vecteurs de caractéristiques numériques. Nous utiliserons le modèle **du sac de mots** pour notre exemple. En bref, nous segmentons chaque fichier texte en mots (pour le fractionnement anglais par espace), et comptons # de fois que chaque mot apparaît dans chaque document et attribuons finalement à chaque mot un identifiant entier. **Chaque mot unique de notre dictionnaire correspondra à une caractéristique (caractéristique descriptive).**  
   
Scikit-learn a un composant de haut niveau qui créera des vecteurs de caractéristiques pour nous 'CountVectorizer'
   



In [8]:
# Extracting features from text files
from sklearn.feature_extraction.text import CountVectorizer


count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(twenty_train.data)
X_train_counts.shape

(11314, 130107)

Ici en faisant 'count_vect.fit_transform(twenty_train.data)', nous apprenons le dictionnaire de vocabulaire et il renvoie une matrice de Document-Term. [n_samples, n_features].

**TF:** Le simple fait de compter le nombre de mots dans chaque document a un problème:cela donnera plus de poids aux documents plus longs qu'aux documents plus courts. Pour éviter cela, nous pouvons utiliser la fréquence (**TF (Term Frequencies)**) ie #count(word)/ #Total words, dans chaque document.  
  
**TF-IDF**: Enfin, nous pouvons même réduire le poids de mots plus courants comme (the,is,an,etc) qui apparaissent dans tous les documents. Ceci est appelé **TF-IDF, c'est-à-dire la fréquence des termes multipliéé par fréquence inverse du document.**   
   
Nous pouvons réaliser les deux en utilisant la ligne de code ci-dessous:


In [9]:
# TF-IFD 
from sklearn.feature_extraction.text import TfidfTransformer

tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)
X_train_tfidf.shape

(11314, 130107)

***Étape 4. Exécution d'algorithmes de ML***  
  
Ilexiste differents algorithmes qui peuvent être utilisés pour la classification de text. Nous allons commencer par le plus simple 'Naive Bayes(NB)'  
   
On peut facilement créer un NBclassifier dans scikit en utilisant ci-dessous 2 lignes de code:

In [10]:
#Machine Learning
# Training Naive Bayes (NB) classifier on traininig data
from sklearn.naive_bayes import MultinomialNB

clf = MultinomialNB()
clf.fit(X_train_tfidf, twenty_train.target)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

Cela formera le classificateur NB sur les données de formation que nous avons fournies.  

**Construire un pipeline:nous pouvons écrire moins de code et faire tout ce  qui précède, en construisant un pipeline comme suit:

In [11]:
# Building a pipeline: We can write less code and do all of the above, by building a pipeline as follows:
# The names ‘vect’ , ‘tfidf’ and ‘clf’ are arbitrary but will be used later.
# We will be using the 'text_clf' going forward.

from sklearn.pipeline import Pipeline

text_clf = Pipeline([('vect', CountVectorizer()),('tfidf', TfidfTransformer()), ('clf', MultinomialNB())])

text_clf = text_clf.fit(twenty_train.data, twenty_train.target)



Les nom "vect", "tfidf" et "clf" sont arbitraires mais seront utilisés plus tard.  
   

**Performance du classificateur NB**: Nous allons maintenant tester les performances du classificateur NB sur **l'ensemble de test**

In [12]:
# Performance of NB Classifier
import numpy as np

twenty_test = fetch_20newsgroups(subset='test', shuffle=True)
predicted = text_clf.predict(twenty_test.data)
np.mean(predicted == twenty_test.target)


0.7738980350504514

La précision que nous obtenons est de **~77.38%**, ce qui n'est pas mal pour le début et pour un classificateur naïf. 
   
***Support Vector Machine(SVM)***:Essayons d'utiliser un autre algorithme SVM, et voyons si nous pouvons obtenir de meilleures performances.   


In [13]:
# Training Support Vector Machines - SVM and calculating its performance

from sklearn.linear_model import SGDClassifier

text_clf_svm = Pipeline([('vect', CountVectorizer()), ('tfidf', TfidfTransformer()), ('clf-svm', SGDClassifier(loss='hinge',
                                                                                                               penalty='l2', alpha=1e-3,
                                                                                                               max_iter=5, random_state=42))])

text_clf_svm = text_clf_svm.fit(twenty_train.data, twenty_train.target)
predicted_svm = text_clf_svm.predict(twenty_test.data)

np.mean(predicted_svm == twenty_test.target)



0.8248805098247477

La précision que nous obtenons est de **~82.38%**. Yipee, un peu mieux  
   
***Étape 5. Recherche de grille***  
Presque tous les classificateurs auront divers paramètres qui peuvent être réglés pour obtenir des performances optimales. Scikit propose un outil extrêmement utile "GridSearchCV"


In [14]:
# Grid SEARCH
# Here, we are creating a list of parameters for which we would like to do performance tuning.  
# All the parameters name start with the classifier name (remember the arbitrary name we gave). 
# E.g. vect_ngram_range; here we are telling to use unigram and bigrams and choose the one which is optimal.  
  
from sklearn.model_selection import GridSearchCV

parameters = {'vect__ngram_range': [(1,1), (1,2)],
              'tfidf__use_idf': (True, False), 'clf__alpha': (1e-2, 1e-3)}


Ici, nous créons une liste de paramètres pour lesquels nous aimerions faire un réglage des performances. Tous les noms de paramètres commencent par le nom du classificateur.  
   
Ensuite, nous créons une instance de la recherche de grille en passant le classificateur, les paramètres et n_jobs=-1 qui indique d'utiliser plusieurs coeurs de la machine utilisateur.  


In [15]:
gs_clf = GridSearchCV(text_clf, parameters, n_jobs=-1)
gs_clf = gs_clf.fit(twenty_train.data, twenty_train.target)



Enfin, pour voir le meilleur score moyen et les paramètres, exécutons le code suivant:

In [16]:
print(gs_clf.best_estimator_)
print(gs_clf.best_params_)

Pipeline(memory=None,
         steps=[('vect',
                 CountVectorizer(analyzer='word', binary=False,
                                 decode_error='strict',
                                 dtype=<class 'numpy.int64'>, encoding='utf-8',
                                 input='content', lowercase=True, max_df=1.0,
                                 max_features=None, min_df=1,
                                 ngram_range=(1, 2), preprocessor=None,
                                 stop_words=None, strip_accents=None,
                                 token_pattern='(?u)\\b\\w\\w+\\b',
                                 tokenizer=None, vocabulary=None)),
                ('tfidf',
                 TfidfTransformer(norm='l2', smooth_idf=True,
                                  sublinear_tf=False, use_idf=True)),
                ('clf',
                 MultinomialNB(alpha=0.001, class_prior=None, fit_prior=True))],
         verbose=False)
{'clf__alpha': 0.001, 'tfidf__use_idf': True, 'v

In [17]:

gs_clf_predicted = gs_clf.predict(twenty_test.data)
np.mean(gs_clf_predicted == twenty_test.target)

0.8361656930430165

La précision a maitenant auguementé à **~84.6% pour le classificateur NB** (plus naïf! Anymore) et les paramètres correspondants sont {'clf__alpha':0.01,'tfidf__use_idf':True,'vect__ngram_range':(1,2)}.   
   
De même, nous obtenons une précision améliorée d'**environ 83.79%** pour le classificateur SVM avec le code ci-dessous. (On peut optimiser davantage le classificateur SVM en réglant d'autres paramètres. 

In [18]:
# Similarly doing grid search for SVM
from sklearn.model_selection import GridSearchCV
parameters_svm = {'vect__ngram_range': [(1, 1), (1, 2)], 'tfidf__use_idf': (True, False),'clf-svm__alpha': (1e-2, 1e-3)}

gs_clf_svm = GridSearchCV(text_clf_svm, parameters_svm, n_jobs=-1)
gs_clf_svm = gs_clf_svm.fit(twenty_train.data, twenty_train.target)


gs_clf_svm.best_score_
gs_clf_svm.best_params_



{'clf-svm__alpha': 0.001, 'tfidf__use_idf': True, 'vect__ngram_range': (1, 2)}

In [None]:
gs_clf_svm_predicted = gs_clf_svm.predict(twenty_test.data)
np.mean(gs_clf_svm_predicted == twenty_test.target)

***Étape 6: Conseils utiles et une touche de NLTK***  
  
1. **Suppression des mots vides** : (le,puis,etc.) des données. Vous ne devez le faire que lorsque les mots vides ne sont pas utiles pour le problème sous-jacent. Dans la plupart des problèmes de classification de text, cela n'est en effet pas utile. Voyons si la suppression des mots vides augumente la précision. Mettez à jour le code de création d'objet de CountVectorizer comme suit:

In [None]:
# NLTK
# Removing stop words
from sklearn.pipeline import Pipeline

text_clf = Pipeline([('vect', CountVectorizer(stop_words='english')), ('tfidf', TfidfTransformer()),
                     ('clf', MultinomialNB())])

C'est le pipeline que nous construisons pour le classificateur NB. Exécutez les étapes restantes comme avant. Cela améliore la précision de 77,38% à 81,69% (c'est trop bon). Vous pouvez essayer la même chose pour SVM et également en effectuant une recherche dans la grille.

Nous avons besoin de NLTK qui est livré avec divers souches qui peuvent aider à réduire les mots à leur forme racine.  
  
Ci-dessous, on a utilisé le "stemmer Snowball" qui fonctionne très bien pour la langue anglaise.

In [None]:
import nltk
nltk.download('stopwords')
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer("english", ignore_stopwords=True)
class StemmedCountVectorizer(CountVectorizer):
    def build_analyzer(self):
        analyzer = super(StemmedCountVectorizer, self).build_analyzer()
        return lambda doc: ([stemmer.stem(w) for w in analyzer(doc)])
stemmed_count_vect = StemmedCountVectorizer(stop_words='english')
text_mnb_stemmed = Pipeline([('vect', stemmed_count_vect),
...                      ('tfidf', TfidfTransformer()),
...                      ('mnb', MultinomialNB(fit_prior=False)),
... ])
text_mnb_stemmed = text_mnb_stemmed.fit(twenty_train.data, twenty_train.target)
predicted_mnb_stemmed = text_mnb_stemmed.predict(twenty_test.data)
np.mean(predicted_mnb_stemmed == twenty_test.target)