In [1]:
# -*- coding: utf-8 -*-
"""
Created on Tue Nov  6 14:19:21 2018

@author: charl
"""


"""import des données"""
from sklearn.datasets import fetch_20newsgroups
twenty_train = fetch_20newsgroups(subset='train', shuffle=True)


"""Vous pouvez vérifier les noms des catégories cibles grâce à la commande
suivante ou en allant dans l'explorateur de variables
"""
twenty_train['target_names'] # print les catégories de textes


print("\n".join(twenty_train.data[0].split("\n")[:3])) # print la première ligne du premier fichier texte



""" extraction des variables explicatives pour chaque texte, on va compter
les mots présents dans chaque texte grâce à la commande CountVectorizer
"""
from sklearn.feature_extraction.text import CountVectorizer
"""Vous pouvez savoir ce qu'elle fait en entrant dans la console la commande
?CountVectorizer"""
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(twenty_train['data'])
X_train_counts.shape

"""Produire les TF-IDF pour les termes dans chaque document"""
from sklearn.feature_extraction.text import TfidfTransformer
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)
X_train_tfidf.shape

"""Modélisation"""
"""Modèle naive bayes pour classer les textes par catégorie"""
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB().fit(X_train_tfidf, twenty_train['target'])

"""On peut s'économiser l'écriture de quelques lignes de code en
créant ce qu'on appelle un pipeline :
    -les noms 'vect' 'tfidf' 'clf' sont arbitraires mais seront utilisés
    par la suite
    -on utilisera le text_clf pour définir la pipeline"""
from sklearn.pipeline import Pipeline

text_clf = Pipeline([('vect', CountVectorizer()), ('tfidf', TfidfTransformer()), ('clf', MultinomialNB())])

text_clf = text_clf.fit(twenty_train['data'], twenty_train['target'])


"""Performances du naive bayes"""
import numpy as np
twenty_test = fetch_20newsgroups(subset='test', shuffle=True)
predicted = text_clf.predict(twenty_test['data'])
test_CV =count_vect.transform( twenty_test['data'])
test_tfidf= tfidf_transformer.transform(test_CV)
predicted = clf.predict(test_tfidf)
np.mean(predicted == twenty_test['target'])


"""Utilisation des support vector machines pour prédire la catégorie de texte"""
from sklearn.linear_model import SGDClassifier
text_clf_svm = Pipeline([('vect', CountVectorizer()), ('tfidf', TfidfTransformer()),
                         ('clf-svm', SGDClassifier(loss='hinge', penalty='l2',alpha=1e-3, n_iter=5, random_state=42))])

text_clf_svm = text_clf_svm.fit(twenty_train['data'], twenty_train['target'])
predicted_svm = text_clf_svm.predict(twenty_test['data'])
np.mean(predicted_svm == twenty_test['target'])


"""Grid search"""
"""Ici on créée une liste de paramètres qu'on souhaiterait optimiser
tous les noms des paramètres commencent par le nom du modèle utilisé
par exemple : vect__ngram_range, ici on dit au modèle d'utiliser les
unigrammes et les bigrammes et choisir ce qui fonctionne le mieux
"""
from sklearn.model_selection import GridSearchCV
parameters = {'vect__ngram_range': [(1, 1), (1, 2)], 'tfidf__use_idf': (True, False), 'clf__alpha': (1e-2, 1e-3)}

"""Ensuite on créée une istance de la gridsearch en entrant le modèle
choisi, les paramètres et l'instruction n_jobs=-1 qui indique à python
d'utiliser les différents processeurs de l'ordinateur pour réaliser
la grid search"""

gs_clf = GridSearchCV(text_clf, parameters, n_jobs=-1)
gs_clf = gs_clf.fit(twenty_train['data'], twenty_train['target'])

"""On utilise les commandes suivantes afin d'afficher les scores
du modèles en fonction des modèles choisis"""

gs_clf.best_score_
gs_clf.best_params_
gs_clf.best_estimator_.score(twenty_test['data'], twenty_test['target'])

"""La sortie produite par les commandes ci-dessus devraient être :
    The accuracy has now increased to ~90.6% for the NB classifier
    and the corresponding parameters are {‘clf__alpha’: 0.01, ‘tfidf__use_idf’: True, ‘vect__ngram_range’: (1, 2)}."""


"""On réalise la même grid search pour les SVM"""
from sklearn.model_selection import GridSearchCV
parameters_svm = {'vect__ngram_range': [(1, 1), (1, 2)], 'tfidf__use_idf': (True, False),'clf-svm__alpha': (1e-2, 1e-3)}

gs_clf_svm = GridSearchCV(text_clf_svm, parameters_svm, n_jobs=-1)
gs_clf_svm = gs_clf_svm.fit(twenty_train['data'], twenty_train['target'])


gs_clf_svm.best_score_
gs_clf_svm.best_params_
gs_clf_svm.best_estimator_.score(twenty_test['data'], twenty_test['target'])

"""On passe à de la modélisation à l'aide du package NLTK spécialisé
dans le NLP"""
from sklearn.pipeline import Pipeline
text_clf = Pipeline([('vect', CountVectorizer(stop_words='english')), ('tfidf', TfidfTransformer()), 
                     ('clf', MultinomialNB())])


"""On réalise un stemming des mots dans les textes, c'est à dire qu'on les 
remplace par leur racine"""
import nltk
nltk.download()

from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer("english", ignore_stopwords=True)

class StemmedCountVectorizer(CountVectorizer):
    def build_analyzer(self):
        analyzer = super(StemmedCountVectorizer, self).build_analyzer()
        return lambda doc: ([stemmer.stem(w) for w in analyzer(doc)])
    
stemmed_count_vect = StemmedCountVectorizer(stop_words='english')

text_mnb_stemmed = Pipeline([('vect', stemmed_count_vect), ('tfidf', TfidfTransformer()), 
                             ('mnb', MultinomialNB(fit_prior=False))])

text_mnb_stemmed = text_mnb_stemmed.fit(twenty_train['data'], twenty_train['target'])

predicted_mnb_stemmed = text_mnb_stemmed.predict(twenty_test['data'])

np.mean(predicted_mnb_stemmed == twenty_test['target'])

Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)


From: lerxst@wam.umd.edu (where's my thing)
Subject: WHAT car is this!?
Nntp-Posting-Host: rac3.wam.umd.edu


TypeError: __init__() got an unexpected keyword argument 'n_iter'