# Classification des textes :: Vue d'ensemble

## Objectif 

Nous allons construire un détecteur de spam qui apprend à marquer les nouveaux courriels non vus comme spam ou non spam.

On va montrer au détecteur des **exemples de courriels de spam** (par exemple, signalés par les utilisateurs) et **d'exemples de courriels normaux** (non spam). 

Nous travaillons donc avec un exemple **d'apprentissage supervisé**.

## Données

Nous utiliserons le corpus d'emails publics de [SpamAssassin] (https://spamassassin.apache.org/).   
Cet ensemble de données contient ~6'000 emails étiquetés dont ~30% sont des spams.  
Si vous souhaitez en savoir plus sur cet ensemble de données, consultez [ce lien](https://spamassassin.apache.org/old/publiccorpus/).  
(*Note : les ensembles de données de texte sont appelés corpus et les échantillons sont appelés documents.*) 

L'ensemble de données a été téléchargé pour vous et est disponible dans le dossier *data*.

## Aperçu du Notebook

* **Charger les données**
* **Prétraitement du texte**
* **Exploration des données** 
* **Extraction de caractéristiques** 
* **Construire un détecteur de spam** 
* **Qu'a appris notre modèle ? Analyse des erreurs** 

# Classification des textes  :: Détection de spam


## Charger les données

In [None]:
# Load libraries and helper functions
import tools

In [None]:
# Load the data
df = tools.load_data()

Vérifions le nombre d'échantillons par classe dans les données.

In [None]:
tools.plot_class_frequency(df)

Maintenant, regardons quelques lignes de l'ensemble de données.

**Note** : L'étiquette est 0 pour le non-spam et 1 pour le _spam_.

In [None]:
# If you rerun this cell then you get a different set of samples displayed
df.sample(3)

## Prétraitement du texte

Un bon prétraitement de texte est une partie essentielle de tout projet NLP !

Notre objectif ici est de construire un modèle qui distingue le non-spam du spam.   
L'idée ici est de "nettoyer" et de "normaliser" le texte brut avant de le soumettre à notre modèle d'apprentissage automatique.   
Nous devons conserver autant de mots "informatifs" que possible, tout en éliminant les mots "uniformes". L'élimination du contenu inutile, c'est-à-dire le "bruit", de nos textes contribuera à améliorer la précision de nos modèles.

<div class="alert alert-success">
<h3>Questions</h3>
    
Prenez quelques minutes pour regarder le texte brut.  
    
__Q1.__ Quelles sont, selon vous, les parties du texte qui devraient être supprimées pour le rendre lisible ?
    
__Q2.__ Comment les parties que nous venons d'enlever pour nettoyer le texte, peuvent-elles encore être utiles pour distinguer le spam du non-spam ?
</div>

### Vos réponses

__Q1.__ 
* 
* 
* 
* 
* ...


__Q2.__   

-   
- ... 

La fonction *clean_corpus* ci-dessous prendra en charge les parties soulevées par la Question 1.

Pour les idées de la question 2, nous créerons de nouvelles fonctionnalités et étudierons leurs effets dans la sous-section  **What about "spammish" signatures?**. 

In [None]:
df = tools.clean_corpus(df)

print("Data cleaned")

Voyons quelques exemples "nettoyés".

In [None]:
tools.show_clean_text(df)

## Exploration des données : : Comment les spams se distinguent-ils ?

### Mots fréquents

Quels mots distinguent le spam du non-spam ? Peut-on identifier les mots d'un texte qui sont les plus informatifs sur son sujet ?

Trouvons les 10 mots les plus fréquents dans le spam et le non-spam et comparons-les.

In [None]:
tools.plot_most_common_words(df=df, N=10)

<div class="alert alert-success">
<h3>Questions</h3>
    
Q1.__ Parmi les 10 mots "spammées" les plus fréquents, lesquels sont propres à cette classe ?

Q2.__ Lesquels des 10 mots "non spammées" les plus fréquents sont uniques à cette classe ?
     
Q3.__ Parmi les mots qui apparaissent dans les deux listes, lesquels sont probablement encore utiles pour distinguer les classes ?
    
Q4.__ Lesquels ne le sont probablement pas ?
    
    
</div>

### Vos réponses

__Q1.__ **Les 10 mots "spammées" les plus fréquents**: 

* 
* 

__Q2.__ **Les 10 mots non-"spammées" les plus fréquents**:

* 
* 

__Q3.__ **Présente dans les deux listes mais pourrait être utile pour les distinctions**:

* 
* 


__Q4.__ **Présente dans les deux listes mais peu susceptibles d'être utiles**:

* 
* 


### Exploration 1


<div class="alert alert-success">
    
Changez `N=10` en `N=30` et comparez le résultat.
</div>

In [None]:
tools.plot_most_common_words(df=df, N=10)

### Vos observations

Plus nous utilisons de mots-clés, plus nous obtenons de chevauchements entre les classes.  
Cependant, des mots comme _email_ ou _free_ sont toujours beaucoup plus fréquents dans la classe **spam**. 

### Que peut-on dire des indicateurs ou signatures de "spam" ? ?

* Les spams contiennent-ils plus de balises HTML ? 
* Les non-spams contiennent-ils plus d'URL et d'adresses e-mail ? 
* Les spams sont-ils plus longs que les non-spams ? 
* ...

C'est ce que nous allons découvrir !

In [None]:
features = tools.get_features(df=df)

## Extraction de caractéristiques

Les ordinateurs ne comprennent pas le langage naturel. Alors, comment représenter le texte ?

L'un des modèles les plus simples mais efficaces et couramment utilisés pour représenter le texte pour l'apprentissage automatique est le modèle ***Bag of Words*** ([documentation en ligne](https://en.wikipedia.org/wiki/Bag-of-words_model)). Lorsqu'on utilise ce modèle, on écarte la majeure partie de la structure du texte d'entrée (ordre des mots, chapitres, paragraphes, phrases et mise en forme) et on ne compte que la fréquence d'apparition de chaque mot dans chaque texte. Le fait d'écarter la structure et de ne compter que les occurrences des mots conduit à l'image mentale de la représentation du texte comme un "sac".  

**Exemple:** Soit notre corpus jouet contenant quatre documents.

$ corpus = ['I\;enjoy\;paragliding.',  $  
$\hspace{2cm}'I\;like\;NLP.',$  
$\hspace{2cm}'I\;like\;deep\;learning.',$  
$\hspace{2cm}'O\;Captain!\;my\;Captain!']$ 

In [None]:
tools.show_bag_of_words_vector()

Bag of Words a converti tous les documents en vecteurs numériques. Chaque colonne représente un mot du corpus et chaque ligne un des quatre documents. La valeur dans chaque cellule représente le nombre de fois que ce mot apparaît dans un document spécifique. Par exemple, dans le quatrième document, le mot `capitain` apparaît deux fois et les mots `my` et `O` apparaissent une fois.

## Construisons notre détecteur de spam

(Dans la section précédente, nous avons vu comment effectuer le prétraitement du texte et l'extraction de caractéristiques du texte.)  
Nous sommes maintenant prêts à construire notre modèle d'apprentissage automatique pour détecter les spams.  
Nous allons utiliser un **simple classificateur de régression logistique** ([documentation en ligne](https://en.wikipedia.org/wiki/Logistic_regression)).

Tout d'abord, nous divisons les données en deux ensembles : l'ensemble `train` et l'ensemble `test`. Rappelez-vous:
- Nous utiliserons l'ensemble `train` pour adapter notre modèle.  
- **Notez que nous n'avons pas créé d'ensemble de données de validation**. En fait, nous allons utiliser la **validation croisée (5-fold)**. Ainsi, les ensembles de validation sont **automatiquement créés en interne**.  
- L'ensemble de `test` sera utilisé pour évaluer la performance de notre modèle. 

### Ligne de base

70.3% des échantillons sont des non-spams.   
**Ce modèle de base naïf atteindrait 70+% en faisant très peu.**

### Classification des spams

In [None]:
# Train/test splitting
df_train, df_test = tools.train_test_split_(df)

# Fit model on the train data
model = tools.fit_model(df_train)

# Print predictions on test set
tools.plot_confusion_matrix(df_test, model)

**Confusion matrices**  

Les matrices de confusion sont un bon moyen d'évaluer les performances des modèles de classification.  
Les rangées (rows) correspondent aux vraies classes et les colonnes aux classes prédites.  
Les entrées sur la diagonale principale de la matrice de confusion correspondent aux prédictions correctes tandis que les autres cellules nous indiquent le nombre d'erreurs de notre modèle ([documentation en ligne]((https://en.wikipedia.org/wiki/Confusion_matrix))).

* La première ligne représente les courriers non spam :  
On voit **1'187 ont été correctement classés comme 'non-spam'**,  
tandis que **29 (~2,3%) ont été mal classés comme 'spam'**.
* La deuxième ligne représente les messages de spam :  
On voit **437 ont été correctement classés comme 'spam'**,  
tandis que **13 (~2,8%) ont été mal classés comme 'non-spam'**.

Notre modèle s'est bien comporté !

### Qu'est-ce que notre modèle a appris des données?

Notre modèle de régression logistique a appris **quels mots sont les plus indicatifs** de non-spam et quels mots sont les plus indicatifs de spam.  
* **Les coefficients positifs sur la droite** correspondent aux mots qui, _selon le modèle_, **sont indicatifs de spam**.  
* **Les coefficients négatifs à gauche** correspondent à des mots qui, _selon le modèle_, **sont indicatifs de non-spam**.

In [None]:
tools.visualize_coefficients(model, n_top_features=30)

<div class="alert alert-success">
<h3>Questions</h3>
    
__Q1.__ Selon le modèle, quels mots sont des indicateurs forts de non-spam, respectivement de spam ?  
    
__Q2.__ Se recoupent-ils avec les résultats de notre analyse ?    
</div>

### Vos réponses

Q1.  

Q2. 

### Analyse des erreurs : : Où notre modèle échoue-t-il ?

Nous allons maintenant analyser les courriers mal classés pour mieux comprendre où le modèle n'a pas réussi à faire des prédictions correctes.

In [None]:
tools.error_analysis(df_test, model, doc_nbr=16)

### Exploration 2


<div class="alert alert-success">
    
Let's change the `doc_nbr`.
</div>

In [None]:
tools.error_analysis(df_test, model, doc_nbr=16)