# [**Analysez vos données textuelles**](https://openclassrooms.com/fr/courses/4470541-analysez-vos-donnees-textuelles)

* **ID** : 4470541
* **Grade** : OC DS P6
* **Durée** : 8 heures
* **Difficulté** : Moyenne
* **Séquence** : 3 + 4 + 4

# Introduction

Bienvenue dans ce cours de traitement du langage naturel. L’objectif de ce cours est de comprendre les méthodes qui permettent de **transformer le texte** en caractéristiques exploitables par des algorithmes de machine learning, et les architectures et modèles qui correspondent le mieux à ce type de données. En l’occurence un ensemble de documents texte **non-structurés**.

Ce cours est divisé en 3 parties : une première qui traite de l'exploration, du **nettoyage et de la normalisation du texte**. Une seconde partie dédiée aux **différents types de transformations** qui vont vous permettre de mieux comprendre vos données textuelles et de **créer des caractéristiques** que vous pourrez utiliser dans vos algorithmes de machine learning. La dernière partie sera consacrée à la **classification du texte** à l'aide de l'apprentissage automatique sous forme de **réseau de neurones**.

## Objectifs pédagogiques

* Effectuer un pré-traitement de corpus de texte
* Maîtriser les techniques de bag-of-words et de plongements de mots (word embeddings)
* Modéliser des sujets de manière non-supervisée (LDA, etc.)
* Classer des corpus de texte avec des méthodes supervisées (réseaux de neurones)

## Prérequis

Ce cours se situe au croisement des mathématiques et de l'informatique. Pour en profiter pleinement, n'hésitez pas à vous rafraîchir la mémoire, avant ou pendant le cours, sur :

* [**Python pour le calcul numérique (numpy) et la création de graphiques (pyplot)**](https://openclassrooms.com/fr/courses/7771531-decouvrez-les-librairies-python-pour-la-data-science?archived-source=4452741), que nous utiliserons dans les parties TP du cours,
* Quelques notions d'**algèbre linéaire** : manipulation de vecteurs, multiplications de matrices, normes, et valeurs/vecteurs propres,
* Quelques notions de **probabilités** et de **statistiques**, telles que distribution de loi de probabilité et variance,
* Les [**modèles non-supervisées**](https://openclassrooms.com/fr/courses/4379436-explorez-vos-donnees-avec-des-algorithmes-non-supervises) permettront de modéliser des caractéristiques automatiquement à partir du texte
* Les [**modèles supervisées non-linéaires**](https://openclassrooms.com/fr/courses/4470406-utilisez-des-modeles-supervises-non-lineaires) sont indispensables au traitement du texte, notamment les réseaux de neurones séquentiels

## Plan

* Partie 1 - Prétraitez des données textuelles
    * 1. Récupérez et explorez le corpus de textes
    * 2. Nettoyez et normalisez les données
    * 3. TP - Faites vos premiers pas dans l'analyse de données textuelles
* Partie 2 - Transformez des données textuelles
    * 1. Représentez votre corpus en "bag of words"
    * 2. Effectuez des plongements de mots (word embeddings)
    * 3. Modélisez des sujets avec des méthodes non supervisées
    * Quiz : Partie 2
* Partie 3 - Détectez automatiquement les sentiments de commentaires clients
    * 1. Opérez une première classification naïve de sentiments
    * 2. Allez plus loin dans la classification de mots
    * 3. Traitez le corpus de textes à l'aide de réseaux de neurones
    * 4. Entraînez-vous à classifier du texte



#  1.1. Récupérez et explorez le corpus de textes

La première étape du traitement des données est de récupérer le corpus de textes, de faire une analyse exploratoire afin de bien comprendre les spécificités du jeu de données, et de nettoyer les données afin de pouvoir les utiliser ultérieurement dans vos algorithmes.

Mais avant de nous plonger dans le vif du sujet, introduisons quelques notions.

Il est important de bien identifier 4 termes incontournables : 

* le **corpus** : un ensemble de documents (des textes dans notre cas), regroupés dans une optique ou dans une thématique précise. 
* un **document** : la notion de document fait référence à un texte appartenant au corpus, mais indépendant des autres textes. Il peut être constitué d'une ou plusieurs phrases, un ou plusieurs paragraphes.
* un **jeton (token)** : le terme token désigne généralement un mot et/ou un élément de ponctuation. La phrase "Hello World!" comprend donc 3 tokens. 
* le **vocabulaire** : il s'agit de l'ensemble des tokens distincts présents dans l'ensemble du corpus.

Si la notion de token ou de vocabulaire est relativement invariante en fonction des jeux de données, le corpus et les documents peuvent avoir des formes très variées :

un fichier excel ou csv avec une liste de produits. Ici, la colonne 'description' est notre corpus, chaque cellule  de la colonne 'description' constitue un document:

<figure id="r-7906592" data-claire-element-id="33104169"><img id="r-7906590" data-claire-element-id="33104167" src="https://user.oc-static.com/upload/2022/06/27/16563236580116_example_csv.jpg" alt="chaque ligne de la colonne description est un document" /><figcaption>un fichier csv</figcaption></figure>

un dossier avec différents fichiers. Chaque fichier est un document et l'ensemble des fichiers constitue le corpus : 

<figure id="r-7906596" data-claire-element-id="33104174"><img id="r-7906594" data-claire-element-id="33104172" src="https://user.oc-static.com/upload/2022/06/27/16563235098743_contrats.jpg" alt="chaque fichier est un document" /><figcaption>une liste de fichiers dans un dossier</figcaption></figure>

plusieurs pages web, au format html. Il faudra d'abord télécharger depuis le web les fichiers html, à la main ou de façon automatisée (on parle alors de 'scraping') :

<figure id="r-7906601" data-claire-element-id="33104179"><img id="r-7906599" data-claire-element-id="33104177" src="https://user.oc-static.com/upload/2022/06/27/16563245092815_wiki.jpg" alt="on utilisera les données du fichier html" /><figcaption>exemple de page wikipedia</figcaption></figure>

Dans le cadre d'un fichier html, il faudra transformer le document afin d'extraire l'information textuelle. Nous verrons cela un plus tard dans le cours.

⚠  Pour les documents .txt, .doc, .csv, .xls, cela semble facile, mais comment faire pour les documents **.pdf** ?

Transformer les documents .pdf en .txt n'est pas une chose facile. Ce traitement spécifique à un nom, cela s'appelle **OCR** :  Optical Character Recognition. 

Heureusement, il existe de nombreux packages disponibles, comme par exemple [**Tesseract**](https://github.com/madmaze/pytesseract). Rassurez vous, nous ne couvrirons pas cette problématique en détail, mais gardez en tête qu'elle existe.

Nous pouvons maintenant aborder le pré-traitement du texte  en plusieurs étapes  :
1. La récupération du **corpus**, ansi qu'un premier **traitement** de ce dernier pour avoir des données textuelles exploitables (au format string).
2. La **tokenization**, qui désigne le découpage en mots des différents documents qui constituent votre corpus.
3. La **normalisation** et la construction du dictionnaire qui permet de ne pas prendre en compte des détails importants au niveau local (ponctuation, majuscules, conjugaison, etc.)

<figure id="r-4867873" data-claire-element-id="33104195"><img id="r-4867871" data-claire-element-id="8982571" src="https://lh5.googleusercontent.com/UmUtjHcacRCRs_Ba42Io7ZmU3xtcZ2xnuLn6ohZA5z7ZDU20Xzocm1t7sk5_UXS98vSSkcSKYlvQqIaiEOepKpOGqYkr4z1liJZbCCj-bZXmdTrcAWdUFqor_twdFJMywyKNuYDA" alt="Le cycle de traitement d'un corpus de texte" /><figcaption>Le cycle de traitement d'un corpus de texte</figcaption></figure>

J'en conviens, la partie nettoyage n'est pas la plus intéressante, mais elle est essentielle. Pour rendre la chose plus attrayante, je vais réaliser une étude partiale et partielle des artistes français de rap et leur vocabulaire propre.

🛈 Tout au long de ce chapitre, nous allons utiliser la librairie de traitement de langage [**NLTK**](https://www.nltk.org/) ainsi que les librairies classiques pandas, numpy et scikit.

Cette Librairie, bien qu'ancienne est connue et reconnue pour sa simplicité d'utilisation et sa grande polyvalence.

Vous êtes bien entendu libres d'utiliser des librairies plus modernes mais parfois plus complexes. La librairie [**spacy**](https://spacy.io/) en est un bon exemple.

## Récupération du corpus de texte

La première étape est la récupération du texte. Il existe plusieurs manières de récupérer du texte : soit depuis une base de donnée que vous possédez, soit depuis des fichiers XML ou autres que vous possédez, soit en scrapant des pages comme le font les moteurs de recherches, en utilisant une API.

Nous ne traiterons pas cette partie, qui est relativement laborieuse et techniquement peu intéressante. Il existe diverses manières de scraper du texte comme à l'aide des librairies [**scrapy**](https://scrapy.org/) ou [**beautifulsoup**](https://beautiful-soup-4.readthedocs.io/en/latest/).

Dans mon cas, j'ai scrapé la page wikipédia qui propose une liste des rappeurs français. J'ai ensuite récupéré les paroles des différentes chansons de ces rappeurs sur le site Genius, toujours en scrapant. Je ne suis malheureusement pas autorisé à vous fournir ce jeu de données, libre à vous d'effectuer la même démarche. Vous pouvez aussi utiliser un jeu de données présent par défaut dans la librairie NLTK.

⚠  Attention au format d'encodage de vos fichiers texte qui peuvent mener à des erreurs faciles à éviter. On favorisera sur ce cours l'**UTF-8** (encodage universel) très utilisé et qui permet l'usage des accents.

Le texte que vous utilisez, que l'on appelle « corpus », peut être organisé de plusieurs manière différentes :

<figure id="r-4867909" data-claire-element-id="33104206"><img id="r-4867907" data-claire-element-id="8982643" src="https://lh3.googleusercontent.com/AuaUziLNkLIyzqcnegyKz38ITKzmq0VNBgHHvddY2zUyo1hM5oVS5vs_AsYv9kNtz5cY1p2cZCVTQI34O_i64MhSEZgOnoIN0kgI4PMXnB47ZsLdX_yIFbPrKOYa4pEd0UyWx_zk" alt="Les différents types de structuration du texte" /><figcaption>Les différents types de structuration du texte</figcaption></figure>

Chargeons donc les données, dans un dictionnaire python, ce que je fais avec la fonction   `load_all_sentences` que j'ai créée pour mon exemple.

In [8]:
db = load_all_sentences()
print('chargement de {} vers dans la db'.format(len(db.keys())))

NameError: name 'load_all_sentences' is not defined

Mon dictionnaire est simplement constitué d'objets de la forme { vers, artiste }

Je crée aussi une table de recherche par artiste car on va s'intéresser à ce qui les différencie et les caractérise. De plus, je veux avoir assez de texte pour chaque artiste donc je vais éliminer ceux qui ont écrit moins de 200 vers.

In [None]:
from collections import defaultdict
base_artistes = defaultdict(set)
for k,v in db.iteritems():
    base_artistes[v['artistes']].add(k)
artistes = { k:v for k,v in base_artistes.iteritems() if len(v) > 200 }
print('{} artistes'.format(len(artistes)))

## Exploration du texte : tokenisation et analyse des fréquences

On veut dans un premier temps étudier le vocabulaire utilisé par chaque artiste. Pour une première intuition, il est judicieux d'observer le nombre de mots utilisés.

On va utiliser la fonction [**`word_tokenize`**](https://www.nltk.org/api/nltk.tokenize.html) (« tokenize » signifie « séparer par mot ») qui va décomposer les vers en tableaux de mots afin de pouvoir effectuer des opérations dessus. Observons déjà son comportement sur un bout de texte simple :

In [5]:
#!pip install nltk
import nltk
# nltk.download('punkt')
test = "Bonjour, je suis un texte d'exemple pour le cours d'Openclassrooms. Soyez attentifs à ce cours !"

nltk.word_tokenize(test)

['Bonjour',
 ',',
 'je',
 'suis',
 'un',
 'texte',
 "d'exemple",
 'pour',
 'le',
 'cours',
 "d'Openclassrooms",
 '.',
 'Soyez',
 'attentifs',
 'à',
 'ce',
 'cours',
 '!']

On a bien une séparation par mot. Petit problème en revanche, la ponctuation est conservée comme étant un "token" ! Il faut donc trouver un moyen d'éliminer cette ponctuation, car ce sont les mots qui nous intéressent comme caractéristiques . On remarque aussi qu'il y a un problème sur les apostrophes considérés comme faisant partie du mot. Ainsi "d'exemple" devrait être séparé en "de" et "exemple". Un autre problème, c'est que certains mots on des majuscules car ils apparaissent en début de phrases ou de vers, alors que ce sont les mêmes mots.

Ca parait tout d'un coup un peu compliqué à mettre en place, n'est-ce pas ? 😏

🛈 Les accents sont affichés encodés mais ce n'est pas très grave, on peut revenir à un affichage normal si on le souhaite.

Il est vraiment important de regarder les options sur ce genre de fonctions qui englobent plusieurs actions sur votre corpus afin d'être bien sûr qu'elles effectuent ce que vous voulez.

Le fait d'essayer d'harmoniser les tokens est un processus nommé « **normalisation** ». Bon, on va déjà utiliser les bonne vieilles expressions régulières pour ne récupérer que les caractères alphanumériques de chaque phrase. Vous trouverez à [cette adresse](https://www.debuggex.com/cheatsheet/regex/python) un rappel utile sur les expressions régulières.

Ensuite, on va utiliser un tokenizer specifique au français ce qui permet de traiter la ponctuation de la bonne manière. On élimine aussi les majuscules peu informatives, avec la fonction « lower ».

In [6]:
tokenizer = nltk.RegexpTokenizer(r'\w+')
tokenizer.tokenize("Bonjour, je suis un texte d'exemple pour le cours d'Openclassrooms. Soyez attentifs à ce cours !")

['Bonjour',
 'je',
 'suis',
 'un',
 'texte',
 'd',
 'exemple',
 'pour',
 'le',
 'cours',
 'd',
 'Openclassrooms',
 'Soyez',
 'attentifs',
 'à',
 'ce',
 'cours']

Ah, ça commence à être mieux ! Maintenant qu'on a bien séparé notre texte en unité de mots (tokens) on peut l'appliquer au jeu de données qui nous intéresse, et compter la fréquence d'apparition des différents mots pour avoir une idée du champ lexical. On effectue ce comptage par artiste pour comparer.

In [7]:
import pandas as pd
tokenizer = nltk.RegexpTokenizer(r'\w+')

def freq_stats_corpora():
    corpora = defaultdict(list)

    # Création d'un corpus de tokens par artiste
    for artiste, sentence_ids in artistes.iteritems():
        for sentence_id in sentence_ids:
            corpora[artiste] += tokenizer.tokenize(
                                    db[sentence_id]['text'].decode('utf-8').lower()
                                )

    stats, freq = dict(), dict()

    for k, v in corpora.iteritems():
        freq[k] = fq = nltk.FreqDist(v)
        stats[k] = {'total': len(v)} 
        
    return (freq, stats, corpora)

# Récupération des comptages
freq, stats, corpora = freq_stats_corpora()
df = pd.DataFrame.from_dict(stats, orient='index')

# Affichage des fréquences
df.sort(columns='total', ascending=False)
df.plot(kind='bar', color="#f56900", title='Top 50 Rappeurs par nombre de mots')

NameError: name 'defaultdict' is not defined

<figure id="r-4867916" data-claire-element-id="33104209"><img id="r-4867914" data-claire-element-id="8982657" src="https://lh6.googleusercontent.com/PLxZshHniJeQHJirRxYYDFoIcdIFLtVs2dJx8JQannUb4rYy7EK5mKe_so51Jmg90h-BwUSO8TrRNK9jyPdmqg97wqY-5uNpCipVS4d7MWdxhScu1-4lJ_OLMbUGZzDwtakqKx4I" alt="Première tokenisation du corpus" /><figcaption>Première tokenisation du corpus </figcaption></figure>


**Nous voyons ici quel artiste a écrit le plus de texte et de chansons.** C'est intéressant, mais qu'en est-il de la variété du champ lexical utilisé, c'est à dire le nombre de mots uniques utilisés par chaque artistes dans leurs chansons ? Nous souhaitons en effet savoir qui a le vocabulaire le plus riche !😀

Pour le savoir, nous devons représenter un document (ou ici, un artiste) par ce qu'on appelle un **bag-of-words**.

Modifions donc notre fonction `freq_stats_corpora` pour faire le comptage du vocabulaire unique.

In [None]:
def freq_stats_corpora():
    corpora = defaultdict(list)
    for artiste,sentence_ids in artistes.iteritems():
        for sentence_id in sentence_ids:
            corpora[artiste] += tokenizer.tokenize(
                                    db[sentence_id]['text'].decode('utf-8').lower()
                                )
        
    stats, freq = dict(), dict()

    for k, v in corpora.iteritems():
        freq[k] = fq = nltk.FreqDist(v)
        stats[k] = {'total': len(v), 'unique': len(fq.keys())}

    return (freq, stats, corpora)

Affichons à nouveau nos comptages :

<img id="r-4867949" data-claire-element-id="8982808" src="https://lh5.googleusercontent.com/z1_GN_SjfpGmYi2ApJgW_-Som9c6gB_s3ICts86mQm-S9QWfyCFlt5P_H7Q-IDs0-otR_ULVz5-yU0C30krRuMPAstmiqRJvQ9CfoviYWLkg5188r5_txrOrP7ErkhvxW46XNl4J" alt="" />

Mais ça ne se terminera donc jamais ?! 😢

Pour faciliter des choses, nous décomposons les différentes étapes. À force d'utiliser des corpus de textes, vous saurez les traiter de manière un peu plus automatique en fonction de votre problématique.

Ceci-dit, le prétraitement du texte est une première étape importante et il faut vraiment observer le contenu de votre corpus après transformation pour être sûr que les données correspondent à ce que vous désirez, en vue des traitements ultérieurs.

## Conclusion

Vous possédez à présent une première idée des étapes qui constituent le prétraitement du texte : récupération du corpus, tokenisation et première visualisation des différentes fréquences.

## Mouais..

Le code publié n'a pas été testé.

Tutos, bouquins sérieux pour apprendre à utiliser NLTK:
* https://realpython.com/nltk-nlp-python/
* https://www.nltk.org/book/
* https://riptutorial.com/nltk

# 1.2. Nettoyez et normalisez les données

Après la tokenization, voyons comment nettoyer et normaliser notre corpus afin d'obtenir une matrice de vocabulaire et un dictionnaire représentatifs de nos documents.

## Première passe de nettoyage : supprimer les stopwords (en français, les mots vides)

La première manipulation souvent effectuée dans le traitement du texte est la suppression de ce qu'on appelle en anglais les *stopwords*. Ce sont les mots très courants dans la langue étudiée ("et", "à", "le"... en français) qui **n'apportent pas de valeur informative** pour la compréhension du "sens" d'un document et corpus. Il sont très fréquents et ralentissent notre travail : nous souhaitons donc les supprimer.

Il existe dans la librairie NLTK une liste par défaut des stopwords dans plusieurs langues, notamment le français. Mais nous allons faire ceci d'une autre manière : on va supprimer les mots les plus fréquents du corpus et considérer qu'il font partie du vocabulaire commun et n'apportent aucune information. Ensuite on supprimera aussi les stopwords fournis par NLTK.

Allez, on s'en débarasse !

In [None]:
# Premièrement, on récupère la fréquence totale de chaque mot
# sur tout le corpus d'artistes
freq_totale = nltk.Counter()
for k, v in corpora.iteritems():
    freq_totale += freq[k]

# Deuxièmement on décide manière un peu arbitraire du nombre de mots
# les plus fréquents à supprimer.
# On pourrait afficher un graphe d'évolution du nombre de mots pour
# se rendre compte et avoir une meilleure heuristique. 
most_freq = zip(*freq2.most_common(100))[0]

# On créé notre set de stopwords final qui cumule ainsi les 100 mots
# les plus fréquents du corpus ainsi que l'ensemble de stopwords
# par défaut présent dans la librairie NLTK
sw = set()
sw.update(stopwords)
sw.update(tuple(nltk.corpus.stopwords.words('french')))


Nous avons maintenant le nombre de mots uniques non *stopwords* utilisés par les artistes. Pour rappel, on souhaite comprendre la variété lexicale des rappeurs choisis. Il est donc logique de supprimer les mots les plus utilisés, ce qui signifie par extension qu'ils ne sont pas porteurs de sens.

On réeffectue notre tokenisation en ignorant les *stopwords* et on affiche ainsi notre nouveau histogramme des fréquences duquel on a supprimé les stopwords.

In [None]:
def freq_stats_corpora2(lookup_table=[]):
    corpora = defaultdict(list)
    for artist, block_ids in lt_artists.iteritems():
        for block_id in block_ids:
            tokens = tokenizer.tokenize(db_flat[block_id]['text'].decode('utf-8'))
            corpora[artist] += [w for w in tokens if not w in list(sw)]

    stats, freq = dict(), dict()

    for k, v in corpora.iteritems():
        freq[k] = fq = nltk.FreqDist(v)
        stats[k] = {'total': len(v), 'unique': len(fq.keys())}
    return (freq, stats, corpora)

freq2, stats2, corpora2 = freq_stats_corpora2()

<img id="r-4867956" data-claire-element-id="8982841" src="https://lh6.googleusercontent.com/HaChBwQxXRmQ-s3X_DDUBkK-meICT_crs7Q970w6ooy-YmiIgZ_gMA04gwUHCZ1UZsDBEwDUp69vnN5phwd0s63UvY-uWh0DI9Iww0nhf_bLQ0o0K6xXQt-u2UqAXUyqpQETqPlY" alt="" />

Il y a bien un changement dans le classement, maintenant qu'on a enlevé les mots les plus communs, si vous comparez au classement du chapitre précédent.

🛈 J'effectue ce classement à titre d'exercice. Il existe de nombreux autres de critères (taille du répertoire, durée de la carrière, etc.) qui ne sont pas pris en compte.

## Deuxième passe : lemmatisation ou racinisation (stemming)

Plus qu'une dernière étape et vous en aurez terminé avec le prétraitement !

Le processus de « lemmatisation » consiste à représenter les mots (ou « lemmes » 😉) sous leur forme canonique. Par exemple pour un verbe, ce sera son infinitif. Pour un nom, son masculin singulier. L'idée étant encore une fois de ne **conserver que le sens des mots** utilisés dans le corpus.

Si l'on reprend notre exemple précédent, "Bonjour, je suis un texte d'exemple pour le cours d'Openclassrooms. Soyez attentifs à ce cours !"

L'idéal serait d'extraire les lemmes suivants : « bonjour, être, texte, exemple, cours, openclassrooms, être, attentif, cours ». Dans le processus de lemmatisation, on transforme donc « suis » en « être»  et « attentifs » en « attentif ».

Dans notre cas, je voulais étudier la richesse du vocabulaire des artistes. C'est donc mieux de compter le nombre d'occurrences du verbe être plutôt que de compter séparément chaque usage de conjugaison de ce même verbe. De même pour les pluriels etc. On estime que c'est plus représentatif, j'espère que vous êtes d'accord ! 😏

Il existe un autre processus qui exerce une fonction similaire qui s'appelle la **racinisation** (ou *stemming* en anglais). Cela consiste à ne conserver que la racine des mots étudiés. L'idée étant de supprimer les suffixes, préfixes et autres des mots afin de ne conserver que leur origine. C'est un procédé plus simple que la lemmatisation et plus rapide à effectuer puisqu'on tronque les mots essentiellement contrairement à la lemmatisation qui nécessite d'utiliser un dictionnaire.

Dans notre cas, on va effectuer une racinisation parce qu'il n'existe pas de fonction de lemmatisation de corpus français dans NLTK 😶 Je suis d'accord que ce serait encore mieux.

In [None]:
from nltk.stem.snowball import FrenchStemmer

stemmer = FrenchStemmer()

def freq_stats_corpora3(lookup_table=[]):
    corpora = defaultdict(list)
    for artist, block_ids in lt_artists.iteritems():
        for block_id in block_ids:
            tokens = tokenizer.tokenize(db_flat[block_id]['text'].decode('utf-8').lower())
            corpora[artist] += [stemmer.stem(w) for w in tokens if not w in list(sw)]

    stats, freq = dict(), dict()

    for k, v in corpora.iteritems():
        freq[k] = fq = nltk.FreqDist(v)
        stats[k] = {'total': len(v), 'unique': len(fq.keys())}
    return (freq, stats, corpora)

freq3, stats3, corpora3 = freq_stats_corpora3()
df3 = pd.DataFrame.from_dict(stats3, orient='index').sort(columns='unique', ascending=False)

<img id="r-4867961" data-claire-element-id="8982852" src="https://lh3.googleusercontent.com/an1lAMmPNmo9QcJk5AHs5bztDOGW6d4j2cUbfKu9u-k1LQoe7tmlefdiuUax_rxyDtSaUtGLsNcEgzFfWQRA-ZVPr0i-wjHQtZTfDxEbqlX0QX6JS5zM8PTHebQ8fyv6FICD4ng0" alt="" />

On a ici utilisé des étapes de nettoyage classique de texte mais en réalité, il est parfois utile de conserver le texte brut quand on est pas dans une recherche du sens d'un document mais de phrases dans leur ensemble puisqu'on cherche le lien entre les différents mots. On aura un aperçu de cet aspect dans les prochains chapitres.

## Conclusion

Vous avez effectué quelques étapes essentielles du prétraitement du texte : tokenisation, suppression des stop-words, lemmatisation et stemming. Nous pouvons maintenant passer à la création de notre ensemble de features représentatives de notre corpus de texte. C'est le sujet de la prochaine partie ! Suivez-moi.

# 1.3. TP - Faites vos premiers pas dans l'analyse de données textuelles

Vidéo d'introduction (2:49) : https://vimeo.com/746902007

## Contexte

Pour ce premier TP, nous allons travailler sur un jeu de données simple mais très intéressant. Il s’agit d’un corpus de tweets, pour lesquels il s'agit de prédire s’ils font référence à une “catastrophe” ou non.

Il s’agit d’une compétition Kaggle. Pour ceux qui ne connaissent pas encore Kaggle, c’est LA plateforme web orientée Data Science. Elle héberge des datasets, des notebooks et des compétitions. C’est aussi un réseau social, sur lequel vous pouvez notamment publier vos notebooks.

Le jeu de données peut être trouvé [à cette adresse](https://www.kaggle.com/competitions/nlp-getting-started/data).

🛈 Nous travaillerons uniquement sur le jeu de données de **train**. 

La colonne “**target**” fait référence à la nature du tweet : “catastrophe” = 1, “pas catastrophe” = 0.

## Consignes

Le TP se décompose en 2 parties :

1 - **Exploratory Data Analysis** : il vous est demandé de faire un premier notebook afin de **comprendre, d’explorer et d’effectuer un premier nettoyage** des données. Vous devez notamment être capable de répondre aux questions suivantes : 
* Quelle est la forme du Dataframe ? 
* Y a t-il des valeurs manquantes ou des valeurs dupliquées ? 
* Quelles sont les colonnes qui vont nous intéresser ? 
* Y a-t-il des données aberrantes ou des incohérences majeures dans les données ? 
* Y a t-il des tweets anormalement longs / courts ? Peut-on les considérer comme des outliers ? 
* Quel est le ratio tweet qui parlent de “catastrophes” / tweet normaux ?
* En regardant quelques tweets au hasard, peut-on deviner facilement la “target” ? 
* Peut-on déjà détecter des “patterns” ou des mots clés dans les tweets?
* A votre avis quel serait l’accuracy score qu’un humain pourrait obtenir s’il prédisait  les données “à la main” ?

🛈 Le temps indicatif proposé pour ce travail est de 30 min à 1 heure. 

2 - **Text Processing** : Il vous est demandé d’effectuer un premier traitement des données textuelles (colonne ‘text’). Il s’agira de transformer les données textuelles en **tokens** et de **réduire la dimensionnalité du corpus** en réduisant le vocabulaire (le nombre de tokens différents). L’enjeu est complexe, il en faut ni trop, ni trop peu… Pour vous aider dans ce travail, essayez de répondre aux questions suivantes : 

* Pouvez-vous écrire une fonction qui : tokenize un document, supprime les stopwords, supprime les tokens de moins de 3 lettres ?
* Comment peut-on reconstituer le corpus (c'est-à dire un texte avec l’ensemble des documents) ? 
* Une fois ce corpus constitué, combien de tokens uniques le constitue? Ce nombre vous apparaît-il faible, important, gigantesque ?
* Comment réduire ce nombre de tokens uniques, ou autrement dit “comment réduire la taille du vocabulaire” de ce corpus ? 
* Combien de tokens sont présents une seule fois ? Ces tokens nous seront-ils utiles ? 
* Appliquer une méthode de stemmatisation ou de lemmatisation peut-elle nous aider à réduire la dimensionnalité du corpus ? 
* Comment visualiser graphiquement, par un WordCloud par exemple, les tokens les plus présents ? 
* Pouvez vous appliquer tous les traitements évoqués afin de créer une nouvelle colonne “text” qui serait plus pertinente ? 

🛈 Le temps indicatif proposé pour ce travail est très variable. Il dépend notamment de votre connaissance du sujet mais aussi et surtout de votre degré d'exigence. Certains pourront y passer 2 ou 4h, d'autres une journée entière. Si vous vous sentez bloqués, perdus, ou vous ne savez pas conclure le travail, pas de soucis! Les vidéos ci dessous sont là pour ça.

⚠ Avant de visionner les vidéos ci dessous, assurez vous d'avoir essayé de faire le travail par vous même ! En effet, c'est durant cette phase que vous apprendrez le plus.

Pour l'EDA : https://vimeo.com/746901784 (32:02)

penser à utiliser davantage seaborn + à faire des sauvegardes de mes résultats intermédiaires.


Pour le Text Processing : https://vimeo.com/746902006 (43:06)

libs à connaître :
* wordcloud, pillow : graphismes
* pandarallel : exécution multi-cpu

## Aller plus loin :

Nous n’avons volontairement pas évoqué dans le cadre de ce TP plusieurs sujets. Nous vous laissons le soin de poursuivre librement les pistes évoquées ci dessous :

* Nous avons choisi de ne garder que les “mots” au sens grammatical du terme. Mais est-ce bien judicieux ? En effet, l’utilisation d’un **emoji** ou de certains **caractères de ponctuation** peut être très impactant. Par exemple:  “ terrorist attack downtown !!! 😱😱😱”
* Nous avons choisi de transformer les documents avec la méthode .lower(). Mais est-ce bien judicieux ? En effet, les **lettres capitales** sont peut-être plus utilisées dans des textes ayant un impact fort. Par exemple : OMG, THE BUILDING IS BURNING !!! 
* Nous n’avons pas évoqué la notion de **bi-gramme** ou de **tri-gramme** (groupe de 2 ou 3 mots se faisant suite). Existe-t-il des bi ou tri-grammes qui seraient intéressants ?
* Le **stemmer et le lemmentizer*** de NLTK ne sont pas très “puissants”. Est-ce que la librairie spacy nous propose des outils plus intéressants ? 
* Qu'est-ce que le **POS** (part of speech) ? Spacy peut-il nous aider à ne garder que les tokens faisant référence aux adjectifs ou aux verbes? Cela peut-il avoir un impact sur la taille de notre vocabulaire ? 

🛈 N'hésitez pas à rendre votre travail public ! Ce travail est le votre, vous pouvez mettre votre notebook sur Kaggle ou sur github. Cela vous permettra de le rendre disponible pour un futur recruteur, de pouvoir le retrouver facilement ou encore d'inspirer de futurs apprenants en Machine Learning !

## Ressources complémentaires :

Voici une liste non exhaustive de ressources complémentaires pour poursuivre votre travail :

* Une vidéo de [freecodecamp sur NLTK](https://www.youtube.com/watch?v=X2vAabgKiuM) (38:09 en anglais)
* Une vidéo de [freecodecamp sur Spacy](https://www.youtube.com/watch?v=dIUTsFT2MeQ) : (3:02:32 en anglais)
* ✔ Une vidéo de [David Louapre (Science étonnante) sur le SOA (State Of Art) du NLP](https://www.youtube.com/watch?v=CsQNF9s78Nc) (26:15). ATTENTION : la vidéo couvre des notions beaucoup plus complexes que celles présentées dans la première partie de cours. Ces notions seront couvertes dans les chapitres suivants.
    * https://nlp.stanford.edu/projects/glove/
* Quelques notebooks Kaggle à lire :  [un premier notebook](https://www.kaggle.com/code/longtng/nlp-preprocessing-feature-extraction-methods-a-z), [un deuxième notebook](https://www.kaggle.com/code/dikshabhati2002/nlp-for-beginners), [**un troisième notebook**](https://www.kaggle.com/code/ashagutlapalli/nlp-101-with-nltk-and-spacy-text-analysis) (en anglais. ATTENTION : certaines notions présentes dans ces notebooks sont beaucoup plus complexes que celles présentées dans la première partie de cours. Ces notions seront couvertes dans les chapitres suivants. 

## Commentaires, suggestions ou questions :

N’hésitez pas à nous faire un retour : nous contacter

#  2.1. Représentez votre corpus en "bag of words" 

Vidéo introductive : https://vimeo.com/284320353

Après avoir vu les différents types de nettoyage du texte possible dans les chapitres précédent, nous allons maintenant étudier comment extraire l'information du texte pour le traitement ultérieur par des modèles de machine learning. En d'autres termes, nous cherchons une représentation du langage pour un modèle statistique qui vise à exploiter des données textes.

## Qu'est-ce qu'un « bag of words »

La manière la plus simple de représenter un document, c'est ce qu'on a effectué dans le chapitre précédent où l'on a considéré tous les mots utilisés pour chaque artiste, sans distinction ni dépendance par vers, chanson, etc. L'analogie est donc qu'on a considéré chaque artiste par la représentation brute d'un "sac" de tous les mots qu'il a utilisé, sans soucis de contexte (ordre, utilisation, etc).

On peut faire la même chose à l'échelle d'un document qu'on représente par un ensemble des mots qu'il contient. En pratique, ça peut être par exemple un vecteur de fréquence d'apparition des différents mots utilisés (ou stem 😉).

Une représentation bag-of-words classique sera donc celle dans laquelle on représente chaque document par un vecteur de la taille du vocabulaire $|V|$ et on utilisera la matrice composée de l’ensemble de ces $n$ documents qui forment le corpus comme entrée de nos algorithmes.

Vidéo : https://vimeo.com/284320371

* Analyse des co-occurrences : bigrammes, etc (n-grammes).
* probabilité conditionnelle : elle n'est pas expliquée clairement
* TF-IDF (Term Frequency-Inverse Document Frequency)
* TN-SNE
* Named Entity Recognition
* Extraction des relations, des événements
* POS tagging

## Prendre en compte les co-occurences

La première chose à considérer, au delà d'une tokenisation, c'est qu'il est possible de séparer le texte en groupes de plusieurs mots. On appelle les groupes de mots les n-grammes (n-gram) : bigrammes pour les couples de mots, trigrammes pour les groupes de 3, etc. Séparer en mot unique est en fait un cas particulier appelé unigrammes.

Par exemple dans la phrase : « Je mange une pomme », on peut extraire les bigrammes {(je, mange), (mange, une) et (une, pomme)}

**Pourquoi utiliser des n-grammes avec n>1 ?**

Lorsqu'on fait face à une problématique de modélisation du langage, on voit bien que pour étudier idéalement le sens d'un mot il faudrait l'observer dans son contexte. Il existe donc dans un texte (et par extension dans le langage) une forme de dépendance plus ou moins grande entre les mots.

A titre d'exemple, le pronom "je" aura grandement plus de chance d'être suivi d'un verbe. On peut donc traiter chaque mot comme ayant une probabilité d'apparition en fonction du texte qui le précède, c'est à dire comme une séquence. Dans l'idéal, on veut traiter tout le texte de cette façon, mais ce n'est pas possible en terme de capacité de calculs.

En pratique, on peut prendre les quelques mots précédents qui représentent assez d'information pour avoir un modèle séquentiel (markovien) intéressant, d'où l'apparition des n-grammes.

Par exemple on peut assigner une probabilité au bigramme ("je", "mange") :

$$p(mange \vert\ je) = \frac{p(mange, je)}{p(mange) p(je)}$$

En pratique, on peut aussi utiliser la fonction `bigrams` de NLTK

In [None]:
test = "Bonjour, je suis un texte d'exemple pour le cours d'Openclassrooms. Soyez attentifs à ce cours !"
tokens = tokenizer.tokenize(test.lower())
list(nltk.bigrams(tokens))

🛈 Le modèle de bag-of-words est en fait un cas particulier du modèle n-gram avec n=1

## Une autre manière de pondérer : le tf-idf

Depuis le départ, on a seulement utilisé les fréquences d'apparition des différents mots/n-grammes présents dans notre corpus. Le problème est que si l'on veut vraiment représenter un document par les n-grammes qu'il contient, il faudrait le faire relativement à leur apparition dans les autres documents.

En effet, si un mot apparait dans d'autres documents, il est donc moins représentatif du document qu'un mot qui n'apparait que uniquement dans ce document.

Nous avons d'abord supprimé les mots les plus fréquents de manière générale dans le langage (les fameux stopwords). À présent, il ne faut pas considérer le poids d'un mot dans un document comme sa fréquence d'apparition uniquement, mais pondérer cette fréquence par un indicateur **si ce mot est commun ou rare** dans tous les documents.

Pour résumer, le poids du n-gramme est le suivant :

$\text{poids}=\text{fréquence du terme}×\text{indicateur similarité}$

En l’occurence, la métrique tf-idf (Term-Frequency - Inverse Document Frequency) utilise comme indicateur de similarité l'inverse document frequency qui est l'inverse de la proportion de document qui contient le terme, à l'échelle logarithmique. Il est appelé logiquement « inverse document frequency » (idf). 

Nous calculons donc le poids tf-idf final attribué au n-gramme :

$\text{poids}=\text{fréquence du n-gram}×\text{idf(n-gramme)}$

Dans notre exemple, un document égale un artiste. Pour connaître les termes qui représentent le plus un artiste, nous allons utiliser la fonction tf-idf de scikit

In [None]:
import os
def stem_tokens(tokens, stemmer):
    stemmed = []
    for item in tokens:
        stemmed.append(stemmer.stem(item))
    return stemmed

def tokenize(text):
    tokens = nltk.word_tokenize(text)
    stems = stem_tokens(tokens, stemmer)
    return stems

for subdir, dirs, files in os.walk(path):
    for file in files:
        file_path = subdir + os.path.sep + file
        shakes = open(file_path, 'r')
        text = shakes.read()
        lowers = text.lower()
        no_punctuation = lowers.translate(None, string.punctuation)
        token_dict[file] = no_punctuation
 
tfidf = TfidfVectorizer(tokenizer=tokenize, stop_words=sw)
values = tfidf.fit_transform(token_dict.values())

Maintenant qu'on a cet indicateur, on peut comparer les différents champs lexicaux qui représentent le plus un artiste. Qui dit comparaison dit similarité. On peut donc utiliser ... t-SNE !

<figure id="r-5174005" data-claire-element-id="30532046"><img id="r-4868002" data-claire-element-id="8982984" src="https://user.oc-static.com/upload/2017/12/11/15129745591631_t-sne.png" alt="Première visualisation t-sne de notre corpus" /><figcaption>Première visualisation t-sne de notre corpus</figcaption></figure>

## Extraire les informations

La récupération de caractéristiques va assez loin puisqu'on essaie de dégager de nos documents texte non structurés des informations structurées informatives très restreintes :

* **NER (Named Entity Recognition)** : reconnaître des personnes, endroits, entreprises, etc.
* **Extraction de relations** : essayer d'extraire des relations sémantiques entre différents termes du texte. Par exemple, des relations familiales ("Marie est l'enfant de Patrick") spatiales ("Le piano est devant la fenêtre"), etc. Ces informations peuvent ensuite être stockées dans une base de données relationnelles ou un graphe.
* **Extraction d'événements** : extraire des actions qui arrivent à nos entités. Par exemple "le cours de l'action X a augmenté de 5%" ou bien "le président à déclaré X dans son discours"
* **POS Tagging (Part-of-Speech Tagging)** : représente les méthodes qui récupèrent la nature grammatical des mots d’une phrase - nom, verbe, adjectif, etc. Ce sont des propriété qui peuvent servir de caractéristiques utile lors de la création de certains modèles

🛈 Ce ne sont pas des méthodes que l’on va traiter dans ce cours. Nous vous donnerons cependant les bases pour pouvoir vous documenter et créer votre propre tagger. Notez qu'en français, il existe peu de ressources toute faites, contrairement à l'anglais où il existe des NER généralistes.

<img id="r-4868038" data-claire-element-id="8983048" src="https://lh6.googleusercontent.com/fOK5o_kpnRxaW_F0YiEeK85GNHrzSWDXdVn0hvwgJf7Wqau-5l-vh0JnM_ibe34ErAd3efpYCfaOdPVV-Qk2HR55vpitHM4B8jGhsq7j94e2lH2Xv2MglkTHh-HRwV-oGs93he0U" alt="" />

*Vous pouvez essayer l'API Google Natural Langage pour avoir une idée des capacité d'extraction d'information possible par les algorithmes industriels.*

## Attention aux matrices creuses

Avec les méthodes de comptage évoquées, nous créons en réalité des « matrices creuses ». En effet, les mots ne sont pas présents dans chaque document (le ratio vocabulaire / taille de document est trop élevé). De plus, on utilise plus souvent certains mots (“et”, “le”, etc.) et d’autres plus rarement (dans des contextes précis).

Cette grosse différence créé des matrices larges (de la taille « nombre de documents * taille du vocabulaire ») qui sont essentiellement vides. On verra qu’on peut utiliser ces matrices avec un certain nombre d’algorithmes, mais c’est tout de même un gaspillage non négligeable de ressources que de travailler avec des matrices de cette taille alors que la plupart des entrées ne sont pas informatives.

De plus, les matrices creuses peuvent biaiser les algorithmes qui considèrent ainsi que les observations à zéro (qui sont présentes en majorité) représente une information à prendre en considération. Si on pense en terme de moyenne par exemple, elle sera écrasée par la présence de toute ces entrées vides sans pour autant apporter plus de sens à notre calcul. Nous allons voir dans les prochaines parties des alternatives de représentation de texte afin de contrecarrer ce problème quand c'est nécessaire.

## Conclusion

Ces extractions de caractéristiques seront assez intuitives en fonction du problème rencontré. L'idée principale étant de transformer cette masse de texte non structurée en données digestes pour vos algorithmes et vos capacités de calculs. Cependant, ce type de représentation créé des matrices creuses qu’il est parfois difficile à gérer, par exemple dans le cadre de l’utilisation de réseaux de neurones.

# 2.2 Effectuez des plongements de mots (word embeddings)

Vidéo introductive : https://vimeo.com/284320383

Les algorithmes et modèles de machine learning utilisent des entrées numériques, puisque nous travaillons avec des espaces topologiques voire métriques la plupart du temps.

? Alors comment faire pour représenter du texte.. ?

Lorsqu’on traite des données brutes à grande dimensions comme des images ou du spectre audio, on utilise directement des vecteurs de coefficients associées aux intensité de pixel dans le premier cas ou les coefficients de densité spectrales dans le second cas.

Le problème avec un texte, c’est que l’on va traiter les mots et groupes de mots comme des entités symboliques non porteuses de sens, c’est à dire indépendantes les unes des autres.

<img id="r-4868041" data-claire-element-id="8983061" src="https://lh5.googleusercontent.com/ucKgKMHzkUwGqm9wWn-1nTpLIEyhywOQF1q42TwwL49QiKCYp4wrcQ67qOJqmZu-5oxNxDHf6txQ6OZDsKvT_FHuCEIK4kgzYxhvTTv6N7XPp8y5LaJhKTmSEvQ3G04XlVAC9JEu" alt="" />

🛈 On appelle la technique de représentation d’un mot, ou un ensemble de mots en vecteurs de dimension inférieure, word embeddings, soit littéralement « plongement de mot ».

Dans les chapitre précédents,  nous avons vu une première manière de représenter nos documents comme des bag-of-words ou bag-of-ngrams, essentiellement des méthodes de comptage direct (fréquence ou tf-idf). On a donc techniquement représenté chaque document par un vecteur de fréquences du dictionnaire de mots que l’on avait à disposition. Nous sommes amené à traiter des données lacunaires ou creuses (en anglais sparse). Même avec TF-IDF, on considère des comptages déterministes comme représentatifs de nos données, en l’occurrence la fréquence du mot et la fréquence inverse du document.

Une récente famille de techniques (circa 2013) a permi de repenser ce modèle avec une représentation des mots dans un espace avec une forme de similarité entre eux (c'est-à-dire probabiliste), dans lesquels le sens des mots les rapproche dans cet espace, en terme de distances statistiques. C’est un plongement dans un espace de dimension inférieur autour de 20-100 dimensions généralement. Son petit nom : word2vec.

<img id="r-4868046" data-claire-element-id="8983072" src="https://lh4.googleusercontent.com/u3CG-wlVB5QyyRrg0_26HgCELgQLTAS6SYzygiPH7SeRQy-2B7dpZyLjX4l8Izy_XIoTPH6gvAPBNDqmx9vw8x5hYlYT9KNjFSSq5C1jfgpHyIUBEPr_mS7A9sDBHgZYGufB-PaU" alt="" />

Mais comment trouver le sens des mots ? C’est un peu vague comme concept, non ?

Effectivement. L’hypothèse principale de ces méthodes étant de prendre en compte le “contexte” dans lequel le mot a été trouvé, c’est à dire les mots avec lesquels il est souvent utilisé. On appelle cette hypothèse distributional hypothesis.

Et ce qui est intéressant, c’est que ce contexte permet de créer un espace qui rapproche des mots qui ne se sont pas forcément trouvés à côté les uns des autres dans un corpus ! Ces méthodes de représentation vectorielles ont aussi permis d’entraîner des modèles de représentation des mots sur des corpus beaucoup plus grands (des centaines de milliards de mots par exemple...)

Ces représentations possèdent des capacités surprenantes. Par exemple, on peut retrouver beaucoup de régularités linguistiques simplement en effectuant des translation linéaires dans cet espace de représentation. Par exemple le résultat de vec(“Madrid”) - vec(“Spain”) + vec(“France”) donne une position dont le vecteur le plus proche est vec(“Paris”) !

<img id="r-4868051" data-claire-element-id="8983091" src="https://lh6.googleusercontent.com/xvk-_fxvJp2atVExddjkGBLgUNKJKjbJexMTn7vQRdDNJBZo-eDM9dNN4ZtYzcphYdRRSGhm7NFp-kOD4UvxdzJTeSLye6a3_J_U4p5Rkyis82DwQvg40qtG-IwwSZwFM0RdDPYb" alt="" />

Afin de calculer les vecteurs qui représentent les mots, les méthodes word2vec utilisent des perceptrons linéaires simples avec une seule couche cachée. L’idée est de compresser notre corpus vers un dictionnaire de vecteurs denses de dimension bien inférieure choisie.

Je n’ai pas l’impression que le contexte a été pris en compte, si ?

On ne va pas détailler les méthodes d’entraînement en détails, mais il faut savoir qu’il en existe deux principales. La première appelée « Continuous Bag of Words » (CBOW), qui entraîne le réseau de neurones pour prédire un mot en fonction de son contexte, c’est à dire les mots avant/après dans une phrase. Dans la seconde méthode, on essaie de prédire le contexte en fonction du mot. C’est la technique du « skip-gram ».

En d’autres termes, l’entrée du réseau de neurones dans le cadre du CBOW prend une fenêtre autour du mot et essaie de prédire le mot en sortie. Dans le cadre du skip-gram on essaie de faire l’inverse, c’est-à-dire prédire les mots autour sur une fenêtre déterminée à l’avance à l’aide du mot étudié en entrée.

<img id="r-4880386" data-claire-element-id="9012501" src="https://lh4.googleusercontent.com/kNbiyzjUV37jfNv65bkh4uF9zFIvso1I3DI5ccx56JP_bgjp1p92ev9bfotRSkNI7ljk-OPQGGX6Ci8oT3fVNBgaW2ZVRe9qvAUUuK7oiZ35spqtjTv1raw-F6MZf0T9Pxnuag4G" alt="Représentation du modèle CBOW" />

Et c’est cette hypothèse - le fait que les mots soient caractérisés par les mots les entourants - qui permet de créer cette compression. Des mots davantage associés aux mêmes mots seront proches dans l’espace d’arrivée.

## Utiliser un modèle de langage

Avoir cette représentation vectorielle des mots permet d’utiliser ces vecteurs comme des features dans un grand nombre de tâches de base de traitement du langage. On peut ainsi alimenter des algorithmes classiques tels qu’un SVM ou un réseau de neurones avec nos vecteurs caractéristiques des mots.

Pour récapituler, on peut transformer un texte en ses features soit :
* En utilisant une représentation de comptage creuse - fréquence d’apparition du mot dans un document, ou vecteur tf-idf d’un document, etc.
* En utilisant une représentation type word2vec dense - dans laquelle le mot possède une représentation dans un espace qui le positionne en fonction des mots adjacents

Nous verrons dans les prochains chapitres comment utiliser ces représentations de documents dans nos algorithmes afin de pouvoir effectuer différentes tâches de classification, modélisations non supervisées et autres manipulations propres au traitement du langage.

## Alternatives à word2vec

En pratique, on peut utiliser d’autres types de représentations denses des mots, au-delà du choix de l’algorithme (CBOW, skipgram) et de la dimension. Il existe notamment d’autres méthodes de plongement (word embeddings) tels que [gloVe](https://nlp.stanford.edu/projects/glove/) et [FastText](https://fasttext.cc/).

[Certains favorisent](https://multithreaded.stitchfix.com/blog/2017/10/18/stop-using-word2vec/) même l’utilisation d’une simple décomposition SVD sur une matrice PMI (pointwise mutual information) qui donneraient des performances largement suffisante pour la plupart des applications industrielles.

L’idée fondamentale reste la même : compresser de manière non supervisée la représentation d’un mot à partir d’un gros corpus de texte représentatif de votre langage, afin d’obtenir un vecteur dense qui permet de visualiser et de fournir à nos algorithmes des features plus intéressantes.

## Entraîner son propre embedding

Il existe plusieurs plongements disponibles directement en ligne (surtout en anglais) qui ont été entrainés avec les méthodes évoquées plus haut. C’est utile pour avoir un modèle de représentation très général de votre vocabulaire sur une langue en particulier. Cependant vous êtes limité au registre du corpus utilisé. Par exemple si l’embedding a été réalisé sur Wikipédia, vous allez avoir un registre relativement soutenu. Cela biaise un peu la modélisation et surtout rend moins précis votre plongement vis à vis du problème rencontré. Cela a aussi pour effet de dissiper des différences entre vecteurs qui pourraient être utiles pour votre problème en faveur des grandes disparités (comme l’exemple masculin / féminin ou capitale / pays).

L’avantage d’entraîner son propre embedding est donc d’avoir un plongement spécifique à notre corpus et donc plus performant concernant la problématique que l’on veut traiter. Vous pouvez ensuite comparer cet embedding à une baseline utilisant un embedding général.

Vous pouvez par exemple entraîner votre propre embedding word2vec en suivant ce tutorial : https://radimrehurek.com/gensim/auto_examples/

Le problème qui en découle est bien sûr un manque de généralisation si le jeu de données utilisé n’est pas représentatif de la population totale.

## Conclusion

Les plongements de mots sont les représentations les plus utilisées actuellement dans les dernières méthodes de traitement du langage. C'est devenu un outil incontournable à tester lors de vos manipulations de texte. Si vous avez le temps et les ressources nécessaires, n'hésitez pas à entraîner votre propre embedding spécialisé sur votre problématique.

# 2.3 Modélisez des sujets avec des méthodes non supervisées

Vidéo d'introduction : https://vimeo.com/284320403

Dans le monde actuel, où la quantité de texte non structuré, augmente drastiquement (commentaires, articles de blog, etc.), il serait vraiment utile d’avoir des outils qui permettent de structurer automatiquement l’information, de manière à pouvoir rapidement accéder à ce qui nous intéresse, filtrer le bruit mais aussi détecter l’apparition de nouveau sujet d’intérêts.

On peut retrouver cette nécessité à plusieurs niveau dans les applications :
* Détecter les fameux “trending topics” de Twitter
* Trouver les nouveaux sujets d’information abordés par les médias
* Détecter un nouvel investissement intéressant d’après un groupement de textes d’experts
* Organiser un corpus de textes scientifiques autour des thématiques abordées
* Trouver les différentes aspects d’un produit abordés par des commentaires afin de pouvoir plus facilement l’améliorer à partir de feedback utilisateur

<img id="r-4883082" data-claire-element-id="9020716" src="https://user.oc-static.com/upload/2017/12/13/15131779850317_Screen%20Shot%202017-11-28%20at%2015.44.16.png" alt="Les « trending topics » de Twitter" />
Les « trending topics » de Twitter

C’est dans ce cadre qu’intervient la modélisation de sujets (*topic modeling* en anglais) qui représente le spectre des différentes approches permettant cette détection.

Dans ce chapitre, on va étudier les plus populaires, afin d’avoir une intuition de cette famille d’algorithmes. Il faut savoir, en revanche, qu’il reste difficile d’appliquer directement ces algorithmes à toute les situations et qu’il existe un grand nombre de variantes spécifiques à des problématiques plus précises qui correspondront à ce que vous recherchez.

Il faut donc se documenter et comprendre les différents critères différenciants (e.g. modélisation dynamique des sujets dans le temps, longueur du document, nombre de sujets abordés, etc.) qui vous permettront d’effectuer un choix informé.

C’est aussi une famille de méthode utilisée essentiellement en exploration voire semi-supervisée, c’est à dire qui permet de détecter si effectivement il y a de grandes catégories abordées, et ensuite les affiner lors du passage en production, et supervision des nouveaux documents entrants.

Pour résumer, la modélisation automatique de sujets permet de détecter les sujets latents abordés dans un corpus de documents, assigner les sujets détectés à ces différents documents. On peut ensuite utiliser ces sujets pour effectuer des recherches plus rapide, organiser les documents ou les résumer automatiquement.

## Première intuition : Latent Dirichlet Allocation (LDA)

La première méthode vraiment efficace est nommé **LDA** (*Latent Dirichlet Allocation*). C’est une méthode non-supervisée générative qui se base sur les hypothèses suivantes :
* Chaque document du corpus est un ensemble de mots sans ordre (*bag-of-words*) ;
* Chaque document $m$ aborde un certain nombre de thèmes dans différentes proportions qui lui sont propres $p(\theta_m)$ ;
* Chaque mot possède une distribution associée à chaque thème $(p(\phi_k)$. On peut ainsi représenter chaque thème par une probabilité sur chaque mot.
* $z_n$ représente le thème du mot $w_n$

Puisque l'on a accès uniquement aux documents, on doit déterminer quels sont les thèmes, les distributions de chaque mot sur les thèmes, la fréquence d’apparition de chaque thème sur le corpus.

Une représentation formelle sous forme de modèle probabiliste graphique est la suivante :

<img id="r-4883117" data-claire-element-id="9020814" src="https://lh3.googleusercontent.com/BGQYdx1LDOr4fwpBzeI5IJbspqkb2xLRhGewRKtChQkK15KGnW9I9GLpEHpCYKp13jL2ZHZTMe9PUqNI7MZYPBKa-oOIQUlEQnZuGF3u7hH3kOnOlm-c8b-L9T2k3CXhOUt3GJBp" alt="Modèle probabiliste" />

Pour rappel, un modèle génératif définit une probabilité de distribution jointe sur les différentes variables identifiées, à la fois observées et latentes. Une fois ces variables identifiées, ainsi que les différentes probabilités de distribution associées, l’objectif est de retrouver par exemple les distributions latentes par rapport aux variables observées.

Dans notre cas, nous souhaitons retrouver les distributions de mots sur les différents thèmes, les différentes proportions de thèmes pour chaque document, les proportions d’apparition d’un thème sur le corpus. Tout cela à partir des différents documents. Ce qui nous permet par la suite de déterminer le thème d’un document, les mots les plus associés à certains thèmes, etc.

<img id="r-4868062" data-claire-element-id="8983123" src="https://lh5.googleusercontent.com/oLha3ucca8lMSS1mvpOPpJuYsRYgJqYncdcOPz5HGn-iZxt1qENFUBlVDCGPjaSQ5qf-rPAM1AUk4zlUa9is6Rk2QTkc6jN4ZG9iSqJQjJl9fDsfXbZCzaHjv9Agif2MMBzvenxW" alt="" />

🛈 La **loi Dirichlet** est la conjuguée de la loi multinomiale, ce qui signifie qu’elle s’accorde bien avec cette loi en tant que distribution a posteriori en termes de factorisation. On utilise ainsi la distribution de Dirichlet sur la proportion globale des thèmes ainsi que sur chaque distribution de thèmes sur les mots.

Comme nous l'avons dit en introduction, ce modèle représente une version de base assez générale de la modélisation d’un corpus de documents. Il est possible d’ajouter des hypothèses supplémentaires sur la structure des données afin de capturer une plus grande partie de l’organisation de l’information. A titre d’exemple, voici une liste des hypothèses supplémentaires qui mènent à une modélisation plus riche :
* **La distribution des mots sur les thèmes évoluent avec le temps**. Ce qui signifie qu’il faut créer une séquence de distribution pour chaque thème qui permet de modéliser l’évolution du thème dans le temps.
* **Certains thèmes sont plus proches que d’autres**. L’hypothèse d’utiliser la distribution de Dirichlet considère que les différents thèmes sont complètement indépendants alors qu’en réalité certains thèmes ont en général plus de chances d’apparaître ensemble.

## Laissez la partie inférence aux librairies !

Effectuer l’inférence de ce modèle est relativement complexe techniquement. Il faut notamment passer par des approximations et des algorithmes qui simplifient le modèle afin de pouvoir le calculer (par exemple mean field ou gibbs sampling). Dans tous les cas on va utiliser des packages tout fait afin de travailler sur nos données.

Les plus connus sont déjà intégrés directement dans les librairies (scikit implémente une version de LDA) mais il faudra par la suite effectuer vos propres recherche afin de trouver des implémentations que vous pourrez utiliser dans des cas plus précis.

## Utiliser LDA sur un cas pratique : Le newsgroup dataset

Afin d’illustrer le type de retours que l’on peut avoir avec ce genre de méthodes, on va appliquer l’algorithme du LDA sur un dataset classique déjà présent dans la librairie scikit : le newsgroup dataset qui regroupe un ensemble de 20,000 document articles d'actualité.

Vidéo : https://vimeo.com/284320427

### Prétraitement

In [1]:
from sklearn.datasets import fetch_20newsgroups
dataset = fetch_20newsgroups(shuffle=True, random_state=1, remove=('headers', 'footers', 'quotes'))
documents = dataset.data

### Créer le modèle LDA

In [4]:
from sklearn.decomposition import LatentDirichletAllocation
n_topics = 20

from sklearn.feature_extraction.text import CountVectorizer

tf_vectorizer = CountVectorizer(
    max_df=0.95,
    min_df=2,
    max_features=1_000,
    stop_words='english'
)

tf = tf_vectorizer.fit_transform(documents)

# Créer le modèle LDA
lda = LatentDirichletAllocation(
        n_components=n_topics, 
        max_iter=5, 
        learning_method='online', 
        learning_offset=50.,
        random_state=0)

# Fitter sur les données
lda.fit(tf)

### Evaluation

On affiche les mots les plus représentatifs des sujets modélisés, afin de nous donner une idée de leur signification et voir si effectivement on trouve des catégories claires pour les humains et représentatifs de notre corpus.

In [6]:
def display_topics(model, feature_names, no_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print("Topic {}:".format(topic_idx))
        print(" ".join([feature_names[i] for i in topic.argsort()[:-no_top_words - 1:-1]]))

no_top_words = 10
display_topics(lda, tf_vectorizer.get_feature_names(), 10)

Topic 0:
people gun state control right guns crime states law police
Topic 1:
time question book years did like don space answer just
Topic 2:
mr line rules science stephanopoulos title current define int yes
Topic 3:
key chip keys clipper encryption number des algorithm use bit
Topic 4:
edu com cs vs w7 cx mail uk 17 send
Topic 5:
use does window problem way used point different case value
Topic 6:
windows thanks know help db does dos problem like using
Topic 7:
bike water effect road design media dod paper like turn
Topic 8:
don just like think know people good ve going say
Topic 9:
car new price good power used air sale offer ground
Topic 10:
file available program edu ftp information files use image version
Topic 11:
ax max b8f g9v a86 145 pl 1d9 0t 34u
Topic 12:
government law privacy security legal encryption court fbi technology information
Topic 13:
card bit memory output video color data mode monitor 16
Topic 14:
drive scsi disk mac hard apple drives controller software port
T

Comme on peut le voir, quelques sujets qui ont été modélisés sont effectivement interprétables : le sujet 4 représente simplement les nombres. Le sujet 5 représente globalement l'informatique. Le sujet 8 semble représenter la religion, etc etc.

## Une alternative, NMF

Une autre type de modélisation de sujet automatique non supervisée est NMF (Negative Matrix Factorisation).

In [7]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import NMF

# NMF is able to use tf-idf
tfidf_vectorizer = TfidfVectorizer(max_df=0.95, 
    min_df=2, 
    max_features=1_000, 
    stop_words='english')
tfidf = tfidf_vectorizer.fit_transform(documents)
tfidf_feature_names = tfidf_vectorizer.get_feature_names()

no_topics = 20

# Run NMF
nmf = NMF(n_components=no_topics, random_state=1, alpha=.1, l1_ratio=.5, init='nndsvd')
nmf.fit(tfidf)

no_top_words = 10
display_topics(nmf, tfidf_feature_names, no_top_words)




Topic 0:
people time right did good said say make way government
Topic 1:
window problem using server application screen display motif manager running
Topic 2:
god jesus bible christ faith believe christian christians sin church
Topic 3:
game team year games season players play hockey win league
Topic 4:
new 00 sale 10 price offer shipping condition 20 15
Topic 5:
thanks mail advance hi looking info help information address appreciated
Topic 6:
windows file files dos program version ftp ms directory running
Topic 7:
edu soon cs university ftp internet article email pub david
Topic 8:
key chip clipper encryption keys escrow government public algorithm nsa
Topic 9:
drive scsi drives hard disk ide floppy controller cd mac
Topic 10:
just ll thought tell oh little fine work wanted mean
Topic 11:
does know anybody mean work say doesn help exist program
Topic 12:
card video monitor cards drivers bus vga driver color memory
Topic 13:
like sounds looks look bike sound lot things really thing
To

## Conclusion

L'objectif de ce type de modélisation de sujets est de récupérer de potentielles catégories pour des traitements ultérieurs. Cette modélisation offre surtout une meilleure compréhension de la structuration du texte en vue de création de features manuelles (mettre l'accent sur certains mots, comprendre ce qui définit une catégorie, etc.)

# 3.1 Opérez une première classification naïve de sentiments

Vidéo d'introduction : https://vimeo.com/284320448

Dans cette partie, nous allons traiter le problème de la classification supervisée, et voir comment utiliser les features que nous avons créées pour alimenter nos algorithmes d’apprentissage, essentiellement dans le cadre de la catégorisation de texte.

! Cette partie ne traitera pas le problème de classification plus général qui s’applique à plusieurs niveaux dans un texte : prédire quel sera le prochain mot si on considère chaque mot comme une catégorie. Ou encore le POS tagging qui consiste à considérer la catégorie grammaticale d’un mot (verbe nom etc).

? Mais attends, on a vraiment besoin d’algorithme d’apprentissage supervisé pour catégoriser du texte ? On ne peut pas juste assigner quelques mots-clés à des catégories, et hop ?

Vous faites référence aux « systèmes experts » (des règles de fonctionnement codées à la main) qui ne sont malheureusement pas assez flexibles dans la plupart des cas qui nous intéressent et demandent beaucoup de maintenance, qui va en grandissant avec l’échelle de nos données et le nombre de classes à traiter. Cela reste cependant une alternative valable et robuste dans certains cas, à ne pas négliger automatiquement.

## Petit rappel de la méthodologie

La première question à se poser est : qu’est-ce que l'on veut accomplir ?

Dans cette partie, nous allons nous concentrer sur le problème de classification : **pouvoir assigner une catégorie à un document texte fourni en entrée**. Par exemple, un type d’actualité associé à un article, les catégories d’une page Wikipédia, le tag associé à un tweet, etc.

🛈 Une application spécifique au langage est la détection de sentiment/émotion d’un document. Cela peut être binaire (positif ou négatif), ou avec plus de nuances (triste, joyeux, en colère, etc). C’est une forme de classification qui est souvent demandée.

Pour cela on va avoir besoin d’un jeu de données d’entraînement. L’idée, comme d’habitude est qu’il soit équilibré par catégorie et relativement consistant. Cette première étape est essentielle afin de s’assurer du bon fonctionnement du reste des traitements.

La seconde étape sera de faire passer nos données non-structurées de texte à la moulinette que l’on a vue dans la première partie pour en sortir des features utilisables et structurées, par exemple sous forme vectorielle.

Une fois notre jeu de donnée d’entraînement et de test formaté, on va pouvoir appliquer les méthodes classiques de classification (SVM, réseau de neurones, régression logistique) sur ces données afin de résoudre la problématique énoncée.

S’en suit un réglage des hyperparamètres par recherche de grille (ou autre méthodologie) pour améliorer le modèle en fonction de la mesure de performance choisie.

## Rappel sur les algorithmes de classification

Dans ce chapitre, on va se concentrer sur la famille d’algorithme de classification Naïve Bayes et sur la  régression logistique. Ces algorithmes permettent de catégoriser le sentiment d’un texte (positif ou négatif), ou encore si un e-mail est un spam ou non.

Pour rappel, l’algorithme Naive Bayes (multinomial ou non) permet d’effectuer des classifications probabilistes, qui assignent la probabilité d’appartenance à une classe.

C’est un type d’algorithme génératif, où l’on va modéliser chaque classe et essayer de déterminer la probabilité l’appartenance d’une observation à cette classe. A contrario, les algorithmes discriminatifs essaient de comprendre les caractéristiques différenciantes entre les différentes classes possibles.

## Evaluation du sentiment d’un corpus de commentaires Amazon

Comme terrain d’études, nous allons utiliser le jeu de données de commentaire de produits Amazon. L’objectif sera de déterminer si un commentaire est positif ou pas.

### Petit rappel de classification Naive Bayes

Un peu plus formellement, le problème de classification se traduit ainsi : "trouver la classe 'c' qui a la probabilité la plus grande étant donné le document 'd' fourni" :

$$\hat{c} = argmax_c p(c \vert d)$$

On ne sait pas calculer p(c|d) directement, on a donc besoin de simplifier un peu le problème. Ainsi, d’après le théorème de Bayes on a :

$$p(c|d) = \frac{p(d \vert c)p(c)}{p(d)}$$

L’objectif étant une maximisation sur la classe c, p(d) n’influence pas le résultat. Le problème peut être simplifié :

$$\hat{c} = argmax_c p(d \vert c) p(c)$$

Comme on l’a vu dans les chapitres précédents, le document 'd' est représenté par un certain nombres de features (les mots qu’il contient), sans conserver l’ordre de ces mots (bag-of-words) et en considérant qu’ils sont indépendant. On a ainsi pour un document de N mots $w_i$

$$p(d \vert c) = \prod_{i=1}^N p(w_i \vert c)$$

Dans le cadre d’étude de texte, nous travaillons sur des probabilités faibles. Nous allons donc plutôt travailler à l’échelle logarithmique, ce qui ne change rien au problème de maximisation (la fonction log est monotone strictement croissante). Cela nous permet, en bonus, de travailler avec des sommes.

$$\hat{c} = argmax_c log ( p( d \vert c) p(c) ) = argmax_c log p(c) + \sum log( p(w_i \vert c ) )$$

Dans le cadre d’une classification binaire de texte avec unigramme.

La question restante est donc : comment estimer p(c) et $p(w_i \vert c)$ à partir de notre jeu de données d’entraînement. Vous l’aurez deviné, on va utiliser des fréquences :)

La probabilité d’une classe est simplement la fréquence d’apparition de la classe dans le jeu de données d’entraînement :

$$
p(c) = \frac{N_c}{N_{total doc}}
$$

Et la probabilité d’un mot dans une classe est simplement : la fréquence d’apparition de ce mot dans un type de document par rapport au nombre de mot total dans c.

$$
p(w_i \vert c) = \frac{N_{w_i \text{dans c}}}{ \sum_V N_{w_t \text{dans c}}}
$$

On lisse cette probabilité pour les mots qui n'apparaitraientt pas dans une classe, ce qui évite de rendre nulle notre fonction de vraisemblance si un mot est à zéro prob (lissage Laplacien) :

$$
p(w_i \vert c) = \frac{N_{w_i \in c} + 1}{ \sum_V N_{w_t \in c} + \vert V \vert }
$$

### Testons le modèle

Nous allons utiliser [ce jeu de données](https://ai.stanford.edu/~amaas/data/sentiment/) uniquement pour le test de la détection de sentiment. Avec NLTK, il suffit de charger les données dans un tableau labellisé pour créer notre classifieur, avec chaque mot associé à un booléen confirmant son existence dans le document (en l’occurence ici dans le commentaire).

C'est parti ! Chargeons les données et formatons-les en bag-of-words associé à des booléens :

In [1]:
import nltk
import os
from tools import ap  # THIS IS DEPRECATED MODULE. USE http://pypi.python.org/pypi/weblib MODULE INSTEAD.

def format_sentence(sent):
    return ({ word: True for word in nltk.word_tokenize(sent.decode('utf-8')) })

def load_training_set():
    training = []

    for fp in os.listdir(ap('aclImdb/train/pos')):
        example = '{}/{}'.format(ap('aclImdb/train/pos'), fp)
        with open(example) as fp:
            for i in fp:
                training.append([format_sentence(i), 'pos'])

    for fp in os.listdir(ap('aclImdb/train/neg')):
        example = '{}/{}'.format(ap('aclImdb/train/neg'), fp)
        with open(example) as fp:
            for i in fp:
                training.append([format_sentence(i), 'neg'])

    return training

training = load_training_set()

ModuleNotFoundError: No module named 'tools'

On peut maintenant entraîner notre classifieur, qui va utiliser les comptages expliqués plus haut pour créer le modèle probabiliste.

In [None]:
from nltk.classify import NaiveBayesClassifier

classifier = NaiveBayesClassifier.train(train)

Je vous invite très fortement à regarder le code d'implémentation du classifieur, voire d’implémenter le vôtre pour comparer les performances et comprendre comment il fonctionne : http://www.nltk.org/_modules/nltk/classify/naivebayes.html 

Maintenant qu’on a entraîné notre modèle, on peut par exemple observer les features les plus représentatives des classes :

In [None]:
classifier.show_most_informative_features(n=25)

Ca parait relativement réaliste sur les ratio - l'utilisation de *avoid* est très significative d'une review negative pour un ratio d'utilisation de 1 / 93.4 etc

Et les performances de classification sur les données test :

In [None]:
print(accuracy(classifier, test))
# 0.88754

On voit qu'on arrive à avoir une précision de prédiction de sentiments relativement intéressante (88.75% de précision) pour un premier essai sur le jeu de données test. Pour aller plus loin dans l'amélioration des performances, il peut être judicieux d’effectuer une validation croisée 😉

## Conclusion

L'application d'algorithmes de classification classiques fonctionne dès lors que l'on sait quelles features utiliser à partir de notre corpus de départ.

D'autres étudiants confirment mon sentiment général : ce cours est une catastrophe qui en dit long sur le contrôle qualité chez OC : https://openclassrooms.com/forum/sujet/cours-analysez-vos-donnees-textuelles



# 3.2  Allez plus loin dans la classification de mots

L'utilisation de manière brute d'algorithmes de classification n'est souvent pas suffisante pour obtenir des performances optimales en vue des problèmes auxquels vous serez confrontés. A travers l'exemple de la classification de sentiments, on va voir qu'il est important d'effectuer des modifications préalables de son corpus et de ses features spécifiques à nos problèmes.

## Particularités de la classification de sentiments

Comme la classification des sentiments d’un texte est un problème relativement classique de traitement du langage, il existe un certain nombre de techniques spécifiques qui permettent d’obtenir des modèles plus performants sur cette tâche. C’est une bonne illustration du type de manipulation qui permet d’orienter son travail de modélisation en fonction de la problématique abordée.

Par exemple, on ne va pas utiliser un *bag-of-words* avec comptage, mais simplement la **présence ou pas d’un mot** dans un document. En effet, que le mot “désastre” apparaisse une ou deux fois influence peu la probabilité que le document soit négatif. C'est un critère flag binaire.

Voici une autre technique utilisée pour régler **le problème de la négation**. Si je dis « je n’ai pas aimé ce film », la négation “n’” **inverse** le sentiment de ma phrase comparé à “aimer” qui se retrouve davantage dans des documents positifs habituellement. Pour contrer ce problème de manière simple, il suffit d’ajouter un indicateur au mot suivant la négation comme signifiant que son sens a été modifié.

Ainsi, une phrase telle que “je n’aime pas cette personne” sera transformée en bag-of-words : { “je”, “ne”, “NON_aime”, “pas”, “cette”, “personne” }. en ajoutant des préfixes du type "NON_", une bonne partie des problèmes sur ce genre d’inversions de sens est ainsi réglée.

Enfin, une technique de base est d’utiliser un lexique de mots représentatifs de vos classes, en l’occurrence ici positif et négatif. Si on utilise simplement le nombre d’apparitions de mots du lexique par classe bien construit pour entraîner un modèle de classification, on a déjà une bonne baseline.

Ainsi, toute ces petites modifications et ajouts permettent de rendre notre modèle plus spécialisé pour notre problématique afin de donner de meilleures performances. Je vous encourage à développer ce genre de tweaks lors de la création d’un modèle pour un problème donné.

## Utiliser d’autres types d'algorithmes de classification supervisée

❓ On a utilisé un modèle simple et robuste, le classifieur bayésien naïf. Pourquoi vouloir utiliser un autre type de classifieur ?

Une hypothèse très forte qui est faite lors de l’utilisation du classifieur Bayes est **l’indépendance des features**. Ce qui signifie que si deux features sont en réalité corrélées, elles auront un effet plus fort que ce qu’elles apportent en réalité comme information pour la classification. D’autres types de modèles ne sont pas aussi sensibles à cette corrélation entre les features, voire permettent de modéliser cette interaction entre les features pour rendre le modèle plus performant. C'est une des différences possibles qui influenceront votre choix de classifieur. En général, l'idée est de pré-tester un certain nombre de classifieurs qui intuitivement correspondent à votre problème pour savoir sur lequel vous concentrer.

### Régression Logistique

La régression logistique, à l’opposé de la classification bayes, est un modèle de classification discriminant. Il est expliqué [plus en détail ici](https://openclassrooms.com/fr/courses/4444646-entrainez-un-modele-predictif-lineaire/4507831-predisez-lineairement-la-probabilite-de-l-appartenance-d-un-point-a-une-classe).

Son objectif est de maximiser la probabilité d’avoir une classe $y = c$ étant donné certaines features $f(x, c)$ calculées à partir des observations $x$. Cette maximisation s’effectue en général avec les méthodes classiques de descente de gradient, avec un terme de régularisation supplémentaire.

On peut directement appliquer la régression logistique sur des matrices creuses de la taille du vocabulaire ou sur les vecteurs plus denses que l’on a créé à l’aide des techniques utilisées dans les chapitres précédents.

### SVM, forêts aléatoires

Le choix d’un classifieur est en fait un retour à l’éternel dilemme biais-variance, indépendamment du fait qu’on est amené à traiter du texte. Le classifieur Naive Bayes possède une variance faible et va pouvoir mieux généraliser plus rapidement, ce qui peut être utile lorsqu’on a un petit jeu de données ou des documents avec peu de texte. La contrepartie, bien sûr, c’est que ce genre de classifieur va avoir une plus faible précision (un biais plus grand) comparé à des classifieurs type SVM + RBF Kernel ou une régression logistique.

📌 Pour en savoir plus sur les avantages et inconvénients de différents classifieurs, notamment appliquées à la classification de sentiments, vous pouvez consulter [cet article simple](https://aclanthology.org/P12-2018/) et efficace. Il s'agit d'un exemple de comparaison qu’il vous sera utile de consulter lors de votre travail préliminaire d’exploration.

## Conclusion

Dans un  premier temps, nous favorisions un travail expert sur les features avant de se concentrer sur l'utilisation d'un classifieur approprié à la problématique en cours et aux hypothèses de départ.

# 3.3 Traitez le corpus de textes à l'aide de réseaux de neurones

Dans ce chapitre, on va s’intéresser à des architectures de réseaux de neurones assez utilisées dans le cadre de tâches de traitement de langage. Ils vont permettre notamment de traiter nos problèmes sous forme de série temporelle (de séquences), ce qui semble adapté à nos applications puisque le texte est une séquence de mots qui sont eux mêmes une séquence de lettres. 🚀

📌 On traitait déjà dans certains modèles l’aspect séquentiel (par exemple en utilisant des n-grammes > 1) mais l’hypothèse markovienne est très contraignante pour la réprésentativité du modèle puisqu’on “oublie” de prendre en compte les éléments précédents les éléments conditionnés.

⚡ Attention à ne pas plonger dans ces architectures sans tester au préalable des solutions qui sont en apparence plus simple mais beaucoup plus efficace (en terme de temps de calcul notamment) pour la majorité des problématiques que vous rencontrerez. En effet, les débutants ont tendance à tout de suite vouloir se diriger vers ces méthodes qui sont certes extrêmement performantes mais sont difficiles à structurer, entraîner et relativement lente par rapport à des méthodes plus simple qui offrent des performances similaires. L'idée est au moins d'avoir une baseline sur des classifieurs classiques avant de tester des architectures plus complexes !

❗Ce chapitre a vocation à être une introduction aux (relativement) nouvelles architectures de réseaux de neurones et les méthodes associées. Cependant, je vous invite à vous documenter de manière spécifique sur votre problématique afin de pouvoir créer votre modèle. Je présente ici les bases afin que vous puissiez vous débrouiller dans le champ des possibles et pouvoir aborder les ressources avec le bagage nécessaire.

## Représentation des features

On retrouve notamment les plongements (*embeddings*) en dimension inférieure word2vec (ou autre) comme entrée pour les réseaux de neurones. Ces manipulations préalables ne sont pas inutiles ! Il faut notamment prendre en compte les capacités de calcul et le niveau de représentativité nécessaire dans votre application afin de déterminer la dimension de l’espace d’embedding, par exemple (qui peut varier grosso modo entre 20 et 300 dimensions).

## Différentes architectures possibles

### L’architecture de base et ses problèmes : le RNN

Les RNN représentent la famille de réseau de neurones qui traite les données de manière séquentielles. L’idée principale étant que chaque nouveau mot qui est prédit à partir de notre modèle, prend en compte l’état précédent afin de s’actualiser. L’état représente fondamentalement l’historique - la mémoire utilisée dans le réseau de neurones pour prendre en compte le passé (TOUT le passé) afin de l’utiliser dans la prédiction à l’instant $t$.

<figure id="r-4881228" data-claire-element-id="30015822"><img id="r-4881226" data-claire-element-id="9015461" src="https://user.oc-static.com/upload/2017/12/13/15131655946094_RNN-rolled.png" alt="L'architecture du RNN"   style="background-color:White;"/><figcaption>L'architecture du RNN</figcaption></figure>

Dans le cas de tâches associées au texte, on essaie par exemple à chaque étape de prédire le mot en fonction des mots précédents ainsi qu’une observation. Par exemple, le mot dans une langue étrangère dans le cadre d’une traduction.

On a donc une série temporelle qui à chaque instant t, va prendre en entrée une observation $o_t$ et l’état précédent $x_{t−1}$ pour être calculé :

$$
x_t = W_{rec} \sigma(x_{t-1}) + W_{in} o_t + b
$$

<img id="r-4881247" data-claire-element-id="9015305" src="https://lh5.googleusercontent.com/7U_SQzt7w9KJ3HbWEarKSZybYjOPjhnQkRKT2KPX8Umeb_pkYzkDhoWsNVDghBDCZuHImE4HNDjoqKiZggPfGpOayoyo-L1MzJada678lYdH2eGGrrBktTsjOm5e1LMbTcF1-OR9" alt=""   style="background-color:White;"/>

Deux problèmes principaux font suite à cette architecture fondamentale : la **disparition** du gradient, et son **explosion**. En effet lors de la backpropagation, on doit calculer un gradient (en particulier $x_t/x$) qui est sujet à disparition/explosion. Cette disparition notamment a pour effet de faire “oublier” au RNN des informations qui pourraient pourtant être utiles au traitement actuel. Si j’ai un texte dans lequel une information primordiale est présente au début, il est très difficile de créer un RNN qui prenne en compte cette information sur la fin du texte. 

En pratique, on voit que le RNN ne peut prendre en compte que très peu de contexte passé à cause de cette disparition de gradient.

Il existe une grande variété de techniques qui sont utilisés pour mitiger ce problème. Notamment en premier lieu, une architecture plus robuste qui a été imaginée quelques années après l’apparition des RNN appelée **LSTM (Long Short Term Memory)**

### LSTM Networks (Long Short Term Memory Networks)

L’idée principale des LSTM est de permettre au réseau “d’oublier” ou de ne pas prendre en compte certaines observations passées afin de pouvoir donner du poids aux informations importantes dans la prédiction actuelle.

Cette idée se traduit par des “gates” qui sont chargées de déterminer l’importance d’une entrée, afin de savoir si on enregistre l’information qui en sort ou pas. Pour une explication détaillée intuitive, rendez-vous sur [cet article de blog](https://colah.github.io/posts/2015-08-Understanding-LSTMs/) qui explique les différentes étapes. En pratique la seule partie qui change vraiment est lors de la mise à jour des réseaux de neurones qui est un peu plus technique.

**Note** L'article de blog est la source des images du cours.

<figure id="r-4881324" data-claire-element-id="30015825"><img id="r-4881322" data-claire-element-id="9015494" src="https://lh6.googleusercontent.com/iyYgSSiBUHfIPkjSmEzw70VRzy7ru77mXhOuXRhwqAe6xKLLu45P5F4M_PaEVuKaXiCX739uEvz_qTozgYZB73GlTsdRiDns-6NxqioTRrIY3DziFyMMA3rCutWMZpHwi6JQdBV6" alt="Une cellule LSTM"  style="background-color:White;"/><figcaption>Une cellule LSTM </figcaption></figure>

## Etat de l’art des réseaux de neurones en traitement du langage

L’utilisation des réseaux de neurones dans les applications de traitement de langage représente encore un problème ouvert dans la recherche, qui demande à être traité plus en profondeur, notamment sur les problématiques spécifique à des tâches (quelle architecture correspondent à quelles tâches), des optimisations plus globales et les technique de transfert d’apprentissage afin de pouvoir utiliser des réseaux déjà entraînés sur de nouveaux problèmes plus facilement.

A titre illustratif, je voudrais citer deux mécanismes qui attirent l’attention depuis quelques temps.

### Les réseaux de neurones résiduels et autre augmentation de densité

Les réseaux de neurones résiduels sont très utilisés, à la base pour le traitement d’images mais aussi maintenant dans le traitement du texte. Ils permettent aussi de mitiger l’effet de diminution trop brutal du gradient. Pour cela simplement, on ajoute directement l’identité de l’état précédent dans la fonction de calcul. Cela a pour effet de diminuer ce problème de disparition du gradient.

<img id="r-4881343" data-claire-element-id="9015568" src="https://lh5.googleusercontent.com/1QSJNWWNxC8acis3ynDXs3cLJpe-81MMOlVR3dvtM6_sjo_OK1BwoFJXCejx63ThjcjEQyM34yQxTWhjCubNf5y7Jkxe79Zh_IFLLNhkgDw3JZfVHHBdOVZxbXer0bvyM5poko6h" alt=""   style="background-color:White;"/>

D’autres procédés approfondissent cette idée comme par exemple les [highway networks](https://arxiv.org/pdf/1505.00387.pdf) qui augmentent les fonctions de manière différente mais servent ce même objectif. 

### Les techniques d’attention

L’idée principale des techniques d’attention vise à se concentrer sur une partie de l’information en particulier qui est fournie au réseau de neurones. Ca peut être un mot à traduire au milieu d’une phrase, une partie d’une image lors de la description de celle-ci, etc. Il s'agit donc d’entraîner un réseau de neurones aussi sur un score d’importance à donner à l’ensemble de l’information qui lui est présentée. Ces techniques sont très prometteuses en terme de performance de prédiction.

<img id="r-4881363" data-claire-element-id="9015660" src="https://lh6.googleusercontent.com/HYNAC-98gAJs0FysDiUtmAOG-LGsphynk5Lc3vmGGAjStf_hOp9vPcwfLKnYz3Dw4nuZ1nySf9PUOkNzDy25cTkvoCMipteo7vEHRRELG10DXLoYl5JVd6BnsBXxvK-0Ex1fPL_k" alt="" />

## Applications

Avec ces architectures, on peut avoir une meilleure représentation d’un corpus de texte puisqu’on prend en compte son caractère séquentiel. Voici quelques domaines d’application dans lesquels ce genre d’architecture a été particulièrement performant :
* Classification de texte
* POS Tagging et NER
* Speech to text
* Traduction automatique
* Génération automatique de texte et notamment de légendes d’images

Ce qu’il faut garder en tête, c’est que les réseaux de neurones récurrent bien entraînés permettent d’intégrer la manière dont est structuré un langage (ou un sous-ensemble du langage) ou toute séquence de texte. Le fait d’avoir ce modèle permet une infinité d’applications liée aux texte, qu’il faut paramétrer et personnaliser pour votre problème spécifique.

❗Encore une fois, attention à ne pas  utiliser un canon pour tuer une mouche, et être bien sûr que toutes les circonstances (taille des données d’entraînement etc) sont présentes pour l’utilisation d’un réseau de neurones efficace.

## Une petite application illustrative : retour aux chanteurs de rap

Afin de démontrer l’efficacité de ces modèles récurrents, essayons de l'appliquer à l'échelle des caractères d’une phrase afin de générer des paroles de rap, dans le style d’un rappeur. Pour cela, on va récupérer [l’implémentation du LSTM de Andrej Karpathy](https://github.com/karpathy/char-rnn).

Si on entraîne sur un corpus de texte particulier (ici le rappeur Nekfeu), voici le texte généré au bout de quelques milliers d'itérations :

    Paclois ce b'est un boutes qu'on heêtembarais j'on sa c'est, sout je julam
    Dévans
    J'etfu l'é-travy pei fais se à jà aura
    Qu'le garl
    La quincer gé veull'
    Atrait
    tu vow mon avet peu san enfiiment aure maisas
    Et quand j'ta rag, s'lerr
    D’est pomps
    Fourde bes des quand tout samiectieu ryais
    L'heux
    Lans l'ai à le gropas, caquis
    Je Dacie, à nan poustier juk qu’retape ys qurises suis des conpes émoy ne da tiendir
    Plassine grissoble
    J'es it-di
    J'suis d'acinon puant fet-pes c'tui t'baq

On peut observer notamment la propension à comprendre la longueur d’un vers ou même la taille d'un mot, ce qui montre que le RNN retient que le vers a commencé quelque part avec une majuscule et doit finir par un retour à la ligne. De même, il a compris environ la taille d'un mot et ajoute des espaces dans les bonnes proportions. Il y a donc une forme de mémorisation du contexte passé. On voit aussi des virgules, apostrophes ou des tirets en bonne proportions. L'alternance consoles-voyelles aussi est respectée ainsi que certaines combinaisons caractéristiques ('tt', 'eu', 'es', etc). Quelques mots commencent à être réalistes, mais il n'y a pas assez de données sur le corpus (<250k caractère).

## Conclusion

On a vu ici le type de modélisation possible à l'aide des réseaux de neurones. L'idéal est pour vous d'entraîner votre propre réseau de neurones en vu d'une des tâches applicatives citée plus haut - classification, POS tagging, traduction automatique etc afin de vous rendre compte de la méthodologie d'entraînement sur ce type de problématique. L'entraînement de réseaux de neurones reste pour le moment un processus relativement intuitif avec beaucoup d'heuristiques et de tests nécessaires avant d'obtenir des résultats probants et stables, notamment pour déterminer la valeur des hyperparamètres (nombre & taille des calques, learning rate, algorithme de gradient utilisé, etc)

# 3.4 Entraînez-vous à classifier du texte

## À vous de jouer

❗Pour vous entraîner, réalisez cet exercice étape par étape. Une fois terminé, vous pouvez comparer votre travail avec les pistes que je vous propose.

Vous utiliserez les données « Reuters Corpus Volume » accessible directement dans scikit learn à l’aide de la fonction `fetch_rcv1` qui contient 800,000 annonces de presses Reuters étiquetées manuellement. Votre objectif est de réaliser un benchmark de différents types de classifieurs afin de comparer les différentes performances sur ce type de problème.

### Consigne

Vous devez réaliser les tâches suivantes :
* Charger les données
* Créer différents classifieurs (au moins 3)
* Effectuer une validation croisée sur les différents classifieurs
* Afficher les différentes performances

Le jeu de données est relativement lourd pour un travail en local, avec 650MB compressé de données. Il est conseillé de travailler sur un échantillon dans un premier temps pour s’assurer que tout fonctionne comme prévu pour ensuite traiter tout le jeu de données et obtenir les résultats finaux.

Vérifiez-bien que vous avez les éléments suivants :
* Au moins 3 classifieurs différents ont été appliqués par validations croisées sur les données correctement, puis les performances ont été évaluées sur chacun.