# Data Science en pratique
arthur@flowlity.com

In [1]:
import nltk;

# Cours 10: Introduction aux données textuelles et au NLP

NLP : Natural Language Processing -> Traitement Automatique du Langage.
Origine ~1950 avec les Tests de Turing.

Le NLP recoupe les problématiques liées aux données textuelles, comme par exemple:
- La traduction automatique
- Génération de texte
- Reconnaissance d'écriture
- Topic Modelling
- Chatbot
- Text Mining
- Des problèmes plus classiques de classification et régréssion.
- Et beaucoup d'autres sujets, c'est un pan très vaste de la recherche.


![](t1.png)

![](tasks.png)

![llms](llms.png)


Aujourd'hui nous tâcherons d'étudier diverses techniques permettant de tirer de l'information de données textuelles pour construire un modèle de classification multi-classes.

Le problème est de réaliser un modèle performant pour classifier des textes selon leur auteur. Les données sont issues du Kaggle : https://www.kaggle.com/c/spooky-author-identification



Le cours/TP se déroulera selon les axes suivants:
- **1** Import et préparation des données
- **2** Création de features naïfs
- **3** Représentation des données textuelles
- **4** Tokenization Avancée
- **5** Autres modèles & Word Embeddings


## 1 - Import et préparation des données.

In [None]:
import sys
import nltk
import string
import warnings

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from tqdm import tqdm_notebook 
warnings.filterwarnings('ignore')

**1.1** Commençons par importer les données, et affichons quelques lignes du jeu de données. 


In [None]:
# réponse

**1.2** Récuper d'un côté les variables cibles, et de l'autre les variables text.

In [None]:
# réponse

**1.3** Afficher les 3 premiers extrait de texte.

In [None]:
# réponse

**1.4** Pouvons nous traiter les données telles quelles ? Quel problème pourrait-il y avoir sur l'intégrité des données ?

In [9]:
nltk.word_tokenize(phrase)

['Il', 'fait', 'beau', 'et', ',', 'chaud']

réponse

C'est ici qu'intervient le phénomène de **tokenization**. Tokenizer une phrase revient à la séparer en tokens, c'est-à-dire en mots ou symboles distincts. D'un texte on extrait un vecteur de tokens.

La phrase **Il fait beau et, chaud** devient le vecteur **[ "Il", "fait", "beau", "et", ",",  "chaud" ]**.

En python, il existe un attribut split() qui permet de séparer une phrase selon ses mots. Essayer sur la phrase précédente. Que constatez-vous?

In [None]:
# réponse

Intéressons nous désormais au stopword. Un stopword est un mot très fréquent dans une langue et que l'on retrouve réguliérement dans des phrases, comme par exemple des conjonctions de coordination. La liste des stopword existant par langue est présente dans NLTK : corpus.stopwords.words('langue'). Afficher alors les cinq premiers stopword français et anglais.

In [None]:
# réponse

In [None]:
# réponse

Une fois ces idées basiques en place, il est temps de s'attaquer à ce problème de classification. Mais avant cela, construisez la tokenization de chaque texte du jeu de données.

In [None]:
# réponse

## 2 - Création de features naïfs.

**2.1** À travers la méthode citée plus haut et de fonctions basiques construisez un jeu de données utilisable avec une régression logistique - par exemple, le nombre de mots, la longueur des mots; le nombre de stopwords etc... 

In [None]:
# réponse

**2.2** Visualisez quelques-un des features construits plus haut aisni que leur incidence par auteur.

In [None]:
# réponse

**2.3** Effectuez une 3-CV avec une régression logistisque pour évaluer les performances moyennes sur ce jeu de donnée. 

N'oubliez pas de transformer les variables cibles en catégorielles ! 

In [None]:
# réponse

In [None]:
# réponse

## 3 - Représentation des données textuelles

Nous avons vu l'importance de tokenizer les textes pour en extraire de l'information. Mais ne peut-on pas utiliser ces tokens pour représenter les phrases sous forme numérique ?

Que pourrait-on faire ?

réponse

#### 3.1 Bags-Of-Words

C'est la manière la plus simple de représenter des données textuelles. On ne tient plus compte de la structure du texte et on ne regarde uniquement combien de fois apparait chaque mot du corpus dans chaque texte.

La représentation en bags of words se déroule en trois étapes distinctes:
- **1** Tokenization de chaque document du corpus (chaque texte dans notre cas).
- **2** Construction du vocabulaire du corpus, on récupere tous les tokens existant.
- **3** On construit un vecteur pour chaque observation avec le nombre d'apparition de chaque mot du vocabulaire.

L'ouput de cet algorithme est une matrice de taille (nb observations, nb de mots unique du corpus).
*CountVectorizer* est une implémentation de cette méthode, présente dans sklearn, qui effectue les trois étapes.

Imagons cette méthode: on dispose du corpus suivant ["La vie est douce", "La vie est tranquille et est belle"]
- **1** Tokenization :  [[La,vie,est,douce],[La,vie, est, tranquille, et, est, belle]]
- **2** Vocabulary building :  [La, vie, est, douce, belle, et, tranquille]
- **3** Encoding : [[1,1,1,1,0,0,0],[1,1,2,0,1,1]]



**3.1.1** Appliquer rapidement cette méthode à ces deux phrases via sklearn. Affichez le vocabulaire, la représentation et son type.

In [None]:
# réponse

**3.1.2** Construiser la matrice sparse représentant le jeu de donnée, et évaluer les performances de votre régression logistique sur ces nouvelles observations.

In [None]:
# réponse

In [None]:
# réponse

#### 3.2 Term Frequency - Inverse Document Frequency (TF-IDF)

Plutôt que de mettre du poids sur l'apparition des tokens que l'on observe une autre approche est de normaliser les tokens de chaque texte grâce à l'information qu'ils apportent. L'idée de TF-IDF est repose sur le même schéma que précédemment excepté que l'on donne un poid important aux tokens qui apparaissent souvent dans un document en particulier mais pas dans tous les documents du corpus. Ces mots apportent beaucoup d'information sur le contenu du document. 



La formule mathématique est simple :

![word2vec](td-idf-graphic.png)
De même, on retrouve une implémentation de cette méthode sous sklearn.

**3.1.2** Appliquer rapidement cette méthode à ces deux phrases via sklearn. Affichez le vocabulaire, la représentation et son type.

In [None]:
# réponse

**3.1.3** Construiser la matrice sparse représentant le jeu de donnée, et évaluer les performances de votre régression logistique sur ces nouvelles observations.

In [None]:
# réponse

In [None]:
# réponse

#### 3.3 Paramétrisation des bags-of-words et de TF-IDF

Évidemment ces deux méthodes disposent de multiples paramètres, en voici un tour d'horizon.

Un des défauts de ces deux méthodes est que les tokenizations ne conservent pas l'ordre des mots dans la phrase. On ne dispose alors pas de toute l'information possible, par exemple : "not beautiful" n'a pas le même apport d'information que "not" "beautiful" dans le sens numérique.

C'est pourquoi on peut utiliser des _n-gram_ à partir des documents initiaux, "un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée". Ils permettent de capturer le contexte de la phrase. Un _unigram_ n'est autre qu'un tokens, un _bigram_ 2 mots à la suite etc..

Le paramètre **ngram_range** permet de choisir le range de _n-gram_ choisis.

Par exemple si l'on choisit un ngram_range = (1,3), nous allons obtenir des tokens de taille 1 mot, 2 mots, et 3 mots.


In [None]:
texte = ["La vie est douce","La vie est tranquille et est belle"]
vec = CountVectorizer(ngram_range=(1,3))
X = vec.fit_transform(texte)
print ("Vocabulary {} \n".format(vec.vocabulary_))
print ("CountVectorizer + n-grams : \n {} \n".format(X.toarray()))
print ('Shape {}'.format(repr(X)))

Comme nous l'avons vu plus haut les stopwords ne possède aucune information particulière. C'est pourquoi il est possible grâce à l'option **stop_words** de ne pas les considérer. Il suffit d'indiquer la langue choisie.

In [None]:
texte = ["La vie est douce","La vie est tranquille et est belle"]
vec = CountVectorizer(ngram_range=(1,3),stop_words =nltk.corpus.stopwords.words('french'))
X = vec.fit_transform(texte)
print ("Vocabulary {} \n".format(vec.vocabulary_))
print ("CountVectorizer + n-grams : \n {} \n".format(X.toarray()))
print ('Shape {}'.format(repr(X)))

**max_df** et **min_df** sont des paramètres de threshold pour séléctionner les tokens utilisés:

- **max_df** représente le nombre maximum d'occurences pour les tokens dans le corpus.
- **min_df** représente le nombre minimum d'apparition d'un tokens dans les documents du corpus.

In [None]:
texte = ["La vie est douce","La vie est tranquille et est belle"]
vec = CountVectorizer(ngram_range=(1,3),max_df =1)
X = vec.fit_transform(texte)
print ("Vocabulary {} \n".format(vec.vocabulary_))
print ("CountVectorizer + n-grams : \n {} \n".format(X.toarray()))
print ('Shape {}'.format(repr(X)))


texte = ["La vie est douce","La vie est tranquille et est belle"]
vec = CountVectorizer(ngram_range=(1,3), min_df = 2)
X = vec.fit_transform(texte)
print ("Vocabulary {} \n".format(vec.vocabulary_))
print ("CountVectorizer + n-grams : \n {} \n".format(X.toarray()))
print ('Shape {}'.format(repr(X)))

Le paramètre **max_features** permet de choisir les K premiers tokens par ordre de fréquence.

In [None]:
texte = ["La vie est douce","La vie est tranquille et est belle"]
vec = CountVectorizer(ngram_range=(1,3), max_features = 2)
X = vec.fit_transform(texte)
print ("Vocabulary {} \n".format(vec.vocabulary_))
print ("CountVectorizer + n-grams : \n {} \n".format(X.toarray()))
print ('Shape {}'.format(repr(X)))

Jouez un peu avec les paramètres d'une des deux méthodes, et observer les résultats des cross validation.

In [None]:
# réponse

Nous avons observé que plusieurs méthodes permettent d'extraire de l'information de données textuelles, mais pourquoi ne pas les combiner ?

## 4 - Tokenization avancée

La tokenization, que nous avons utilisé, permet de décomposer un texte en tokens sans utiliser de règle grammaticale. Cette approche reste simple, et naïve : n'est il pas possible d'appliquer des règles grammaticales ou de regarder les racines des mots pour "normaliser" le texte ?

#### 4.1 Stemming

In [None]:
#Executez le code suivant, que se passe-t-il ?

from nltk.stem import PorterStemmer

sentence = "This process, however, afforded me no means"
ps = PorterStemmer()
res = [ps.stem(w) for w in nltk.word_tokenize(sentence)]
#print res

In [None]:
# réponse

Le stemming revient à prendre la racine des mots. Il existe plusieurs type de stemmers ayant différent façon de prendre la racine. Le plus classique, celui de Porter revient à supprimer les suffixes. 

L'intérêt de cette manière de tokenizer permet de réduire l'espace des features et d'établir une certaine similarité entre les phrases/documents.


Grâce à la fonction custom tokenizer définie ci-dessous et à l'option tokenizer, construiser les deux représentations des données - Bags & TF-IDF, et évaluez les performances de la régréssion logistique.

In [None]:
def custom_tokenizer_stem(document):
    return [ps.stem(w) for w in nltk.word_tokenize(document)]

In [None]:
# réponse

In [None]:
# réponse

#### 4.2 Lemmatization

In [None]:
#Executez le code suivant, que se passe-t-il ?

from nltk.stem import WordNetLemmatizer

Lem = WordNetLemmatizer()
sentence = "This process, however, afforded me no means of ascertaining the dimensions of my dungeon"
res = [Lem.lemmatize(w,pos = 'v') for w in nltk.word_tokenize(sentence)]
#print res

In [None]:
# réponse

La lemmatisation d'un token consiste à en prendre sa forme canonique. C'est-à-dire :

   - pour un verbe : ce verbe à l'infinitif
   - pour les autres mots : le mot au masculin singulier


L'option _pos_ est une option permettant de faire du Part-of-speech tagging, c'est-à-dire que l'on va donner la bonne catégorie grammaticale à nos mots.

Grâce à la fonction custom tokenizer définie ci-dessous et à l'option tokenizer, construiser les deux représentations des données - Bags & TF-IDF, et évaluez les performances de la régréssion logistique.

In [None]:
def custom_tokenizer_lem(document):
    return [Lem.lemmatize(w,pos='v') for w in nltk.word_tokenize(document)]

In [None]:
# réponse


In [None]:
# réponse

## 5 - LLMs ?


![](word2vec.png)


On est à peine en 2018 ! Cette façon de visualiser les donnnées textuelles couplées à une architecture de réseau de neurones appelée transformers ont permis des avancées énormes au cours des derniers mois. La majorité des LLMs repose sur cette architecture. La libraire huggingface permet de prendre cela très facilement en main: https://huggingface.co/.
Faites le pour le problème précédent.


![llms](llms.png)


Répondre au problème précédent en utilisant des LLMs, pré-entrainé ou non.