# TP1: Outils pour le TALN

* Cours: Traitement du langage naturel
* Auteur: Ygor GALLINA
* Date: Janvier 2024

## Préambule

Le but de ce TP est d’appréhender et de prendre en main les outils de traitement automatique de la langue existant pour traiter des données textuelles.

Notre cas d’usage est d'analyser les discours de nouvelle année des présidents de la république française. Ces discours sont disponible sur la plateforme [vie-publique.fr](https://www.vie-publique.fr/qui-sommes-nous) qui recense (entre autre) les discours provenant du gouvernement.

### Google Collab

Si vous executez ce notebook avec Google Collab exécutez la commande suivante pour connaître le pays dans lequel se trouve le serveur qui exécute votre code. Naviguez ensuite vers [electricitymaps.com](https://app.electricitymaps.com/map) pour connaitre le mix electrique de ce pays.

> Le **mix énergétique**, ou bouquet énergétique, est la **répartition** des différentes **sources d'énergies** primaires **consommées** dans une zone géographique donnée. ... Le **mix électrique**, avec lequel il ne doit pas être confondu, ne prend en compte que **les sources d'énergie contribuant à la production d'électricité** ; or l'électricité ne représente que 18,5 % de la consommation finale d'énergie au niveau mondial.  Source: [Wikipédia](https://fr.wikipedia.org/wiki/Mix_%C3%A9nerg%C3%A9tique)

In [None]:
!curl ipinfo.io
# Ou bien
# !curl https://api.country.is/

## Exercice 1: Pré-traitements

L'objectif de cet exercice est de se familiariser avec les différents pré-traitement utilisés dans le TALN. Pour cela n'hésitez pas a consulter la documentation de chacune des librairies pour comprendre comment elles fonctionnent et à quoi correspondent les arguments de leurs fonctions.

L'objectif de ce TP est de chercher dans un corpus de document les phrases qui traitent de montagnes. Pour cela différentes techniques de traitement automatique des langues (TAL, en: NLP) devront être utilisées: la segmentation en phrase, en tokens, la normalisation, l'étiquetage morphosyntaxique.

## Prise en main du corpus

Un projet de TAL commence toujours par le choix d'un corpus et son exploration. Nous utiliserons ici les .....

### Bash

Les outils en ligne de commande permettent des traitement simples et rapide à  effectuer.

La commande `sed` permet de remplacer un motif par une chaîne de caractère, elle fonctionne ligne par ligne, elle s'utilise de la façon suivante:
`sed 's/MOTIF/REMPLACEMENT/g'`, le `s` signifie substitution et le `g` global ce sont des drapeau (flags). Les caractères `/` séparent les différentes parties de la commande et peuvent être n'importe quel autre caractère (`sed 's°chats?°chat°g'` est une commande valide).

La commande `grep` permet de filtrer les lignes d'un fichier suivant un motif.

N'hésitez pas à consulter le `man`uel des commandes pour plus d'information (pour rechercher dans une page de manuel: taper `/`, écrire un mot, valider avec entrée, taper `n` pour la prochaine occurence).

1. Quel est le nombre de lignes et de mots dans l'ensemble des documents ? (commande `wc`)
    - 885 lignes et 28395 mots (`cat *.txt | wc -l -w`)
2. Que fait cette commande ? `cat *.txt| sed -E 's/([[:alnum:]])([\?\!.])/\1 \2/g' | sed -E 's/ +/\n/g'`.
    - `cat *.txt` : on récupère les fichiers 
    - `sed -E ` : fait des remplacements en utilisant des expressions régulières
        - `'s/([[:alnum:]])([\?\!.])/\1 \2/g'` : remplace un caractère alphanumérique suivi d'un '?', '!' ou '.' par 
3. A l'aide des commandes `uniq` et `sort` afficher les 10 tokens les plus fréquents.
    - Votre réponse
4. Combien de types (tokens unique) comporte le texte ?
    - Votre réponse
5. En regardant les tokens, identifiez en 2 qui pourraient être mieux segmentés.
    - Votre réponse
6. A l'aide de la commande `grep` selectionnez les types de tokens que vous avez identifié à l'étape précedente. Donnez 3 exemples de chaque.
    - Vos réponses

### Python et NLTK

1. Téléchargez les données si ce n'est pas déjà fait et ouvrez un notebook à l'aide de la commande `jupyter notebook`.
2. Chargez les données à l'aide du code ci-dessous.

3. Utilisez la bibliothèque nltk et la fonction `nltk.word_tokenize` pour tokeniser le corpus.
   * Est-ce que les tokens qui étaient mal segmentés à la question 6. le sont toujours ?
    - Vous pouvez chercher dans une liste avec une compréhension de liste comme `[t for t in MONVOCAB.items() if 'chat' in t]`)
    - Ou encore en écrivant tout les mots dans un fichier, que vous pourrez parcourir à l'aide d'un éditeur de texte.
- Certains mots avec une apostrophe sont séparés (ex "Qu'elle"), alors que d'autres non (ex 'qu', "'", 'à'). Sinon, tout semble être bien tokenisé


4. Ecrivez ensuite une fonction `pretreat` qui prend en entrée un document tokénisé et renvoie pour chaque mot son étiquette morpho-syntaxique (ou POS tag) ainsi que sa version racinisée (ou stem).
   * Un document sera de la forme `[('TOKEN', 'POSTAG', 'STEM'), ('TOKEN', 'POSTAG', 'STEM'), ...]`
   * Pour les étiquettes morpho-syntaxiques vous pourrez utiliser la fonction `nltk.pos_tag` (les étiquettes résultant de cette fonction proviennent de l'universal dependencies et sont explicités sur [cette page](https://universaldependencies.org/u/pos/index.html), ce jeu d'étiquette est commun à l'ensemble des langues ! [Cette page](https://universaldependencies.org/) liste pour chaque langue ses spécificités.)
   * Pour la racinisation, l'algorithme de Porter adapté au français est disponible dans le `nltk.stem.SnowBallStemmer`
   * Etudiez quelques documents pour vérifier la qualité des étiquettes morphosyntaxiques, et la forme racinisée des mots.
   * Les étiquettes morphosyntaxiques vous semblent-elle correcte ? Si non donnez 2 exemples de mauvais étiquetage et une hypothèse.

- Votre réponse

5. Grâce à ces fonctions pré-traitez tous les documents.
6. Quel sujet est commun à chaque quinquennat étudié ? (concatener les discours de chaque quinquennat et regarder les mot communs)

- Votre réponse

In [20]:
import os
from glob import glob
# Les opérateurs de glob correspondent à l'opérateur * dans les commandes bash.

def load_document(doc):
    # utilisez ma_str.split, ma_str.join et ma_str.strip pour supprimer l'URL et le titre des documents
    return doc

data = []
for file_name in glob('discours_voeux/*.txt'):
    # Pour chaque fichier
    with open(file_name) as f:
        # On l'ouvre et on le lis
        doc = f.read()
        doc = load_document(doc)
        name = os.path.basename(file_name)
        name = name.split('.')[0]
        quin, year, pres = name.split('-')
        data.append((quin, year, pres, doc))

3.

In [29]:
import nltk

macron = ""
for d in data:
    if "macron" in d[2].lower():
        macron += d[3]
tokens = nltk.word_tokenize(macron)
print(tokens)

voc = set(tokens)

['https', ':', '//www.vie-publique.fr/discours/277927-emmanuel-macron-31122020-covid-19', 'Déclaration', 'de', 'M.', 'Emmanuel', 'Macron', ',', 'président', 'de', 'la', 'République', ',', 'sur', 'la', 'lutte', 'contre', "l'épidémie", 'de', 'Covid-19', ',', 'le', 'Brexit', 'et', 'les', 'priorités', 'de', 'la', 'politique', 'gouvernementale', 'pour', '2021', ',', 'à', 'Paris', 'le', '31', 'décembre', '2020', '.', 'Françaises', ',', 'Français', ',', 'Mes', 'chers', 'compatriotes', 'de', "l'hexagone", ',', "d'outre-mer", 'et', 'de', "l'étranger", ',', 'Ce', 'soir', ',', 'nous', 'ne', 'vivons', 'pas', 'un', '31', 'décembre', 'comme', 'les', 'autres', '.', 'Là', 'où', ',', 'dans', 'nos', 'villes', 'et', 'nos', 'villages', ',', "l'heure", 'est', "d'habitude", 'aux', 'grands', 'rassemblements', ',', 'ils', 'sont', 'cette', 'année', 'interdits', 'par', "l'épidémie", ':', 'les', 'places', 'de', 'nos', 'communes', 'sont', 'éteintes', ',', 'nos', 'foyers', 'moins', 'joyeux', 'qu', "'", 'à', "l'acc

4.

In [43]:
from nltk.stem import SnowballStemmer
def pretreat(inputs):
    doc = []
    postag = nltk.pos_tag(inputs)
    stemmer = SnowballStemmer(language='french')

    for i in range(len(inputs)):
        doc.append((inputs[i], postag[i][1], stemmer.stem(inputs[i])))
        
    return doc
        
print(pretreat(tokens))



[('https', 'NN', 'http'), (':', ':', ':'), ('//www.vie-publique.fr/discours/277927-emmanuel-macron-31122020-covid-19', 'JJ', '//www.vie-publique.fr/discours/277927-emmanuel-macron-31122020-covid-19'), ('Déclaration', 'NNP', 'déclar'), ('de', 'FW', 'de'), ('M.', 'NNP', 'm.'), ('Emmanuel', 'NNP', 'emmanuel'), ('Macron', 'NNP', 'macron'), (',', ',', ','), ('président', 'NN', 'président'), ('de', 'IN', 'de'), ('la', 'FW', 'la'), ('République', 'NNP', 'républ'), (',', ',', ','), ('sur', 'NN', 'sur'), ('la', 'NN', 'la'), ('lutte', 'NN', 'lutt'), ('contre', 'NN', 'contr'), ("l'épidémie", 'NN', "l'épidem"), ('de', 'IN', 'de'), ('Covid-19', 'NNP', 'covid-19'), (',', ',', ','), ('le', 'JJ', 'le'), ('Brexit', 'NNP', 'brex'), ('et', 'NN', 'et'), ('les', 'NNS', 'le'), ('priorités', 'FW', 'priorit'), ('de', 'FW', 'de'), ('la', 'FW', 'la'), ('politique', 'FW', 'polit'), ('gouvernementale', 'FW', 'gouvernemental'), ('pour', 'NN', 'pour'), ('2021', 'CD', '2021'), (',', ',', ','), ('à', 'NNP', 'à'), ('P

### Sauvegarde sur le disque

Le choix du format de stockage de document pré-traité n'est pas trivial, nous proposons ici d'utilise le format jsonl qui permet de sauvegarder les données au format json. Cette n'est ni la meilleure ni la seules, tout dépend de l'utilisation qui sera faite des données, de la taille des fichiers, etc.

Assurez vous que vous pouvez charger vos données après les avoir sauvegardé !

```python
# Sauvegarder les données
with open('path/to/file.jsonl', 'w') as f:
    for doc in documents:
        # Chaque ligne devient un dictionnaire python
        r = {
            'year': (), 'quinq': (), 'pres': (),
            'doc': (), # le document original non prétraité
            'doc_pret': () # la version prétraitée du document
        }
        # Chaque dictionnaire est serialisé en json
        f.write(json.dumps(r) + '\n')

# Charger les données
with open('path/to/file.jsonl') as f:
    data = [json.loads(line) for line in f]
```

## Exercice 2: Exploration des données

En utilisant les fichiers précédemment pré-traités, extrayez et visualisez à l'aide de graphiques ou forme textuelle les informations suivantes:

1. la longueur des documents en termes de caractères et de mots pour l'ensemble du corpus et par président
   * y a-t-il une différence notable entre chaque président ?

|        | Carac | Mots  |
|--------|-------|-------|
|Corpus  |       |       |
|Sarkozy |       |       |
|Hollande|       |       |
|Macron  |       |       |


2. la fréquence des mots et formes racinées pour l'ensemble du corpus
    - Y a-t-il une différence les 10 premieres racines et mots ? Laquelle ?
- Votre réponse

3. Faire un graphique représentant la fréquence des mots par ordre décroissant (avec une échelle logarithmique).
   * Vous devez observer la [loi de Zipf](https://fr.wikipedia.org/wiki/Loi_de_Zipf#Gen%C3%A8se): seuls quelques mots constituent une grande partie du corpus.
   * Ces mots qui apparaissent souvent n'apportent généralement que peu d'information, on dit que ce sont des mots vides (stopwords), contrairement aux mots plein (en général noms, adjectifs, verbes, ...). Il est courant de les filtrer pour ne pas surcharger les modèles. Des listes de stopwords sont disponibles dans `nltk.corpus.stopwords.words`, chaque bibliothèque de TAL possède en général sa liste.
   * /!\\ Il est important d'utiliser une liste compatible avec le tokeniseur utilisé. En effet, il est fréquent que le tokeniseur segmente `"puisqu'elle"` en `["puisqu'", 'elle']` mais que la liste de mots vide contienne `puisqu'elle` mais pas `puisqu'` !

In [None]:
# Votre réponse

4. Combien de mots n'apparraissent qu'une seule fois ? On appelle ces mots des hapax (hapax legomena)
- Votre réponse
  
3. Afficher les 10 n-grammes (de 1 à 3) les plus fréquent (la bibliothèque `nltk` permet cela) pour l'ensemble du corpus et par président.

In [None]:
# Votre réponse

4. Afficher les 10 noms, verbes, adverbes et adjectifs les plus fréquents pour l'ensemble du corpus et par président

In [None]:
# Votre réponse

## Byte Pair Encoding

A l'aide de la bibliothèque [`tokenizers`](https://huggingface.co/docs/tokenizers/index) et du code ci-dessous.

1. Comparez la tokenisation en sous-mots du discours de Hollande en 2015 avec les modèles `'camembert/camembert-base'` et `'bert-base-uncased'`.
    - Le modèle camembert à été entraîné sur des données en française et bert-base sur des données anglaises.
    - Quelle différence observez-vous et formulez une hypothèse.
  
- Votre réponse

In [None]:
from tokenizers import Tokenizer
tokenizer = Tokenizer.from_pretrained(MODELE)

In [None]:
tokenizer.encode(MONTEXTE).tokens

## Spacy

Une autre bibliothèque pour l'analyse de texte est [`spacy`](https://spacy.io/). Sa philosophie est différente de nltk (qui ne travaille qu'avec des listes), avec `spacy` tout est un objet.

1. Installez le modèle français pour spacy
2. Créez une fonction `pretreat_spacy` qui retourne la même chose, mais n'utilise que spacy. Est-ce que toutes les informations sont disponibles ?
3. Y a-t-il des différence dans l'étiquetage morphosyntaxique entre spacy et nltk ?
    - Donnez 3 exemples s'il y en a...

# Analyse textuelle

Avec les outils utilisés jusqu'a présent essayez de répondre aux questions suivantes:

5. Comment identifier les thèmes principaux abordés par chaque président ?
6. Y a-t-il des différence importante de vocabulaire entre Sarkozy et Macron ?

### Paquets/commandes utiles:

* Ensembles en python: `vocab = set('a b b b c'.split()))`, ainsi que les intersection `set('abc') & set('bc')`, difference `set('abc') - set('bc')`, combinaison `set('abc') | set('bc')`.
* `collections.Counter`: un dictionnaire qui compte les occurence d'un élement
* Mesurer le temps d'execution d'une commande dans un jupyter notebook

```
%%time  # pour une cellule entière
code python

%time code python # pour une ligne
```

* Pour faire des graphiques
  * [matplotlib](https://matplotlib.org)
  * [pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html) offre des moyens assez simple de faire des graphiques.
  * [seaborn](https://seaborn.pydata.org) fait de beaux graphiques.

```
# exemple minimal du graphique de la fonction x^2
import matplotlib.pyplot as plt
plt.plot(range(-10, 10), [i**2 for i in range(-10, 10)])
plt.show()
```

- Pour simplifier les traitements utilisez des compréhensions de liste facile à lire.
```python
tmp_list = []
for t in tokens:
    t = t.replace('ü', 'u)
    tmp_list.append(t)
tokens = tmp_list

tokens = [t.replace('ü', 'u') for t in tokens]
```