# TP1: Outils pour le TALN

* Cours: Traitement du langage naturel
* Auteur: Ygor GALLINA
* Date: Janvier 2024

## Préambule

Le but de ce TP est d’appréhender et de prendre en main les outils de traitement automatique de la langue existant pour traiter des données textuelles.

Notre cas d’usage est d'analyser les discours de nouvelle année des présidents de la république française. Ces discours sont disponible sur la plateforme [vie-publique.fr](https://www.vie-publique.fr/qui-sommes-nous) qui recense (entre autre) les discours provenant du gouvernement.

### Google Collab

Si vous executez ce notebook avec Google Collab exécutez la commande suivante pour connaître le pays dans lequel se trouve le serveur qui exécute votre code. Naviguez ensuite vers [electricitymaps.com](https://app.electricitymaps.com/map) pour connaitre le mix electrique de ce pays.

> Le **mix énergétique**, ou bouquet énergétique, est la **répartition** des différentes **sources d'énergies** primaires **consommées** dans une zone géographique donnée. ... Le **mix électrique**, avec lequel il ne doit pas être confondu, ne prend en compte que **les sources d'énergie contribuant à la production d'électricité** ; or l'électricité ne représente que 18,5 % de la consommation finale d'énergie au niveau mondial.  Source: [Wikipédia](https://fr.wikipedia.org/wiki/Mix_%C3%A9nerg%C3%A9tique)

In [1]:
!curl ipinfo.io
# Ou bien
# !curl https://api.country.is/

{
  "ip": "20.61.126.208",
  "city": "Amsterdam",
  "region": "North Holland",
  "country": "NL",
  "loc": "52.3740,4.8897",
  "org": "AS8075 Microsoft Corporation",
  "postal": "1012",
  "timezone": "Europe/Amsterdam",
  "readme": "https://ipinfo.io/missingauth"
}

## Exercice 1: Pré-traitements

L'objectif de cet exercice est de se familiariser avec les différents pré-traitement utilisés dans le TALN. Pour cela n'hésitez pas a consulter la documentation de chacune des librairies pour comprendre comment elles fonctionnent et à quoi correspondent les arguments de leurs fonctions.

L'objectif de ce TP est de chercher dans un corpus de document les phrases qui traitent de montagnes. Pour cela différentes techniques de traitement automatique des langues (TAL, en: NLP) devront être utilisées: la segmentation en phrase, en tokens, la normalisation, l'étiquetage morphosyntaxique.

## Prise en main du corpus

Un projet de TAL commence toujours par le choix d'un corpus et son exploration. Nous utiliserons ici les .....

### Bash

Les outils en ligne de commande permettent des traitement simples et rapide à  effectuer.

La commande `sed` permet de remplacer un motif par une chaîne de caractère, elle fonctionne ligne par ligne, elle s'utilise de la façon suivante:
`sed 's/MOTIF/REMPLACEMENT/g'`, le `s` signifie substitution et le `g` global ce sont des drapeau (flags). Les caractères `/` séparent les différentes parties de la commande et peuvent être n'importe quel autre caractère (`sed 's°chats?°chat°g'` est une commande valide).

La commande `grep` permet de filtrer les lignes d'un fichier suivant un motif.

N'hésitez pas à consulter le `man`uel des commandes pour plus d'information (pour rechercher dans une page de manuel: taper `/`, écrire un mot, valider avec entrée, taper `n` pour la prochaine occurence).

1. Quel est le nombre de lignes et de mots dans l'ensemble des documents ? (commande `wc`)
    - Votre réponse
2. Que fait cette commande ? `cat *.txt| sed -E 's/([[:alnum:]])([\?\!.])/\1 \2/g' | sed -E 's/ +/\n/g'`.
    - Votre réponse
3. A l'aide des commandes `uniq` et `sort` afficher les 10 tokens les plus fréquents.
    - Votre réponse
4. Combien de types (tokens unique) comporte le texte ?
    - Votre réponse
5. En regardant les tokens, identifiez en 2 qui pourraient être mieux segmentés.
    - Votre réponse
6. A l'aide de la commande `grep` selectionnez les types de tokens que vous avez identifié à l'étape précedente. Donnez 3 exemples de chaque.
    - Vos réponses

Q1 On a total 885 lignes et total 28408 mots

Q2 On insérer espaces entre dans les mots et ponctuations(. ? !) et apres chaque espaces par un retour à la ligne.Donc,divisez le texte d'une phrase dans un format mot par ligne.

Q3 cat *.txt | sed -E 's/([[:alnum:]])([\?\!.])/\1 \2/g' | tr '[:space:]' '\n' | tr '[:upper:]' '[:lower:]' | grep -v '^$' | sort | uniq -c | sort -nr | head -10

Q4 cat *.txt | sed -E 's/([[:alnum:]])([\?\!.])/\1 \2/g' | tr '[:space:]' '\n'  | grep -v '^$' | sort -u | wc -l
5440

Q5 les mot connect avec " ' " comme j'ai ou les mots avec trait.

Q6 cat *.txt | sed -E 's/([[:alnum:]])([\?\!.])/\1 \2/g' | tr '[:space:]' '\n'  | grep -v '^$' | grep -i "[[:alnum:]]*'[[:alnum:]]*"

   cat *.txt | sed -E 's/([[:alnum:]])([\?\!.])/\1 \2/g' | tr '[:space:]' '\n'  | grep -v '^$' | grep -i "[[:alnum:]]*-[[:alnum:]]*" 

### Python et NLTK

1. Téléchargez les données si ce n'est pas déjà fait et ouvrez un notebook à l'aide de la commande `jupyter notebook`.
2. Chargez les données à l'aide du code ci-dessous.

3. Utilisez la bibliothèque nltk et la fonction `nltk.word_tokenize` pour tokeniser le corpus.
   * Est-ce que les tokens qui étaient mal segmentés à la question 6. le sont toujours ?
    - Vous pouvez chercher dans une liste avec une compréhension de liste comme `[t for t in MONVOCAB.items() if 'chat' in t]`)
    - Ou encore en écrivant tout les mots dans un fichier, que vous pourrez parcourir à l'aide d'un éditeur de texte.
- Votre réponse


4. Ecrivez ensuite une fonction `pretreat` qui prend en entrée un document tokénisé et renvoie pour chaque mot son étiquette morpho-syntaxique (ou POS tag) ainsi que sa version racinisée (ou stem).
   * Un document sera de la forme `[('TOKEN', 'POSTAG', 'STEM'), ('TOKEN', 'POSTAG', 'STEM'), ...]`
   * Pour les étiquettes morpho-syntaxiques vous pourrez utiliser la fonction `nltk.pos_tag` (les étiquettes résultant de cette fonction proviennent de l'universal dependencies et sont explicités sur [cette page](https://universaldependencies.org/u/pos/index.html), ce jeu d'étiquette est commun à l'ensemble des langues ! [Cette page](https://universaldependencies.org/) liste pour chaque langue ses spécificités.)
   * Pour la racinisation, l'algorithme de Porter adapté au français est disponible dans le `nltk.stem.SnowBallStemmer`
   * Etudiez quelques documents pour vérifier la qualité des étiquettes morphosyntaxiques, et la forme racinisée des mots.
   * Les étiquettes morphosyntaxiques vous semblent-elle correcte ? Si non donnez 2 exemples de mauvais étiquetage et une hypothèse.

- Votre réponse

5. Grâce à ces fonctions pré-traitez tous les documents.
6. Quel sujet est commun à chaque quinquennat étudié ? (concatener les discours de chaque quinquennat et regarder les mot communs)

- Votre réponse

In [2]:
%pip install nltk

Note: you may need to restart the kernel to use updated packages.


In [1]:
#Q3
import os
from glob import glob
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')
from nltk.tokenize import word_tokenize
# Les opérateurs de glob correspondent à l'opérateur * dans les commandes bash.

def load_document(doc):
    # utilisez ma_str.split, ma_str.join et ma_str.strip pour supprimer l'URL et le titre des documents
    lines = doc.split('\n')
    # Supposons que le titre est la première ligne et l'URL la deuxième ligne
    content_lines = lines[2:]  # On ignore les deux premières lignes
    doc = '\n'.join(content_lines).strip()
    return doc

data = []
for file_name in glob('discours_voeux/*.txt'): 
    with open(file_name) as f:
        # On l'ouvre et on le lis
        doc = f.read()
        doc = load_document(doc)
        tokens = word_tokenize(doc, language='french')
        data.append(tokens)
        current_chat = [word for word in tokens if 'chat' in word.lower()]
        print(current_chat)

[nltk_data] Downloading package punkt to /home/codespace/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     /home/codespace/nltk_data...


[]
[]
[]
[]
['achat']
[]
[]
[]
[]
["d'achat"]
[]
[]
["d'achat"]
["d'achat"]
[]
["d'achat", "d'achat"]
[]


[nltk_data]   Package punkt_tab is already up-to-date!


Q3 reponse: Dans le question précédant on a token "achat.",maintenant on a token "achat"ou "d'achat",réussi.

In [None]:
#Q4
from nltk.stem import SnowballStemmer
nltk.download('averaged_perceptron_tagger')

def pretreat(tokens):
    tags = nltk.pos_tag(tokens) 
    stemmer = SnowballStemmer("french")
    result = []
    
    for word, tag in tags:
        stem = stemmer.stem(word)
        result.append((word, tag, stem))
        
    return result

def load_document(doc):
    lines = doc.split('\n')
    content_lines = lines[2:]
    doc = '\n'.join(content_lines).strip()
    return doc

data = []
files = glob('discours_voeux/*.txt')

for file_name in files: 
    with open(file_name) as f:
        doc = f.read()
        doc = load_document(doc)
        tokens = word_tokenize(doc, language='french')
        processed_doc = pretreat(tokens)
        data.append(processed_doc)
# Afficher les 10 premiers éléments du premier document traité
for item in data[0][:10]:
    print(item)


"""
def load_document(doc):
    # utilisez ma_str.split, ma_str.join et ma_str.strip pour supprimer l'URL et le titre des documents
    lines = doc.split('\n')
    # Supposons que le titre est la première ligne et l'URL la deuxième ligne
    content_lines = lines[2:]  # On ignore les deux premières lignes
    doc = '\n'.join(content_lines).strip()
    return doc


data = []
for file_name in glob('discours_voeux/*.txt'): 
    with open(file_name) as f:
        # On l'ouvre et on le lis
        doc = f.read()
        doc = load_document(doc)

        # Q3
        tokens = word_tokenize(doc, language='french')
        
        name = os.path.basename(file_name)
        name = name.split('.')[0]
        quin, year, pres = name.split('-')
        data.append((quin, year, pres, doc))

        all_words_flat = [word for (quin, year, pres, tokens) in data for word in tokens]
        check_chat = [t for t in all_words_flat if 'chat' in t.lower()]
        print(f"包含 'chat' 的 Tokens 检查: {check_chat[:20]}")
        print(check_chat)"""

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/codespace/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


('Françaises', 'NNS', 'français')
(',', ',', ',')
('Français', 'NNP', 'franc')
(',', ',', ',')
('Mes', 'NNP', 'me')
('chers', 'NNS', 'cher')
('compatriotes', 'VBZ', 'compatriot')
('de', 'IN', 'de')
("l'hexagone", 'FW', "l'hexagon")
('et', 'FW', 'et')


'\ndef load_document(doc):\n    # utilisez ma_str.split, ma_str.join et ma_str.strip pour supprimer l\'URL et le titre des documents\n    lines = doc.split(\'\n\')\n    # Supposons que le titre est la première ligne et l\'URL la deuxième ligne\n    content_lines = lines[2:]  # On ignore les deux premières lignes\n    doc = \'\n\'.join(content_lines).strip()\n    return doc\n\n\ndata = []\nfor file_name in glob(\'discours_voeux/*.txt\'): \n    with open(file_name) as f:\n        # On l\'ouvre et on le lis\n        doc = f.read()\n        doc = load_document(doc)\n\n        # Q3\n        tokens = word_tokenize(doc, language=\'french\')\n\n        name = os.path.basename(file_name)\n        name = name.split(\'.\')[0]\n        quin, year, pres = name.split(\'-\')\n        data.append((quin, year, pres, doc))\n\n        all_words_flat = [word for (quin, year, pres, tokens) in data for word in tokens]\n        check_chat = [t for t in all_words_flat if \'chat\' in t.lower()]\n        print(

Q4 reponse: 1.('compatriotes', 'VBZ', 'compatriot') ici c'est Verbe(VBZ) ,mais "compatriotes" doit nom NNS.
            2.('et', 'FW', 'et')  ici c'est emprunt(FW)，mais "et" doit conjonction
            Parce que NLTK utilise le modèle anglais.

In [None]:
# Q5

def load_document(doc):
    lines = doc.split('\n')
    return '\n'.join(lines[2:]).strip()

def pretreat(tokens):
    stemmer = SnowballStemmer("french")
    return [stemmer.stem(t) for t in tokens]

files = glob('discours_voeux/*.txt')
quin_data = {}
for file_name in files: 
    with open(file_name) as f:
        # A. 读取清洗
        doc = load_document(f.read())
        
        # B. 分词 & 提取词根
        tokens = word_tokenize(doc, language='french')
        stems = pretreat(tokens)
        
        # C. 获取任期号 (文件名: 1-1995-Chirac.txt -> 拿 '1')
        name = os.path.basename(file_name)
        quin_id = name.split('-')[0]

        name = name.split('.')[0]
        quin, year, pres = name.split('-')
        data.append((quin, year, pres, doc))

        if quin_id not in quin_data:
            quin_data[quin_id] = set() # 创建新集合
        
        # 把词根加入集合 (set会自动去重)
        quin_data[quin_id].update(stems)

# 3. 找共同点 (Question 6)
# 先拿出第一个任期的所有词
common_words = list(quin_data.values())[0]

# 和后面所有任期的词取交集 (&)
for current_set in quin_data.values():
    common_words = common_words & current_set

# 4. 打印结果 (过滤掉 "le", "de" 这种无意义的词)
ignore = ['le', 'la', 'les', 'de', 'du', 'des', 'un', 'une', 'et', 'est', 'pour', 'que', 'qui', 'dans', 'nous', 'vous', 'notr', 'tout', 'plus', 'anné', 'voeu']

# 只显示长度大于3且不在忽略列表里的词
final_result = [w for w in common_words if len(w) > 3 and w not in ignore]

print("--- 所有任期的共同话题 (Sujets communs) ---")
print(final_result)

--- 所有任期的共同话题 (Sujets communs) ---
['beaucoup', "qu'el", 'caus', 'qualit', 'gouvern', 'confianc', 'plein', 'veux', 'élect', 'décid', 'davantag', 'faut', 'combat', 'pouvon', 'mond', 'port', 'pris', 'seront', 'compétit', 'chanc', 'simplifi', 'mieux', 'européen', 'compatriot', 'certain', 'vivr', 'puis', 'suis', 'présent', 'travaill', 'surtout', 'tant', 'fait', 'jour', 'produit', 'avec', 'part', 'propr', 'renforc', 'innov', 'travail', 'doubl', 'oeuvr', "l'etat", 'assum', 'princip', 'rest', 'enfant', 'peut', 'encor', 'cris', 'depuis', 'derni', 'social', 'égal', 'ensembl', 'format', 'nombreux', 'somm', 'arrêt', 'rétabl', 'jeun', 'comm', 'indépend', 'destin', 'sécur', 'solidair', 'nombr', 'énerg', 'international', 'décis', 'arriv', 'proteg', 'faibl', 'justic', 'quant', 'défens', 'servic', 'famill', 'cher', 'unit', 'exprim', 'avoir', 'laquel', 'nation', 'pourquoi', 'donc', 'devon', 'fiscal', 'chang', 'regl', 'difficil', "c'est", 'meilleur', 'contr', 'partout', 'votr', 'malgr', 'peur', 'républ'

### Sauvegarde sur le disque

Le choix du format de stockage de document pré-traité n'est pas trivial, nous proposons ici d'utilise le format jsonl qui permet de sauvegarder les données au format json. Cette n'est ni la meilleure ni la seules, tout dépend de l'utilisation qui sera faite des données, de la taille des fichiers, etc.

Assurez vous que vous pouvez charger vos données après les avoir sauvegardé !

```python
# Sauvegarder les données
with open('path/to/file.jsonl', 'w') as f:
    for doc in documents:
        # Chaque ligne devient un dictionnaire python
        r = {
            'year': (), 'quinq': (), 'pres': (),
            'doc': (), # le document original non prétraité
            'doc_pret': () # la version prétraitée du document
        }
        # Chaque dictionnaire est serialisé en json
        f.write(json.dumps(r) + '\n')

# Charger les données
with open('path/to/file.jsonl') as f:
    data = [json.loads(line) for line in f]
```

## Exercice 2: Exploration des données

En utilisant les fichiers précédemment pré-traités, extrayez et visualisez à l'aide de graphiques ou forme textuelle les informations suivantes:

1. la longueur des documents en termes de caractères et de mots pour l'ensemble du corpus et par président
   * y a-t-il une différence notable entre chaque président ?

|        | Carac | Mots  |
|--------|-------|-------|
|Corpus  |       |       |
|Sarkozy |       |       |
|Hollande|       |       |
|Macron  |       |       |


2. la fréquence des mots et formes racinées pour l'ensemble du corpus
    - Y a-t-il une différence les 10 premieres racines et mots ? Laquelle ?
- Votre réponse

3. Faire un graphique représentant la fréquence des mots par ordre décroissant (avec une échelle logarithmique).
   * Vous devez observer la [loi de Zipf](https://fr.wikipedia.org/wiki/Loi_de_Zipf#Gen%C3%A8se): seuls quelques mots constituent une grande partie du corpus.
   * Ces mots qui apparaissent souvent n'apportent généralement que peu d'information, on dit que ce sont des mots vides (stopwords), contrairement aux mots plein (en général noms, adjectifs, verbes, ...). Il est courant de les filtrer pour ne pas surcharger les modèles. Des listes de stopwords sont disponibles dans `nltk.corpus.stopwords.words`, chaque bibliothèque de TAL possède en général sa liste.
   * /!\\ Il est important d'utiliser une liste compatible avec le tokeniseur utilisé. En effet, il est fréquent que le tokeniseur segmente `"puisqu'elle"` en `["puisqu'", 'elle']` mais que la liste de mots vide contienne `puisqu'elle` mais pas `puisqu'` !

In [None]:
# Votre réponse
#Q1
president_data = {}
corpus_chars=[]
corpus_mots=[]
files = glob('discours_voeux/*.txt')
for file_name in files: 
    with open(file_name) as f:
        # On l'ouvre et on le lis
        doc = f.read()
        doc = load_document(doc)
        nb_chars = len(doc)
        corpus_chars.append(nb_chars)
        tokens = word_tokenize(doc, language='french')
        nb_words = len(tokens)
        corpus_mots.append(nb_words)
        name = os.path.basename(file_name)
        name = name.split('-')[2].replace('.txt', '')
        
        # préparer la structure de données pour chaque président
        if name not in president_data:
            president_data[name] = {'chars': [], 'words': []}
        
        president_data[name]['chars'].append(nb_chars)
        president_data[name]['words'].append(nb_words)

print("\n" + "="*40)
print(f"{'Name'} | {'Carac (Moy)'} | {'Mots (Moy)'}")
print("-" * 40)

if len(corpus_chars) > 0:
    avg_corpus_chars = sum(corpus_chars) / len(corpus_chars)
    avg_corpus_words = sum(corpus_mots) / len(corpus_mots)
    print(f"{'Corpus'} | {int(avg_corpus_chars)} | {int(avg_corpus_words)}")


names = list(president_data.keys())
for name in names:
    chars_list = president_data[name]['chars']
    words_list = president_data[name]['words']

    avg_chars = sum(chars_list) / len(chars_list)
    avg_words = sum(words_list) / len(words_list)
    
    print(f"{name} | {int(avg_chars)} | {int(avg_words)}")

print("="*40)

#Q2
from collections import Counter
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer("french")
files = glob('discours_voeux/*.txt')
freq_mots = Counter()
freq_racines = Counter()

for file_name in files:
    with open(file_name) as f:
        # 读文件 -> 切行 -> 丢掉前两行 -> 拼回字符串
        text = '\n'.join(f.read().split('\n')[2:])
        
    tokens = word_tokenize(text, language='french')
    
    clean_words = [t.lower() for t in tokens if t.isalnum()]
    
    # --- 统计 ---
    freq_mots.update(clean_words)
    # 顺便把词根也算出来统计了
    freq_racines.update([stemmer.stem(w) for w in clean_words])

# --- 打印结果 ---
print(f"{'单词 (无标点)':<15} | {'词根':<15}")
print("-" * 35)

# zip 可以把两个列表“拉链”在一起同时遍历
for (m, c1), (r, c2) in zip(freq_mots.most_common(10), freq_racines.most_common(10)):
    print(f"{m:<15} | {r:<15}")


#Q3
files = glob('discours_voeux/*.txt')
for file_name in files: 
    with open(file_name) as f:
        doc = f.read()
        doc = load_document(doc)
        tokens = word_tokenize(doc, language='french')
        current_chat = [word for word in tokens if 'chat' in word.lower()]
        name = os.path.basename(file_name)
        print(f"文件: {name} | 包含 'chat' 的 Tokens: {current_chat}")



Name | Carac (Moy) | Mots (Moy)
----------------------------------------
Corpus | 9988 | 1870
Macron | 13443 | 2538
Hollande | 8091 | 1515
Sarkozy | 7049 | 1291
正在统计...
单词 (无标点)        | 词根             
-----------------------------------
de              | de             
la              | le             
et              | la             
à               | et             
nous            | à              
les             | nous           
pour            | pour           
le              | en             
en              | qui            
qui             | que            
文件: q_2017-2019-Macron.txt | 包含 'chat' 的 Tokens: []
文件: q_2022-2024-Macron.txt | 包含 'chat' 的 Tokens: []
文件: q_2017-2017-Macron.txt | 包含 'chat' 的 Tokens: []
文件: q_2017-2020-Macron.txt | 包含 'chat' 的 Tokens: []
文件: q_2017-2021-Macron.txt | 包含 'chat' 的 Tokens: ['achat']
文件: q_2022-2023-Macron.txt | 包含 'chat' 的 Tokens: []
文件: q_2012-2016-Hollande.txt | 包含 'chat' 的 Tokens: []
文件: q_2012-2015-Hollande.txt | 包含 'chat' 的 Toke

4. Combien de mots n'apparraissent qu'une seule fois ? On appelle ces mots des hapax (hapax legomena)
- Votre réponse
  
3. Afficher les 10 n-grammes (de 1 à 3) les plus fréquent (la bibliothèque `nltk` permet cela) pour l'ensemble du corpus et par président.

In [5]:
# Votre réponse

4. Afficher les 10 noms, verbes, adverbes et adjectifs les plus fréquents pour l'ensemble du corpus et par président

In [6]:
# Votre réponse

## Byte Pair Encoding

A l'aide de la bibliothèque [`tokenizers`](https://huggingface.co/docs/tokenizers/index) et du code ci-dessous.

1. Comparez la tokenisation en sous-mots du discours de Hollande en 2015 avec les modèles `'camembert/camembert-base'` et `'bert-base-uncased'`.
    - Le modèle camembert à été entraîné sur des données en française et bert-base sur des données anglaises.
    - Quelle différence observez-vous et formulez une hypothèse.
  
- Votre réponse

In [None]:
from tokenizers import Tokenizer
tokenizer = Tokenizer.from_pretrained(MODELE)

tokenizer_fr = Tokenizer.from_pretrained("camembert/camembert-base")
tokens_fr = tokenizer_fr.encode(text).tokens

tokenizer_en = Tokenizer.from_pretrained("bert-base-uncased")
tokens_en = tokenizer_en.encode(text).tokens

ModuleNotFoundError: No module named 'tokenizers'

In [14]:
tokenizer.encode(MONTEXTE).tokens

NameError: name 'tokenizer' is not defined

## Spacy

Une autre bibliothèque pour l'analyse de texte est [`spacy`](https://spacy.io/). Sa philosophie est différente de nltk (qui ne travaille qu'avec des listes), avec `spacy` tout est un objet.

1. Installez le modèle français pour spacy
2. Créez une fonction `pretreat_spacy` qui retourne la même chose, mais n'utilise que spacy. Est-ce que toutes les informations sont disponibles ?
3. Y a-t-il des différence dans l'étiquetage morphosyntaxique entre spacy et nltk ?
    - Donnez 3 exemples s'il y en a...

# Analyse textuelle

Avec les outils utilisés jusqu'a présent essayez de répondre aux questions suivantes:

5. Comment identifier les thèmes principaux abordés par chaque président ?
6. Y a-t-il des différence importante de vocabulaire entre Sarkozy et Macron ?

### Paquets/commandes utiles:

* Ensembles en python: `vocab = set('a b b b c'.split()))`, ainsi que les intersection `set('abc') & set('bc')`, difference `set('abc') - set('bc')`, combinaison `set('abc') | set('bc')`.
* `collections.Counter`: un dictionnaire qui compte les occurence d'un élement
* Mesurer le temps d'execution d'une commande dans un jupyter notebook

```
%%time  # pour une cellule entière
code python

%time code python # pour une ligne
```

* Pour faire des graphiques
  * [matplotlib](https://matplotlib.org)
  * [pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html) offre des moyens assez simple de faire des graphiques.
  * [seaborn](https://seaborn.pydata.org) fait de beaux graphiques.

```
# exemple minimal du graphique de la fonction x^2
import matplotlib.pyplot as plt
plt.plot(range(-10, 10), [i**2 for i in range(-10, 10)])
plt.show()
```

- Pour simplifier les traitements utilisez des compréhensions de liste facile à lire.
```python
tmp_list = []
for t in tokens:
    t = t.replace('ü', 'u)
    tmp_list.append(t)
tokens = tmp_list

tokens = [t.replace('ü', 'u') for t in tokens]
```