# Traiter un corpus en language naturel

Après cette rapide présentation de quelques bases du language, on va pouvoir attaquer les choses sérieuses: travailler sur du vrai texte pour faire un traitement "en masse": c'est de la **lecture distante**. L'idée de la lecture distante, c'est d'arriver à produire une interprétation d'un texte (ou corpus) sans avoir à le lire, avec des méthodes computationnelles.

On va commencer dans ce notebook par quelque chose de plutôt simple:
- lire notre fichier texte contenant le corpus
- le simplifier rapidement pour faciliter son traitement
- établir une liste de tous les mots que contient le texte, et faire compter le nombre d'occurrences de chaque mot.

Ce notebook mélange une chaîne de traitement et des petits points théoriques sur Python. Pour les distinguer, la chaîne chaîne de traitement est écrite "normalement". Par contre,

> Les points théoriques sont dans une "citation" (comme ici)

---

## Lire les contenus d'un fichier

Pour lire un fichier, on lance la commande:

In [5]:
with open("in_correspondance_matsutaka_full.txt", mode="r", encoding="utf-8") as fichier: 
    corpus = fichier.read()
print(corpus)  # afficher les contenus du fichier

﻿Date : 1917/01/16
Expéditeur : Mrs. H. O. Havemeyer
Lieu d’expédition : New York
Destinataire : inconnu
Lieu destination : inconnu
Carte de visite de Mrs. H. O. Havemeyer, One East Sixty-sixth Street, avec un mot 
Présentant M. Matsukata. 
Cher Monsieur, permettez-moi de vous présenter M. le Baron Matsukata de Japon. Il est un grand amateur et s’intéresse aux bronzes de Degas. Je vous prie de facilité  ses ententions envers ces « graphs cirés ». Veuillez agréer mes sentiments les plus distingués. DW Havemeyer

Date : 1917/12/30
Expéditeur : Edmond Davis
Lieu d’expédition : Londres
Destinataire : Léonce Bénédite
Lieu destination : Paris
Lettre d’Edmond Davis, 13 Lansdowne Road W. à Léonce Bénédite. 
Cher Monsieur Bénédite, 
J’ai donné une lettre d’introduction à Monsieur Matsukata, l’armateur japonais, qui fonde un musée à Kobe et qui désire acquérir des œuvres de Rodin. 
Je ne crois pas qu’il va à Paris d’ici quelques semaines préférant attendre le beau temps mais je compte vous rendr

Avec ce bloc de code, on voit quelques subtilités supplémentaires de Python. 


> `with open(...) as fichier:` permet d'ouvrir un fichier. Si on décortique, il y a ici 3 nouveautés: 
> - la fonction `open()` pour ouvrir un fichier
> - la syntaxe `with...as`
> - le rôle de l'indentation.
> - les méthodes, comme `fichier.read()`

### `open()`, c'est la fonction Python qu'on utilise pour ouvrir le fichier.

> Ici, on lui donne 2 arguments:
> - en premier, le nom du fichier `in_correspondance_matsutaka_full.txt`
> - en deuxième, un argument nommé `mode` auquel on donne la valeur `"r"`. `mode` permet d'indiquer pour quoi on ouvre le fichier:
>     - `mode="r"` = on ouvre le fichier en lecture
>     - `mode="w"` = on ouvre le fichier en écriture. Attention, `mode="w"` **efface tous les contenus du fichier qu'on ouvre !**.

> `open` ouvre le fichier, mais n'affiche pas ses contenus. Pour afficher les contenus, il faut utiliser `fichier.read()` : on appelle la *méthode* `read` sur la variable `fichier`, et donc on affiche ce qui est contenu.
> - si on `print` juste notre variable `fichier`, on voit que ce qui s'affiche n'est pas le contenu du fichier, mais un object `TextWrapper`.
> - par analogie, c'est comme quand on reçoit une lettre (ou un colis Vinted): `fichier`, c'est l'emballage, et on doit prendre l'emballage et l'ouvrir pour voir son contenu avec `fichier.read()`

In [6]:
with open("in_correspondance_matsutaka_full.txt", mode="r", encoding="utf-8") as fichier:
    print(fichier)

<_io.TextIOWrapper name='in_correspondance_matsutaka_full.txt' mode='r' encoding='utf-8'>


### La syntaxe `with ... as`

> Pour faire bref, la syntaxe `with open(...) as fichier` permet d'assigner le résultat de la fonction `open` à la variable `fichier`. C'est donc une variante du code en dessous:

In [7]:
fichier = open("in_correspondance_matsutaka_full.txt", mode="r", encoding="utf-8")
fichier.close()  # si on utilise pas with...as, il faut explicitement fermer le fichier

> On préfère `with ... as` quand on travaille avec des fichiers car ça permet de fermer un fichier automatiquement, sans avoir à utiliser `fichier.close()` (et il faut éviter de garder des fichiers ouverts inutilement en Python !)
>
> En termes plus techniques, `with...as` permet la gestion de contextes: `fichier` sera ouvert seulement dans le contexte du `with...as`, c'est-à-dire dans le bloc indenté qui suit. C'est une syntaxe qui est seulement utilisable avec certains objets, qui définissent des fonctions pour *entrer* et *sortir* du contexte. Généralement, quand on peut utiliser `with...as`, c'est indiqué dans les exemples de la documentation qu'on utilise.

### Méthodes 

> Si vous avez bien fait attention, vous aurez vu qu'on a fait face à une fonction un peu particulière: pour lire les contenus de notre fichier, on utilise `fichier.read()`. C'est une syntaxe bizarre: si `read()` est une fonction, est-ce qu'on ne devrait pas plutôt faire `read(fichier)` pour lire les contenus du fichier?
> 
> En fait, `read()` est une **méthode** de notre variable `fichier`.
> - Une méthode est un type particulier de fonction qui est définie pour un type de fonction ou une classe (une classe est une structure de données qui contient des valeurs, mais aussi des fonctionnalités).
> - La méthode s'applique à l'objet sur lequel elle est définie: par exemple, `read()` s'applique à `fichier`.
> - Pour simplifier, une méthode, c'est comme une fonction, sauf que le 1er argument de la fonction, c'est l'objet auquel appartient la méthode: `fichier.read()` se lit comme `read(fichier)`.
> - La plupart des types de données ont des méthodes prédéfinies qui offrent des fonctionnalités basiques propres à ce type. On apprend lesquelles elles sont et comment les utiliser avec l'entrainement !

```python
print("bonjour")  # une fonction. syntaxe: nom_de_fonction(arguments)
fichier.read()    # une méthode.  syntaxe: variable.fonction()
```

### Indentation

> Si votre regard est assez acéré, vous aurez remarqué que après `with ... as ... :` on a un retour à la ligne suivi d'une indentation (alinéa après un retour à la ligne). Pourquoi ? 
> 
> En Python, ***l'indentation est signifiante et permet de structurer le code en blocs*** ! 
>
> Le `:` et l'indentation servent de délimiteurs entre différents blocs de code. Cette indentation doit être utilisée de manière cohérente dans tout votre code. La convention consiste à utiliser 4 espaces comme indentation (certains environnements de développement transforment automatiquement une tabulation en 4 espaces). Cela signifie qu'après avoir utilisé un deux-points (comme dans notre `with...as`), la ligne suivante devrait être indentée de quatre espaces de plus que la ligne précédente.
>
> Concrètement, dans le bloc de code ci-dessous, le contenu de la variable `fichier`n'est accessible que dans le bloc indenté après le `with...as`:

In [8]:
with open("in_correspondance_matsutaka_full.txt", mode="r", encoding="utf-8") as fichier:
    # ici, on est dans le bloc, indenté, `fichier.read()` est possible
    corpus = fichier.read()
    print(corpus[:100])  # [:100] permet d'afficher les 100 premiers caractères de `corpus`

# ici, on est sorti du bloc, donc le fichier a été fermé. 
# `fichier.read()` nous envoie une belle erreur, c'est normal !
print(fichier.read())

﻿Date : 1917/01/16
Expéditeur : Mrs. H. O. Havemeyer
Lieu d’expédition : New York
Destinataire : inc


ValueError: I/O operation on closed file.

### Pour résumer

> On a vu ici comment ouvrir un fichier avec la fonction `open` et lire ses contenus avec `read()`. En plus de ça, on a vu la construction `with ... as`, et surtout, le rôle de l'indentation pour structurer son code en blocs.

---

## Le corpus

Avant de se lancer dans l'analyse, on regarde ce que contient notre texte. Pour rappel, la variable `corpus` contient les contenus du fichier. 

In [10]:
# Exercice: afficher les contenus du fichier.
print(corpus)

﻿Date : 1917/01/16
Expéditeur : Mrs. H. O. Havemeyer
Lieu d’expédition : New York
Destinataire : inconnu
Lieu destination : inconnu
Carte de visite de Mrs. H. O. Havemeyer, One East Sixty-sixth Street, avec un mot 
Présentant M. Matsukata. 
Cher Monsieur, permettez-moi de vous présenter M. le Baron Matsukata de Japon. Il est un grand amateur et s’intéresse aux bronzes de Degas. Je vous prie de facilité  ses ententions envers ces « graphs cirés ». Veuillez agréer mes sentiments les plus distingués. DW Havemeyer

Date : 1917/12/30
Expéditeur : Edmond Davis
Lieu d’expédition : Londres
Destinataire : Léonce Bénédite
Lieu destination : Paris
Lettre d’Edmond Davis, 13 Lansdowne Road W. à Léonce Bénédite. 
Cher Monsieur Bénédite, 
J’ai donné une lettre d’introduction à Monsieur Matsukata, l’armateur japonais, qui fonde un musée à Kobe et qui désire acquérir des œuvres de Rodin. 
Je ne crois pas qu’il va à Paris d’ici quelques semaines préférant attendre le beau temps mais je compte vous rendr

In [None]:
# la fonction `type` permet de connaître le type d'une valeur
print(type(corpus))

Le corpus utilisé pour cet atelier est un ensemble de correspondances autour de l'achat par Matsukata d'un ensembles d'œuvres européennes, notamment par l'intermédiaire du conservateur de musées Léonce Bénédite, durant la première moitié du XXe siècle. Les originaux sont conservés dans les archives de l'Institut national d'histoire de l'art et du Musée Rodin. La version numérique du corpus a été produite par Léa Saint-Raymond.

Comme on le voit, la structure du texte est toujours la même, ce qui est bien pratique pour nous: la première étape de la fouille de texte, c'est de structurer ses données. En effet, en lisant le texte on identifie une structure qui se répète. L'ordinateur, par contre, lit le texte de manière "bête et méchante" : caractère par caractère. Par exemple, il ne peut même pas faire la différence entre les différentes lettres de la correspondance.

Il va donc falloir transformer notre document pour le rendre sa structure compréhensible par un ordinateur. Une fois que l'ordinateur peut comprendre la structure, alors il peut identifier les différentes lettres de la correspondance, les mots, les phrases... et donc réaliser des opérations sur ces éléments. 

**Analyser le texte, c'est donc le structurer pour le rendre compréhensible par ordinateur**. Le type de données du texte (`str`) n'est par nature pas structuré, donc ne permet pas par lui-même cette analyse.

---

## Combien de lettres dans le corpus ?

Une première manière d'aborder le corpus, c'est: **combien de lettres contient le corpus** ?

Dans le notebook précédent, on a vu la fonction `len()`:

In [11]:
print(len(corpus))  # à quoi correspond ce résultat ?

288772


On affiche bien la longueur de `corpus`, mais pas le nombre de lettres. Ce qu'il faudrait, ce serait séparer les lettres entre elles. Et pour ça, le type `str` offre la méthode `split()`

In [13]:
print(corpus.split())



In [14]:
print(len(corpus.split()))   # et là, à quoi correspond cette longueur ?

49193


Vous l'aurez deviné, `split()` permet de séparer une `str` en une liste d'items. 

> En faisant `corpus.split()`, on scinde le texte à chaque fois qu'il y a un espace. L'espace est le **séparateur par défaut** de la fonction `split()`. Mais on peut aussi utiliser d'autres séparateurs, que l'on indique en argument de la fonction `split()`.
>
> En python la chaîne de caractères `\n` sert à représenter un retour à la ligne (n = abbréviation de *newline*). Si on veut scinder le texte ligne par ligne, on utilise donc:

In [None]:
corpus.split("\n")
print(len(corpus.split("\n"))  # et là, le nombre de lignes du corpus

Pour le moment, on a séparé les différentes lignes du corpus. Mais on veut séparer les différentes lettres du corpus. Or, il existe une ligne vide entre chaque lettre. Une ligne vide correspond à 2 retours à la ligne, soit `\n\n`.

Comment adapter la fonction `split()` pour séparer le corpus lettre par lettre ?

In [15]:
# Exercice: "splitter" `corpus` par "\n\n" pour créer une liste de lettres. 
# À partir de là, afficher le nombre de lettres.

# sans créer de variable
print(len(corpus.split("\n\n")))

# en créant une variable
corpus_en_liste = corpus.split("\n\n")
print(len(corpus_en_liste))

280
280


---

## Les listes

> OK, on a réussi à afficher le nombre de lettres dans notre corpus, c'est super ! Maintenant, regardons d'un peu plus près ce que produit `split()`.

In [None]:
print(corpus)

In [None]:
print(type(corpus))

In [None]:
corpus_liste = corpus.split("\n\n")
print(corpus_liste)

In [None]:
print(len(corpus_liste))
print(type(corpus_liste))

`split()` transforme notre *chaîne de caractères* `corpus` en une *liste* de lettres. Qu'est-ce que ça veut dire ?

Une chaîne de caractères (`str`) n'est pas structurée: l'ordinateur la traite lettre-par-lettre, et donc même par défaut, il ne va pas faire la différence entre des mots, des lignes, ou les différentes lettres de la correspondance. Or, si on se limite à une analyse caractère par caractères, on ne va pas aller bien loin.

Par contre, avec `split`, on a réussi à scinder `corpus` en mots, lignes, puis lettres, des unités qui sont plus signifiantes pour nous. Comment ? ***En transformant la `str` en `list`***.

Voilà un autre exemple de `split()`. 

In [None]:
# on prend une phrase
phrase = "La saga Twilight, d'abord publiée en France sous le nom de Saga du désir interdit, est une série de romans fantastiques et sentimentaux de Stephenie Meyer publiés entre 2005 et 2020."
print(phrase)

# on la transforme en une liste de mots
phrase = phrase.split()
print(phrase)
print(len(phrase))  # comment interpréter `len` ici ?

### Les listes, une définition rapide 

> Une liste est un type de données qui permet de **stocker une collection de valeurs**.
> - elle s'écrit **entre crochets `[]`**
> - les différents items de la liste sont **séparés par des virgules `,`**
> - une liste peut contenir **n'importe quel type de données**: str, int, autres listes... On peut donc arriver à des structures de données assez complexes.
> - une liste est **ordonnée et indexée**, c'est-à-dire que:
>     - les différents items ont une position définie (leur position ne change pas, le 1e, 2e, 3e élément sont toujours à la même place)
>     - on accède à un item d'une liste à partir de son `index`, c'est à dire de sa position dans la liste.
>
> Voilà comment on définit une liste:

In [None]:
ma_liste = ["un", "deux", "trois"]

### L'idexation d'une liste

> Comme on l'a dit, une liste est ordonnée et on accède aux différents éléments à partir de leur position dans la liste. On va donc faire quelques manipulations pour voir comment ça marche.

In [None]:
# à quoi accède-t-on ici, dans chaque cas?
print(phrase[0])
print(phrase[1])
print(phrase[-1])

> Au dessus, on voit la syntaxe de base pour cibler un item d'une liste par son index:
>
> ```python
> ma_liste[index]
> ```
>
> Quelques spécificités:
> - **l'indexation commence à 0**: `ma_liste[0]` renvoie le 1er élément de la liste, `ma_liste[1]` renvoie le 2e élément...
> - **l'indexation négative** permet de récupérer les derniers éléments d'une liste et commence à -1: `ma_liste[-1]` permet d'obtenir le dernier élément de la liste, `ma_liste[-2]` l'avant dernier.
> - on peut aussi récupérer **une tranche d'items** dans une liste: `ma_liste[2:4]` renvoie le 3e, 4e et 5e items de la liste.
>     - la syntaxe, c'est: `ma_liste[debut:fin]`

> Voilà un schéma pour résumer: 
> 
> ![Schéma résumant l'indexation de liste](https://static.javatpoint.com/python/images/lists-indexing-and-splitting.png)

> *Ps: une chaîne de caractère aussi est indéxée ! Mais dans ces cas, le premier item, c'est la première lettre, etc.*
>
> Soit une chaîne de caractère `"Monty Python"`, l'indexation fonctionne comme ceci:
>
> ![Schéma résumant l'indexation d'une chaîne de caractère](https://camo.githubusercontent.com/663de286b76da0a6e181998831ca596b67146ecfb2d6589548e87bff5ca8a80e/687474703a2f2f7777772e6e6c746b2e6f72672f696d616765732f737472696e672d736c6963696e672e706e67)

In [None]:
# Exercices: manipuler nos listes `phrase` et `corpus_liste`
# attention, l'indexation commence à 0 !

# 1) afficher le 3e item de `phrase`
print("Résultat de l'exercice 1:")

# 2) afficher entre le 3e et le 5e item de `phrase`
print("Résultat de l'exercice 2:")

# 3) afficher la 2e lettre de `corpus_liste`
print("Résultat de l'exercice 3:")

# 4) afficher l'avant dernière lettre de `corpus_liste`
print("Résultat de l'exercice 4:")

### Modifier une liste

> Modifier une liste, ça veut dire ajouter un élément, supprimer un élément, modifier un élément existant.
>
> Reprennons la liste
> ```python
> ma_liste = ["un", "deux", "trois"]
> ```
> 
> **`ma_liste.append("nouvelle valeur")` permet d'ajouter une valeur** à la fin de la liste.
> - dans l'exemple ci-dessous, on ajoute une `string`, mais on peut ajouter n'importe quoi à la liste.

In [None]:
ma_liste = ["un", "deux", "trois"]

ma_liste.append("quatre")
print(ma_liste)

> **`ma_liste[index] = "nouvelle valeur"` permet de modifier la valeur à l'index indiqué entre crochets**
> - l'exemple ci-dessous modifie le 2e item de `ma_liste` (soit `"deux"`) et le remplace par `2`.
> - en langage humain, ça revient à cibler l'élément dans la liste à modifier par sa position (avec `ma_liste[1]` puis à le redéfinir avec `= 2`.
> - cette technique ne fonctionne que si `ma_liste[index]` est défini.


In [None]:
ma_liste[1] = 2
print(ma_liste)

> **`ma_liste.pop(index)` permet de supprimer la valeur à la position indiquée entre crochets**.
> - l'exemple ci-dessous retire le 4e élément de la liste, soit `"quatre"`.
> - il existe plusieurs méthodes pour supprimer une liste, celle-ci n'est qu'une parmi d'autres

In [None]:
ma_liste.pop(3)
print(ma_liste)

---

## Objectif final: écrire un compteur de mots

L'objectif du reste du notebook, ça va être d'écrire un compteur de mots. Ça veut dire, prendre tout le corpus et écrire un processus qui permette d'obtenir tous les mots uniques présents dans le corpus, et le nombre de fois que chaque mot apparaît. On va faire ce processus ensemble pour voir comment on peut décomposer une question simple en plusieurs opérations Python.

Ce processus comprend les étapes suivantes:
1) ouvrir le fichier contenant le corpus et le lire (déjà fait)
2) retirer les métadonnées pour ne garder que la source primaire (le contenu des lettres)
3) simplifier le corpus pour que le comptage soit plus qualitatif
4) écrire le compteur à proprement parler

---

## 1. Ouvrir et lire le fichier

In [None]:
# on reprend le code écrit jusqu'à maintenant pour plus de clarté
with open("in_correspondance_matsutaka_full.txt", mode="r") as fichier: 
    corpus = fichier.read()

corpus = corpus.replace("\ufeff", "")  # pas bien important
corpus_liste = corpus.split("\n\n")

# on affiche quelques stats
print("nombre de lettres dans le corpus:", len(corpus_liste))
print("")
print("première lettre du corpus:")
print("")
print(corpus_liste[0])

---

## 2. Retirer les métadonnées du corpus

On voit ici que nos lettres ont la structure suivante:

```
Date <...>
Expéditeur <...>
Lieu d’expédition <...>
Destinataire <...>
Lieu destination <...>
<Titre donné>
<Contenu de la lettre>
```

On veut écrire un compteur de mots, mais pour le moment, on voit que notre corpus **mélange de l'information primaire (le contenu des lettres) et secondaires (leurs métadonnées)**. On ne peut pas faire l'analyse sur ces deux types d'informations à la fois: notre compteur de mots sera seulement fait sur la source primaire. Il va donc falloir supprimer toutes les premières lignes de métadonnées.

On va donc partir de `corpus_liste` et enlever les métadonnées de toutes les lettres, et stocker le résultat dans `corpus_liste_contenu`.

In [None]:
# voir la correction dans : correction_extraction_contenu.ipynb

# supprimer les métadonnées de corpus lettres

# le processus: on va créer une liste intitulée `corpus_liste_contenu` 
# où chaque item de la liste est une lettre (type `str`), qui ne contienne pas
# les 6 premières lignes de métadonnées.

corpus_liste_contenu = []

# à nous de jouer

# À SUPPRIMER
corpus_liste_contenu = [ lettre.split("\n")[6:] for lettre in corpus_liste ]
corpus_liste_contenu = [ "\n".join(line for line in lettre) for lettre in corpus_liste_contenu ]

print(len(corpus_liste_contenu))
# print(corpus_liste_contenu[0])

In [None]:
print(corpus_liste_contenu)

---

## Les boucles `for`

> Dans le bloc de code au dessus, on a vu quelque chose de nouveau (encore !) : les boucles `for`. Les boucles, c'est un truc central en Python, et dans plein de langages de programmation. Quand on travaille sur des types complexes, comme des listes, qui peuvent être décomposés en plusieurs items, une boucle `for` permet **d'accéder à tous les items de la liste pour y appliquer une opération**.
>
> Par analogie, c'est comme si on voulait peler une botte de carottes: 
> - la botte de carotte est une liste de carottes;
> - on boucle sur chaque item/carotte de la liste
> - on effectue une opération: on pèle la carotte
>
> La syntaxe est:
> 
> ```python
> for mon_item in ma_liste:
>     print(mon_item)  # ici, je mets un print, mais on peut mettre n'importe quelle opération dans une boucle
> ```

---

## 3. Simplifier notre corpus

`corpus_liste_contenu` contient maintenant une `list` de toutes nos lettres, sans métadonnées. Chaque lettre est une `str`. Il ne reste que la donnée primaire et c'est sur cette donnée qu'on va écrire notre compteur de mots.

Il était utile que `corpus_liste` et `corpus_liste_contenu` soit des listes puisque ça nous permettait d'accéder à chaque lettre et donc d'enlever les métadonnées des lettres. Par contre, le compteur de mots sera fait au niveau du corpus, et pas de la lettre. On transforme donc la `list` `corpus_liste_contenu` en `str`.

In [None]:
# on se rappelle de ce que fait la méthode `join` ?
corpus_contenu = "\n\n".join(lettre for lettre in corpus_liste_contenu)

print(corpus_contenu)

In [None]:
print(type(corpus_contenu))

On peut commencer à simplifier !

> Simplifier du texte, à la base, c'est simplement faire du "chercher-remplacer" en masse. Fort heureusement, Python incorpore de chouettes fonctions pour le traitement de chaînes de caractères.
> Ici, on va en utiliser deux:
> - `lower()`, qui convertit le texte en minuscule
> - `replace()`, qui remplace une chaîne de caractère par une autre.

In [None]:
corpus_contenu = corpus_contenu.lower()

# quelques signes de ponctuation communs dans le texte à supprimer. 
# il y en a surement d'autres, mais bon avec ça on se sera déjà débasarré de la majorité. 
caracteres_a_supprimer = [".", ",", ";", ":", "?", "!", "•", "[", "]", "(", ")", "«", "»", "*", "_", "–"]
# qu'est-ce que je fais ici ?
for caractere in caracteres_a_supprimer:
    corpus_contenu = corpus_contenu.replace(caractere, "")

Très bien, on a maintenant notre corpus simplifié. Il n'y a maintenant plus besoin de travailler au niveau de la lettre ou du corpus, mais au niveau du mot. 

D'abord, on transforme `corpus_contenu` en une liste de tous les mots du corpus. 

Ensuite, on supprime quelques mots qui reviennent très souvent et qui biaiseront les résultats: "mon", "ma", "je" etc., et tous les mots ne contenant que 1 ou 2 lettres.

In [None]:
corpus_mots_full = corpus_contenu.split()  # tous les mots du corpus
corpus_mots = [] # ici, on ne mettra que les mots qui 

# le corpus est en français et en anglais ! on met donc des mots des deux langues
mots_a_supprimer = [ "je", "tu", "il", "elle", "nous", "vous", "ils", "elles", 
                     "mr", "mme", "mon", "ma", "mes", "notre", "votre", "son", "sa", "des",
                     "avec", "les", "aux", "est", "que", "plus", "tout", "pour",
                     "and", "for", "with", "mine", "yours", "his", "hers", "our", "ours",
                     "their", "theirs", "the", "has", "that", "all", "he", "she", "they", "them",
                     "you", "yours", "was", "her" ]

for mot in corpus_mots_full:
    if mot not in mots_a_supprimer and len(mot) >= 3:
        corpus_mots.append(mot)

print("longueur avant nettoyage:", len(corpus_mots_full)) 
print("longueur après nettoyage:", len(corpus_mots)) 
print(corpus_mots[:15])
print(corpus_mots[-15:])

On a maintenant une liste de mots (en français et en anglais, en minuscule.

On pourrait aller plus loin dans le nettoyage: on pourrait séparer les corpus français et anglais, supprimer les espaces, retirer les noms propres... Il existe des listes de *stop words* qui contiennent tous le mots "inutiles" (mots qui servent à la structure plus qu'au contenu), et on pourrait utiliser une liste comme ça plutôt que notre liste faite main dans `mots_a_supprimer`. On ne va pas faire tout ça dans le cadre de ce cours.

---

## `if` et `else`: les conditions

> Dans le bloc de code au dessus, un nouveau mot de vocabulaire est apparu : `if`. À quoi sert-il?
>
> En anglais, c'est transparent: `if` et `else` permettent de tester des conditions. Il existe aussi un `elif`.

In [None]:
couleur = "orange"

choix_de_couleurs_1 = ["bleu", "vert", "violet"]
choix_de_couleurs_2 = ["topaz", "améthyste", "opale"]

if couleur in choix_de_couleurs_1:
    print("`couleur` est dans choix_de_couleurs_1:", choix_de_couleurs_1)
elif couleur in choix_de_couleurs_2:
    print("`couleur` est dans choix_de_couleurs_2:", choix_de_couleurs_2)
else:
    print("`couleur` n'est ni dans `choix_de_couleurs_1` ni dans `choix_de_couleurs_2`")


> Comment utiliser ces trois conditions ?
> - le `if` = ***si***.
>     - `if` est suivi d'une condition. Cette condition est *évaluée* et renvoie un *booléen* (`True`/`False`).
>     - si la réponse est `True`, la condition est validée. Dans ce cas le bloc de code indenté après le `if condition:` est exécuté.
>     - si la condition est évaluée à `False` (la condition n'est pas validée), alors le bloc indenté ne s'exécute pas et on continue.
> - `elif` est une contraction de `else if`: il veut dire ***sinon***.
>     - `elif` ne peut être utilisé qu'après un `if` ou un autre `elif`.  
>     - `elif <condition>` est testé seulement si la condition précédente est `False`.
> - `else` est toujours placé après un ou plusieurs `if` ou `elif`. Il n'est pas suivi d'une condition: le bloc indenté après le `else` ne sera exécuté que si aucune des conditions précédentes n'est validée.
>
> Reprenons l'exemple au dessus: 

In [None]:
couleur = "orange"

choix_de_couleurs_1 = ["bleu", "vert", "violet"]
choix_de_couleurs_2 = ["topaz", "améthyste", "opale"]

# cette condition est False
if couleur in choix_de_couleurs_1:
    # ce bloc n'est pas exécuté
    print("`couleur` est dans choix_de_couleurs_1:", choix_de_couleurs_1)
# cette condition est False
elif couleur in choix_de_couleurs_2:
    # ce bloc n'est pas exécuté
    print("`couleur` est dans choix_de_couleurs_2:", choix_de_couleurs_2)
# aucune des conditions précédentes n'est True
else:
    # ce bloc est exécuté
    print("`couleur` n'est ni dans `choix_de_couleurs_1` ni dans `choix_de_couleurs_2`")


In [None]:
# ATTENTION !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
# cette fois-ci, `orange` est dans `choix_de_couleurs_2`
couleur = "orange"

choix_de_couleurs_1 = ["bleu", "vert", "violet"]
choix_de_couleurs_2 = ["topaz", "améthyste", "opale", "orange"] 

# cette condition va être False
if couleur in choix_de_couleurs_1:
    # ce bloc n'est pas exécuté
    print("`couleur` est dans choix_de_couleurs_1:", choix_de_couleurs_1)
# cette condition va être True
elif couleur in choix_de_couleurs_2:
    # ce bloc est exécuté
    print("`couleur` est dans choix_de_couleurs_2:", choix_de_couleurs_2)
# une des conditions précédentes est `True`. le `else` n'est pas exécuté.
else:
    print("`couleur` n'est ni dans `choix_de_couleurs_1` ni dans `choix_de_couleurs_2`")

> Une condition  peut combiner plusieurs tests grâce à `and`, `or`, `not`.

> `and` permet de vérifier que plusieurs conditions sont valides 
> ```python
> # le `if` n'est `True` que si `condition1` et `condition2` sont `True`
> if condition1 and condition2:
>    print("condition1 et condition2 sont valides")
> ```

> `or` permet de verifier que une condition au moins est valide:
> ```python
> # le `if` est `True` si `condition1` ou `condition2` sont valides
> if condition1 or condition2:
>     print("condition1 ou condition2 est valide")
> ```

> `not` permet de vérifier qu'une condition n'est pas valide.
> ```python
> # le `if` est `True` si `conditon1` n'est pas valide
> if not condition1:
>     print("condition1 n'est pas valide")
> ```
> En termes plus techniques, `not` inverse le résultat d'une condition: si la `condition` est `True`, `not condition` sera `False`.

---

## 4. Écrire un compteur

Il est maintenant temps d'écrire notre fameux compteur !

En écrivant un compteur, on va découvrir notre *dernier* type de données: le `dictionnaire` (٩(^ᗜ^ )و ´- ✧｡٩(ˊᗜˋ )و✧*｡＼(^o^)／). Par contre, écrire notre compteur n'impliquera rien d'autre de nouveau.

On va le faire ensemble.

In [None]:
# voir correction_compteur.ipynb

---

## Les dictionnaires

> On a vu tous les principaux types python: `str`, `int`, `float`, `bool`, `list`, et maintenant on voit les `dict`.
>
> Un dictionnaire Python, c'est (presque) comme un dictionnaire papier: il permet d'associer une entrée (qu'on appelle la `clé`, ou `key`) à une valeur (`value`).
>
> Définissons un petit dictionnaire:

In [None]:
# première phrase de pages homonymes de Python sur wikipedia
python_homonymes = {
    "biologie": "Le terme Python est un nom vernaculaire ambigu désignant en français plusieurs espèces de serpents appartenant à différents genres des familles des Pythonidae et des Loxocemidae.",
    "mythologie": "Dans la mythologie grecque, Python (en grec ancien Πύθων / Pýthôn) est un dragon, fils de Gaïa (la Terre), ou bien d'Héra selon les traditions.",
    "informatique": "Python (prononcé /pi.tɔ̃/) est un langage de programmation interprété, multiparadigme et multiplateformes.",
}

print(python_homonymes["mythologie"])


### Définir un dictionnaire

> On remarque que:
> - un dictionnaire a la structure:
>   ```python
>   { "cle_1": "valeur_1", "cle_2": "valeur_2", "cle_3": "valeur_3" } 
>   ```
> - **des accolades `{}`** encadrent un dictionnaire 
> - **deux points `:`** séparent une clé de sa valeur 
> - **des virgules `,`** séparent les différents couples clés-valeurs>  
>
> Quelles données stocker dans un dictionnaire ?
> - **en clés**, on met généralement des `str` (mais on peut aussi mettre des nombres)
> - **en valeurs**, on peut stocker **n'importe quel type de données**: `str`, `int`, mais aussi des listes, ou d'autres dictionnaires, ce qui permet de représenter facilement des objets très complexes.
>
> On peut par exemple représenter un sandwich par un dictionnaire:

In [None]:
# superbe recette de bahn-mi ! 
sandwich = { "pain": "baguette",
             "ingrédients": ["carotte", "concombre", "tofu mariné"],
             "sauce": "mayonnaise",
             "condiment": ["piment", "coriandre"],
             "prix": 5.50 }

### Modifier et accéder aux valeurs d'un dictionnaire

> **Pour ajouter une valeur**, la syntaxe est simple:
> ```python
> mon_dictionnaire["ma_cle"] = "ma_valeur"
> ```
> - si `ma_cle` n'existe pas dans `mon_dictionnaire`, alors ce nouveau couple clé-valeur est inséré dans le dictionnaire
> - sinon, la valeur associée `ma_cle` est mise à jour.
>
> **Pour accéder à une valeur**, on cible la clé:
> ```python
> mon_dictionnaire["ma_cle"]  # => on obtient "ma_valeur"
> sandwich["ingrédients"]     # => on obtient ["carotte", "concombre", "tofu mariné"]
> ```
>
> En fait, la manipulation d'un dictionnaire ressemble beaucoup à la manipulation d'une liste, sauf qu'on accède aux valeurs d'une liste par leur index (position dans la liste), alors qu'on accède aux valeurs d'un dictionnaire par leur clé. 

In [None]:
# petits exercices pour manipuler un dictionnaire:

# 1) afficher la "sauce" du dictionnaire `sandwich`

# 2) afficher le 2e ingrédient du sandwich (rappelez vous: les ingrédients 
# sont une liste, donc on doit accéder au 2e élément de la liste !

# 3) dans `sandwich` remplacer le condiment "piment" par du "citron"

---

## Écrire une fonction

Ci-dessous, je résume tout le code de la chaîne de traitement principale, depuis le moment où on a une `str` dans laquelle se trouvent tous les mots que l'on veut compter, jusqu'au comptage de tous les mots.

On va essayer d'écrire une fonction qui reprenne tout le code.

Pour complexifier, cette fonction prendra un argument `text` qui est le texte sur lequel on veut lancer notre compteur de mots. Pour tester le résultat de la fonction, on a 3 fichiers sur lesquels tester la fonction: `in_mrs_dalloway.txt`, `in_the_waves.txt`, `in_to_the_lighthouse.txt`. Ils sont tous les trois lus dans des variables. On aura comme ça une fonction qui sert de compteur pour n'importe quel caractère, et qu'on va pouvoir tester de façon instantanée sur trois romans différents (incroyable !).

Attention ! Il faut que ces fichiers soient accessibles sur votre Google Colab. 

Comment est-ce qu'on écrit une fonction nom d'une pipe ? À vous de trouver :) Ici, il y a un [bon tutoriel](https://lecoursgratuit.com/les-fonctions-en-python-un-cours-complet/), et [ici une présentation plus avancée](https://github.com/PonteIneptique/cours-python/blob/master/Chapitre%202%20-%20Les%20fonctions%20et%20les%20fichiers.ipynb). Sinon, vous pouvez demander à $hum^{hum^{hum}}$ ChatGPT comment écrire une fonction.

In [None]:
# nettoyer corpus_contenu
corpus_contenu = corpus_contenu.lower()

# quelques signes de ponctuation communs dans le texte à supprimer. 
# il y en a surement d'autres, mais bon avec ça on se sera déjà débasarré de la majorité. 
caracteres_a_supprimer = [".", ",", ";", ":", "?", "!", "•", "[", "]", "(", ")", "«", "»", "*", "_", "–"]
# qu'est-ce que je fais ici ?
for caractere in caracteres_a_supprimer:
    corpus_contenu = corpus_contenu.replace(caractere, "")

corpus_mots_full = corpus_contenu.split()  # tous les mots du corpus
corpus_mots = [] # ici, on ne mettra que les mots qui 

# le corpus est en français et en anglais ! on met donc des mots des deux langues
mots_a_supprimer = [ "je", "tu", "il", "elle", "nous", "vous", "ils", "elles", 
                     "mr", "mme", "mon", "ma", "mes", "notre", "votre", "son", "sa", "des",
                     "avec", "les", "aux", "est", "que", "plus", "tout", "pour",
                     "and", "for", "with", "mine", "yours", "his", "hers", "our", "ours",
                     "their", "theirs", "the", "has", "that", "all", "he", "she", "they", "them",
                     "you", "yours", "was", "her" ]

for mot in corpus_mots_full:
    if mot not in mots_a_supprimer and len(mot) >= 3:
        corpus_mots.append(mot)

print("longueur avant nettoyage:", len(corpus_mots_full)) 
print("longueur après nettoyage:", len(corpus_mots)) 

# -----------------------------------------------
# écrire le compteur

# 1) on crée notre variable contenant les résultats.
# ici, on va faire un dictionnaire qui associe nos mots (en "clé") au nombre de fois qu'elles sont utilisées.
compteur = {}

# 2) on génère ensuite une liste dédoublonnée des mots du texte. 
# pour ça il y a plusieurs méthodes, plus ou moins flemmardes.

# on dédoublonne `corpus_mots`
mots_uniques = set(corpus_mots)
print("nombre de mots uniques:", len(mots_uniques))

# 3) on complète le compteur 

# on initie le compteur en associant chaque mot unique à 0. 
# 0 sera ensuite remplacé par le nb d'occurrences du mot.
for mot in mots_uniques:
    compteur[mot] = 0
# ensuite, on boucle sur `corpus_mots` (ensemble des mots, avec doublons), et à chaque fois
# qu'un mot apparaît, on augmente son décompte de 1.
for mot in corpus_mots:
    compteur[mot] += 1

# on identifie tous les mots les plus utilisés
maxuse = max(list(compteur.values()))  # valeur maximale de notre dictionnaire
mots_frequents = []
for key, val in compteur.items():
    if val == maxuse:
        mots_frequents.append(key)
print("mots les plus fréquemment utilisés:", mots_frequents)

somme_utilisations = 0
nb_mots_uniques = len(mots_uniques)
for val in compteur.values():
    somme_utilisations += val
print("nombre moyen d'occurrences d'un mot: ", somme_utilisations / nb_mots_uniques)


In [None]:
# résultats dans: correction_compteur_fonction.ipynb

with open("in_mrs_dalloway.txt", mode="r", encoding="utf-8") as f:
    mrs_dalloway = f.read()
with open("in_the_waves.txt", mode="r", encoding="utf-8") as f:
    the_waves = f.read()
with open("in_to_the_lighthouse.txt", mode="r", encoding="utf-8") as f:
    lighthouse = f.read()

# intégrer le code du dessus à une fonction nommée "count_words" qui prenne en argument une chaîne de caractère
# (l'un des trois textes ci-dessus) et affiche des statistiques dessus.

count_words(mrs_dalloway)
print("")
count_words(the_waves)
print("")
count_words(lighthouse)

### Définir une fonction: la théorie

In [16]:
def longueur_moyenne(phrase):
    phrase_liste = phrase.split()
    nb_mots = len(phrase_liste)
    moyenne = len(phrase) / nb_mots
    return moyenne

print(longueur_moyenne("Longtemps, je me suis couché de bonne heure"))

5.375


> - **`def`** est le mot clé introductif qui permet de définir une fonction
> - **il est suivi du nom de la fonction**. Comme pour les variables, le nom n'a pas d'importance pour la machine, mais en a pour nous: il rend le code compréhensible.
> - **les arguments** sont écrits après le nom, entre parenthèses `()`. Si il y a plusieurs arguments, on les sépare par une virgule. Quand on exécute la fonction, la valeur de chaque argument sera accessible exactement comme une variable.
> - **le code de la fonction** est écrit dans un bloc indenté après un deux-points+retour à la ligne
> - **`return`** est le mot clé optionnel qui termine une fonction. Il indique les valeurs à **renvoyer**, c'est-à-dire les résultats de la fonction.
>     - Seules les valeurs qui sont renvoyées seront accessibles en dehors de la fonction. Sinon, tout ce qui est fait dans la fonction sera inaccessible en dehors de la fonction: toutes les variables etc. définies dans la fonction sont inaccessibles hors du contexte de la fonction.

In [18]:
# le rôle du `return` apparaît quand on l'omet
def longueur_moyenne(phrase):
    phrase_liste = phrase.split()
    nb_mots = len(phrase_liste)
    moyenne = len(phrase) / nb_mots  # pas de return ici !

print(longueur_moyenne("Longtemps, je me suis couché de bonne heure"))  # quel résultat s'affiche et pourquoi ?

None


In [21]:
# et maintenant, on va voir que ce qui est définit dans une fonction est inaccessible dehors
# sauf pour le return

def longueur_moyenne(phrase):
    phrase_liste = phrase.split()
    nb_mots = len(phrase_liste)
    moyenne = len(phrase) / nb_mots  # pas de return ici !
    return moyenne

print(longueur_moyenne("Longtemps, je me suis couché de bonne heure"))
print(nb_mots)  # nb_mots existe seulement à l'intérieur de longueur_moyenne() !

5.375


NameError: name 'nb_mots' is not defined

# Et voilà ଘ(੭ˊᵕˋ)੭*

En deux cours, on a vu à peu près 80-90% de la syntaxe Python ! Il suffit maintenant de pratiquer et de l'appliquer à d'autres projets. 

Au passage, ce qu'on voit en Python s'applique en fait à d'autres langages ! Les listes, dictionnaires, les fonctions, les boucles sont des principes qui sont partagés par beaucoup de langages, même si les manières de les nommer et les syntaxes changent d'un langage à l'autre. Dictionnaires et listes sont d'ailleurs la base du `JSON`, un format de structuration et d'échange de données (et ce notebook lui-même est en fait stocké comme un JSON, qui est mis en forme par une application !)  