# text2web : introduction à l'analyse de texte avec python

## Introduction

Dans ce petit tutoriel, nous allons faire une petite `pipeline`, ou chaîne de traitement, pour traiter un texte brut. À partir d'un fichier texte "brut", c'est-à-dire sans éléments de mise en forme (gras, italique) ou de structuration (balises...), nous allons

- structurer le texte en identifiant ses différentes parties de façon "automatique"
- créer une édition web
- compter les occurrences de chaque mot du texte
- produire une visualisation interactive à partir de ce décompte.

En bref, nous allons passer de l'image de gauche à l'image de droite. C'est pas mal pour un début ! ![transformation](img/transformation.png)

Mais surtout, on va se familiariser avec la logique de python et avec plusieurs principes importants de ce language. En effet, avec python (comme avec tous les languages de programmation), **tout est du texte** : une image, c'est du texte, une carte, c'est du texte, de la musique, c'est du texte et du texte... c'est du texte. Si vous voulez vérifier, ouvrez un terminal, allez dans un dossier avec un fichier son et écrivez `cat [nom du fichier]` (et amusez vous bien). Au dessus de la couche de texte, il y a souvent des *abstractions* qui évitent que l'on travaille directement sur le texte (comme les objets; on verra un objet "graphique" à la fin du tutoriel). Mais les opérations que l'on verra au cours du tutoriel peuvent donc nous ammener assez loin. D'un point de vue plus technique, nous verrons:

- la structuration du texte à l'aide de listes
- l'utilisation de fonctions, de listes et de dictionnaires
- la lecture et l'écriture de fichiers
- l'écriture et la manipulation de JSON
- la création de HTML "en masse"
- une opération basique d'analyse de texte (*data mining*) : le décompte des occurrences de chaque mot
- la création de visualisations avec `Plotly`
- (bonus) une introduction à la rechrche de motifs à l'aide d'expressions régulières
- (bonus) une introduction à la manipulation de XML de `lxml`.

Sacré programme. Bien sûr, on ne verra pas tout en détail.

---

## Avant de commencer: quelques rappels


---

### L'indentation

En python, l'indentation est signifiante: c'est elle qui sépare les différents blocs de code (alors que la plupart des langages utilisent `{}` pour marquer un bloc). La meilleure manière de comprendre c'est un exemple:

```python
print("On démontre l'indentation")  # niveau 1 de code
liste_auteurices = []  # niveau 1 de code
autrice = "Virginia Woolf"  # niveau 1 de code

if autrice == "Virginia Woolf:  # là on va passer au 2e niveau
    liste_auteurices.append(autrice)  # 2e niveau de code
    print("Votre autrice est", autrice)  # 2e niveau de code
    
print(liste_auteurice)  # on sort de l'indentation et revient au premier niveau

# ce qui est print: `['Virginia Woolf']`, c'est-à-dire notre liste avec la valeur qu'on vient
# d'ajouter quand on était au 2e niveau de code.
```

---

### Les types de données en python

Les types de données basiques sont: les `string`, `integer`, `float`, `bool`, `list`, `dict`. 

---

- **`string`: les chaînes de caractères** : n'importe quel suite caractère écrit entre guillemets
    - s'écrit **entre guillemets** : `''` et `""`
    - une chaîne est **indéxée** et **ordonnée**: 
        - les caractères sont dans un ordre défini (`"abcdef"` =/= `fedcba`, même si les deux chaînes ont les mêmes lettres)
        - les caractères ont un index, c'est-à-dire un numéro qui permet d'y accéder. En python, l'indexation (c-a-d la numérotation des éléments) commence à 0. L'index 1 de `"abcde"` correspond  à `b`, soit la 2e lettre de la chaîne de caractères.
    - une chaîne est **mutable** : on peut la mettre à jour, la modifier ou l'augmenter. (voir mes fiches plus bas)
    - une chaîne est **itérable**: on peut boucler sur une chaîne, ce qui nous fait boucler sur chaque caractère.
        - exemple: `for lettre in "abcdef"` bouclera sur `a`, `b`, `c`, `d`, `e` et `f`.

---

- **`list`: les listes** : une suite d'items écrits entre `[]` et séparés par des virgules. Là, ça commence à devenir plus compliqué...
    - une liste est **indéxée** et **ordonnée** : les éléments sont dans un ordre et on peut y accéder grâce à leur index (cad leur numérotation): 
        - par exemple, `["kasimir malevitch", "claire fontaine", "felix gonzalez-torres"]` =/= `["claire fontaine", "kasimir malevitch", "felix gonzalez-torres"]`
    - une liste est **mutable**: on peut la modifier, la mettre à jour, supprimer et ajouter des éléments... (voir mes fiches plus bas)
    - une liste est **itérable** : on peut boucler sur les items d'une liste.
        - exemple: `["madonna", "tokyo hotel", "booba"]` bouclera sur `"madonna"`, `"tokyo hotel"` puis `"booba"`, ce qui nous permet de travailler sur chaque item indépendamment.
    - une liste peut contenir **tous les types de données** : un item d'une liste peut être une chaîne de caractères (comme on a vu au dessus), mais aussi un booléen, un dictionnaire...
    
---

- **`dict`: les dictionnaires** : s'écrit entre `{}`. Le dictionnaire peut-être le type de données le plus compliqué à maîtriser, mais c'est aussi le plus complet et souvent le plus utile. En bref, un dictionnaire permet de faire un **mapping** de données, c'est à dire d'associer une donnée à l'autre.
    - **syntaxe** : `{clé: valeur}`. 
        - Un dictionnaire est composé d'un ou plusieurs couples clés-valeurs, séparés par des virgules: `{clé1: valeur1, clé2: valeur2, cléN: valeurN}`. 
        - On accède à un ensemble de données à partir d'une clé, comme dans un vrai dictionnaire (où on cherche un mot et, en accédant au mot, on lit l'ensemble des défitions, ou des données, qui y sont associées).
    - un dictionnaire est **ordonné**, mais n'est pas indexé: les éléments d'un dictionnaire ne changent pas de place, mais on ne peut pas y accéder à l'aide d'un numéro. Pour accéder à `clé2`, on doit donc rechercher la clé dans le dictionnaire: `dictionnaire[clé2]`.
    - un dictionnaire est **mutable** : on peut le modifier, ajouter et supprimer des éléments...
    - les **clés d'un dictionnaire sont uniques** : il ne peut pas y avoir deux fois la même clé, ça sèmerait le chaos. 
    - un dictionnaire peut contenir **tous les types de données** en valeurs: les clés doivent être des chaînes de caractères, mais les valeurs peuvent être n'importe quoi: des listes, d'autres dictionnaires, des chiffres...
        - par exemple, ce dictionnaire est parfaitement valide:
        ```python
        arbre = {
            "nom": "Anna le Magniolia",
            "tronc": ["écorce", "cœur"],
            "branches": {
                "branche1": ["feuille1", "feuilleN"],
                "brancheN": ["feuille1", "feuilleN"]
            },
            "présence d'insectes": True,
            "nombre de racines": 62
        }
        ```

---

- **`integer`: les nombres entiers** : `0`, `1`...

---

- **`float`: les nombres décimaux** : `1.0`, `3.14`... On utilise un `.`, et non une virgule.
    - on peut bien sûr faire des opérations mathématiques avec les `float` et `integer`. Voir le lien vers mes fiches plus bas.
    
---

- **`bool`: les booléens**: un booléen a deux valeurs possibles: `True`, `False`. Les booléens servent surtout à indiquer si une condition est remplie ou non.

---

Maintenant qu'on a vu tout ça, il faut comprendre quelque chose d'important: les types, ça compte en python ! Là où un cerveau humain peut comprendre sans "types", python s'appuie dessus pour interpréter ce qu'on lui dit. **Petite question** : est-ce qu'il y a une différence entre `1`, `[1]`, `1.0` et `"1"` ?


On peut ajouter les `set`, `tuple`, `bytes` et `bytearray`, mais on ne s'en servivra pas là. Les `set` et `tuple` ressemblent aux `list`, et je ne me suis encore jamais servi des deux derniers types.

---

### Variables, boucles, conditions et fonctions

Ici, on revient rapidement sur les bases du fonctionnement de Python.

---

- **les variables** : comme en maths, une variable est une manière d'assigner à une chaîne de caractères une valeur. On s'en sert de façon assez semblable aux clés d'un dictionnaire. Les variables peuvent être redéfinies, incrémentées...

    - On peut assigner n'importe quel **type de données** à une variable.
    - Le principe d'une variable, c'est **d'enregistrer une valeur pour s'en resservir plus tard**.
    - Le nom donné à une variable n'est pas signifiant pour Python, ce qui importe c'est que le nom ait du sens pour nous.
    - Une variable est définie dans un certain **contexte (`scope`)**: toutes les variables ne sont pas accessibles partout (et heureusement !). En python, les `scopes` sont assez basiques: il y a en gros 3 contextes possibles:
        - une variable **définie dans une fonction** est uniquement assible à l'intérieur de la fonction
        - une variable définie en dehors de toute fonction est acssessible **au niveau du script**, c'est-à-dire du fichier Python sur lequel on travaille actuellement.
        - une variable peut également être accédée dans un autre script si on travaille avec des **modules** (ce qui permet de faire du ping-pong d'un script à l'autre). Mais vous verrez ça plus tard si vous continuez avec python.
        - *pour faire une analogie, les contextes, c'est aussi quelque chose qui existe dans la vraie vie. Par exemple, vous voulez accéder à "To the lighthouse" de Virginia Woolf, mais ce livre est chez votre voisin.e. Le contexte, c'est le domicile de votre voisin.e, et vu que vous êtes chez vous, vous n'êtes pas dans le bon contexte et vous ne pouvez pas accéder au livre comme ça. Dommage franchement, c'est un bon bouquin.*

---

- **les boucles** : une boucle permet d'effectuer une même action sur un ensemble d'éléments. 
    - une boucle ne fonctionne que sur **un itérable**, c'est-à-dire d'un objet qui contient des plus petits éléments auxquels on peut accéder. Une liste, ou un dictionnaire, est un itérable; un nombre n'est pas itérable, puisqu'on ne peut pas séparer un nombre en sous-parties.
    - elle permet **d'accéder individuellement aux éléments de l'itérable**, pour pouvoir effectuer des actions sur ces élements
    - **syntaxe**: 
    ```python
    for variable in itérable:
        # action ou suite d'actions
    ```
    - **Une petite explication** : Par défaut, on ne peut pas travailler en python avec plusieurs éléments à la fois. 
        - *Par exemple, si je vous dit de replier les doigts d'une main, vous pouvez tous les replier en même temps. Python ne comprend pas ça: pour lui dire de replier les doigts, je dois lui dire de prendre une main, et de replier un doigts à la fois. Il faut donc décomposer l'instruction afin d'accéder à l'élément sur lequel on veut avoir un effet (le doigt):* **c'est le principe d'une boucle**.
            - *une main serait alors un itérable*:
            ```
            main
             |__doigt1
             |__doigt2
             |__doigt3
             |__doigt4
             |__doigt5
            ```
            - Si on formalise l'exemple, on pourrait écrire la main sous forme de liste `main = [doigt1, doigt2, doigt3, doigt4, doigt5]`.
            - au niveau du code, on refermerait nos doigts en utilisant une boucle comme ça (ce code ne fonctionne bien sûr pas, un python n'a pas de mains...):
            ```python
            for doigt in main:
                replie(doigt)
            ```
            
---

- **les conditions: `if`, `elif`, `else`** : les structures conditionnelles sont essentielles à python. Elles permettent de définir différents comportements en fonction d'une condition. Cela permet d'éviter les erreurs, de traiter des données complexes. Au fond, c'est les conditions qui sont au cœur de l'algorithmie: on écrit un programme, qui en fonction de différents paramètres, réalise une série d'opérations. Mais comment les utiliser?
    - `if`, `elif` et `else` testent des **conditions**, c'est à dire des propositions que python évalue à `True` ou `False` (qu'il considère comme vraies ou fausses). Ces conditions peuvent être simple (est-ce que A est égal à 1: `if A == "1"`) ou complexes. Si une proposition est évaluée à `True`, alors le code qui correspond à cette proposition s'exécute. Sinon, python passe à un autre bloc de code.
    - **signification des conditions**:
        - **`if`** est utilisé seulement en début d'une structure `if...else`. Il évalue la première condition. Si `if` est `True`, alors un bloc de code correspondant à ce `if` s'exécute et on arrête la structure `if...else`. Si `if` est `False`, alors le bloc de code `if` ne s'exécute pas et on passe à la prochaine condition du `if...else`.
        - **`elif`** est nécessairement utilisé après un `if`. Il correspond à une condition à tester si toutes les conditions précédentes ont été `False`. Il peut y avoir plusieurs `elif` à la suite. Dès qu'une condition est évaluée à `True`, on arrête la structure `if...else`.
        - **`else`** est nécessairement utilisé à la toute fin d'un `if...else`. C'est un bloc de code qui ne s'exécute que si toutes les propositions précédentes ont été évaluées à false.
        - Dans un `if...else`, il y a nécessairement un `if`, mais pas forcément de `elif` ou de `else`.
    - **syntaxe**:
    ```python
    if condition1:
        # bloc de code pour le if: action si la condition1 est correcte
    elif condition2:
        # bloc de code pour le elif: action si condition1 est fausse, mais que condition2 est correcte
    else:
        # bloc de code pour le else: action si condition1 et condition2 sont fausses
    ```
    - **encore un exemple** : *prenons une proposition: "Je ne porte que des Crocs". En python, on peut la formaliser de manière suivante: "Si la chaussure est une Crocs, alors je la porte. Sinon, je ne la porte pas". Cela reviendrait à définir deux fonctions (`porter()` et `ne_pas_porter()`) qui s'exécutent ou non en fonction de la condition (que la chaussure soit une Crocs).*
    ```python
    if chaussure == "Crocs":
        porter(chaussure)
    else:
        ne_pas_porter(chaussure)
    ```
        
---

- **les fonctions** : une fonction est une série d'opérations associée à un nom. Elles servent surtout à enregistrer un bloc de code pour pouvoir le réutiliser ailleurs. 
    - **syntaxe** : 
    ```python
    def nom_de_la_fonction(attributs):
        # code
        return variable
    ```
    - **exemple fonctionnel** (explication ci-dessous):
    ```python
    # définition de la fonction
    def carre(nombre):  # on définit un attribut `nombre` pour la fonction carre()
        nombre = nombre*nombre  # on assigne à `nombre` la valeur de `nombre` au carré
        return nombre  # on retourne `nombre`
    
    # utilisation "simple" de la fonction
    carre(3.14)
    
    # utilisation de la fonction et assignation de la valeur retournée à une variable
    resultat = carre(3.14)
    ```
    - une fonction se définit avec `def`
    - une fonction prend des **attributs / paramètres**, c'est-à-dire des données particulières que la fonction utilisera pour s'exécuter. Cela permet de pouvoir utiliser la même fonction avec différents inputs. Les attriburs sont définis entre `()`. 
    - une fonction prend un **`return`** à la fin: le return indique quel(les) variable(s) seront retenues par Python, et donc seront réutilisables ailleurs. Toutes les variables qui ne sont pas retournées sont "oubliées" par Python à la fin de l'exécution de la fonction.
        - Si on veut dire les choses plus simplement: quand python exécute une fonction, il retient toutes les valeurs créées en cours d'exécution en mémoire. Quand la fonction est terminée, il supprime tout ce qu'il a retenu, sauf les valeurs indiquées après `return`.
        - Par exemple, si une fonction retourne la valeur `pi = 3.14` et qu'on veut se resservir de cette variable ailleurs, on doit mettre `return pi` à la fin de la fonction.
        - Le return est optionnel. Dans d'autres langages, il est obligatoire. C'est toujours mieux de mettre un `return None` à la fin d'une fonction si on ne veut rien retourner.
    - une fonction peut appeler d'autres fonctions
    - les variables définies dans une fonction ne peuvent pas être réutilisées ailleurs sans passer par un `return`
    - en python, utiliser des fonctions permet d'éviter la redondance, d'écrire du code réutilisable, de mieux organniser son code et d'apprendre à bien structurer : plutôt que de traiter un gros problème en entier, on le découpe en petits bouts.
     - *encore un exemple: l'opération "Lancer une balle violette à Albert" peut être décomposée en plusieurs actions:*
         - *sélectionner une balle violette*
         - *lancer la balle à Albert*
         - *on peut formaliser ça de la manière suivante:*
         ```python
         def lancer_balle_a_quelquun(couleur, personne):
             """
             ceci est un commentaire de définition de fonction. 
             - les attributs sont définis dans un :param:
             - la valeur retournée par la fonction est définie dans un :return:.
                 
             la fonction permet de lancer une balle d'une certaine couleur à une 
             certaine personne.
             :param couleur: la couleur de la balle
             :param personne: le nom de la personne à qui lancer la balle
             :retturn: None
             """
             balle = selectionner_balle(couleur)  # on choisit la balle de la bonne couleur
             lancer_balle(balle, personne)  # on lance la bonne balle à la bonne personne
             return None
            
         def selectionner_balle(couleur):
             balle = # code pour sélectionnner la bonne balle
             return balle
            
         def lancer_balle(balle, personne)
             # fonction pour lancer la balle passée en attribut à la personne 
             # passée en attribut
             return None
            
         # on exécute la fonction avec les bons paramètres.
         # on pourra plus tard réutiliser la même fonction avec d'autres personnes et 
         # couleurs de balles
         lancer_balle_a_quelquun("violet", "albert")
         ```
         
---

### Pour résumer: un petit exercice !

Pour mettre en pratique tout ce que l'on vient de voir, on va, à partir d'un dictionnaire sur des personnages de la série Twin Peaks, écrire une fonction qui permette 
- de stocker dans une variable, de `print()` et de `return` une liste de noms des personnages qui sont membres du FBI (`fbi_list`).
- de stocker dans une variable et de `print()` une liste de noms des personnages qui ne sont pas membres du FBI (`not_fbi_list`).
- **attention** : on a différentes manières d'écrire "FBI" dans les valeurs. Il va donc falloir faire une structure conditionnelle qui prenne en compte les différentes graphies.

Deux méthodes vont nous être utiles:
- `for key, value in dictionnaire.items()` permet d'itérer sur tous les couples clés-valeurs d'un dictionnaire
- `liste.append(valeur)` permet d'ajouter une liste à une valeur.
- enfin, on vérifie qu'une chaîne de caractère est égale à une autre en faisant: `chaine1 == chaine2`


In [None]:
# EXERCICE 1

def build_fbi_list():
    characters = {
        "Douglas Jones": "travaille dans une compagnie d'assurances",
        "Sarah Palmer": "femme au foyer",
        "Denise Bryson": "membre du FBI",
        "The Fireman": "esprit",
        "Gordon Cole": "membre du Federal Bureau of Investigation",
        "Lucy Moran": "policière",
        "Jerry Horne": "homme d'affaire",
        "Albert Rosenfeld": "membre du Federal Bureau of Investigation",
        "Dick Tremayne": "vendeur",
        "The arm": "esprit",
        "Diane Evans": "membre du FBI",
        "Tammy Preston": "membre du FBI"
    }
    fbi_list = []  # la 1e liste à remplir
    not_fbi_list = []  # la 2e liste à remplir
    # À VOUS DE JOUER !


# exécuter la fonction
build_fbi_list()

# résultats attendus:
# fbi list: ['Denise Bryson', 'Gordon Cole', 'Albert Rosenfeld', 'Diane Evans', 'Tammy Preston']
# not fbi list: ['Douglas Jones', 'Sarah Palmer', 'The Fireman', 'Lucy Moran', 'Jerry Horne', 'Dick Tremayne', 'The arm']

### Pousser le vice

Si on veut aller plus loin dans les bases (et on ne devient pas fort en python sans bases solides)

- l'excellent [cours de Thibault Clérice](https://github.com/ponteineptique/cours-python) donné à l'école des Chartes, qui du tout début des bases jusqu'à la manipulation de bases de données et à la construction d'un site web complet. Le chapitre 1 et 2 sont particulièrement utiles pour les bases. (site consulté en juin 2022)
- mes [fiches](https://github.com/paulhectork/tnah2021_cours/blob/main/export/cours_markdown/python_bases.md) sur les bases de python qui détaillent beaucoup plus ce qu'on vient de voir. (site consulté en juin 2022)