# Introduction à la fouille de texte avec Python: le programme des festivités

Il existe **beaucoup** de méthodes pour analyser du texte avec Python, en fonction des objectifs, de ce que l'on veut comprendre du texte.
- La [stylométrie](https://fr.wikipedia.org/wiki/Stylom%C3%A9trie) permet d'étudier le style d'un.e auteur.ice avec une approche quantitative, statistique
- Le [Traitement automatisé du langage](https://fr.wikipedia.org/wiki/Traitement_automatique_des_langues), ou TAL, regroupe tout un ensemble de méthodes pour analyser du texte. Il s'appuie beaucoup sur l'apprentissage machine.
    - la reconnaissance d'entités nommées (personnes, lieux etc. mentionnés par un texte)
    - le *topic modelling* (modélisation des thèmes dans un texte)
    - *sentiment analysis* (analyse des sentiments dans un texte...)
    - ...

Notre approche est plus simple et ciblé: avec quelques éléments de base en Python, il s'agit de détecter des motifs récurrents dans un corpus pour l'analyser de manière statistique. 

Ce cours vise à introduire aux bases de la manipulation de texte et de l'analyse en Python. Il est composé de deux `notebooks`, avec chacun une étape différente:
- **`1_fouille_texte`**: le notebook principal. Faire l'analyse et la visualisation d'un corpus en texte brut.
- **`2_bonus_creation_corpus`**: un notebook bonus, qui montre comment le corpus utilisé dans le `notebook` 1 a été produit, en utilisant une `API`.

Il ne s'agit **pas de tout comprendre**, mais plutôt de voir qu'avec des outils très simples, on peut créer et analyser des gros corpus. Si vous faites plus de python plus tard, les techniques vues ici rentrent très facilement : ) 

---

## Question de recherche et données utilisées

### Source des données

À partir d'un corpus en texte brut (c'est-à-dire, sans éléments de mise en page), on va développer une petite chaîne de traitement d'analyse et de visualisation du corpus. Le corpus est issu du programme de recherche [Katabase](https://katabase.huma-num.fr/). Ce programme a constitué une base de donnée de catalogues de vente de manuscrits. Ces catalogues imprimés, datant du XIXe siècle au début du XXe siècle, sont OCRisés, encodés en TEI et enrichis par fouille de texte.

Tous les manuscrits écrits par 20 auteur.ice.s du XVIIIe siècle mis en vente dans les catalogues de Katabase ont été extraits et organisés en 4 corpus. Les 20 auteur.ice.s sont classés en 4 genres littéraires avec 5 auteur.ice.s par corpus.

### Question de recherche

**Quelle est la représentation de cinq genres littéraires du XVIIIe siècle (poésie, théâtre, roman, littérature d'idées) dans un corpus datant du XIXe siècle de catalogues de vente de manuscrits ?**

---

## Chaîne de traitement globale

Les notebooks sont dans l'ordre inverse de la chaîne de traitement.
- le notebook `2_bonus_creation_corpus` décrit la manière dont le corpus utilisé ici est créé
- le notebook `1_fouille_texte` vient après la constitution du corpus et décrit l'analyse du corpus.

Au travers des deux notebooks, il s'agit donc de constituer un corpus avec une API, le nettoyer et le transformer en texte brut, l'enregistrer, le rouvrir, le structurer et en extraire des informations, faire des statistiques et les analyser.

Si vous avec le temps/courage, je conseille de faire le notebook 2: il introduit à l'utilisation des API, très très utiles en recherche pour créer des corpus à partir de sources en ligne (Wikidata, la BnF...).

---

## Compétences vues

### Compétences

- **`1_fouille_texte`**: 
    - expressions régulières (aussi dites `regex`) pour détecter des motifs dans du texte
    - manipulation des types de données basiques de Python: texte (`string`), nombres (entiers `int` et décimaux `float`), listes (`list`) et dictionnaires (`dict`)
    - visualisation de données avec `Plotly`
    - création de statistiques
    - lecture de texte depuis des fichiers
    - création de chemins avec la librairie `os`
- **`2_bonus_creation_corpus`**:
    - principes fondamentaux des API
    - utilisation de `requests` pour faire des requêtes `HTTP` sur le Web avec Python
    - détection de motifs et nettoyage de texte avec des regex
    - écriture de fichiers texte
    - création de chemins avec `os`

### Librairies utilisées

- `re` pour les regex
- `plotly` pour les visualisations de données
- `os` pour construire et lire des fichiers
- `requests` (bonus) pour faire des requêtes sur une API

---

## Ressources supplémentaires / pour aller plus loin

- l'excellent [cours de Python](https://github.com/PonteIneptique/cours-python) du master *Technologies numériques appliquées à l'histoire*, donné à l'École des Chartes par Thibault Clérice pendant des années. Il s'addresse aux très grand.es débutant.es et finit par la création d'un site Web complet en Python, couvre toutes les bases et bien plus
- le [*Programming historian*](https://programminghistorian.org/) et sa [version française](https://programminghistorian.org/fr/): ce site, fait par des chercheur.euse.s en humanités numériques, regroupe plein de tutoriels utiles pour en apprendre plus sur les humanités numériques. Il s'addresse à un public relativement débutant
- Pour des publications en humanités numériques: 
    - le [*Journal of data mining and digital humanities*](https://jdmdh.episciences.org/page/natural-language-processing-for-digital-humanities), avec une approche très technique et orienté apprentissage machine. Il y a des articles en français et en anglais
    - la revue [*Humanités numériques*](https://journals.openedition.org/revuehn/), en français
    - pour les humanités numériques francophones, on trouve énormément d'articles en accès libre sur [HAL](https://hal.science/), il suffit de chercher le nom des chercheur.euse.s qui vous intéressent. Par exemple: https://hal.science/hal-03018381