# Normaliser le corpus *Kaamelott*

## Pourquoi normaliser ?

Une simple collection d’objets ne constitue pas un corpus. Les *Lettres persanes* et la correspondance *Facebook* avec vos cousins d’Islamabad ne permettront pas forcément d’étudier les mêmes faits linguistiques.

Sans entrer dans le détail des bonnes pratiques de la constitution d’un corpus, soulignons l’impératif de disposer d’un ensemble homogène d’objets afin de faciliter les traitements qui révéleront ses caractéristiques.

Les transcriptions publiées sur le site Hypnoweb ne sont pas officielles. Elles n’ont pas l’aval des auteurs de la série *Kaamelott* et leur qualité dépend entièrement des compétences des membres du site.

En parcourant les scripts récupérés par des méthodes automatiques (*Web scraping*), les complications apparaissent rapidement :
- liste non exhaustive de scripts ;
- erreurs de transcription ;
- fautes de français ;
- mauvaise interprétation (sentiments, intentions) ;
- manque d’unicité ;
- …

Quelques exemples concrets :
- noms des personnages parfois en majuscules
- différentes orthographes pour les noms des personnages
- didascalies parfois entre parenthèses, d’autres fois à la ligne
- formes élidées ou contractées pas systématiquement préservées

Bref, le besoin d’harmoniser le corpus s’impose comme incontournable.

## Établir des règles

Suite aux observations préalables faites sur le corpus, on décrit des règles qui vont présider à la constitution de notre corpus :

1. La part de subjectivité d’un transcripteur amateur est trop importante pour se fier aux didascalies. Les supprimer.

2. Le contexte du site Hypnoweb n’est pas suffisamment formel pour juger du niveau de français des transcripteurs :
    - corriger les fautes (grammaire, orthographe, syntaxe)
    - résoudre les formes contractées (*j'lui ai* devient *je lui ai*)

3. Constituer une liste normalisée des personnages de la série

4. La dernière ligne de chaque script porte parfois mention du pseudonyme du transcripteur. Supprimer cette ligne quand elle est présente, mais la conserver dans un index.

5. Une ligne de texte devrait se caractériser par trois éléments :
    - le nom du locuteur
    - un signe séparateur
    - la réplique

## Échantillonnage

Échantillon réduit d’une harmonisation réussie :

**Avant**  
À table.  
Arthur :  
Bon aller beau père, on s’remet au boulot ?  
Léodagan :  
Ouais ça va pas s’faire tout seul.  
Dame Séli :  
Aujourd’hui y a du dessert.  
Arthur  
(  
pas vraiment emballé, commence à se lever)  
: Euh… non… non moi ça va, merci.

**Après**  
Arthur\tBon allez beau-père, on se remet au boulot ?  
Léodagan\tOuais ça va pas se faire tout seul.  
Dame Séli\tAujourd’hui y'a du dessert.  
Arthur\tEuh non non moi ça va, merci.

*\t* = tabulation

## Méthodologie

Au début du projet de constitution d’un corpus, impossible de prévoir tous les cas de figure qui demanderont une intervention. La liste des règles retenues s’étoffera au fur et à mesure du nettoyage du corpus.

Du point de vue informatique, deux outils seront très largement mobilisés :
- les méthodes sur les chaînes de caractères
- les expressions rationnelles (ou *regex*)

### Méthodes sur les chaînes de caractère

Le langage Python offre un ensemble de méthodes qui permettent d'agir sur des objets de type : *chaîne de caractères*.

Tout objet identifié par Python comme appartenant à la classe `str` est une chaîne de caractères

In [None]:
string = "Voici une chaîne de caractères."
not_string = 32

print(type(string), type(not_string))

Chaque classe embarque un ensemble de fonctions natives au langage. On les appelle des méthodes *built-in*.

Pour les lister, exécuter la fonction `help()` sur le type de l’objet :

In [None]:
help(str)

Pour afficher uniquement la documentation d’une méthode particulière :

In [None]:
help(str.lower)

Quelques méthodes utiles à la normalisation :
- `startswith`
- `endswith`
- `replace`
- `lower`
- `upper`
- `capitalize`

In [None]:
# Liste de graphies du prénom "Arthur" à normaliser
variants = ["ARTHUR", "arthur", "Arthur", "ARthur"]
# Remplacement de chaque nom par sa version i) bas de casse ; ii) majuscule 1e lettre
variants = [variant.lower().capitalize() for variant in variants]
# Dédoublonnage
variants_set = set(variants)
# S'il ne subsiste qu'une seule forme du nom, le travail est terminé
print(f"Le nom du personnage est : {variants[0]}") if len(variants_set) == 1 else print("Conflits à résoudre")

### Les expressions rationnelles

Documentation officielle :  https://docs.python.org/3/library/re.html

Les expressions rationnelles permettent de repérer des motifs dans une chaîne de caractères et de travailler avec. Bien souvent, il est préférable de recourir à une séquence d’expressions plutôt que d’essayer de résoudre un problème avec une expression alambiquée.

Exemple de texte à normaliser :

In [None]:
text = "Arthur:\nBon allez beau-père, on se remet au boulot ?\n"
text += "Leodagan\n: Ouais ça va pas se faire tout seul.\n"

Tout d’abord, importer le module `re` :

In [None]:
import re

Appliquer une substitution :

In [None]:
# En une seule ligne
text = re.sub('\s?\n?:\n?\s?', ':', text)
# Avec plusieurs passages (résultat équivalent)
text = re.sub('\n:', ':', text)
text = re.sub(':\n', ':', text)
text = re.sub(':\s', ':', text)

De nombreuses opérations peuvent être réalisées grâce aux expressions rationnelles. Les maîtriser permet de résoudre efficacement la plupart des tâches de normalisation.

Pour s’entraîner :
- [Regex crosswords](https://regexcrossword.com/)
- [Rubular](https://rubular.com/)