# Corriger la ponctuation

## Une ponctuation exotique ?

Problème récurrent de toute transcription insufisamment encadrée.

Multiples facteurs :
- ignorance des conventions typographiques de l’Imprimerie nationale (ex : espaces autour d’un point d’interrogation)
- méconnaissance de son clavier (ex : trois fois un point au lieu des points de suspension)
- enthousiasme pour l’objet de la transcription (ex : redoublement des points d’exclamation)

## Un remède : les expressions rationnelles

Emploi massif des expressions régulières.

Définir un algorithme, c’est-à-dire une succession d’étapes pour parvenir à un corpus nettoyé de ses erreurs.

```txt
(1) Bohort : Pas de faisans ?
(2) Arthur Pendragon : Mais quelle vieille? Y'a deux minutes
    c'était un vieux.
```

(1) respecte les conventions tandis que (2) oublie l’espace avant le point d’interrogation.

Une expression régulière qui ajouterait systématiquement une espace avant `?` doublerait celle présente dans (1).
```txt
(3) Bohort : Pas de faisans  ?
(4) Arthur Pendragon : Mais quelle vieille ? Y'a deux minutes
    c'était un vieux.
```

La solution consiste à les aligner sur une même règle (pas d’espace) pour ensuite rajouter l’espace obligatoire.

Quid des signes de ponctuation redoublés ?
```txt
(5) Arthur Pendragon : Mais c'est pas vrai !!
```

Avant de rajouter les espaces : supprimer les signes surnuméraires.

## Algorithme de traitement

Utilisation du module *re* en Python.

**Documentation :** https://docs.python.org/fr/3/library/re.html?highlight=re#module-re

In [None]:
import re

**Étape 1 :** Compiler en avance les expressions régulières :

In [None]:
three_dots = re.compile(r'\.{3}\s?')      # Three dots
rm_spaces = re.compile(r'\s?([!?;:])\s?') # Captures a sign between spaces
one_punct = re.compile(r'([!?.]+)')       # Captures duplicated signs
add_spaces = re.compile(r'([!?;:])')      # Captures strong punctutation signs
add_space_dot = re.compile(r'\.(\w)')    # Captures a word immediately preceded by a dot

Méthode plus efficace que d’exécuter à la volée une expression à chaque fois que le motif est perçu.

**Étape 2 :** Réserver un espace mémoire pour recueillir les lignes corrigées :

In [None]:
corrected_lines = []

with open(f'kaamelott/sample/S01E23-la-potion-de-fecondite.txt') as file:
    lines = file.readlines()

**Étape 3 :** Pour chaque ligne, appliquer successivement les remplacements :

In [None]:
for line in lines:
    line = three_dots.sub(r'… ', line)           # Three dots
    line = rm_spaces.sub(r'\1', line)            # Deletes spaces around punctuation
    m = one_punct.search(line)                   # Looks for duplicated punctuations
    if m:
        line = one_punct.sub(m.group()[0], line)
    line = add_spaces.sub(r' \1 ', line)         # Adds spaces around a double-punctuation sign
    line = add_space_dot.sub(r' \1 ', line)      # Adds one space before a double-punctuation sign

**Étape 4 :** Rajouter les traitements classiques de nettoyage d’une chaîne de caractères :

In [None]:
    line = line.strip()            # Deletes spaces at the beginning and at the end
    line = line.replace('  ', ' ') # Removes two successives whitespaces

**Étape 5 :** Ajouter la ligne nettoyée à liste saine :

In [None]:
    corrected_lines.append(line)

In [None]:
print(corrected_lines[120:-1])