Segmenter et annoter les pages d'un dossier
===
<br>

On emploie pour la segmentation le modèle personnalisé [copie-deux-04.mlmodel](./modeles-seg/copie-deux-04.mlmodel). Pour en savoir plus sur l'entraînement de ce modèle, voir la [documentation analytique](https://github.com/sbiay/CdS-edition/blob/main/rapportBiay/documentation.pdf).

# Eliminer les régions non pertinentes

Une fois la segmentation automatique appliquée dans eScriptorium, tous les textes n'ayant pas été inventoriés, il est important de supprimer les régions d'écriture qui les contiennent.

Le fichier **donnees.json** généré par le script [donneesImages.py](./py/donneesImages.py) permet de consulter le nombre de notices (*records*) par image (sous la clé **images**) et de contrôler les zones de l'image pertinentes à partir de l'*incipit* de la lettre inventoriée.

Par exemple, l'image CdS02_Konv002-02_0073.jpg ci-dessous contient une seule lettre inventoriée :

![CdS02_Konv002-02_0073](./demo/select-CdS02_Konv002-02_0073.jpg)

On lit dans le fichier de données :

```json
{
   "results": {
      "images": {
         "CdS02_Konv002-02_0073.jpg": {
            "record_nb": 1,
            "records": [
               {
                  "idno": "CdS-b1-06ot",
                  "incipit": "J’ai fait attendre votre messager, Monsieur, pour vous dire moi-même…",
                  "URL": "https://constance-de-salm.de/archiv/#/document/8855"
               }
            ]
         },
         "…": {…}
      },
      "records": {…},
      "no-record": null
   },
   "stats": {
      "images": 24,
      "records": 24,
      "no-record": 0,
      "total": 24
   }
}
```

Attention ! Les incipits ne sont pas forcément écrits dans l'image en question, car une lettre peut très bien commencer à l'image prédécente…

(Pour générer à nouveau le fichier de données, on peut relancer le script ici :)

In [None]:
!python3 py/donneesImages.py DOSSIER-SOURCE DOSSIER-SORTIE

Les éléments non-inventoriés ayant été supprimés, l'image segmentée ressemble désormais à ceci :

![CdS02_Konv002-02_0073-b](./demo/select-CdS02_Konv002-02_0073-b.jpg)

# Correction de l'annotation des régions et des lignes

On passe à la phase d'[annotation manuelle](https://lectaurep.hypotheses.org/documentation/prendre-en-main-escriptorium#annotationmanuelle), au cours de laquelle on appliquera la typologie des régions et des lignes. La typologie retenue s'inscrit dans le cadre défini par l'ontologie [SegmOnto](https://github.com/SegmOnto/Guidelines).

## Régions

L'annotation des régions est nécessaire aux étapes ultérieures de la chaîne de traitement.

Deux régions principales caractérisent la structure des lettres :
- **CustomZone:header** (en-tête) : présent dans les recueils
- **MainZone** (région principale)

Ces régions sont définies de manière visuelle et non sémantique. La sémantique est portée par l'annotation des lignes.

D'autres types permettent d'annoter les éléments secondaires ou les additions :
- **MarginTextZone** (annotation marginale) : voir exemples ci-dessous
- **NumberingZone** (numérotation) : concerne tous les systèmes de numérotation, quelle que soit leur époque
- **RunningTitleZone** (titre courant) : pour les titres courants, absents des photographies de démonstration

Les **couleurs** employées dans les documents suivants n'ont qu'une valeur démonstrative : appliquer une charte chromatique pour l'ontologie des zones et des régions n'apporte rien à l'exploitabilité des données.

![Annotation des régions d'écriture](./demo/annotation-CdS02_Konv002-02_0066-v3.png)

### MarginTextZone (annotation marginale)

Exemples :

![Indications de contenu](./demo/regeste.jpg)

![Annotation courante](./demo/CdS02_Konv002-02_0066_detail-04.jpg)

## Lignes

💣 Attention ! Il est capital de bien lier les lignes à leur région ! En cas de doute, on reconstruit les liens en sélectionnant toutes les lignes (Ctrl + A) puis en appuyant sur Y ou en cliquant sur le bouton entouré en jaune :

![Lier les lignes aux régions](./demo/lier-lignes-regions.jpg)

Une région peut ne pas comporter de ligne (par exemple il n'est pas nécessaire de créer des lignes dans les zones de notes marginales que l'on transcrira de manière manuelle).

### DefaultLine (ligne par défaut)

Cette catégorie désigne toutes les lignes du corps du texte et toutes celles ne s'inscrivant dans aucune des autres catégories. Leur annotation est généralement faite correctement lors de la phase automatique.

### HeadingLine:title (titre)

On ne distingue pas titre et sous-titre.

![title](./demo/title.jpg)

### CustomLine:dateline (mention de date)

Cette ligne peut se trouver aussi bien au début qu'à la fin de la lettre.

![dateline](./demo/dateline.jpg)

### CustomLine:salute (formule de politesse)

Selon les [TEI-Guidelines](https://tei-c.org/release/doc/tei-p5-doc/fr/html/ref-salute.html), *contient un dédicace ou une formule de salut qui précède un avant-propos ou autre division du texte; ou bien encore la formule de politesse qui conclut une lettre, une préface, etc.*

- En début de lettre :

![salute-opener](./demo/salute.jpg)

- En fin de lettre :

![salute-closer](./demo/closer-03.jpg)

### CustomLine:annotations (notes appartenant à la MainZone)

Par exemple une note relative au type et au numéro de lettre :

![Note](./demo/note-01.jpg)

### InterlinearLine (interligne)

![Exemple de correction](./demo/correction.jpg)

### CustomLine:verse (vers)

![vers](./demo/vers.jpg)

### CustomLine:signature (signature)

![closer-02](./demo/closer-02.jpg)

### CustomLine:postscript (post-scriptum)

![post-scriptum](./demo/closer-01.jpg)

### CustomLine:header (en-tête ou manchette)

![Mention d'expéditeur](./demo/expediteur.jpg)

## Tracé

Les corrections de tracé de ligne doivent être faites avant de contrôle l'ordre des lignes. Supprimer une ligne rétablit l'ordre initial et oblige à réitérer les éventuelles modifications d'ordre déjà faites.

## Ordre

Il est important de contrôler l'ordre des lignes ou "segments" (voir la [documentation en ligne](https://lectaurep.hypotheses.org/documentation/prendre-en-main-escriptorium#segment-order)). **Attention : si les régions n'englobent pas correctement les lignes de texte qu'elles contiennent, l'ordre peut s'en trouver fortement perturbé** (notamment si une région de la page de gauche empiète sur la zone de la page de droite).

# Valider l'annotation des régions

Il est important de contrôler l'annotation des régions et des lignes, et ce pour deux raisons :
- Afin de vérifier que l'on a correctement respecté les catégories Segmonto
- Afin de vérifier que l'on n'a pas oublié d'annoter les lignes ou certaines régions d'une page (ce qui est fréquent étant donné le caractère répétitif de la tâche)

On peut procéder à cette validation en exportant l'ensemble des pages traitées, en les dézippant dans un dossier et en lançant la commande suivante depuis l'intérieur du dossier en question (bien vérifier que l'environnement virtuel du projet soit actif) :

In [None]:
!htrvx ./*xml --format alto --segmonto

Si l'on obtient le message *n wrongly tagged zones* pour un fichier, et que la vérification de la page concernée ne permet pas de découvrir où se trouve la zone mal annotée, il se peut que le message d'erreur concerne une minuscule zone sans ligne. On ne tient alors pas compte de l'erreur. On peut alors renouveler l'export depuis eScriptorium en décochant *Undefined region type* (les petites régions vides seront ainsi ignorées).

Si le diagnostic persiste avec *n wrongly tagged zones*, il se peut que les **lignes** des régions concernées ne leur aient **pas été correctement associées**.