# De l'annotation à la constitution d'un model


Ce document présente :

- comment importer et annoter les données dans un outil d'annotation, Prodigy

- comment créer et appliquer un modèle d'annotation

Pour ce faire, il utilise l'exemple des <i>Annuaires des propriétaires et des propriétés de Paris et du département de la Seine</i>. Il s'inspire et illustre un travail effectué dans le cadre du projet <a href="https://paris-timemachine.huma-num.fr/" target="_blank">Paris Time Machine</a>. 

Il s'agit d'un notebook méthodologique, ne sera pas discuté ici la valeur scientifiques des annotations, la valeur du model.

## Les données : <i>Annuaire des propriétaires et des propriétés de Paris et du département de la Seine</i>

Dans l'annuaire, les informations sont présentées dans 2 colonnnes. Voici un aperçu du document d'origine :

<center><img src="img/Data_PaperColonnes.png"></center>

Le document contient le nom des propriétaires, les lieux dont ils sont propriétaire, ainsi que leur lieu de résidence.

<center><img src="img/Data_ExempleProprietaire.png"></center>

Un premier travail a permis :

- le passage des données du format papier au format xml-page (ce notebook ne reprend pas ce travail). Les données au format xml sont disponibles dans le sharedocs PTM:

https://sharedocs.huma-num.fr/wl/?id=DqYKfOL87LmpgbGUyb0qF7wy0kcLeAZC&mode=grid

- la liste exhautive des adresses du document. Dans les extraits ci-dessus, les adresses sont "R.1 RABELAIS (Rue) 30-31" et "M.253 Montaigne (Avenue) 29". Ce que nous nommons "titre" ou "macrostructure".

Le travail que nous allons mené, et dont le trame est présenté ici :

- part des données au format xml-page.

- a pour but l'annotation automatique de la 'microstructure', à savoir tout ce qui est sous le titre, regroupé sous la macrostructure.


## L'outil : Spacy et son interface Prodigy

Nous allons utiliser Prodigy :

https://prodi.gy/docs/named-entity-recognition


Dans cet exemple, Prodigy a été installé dans un environnement virtuel sous Linux

[en local] Lancer l'environnement virtuel :

> source prodigyEnv/bin/activate

Vérifier que Prodigy fonctionne correctement.

In [2]:
!prodigy

[1m

dep.teach, dep.correct

compare, mark, match, print-dataset, print-stream, review, spacy-config, train,
train-curve, data-to-spacy, stats, drop, db-in, db-out, db-merge, progress

ner.teach, ner.manual, ner.correct, ner.make-gold, ner.silver-to-gold,
ner.eval-ab

textcat.teach, textcat.manual, textcat.correct

pos.teach, pos.correct, pos.make-gold

sent.teach, sent.correct

terms.teach, terms.to-patterns

image.manual

rel.manual

coref.manual

audio.manual, audio.transcribe

spans.manual, spans.correct


Cette commande permet de lister les fonctionnalités et modules de Prodigy

!!! En local - sous Ubuntu, ne pas mettre le "!"

> prodigy

Sous Conda, il est pssible qu'il faille lui indiquer qu'il s'agit d'un logiciel Python :

> python -m prodigy

!!! si tel est le cas, ajouter "python -m" à toutes les commandes ci-dessous!

Pour avoir davantage d'aide sur une commande précise utiliser "--help"

In [3]:
!prodigy db-in --help

usage: prodigy db-in [-h] [-lo None] [-a accept] [-o] [-rh] [-D]
                     set_id in_file

    Import annotations to the database. Supports all formats loadable by
    Prodigy.
    

positional arguments:
  set_id                Dataset to import annotations to
  in_file               Path to input annotation file

optional arguments:
  -h, --help            show this help message and exit
  -lo None, --loader None
                        DEPRECATED: loader to use
  -a accept, --answer accept
                        Set this answer key if none is present
  -o, --overwrite       DEPRECATED: Overwrite existing answers
  -rh, --rehash         Update and overwrite all hashes
  -D, --dry             Perform a dry run


Ce notebook se déroule ainsi ...

    1. Avant d'annoter
    
    2. Annoter
    
    3. Oberver ses annotations
    
    4. Créer un modèle
    


# Avant d'annoter

Il est nécessaire de préparer le corpus.

Nous mettons notre corpus au format jsonl, en utilisant le script XmlToJson.py (script 'maison')

> python XmlToJson.py

Ce script prend en entrée un ensemble de  fichiers xml-page donnés (export de Transkribus) et les converti en un seul fichier jsonl.

Comment avons nous précéder :

- nous avons choisi une trentaine de pages xml

- nous avons mise en place un manuel d'annotation

- nous avons statuer sur le traitement des sauts de lignes. Il est fréquent qu'une référence à un propriétaire soit sur plusieurs lignes. Nous avons décidé de matérialiser les sauts de lignes séparant le texte contenu dans la balise 'TextRegion' du fichier xml par " / ". Ainsi nous pourrons annoter non seulement les références qui sont étendues sur plusieurs lignes, mais aussi les entités qui sont sur deux lignes (qu'il soit matérialisé ou non par un saut de ligne '¬').


# Annoter

Nous avons brièvement tester Prodigy et TagTog. Nous allons annoter avec Prodigy. Et si nécessaire corriger nos annotations dans TagTog.

Avant de se lancer dans l'annotation, il est nécessaire :

- de créer le jeu d'étiquettes souhaitées

<center><img src="img/Data_listeEtiquettes.png" width="70%"></center>

- de créer un manuel d'annotation

Nous avons 16 étiquettes dans notre model d'annotation : 

    - 14 étiquettes pour notre microstructure :

NUM,NUM_GLOB,PART,PERS,PRENOM, ORG,STATUT,VILLE,VOIE,RUE,NUM_PERS,GER,LOC,SPATIAL

    - 2 étiquettes pour la macrostructure :

TITRE,PAGE

<center><img src="img/Data_Annotation_QuatreVents.png"></center>

In [4]:
# depuis mon répertoire et mon environement virtuel
!prodigy ner.manual ptm_notebook blank:fr data/ed1898_xmlPage.jsonl --label TITRE,PAGE,NUM,NUM_GLOB,PART,PERS,PRENOM,ORG,STATUT,VILLE,VOIE,RUE,NUM_PERS,GER,LOC,SPATIAL
## ATTENTION! Pour continuer ce notebook cliquer sur le bouton stop (carré noir) 
## dans l'entête Notebook


Using 16 label(s): TITRE, PAGE, NUM, NUM_GLOB, PART, PERS, PRENOM, ORG, STATUT,
VILLE, VOIE, RUE, NUM_PERS, GER, LOC, SPATIAL

✨  Starting the web server at http://localhost:8080 ...
Open the app in your browser and start annotating!

^C


La commande ci-dessus :

    - appelle l'outil 'prodigy'
    
    - appelle le module d'annotation de ce même outil 'ner.manual' 
    
    - nomme le paquet d'exemples qui sera ainsi annotés 'ptm_notebook'
    
    - appelle le fichier jsonl contenant les exemples à annoter, fichier qui se trouve dans le dossier 'data'
    
    - donne la suite de label à utiliser ' --label LABL1,LABL2, etc etc '
    

Il est alors possible de commencer à annoter sur le serveur local, depuis un navigateur web - comme l'illustre les images ci-dessous.  

Il est possible de :

 1. ne pas annoter la séquence
 

<center><img src="img/Annotation_Reject.png" width="80%"></center>

 = cliquer sur la croix (carré rouge) dans le menu inférieur
 
 2. annoter avec une même étiquette l'ensemble de la séquence

<center><img src="img/Annotation_TITRE.png" width="80%"></center>

= cliquer sur le pipe (carré vert) dans le menu inférieur

3. sélectionner des éléments de la séquence et attribuer à chacun des étiquettes différentes

- d'abord choisir l'étiquette
- puis sélectionner le texte (un double clic sélectionne un élément entre espace)

<center><img src="img/Annotation_Microstructure_ok.png" width="80%"></center>

!!! Si vous commettez une erreur en annotant, il suffit de sélectionner l'élément avec annotation erronée, puis cliquer sur la croix (sur fond noir). Comme ci-dessous : "3 à 7" devrait être annoté "NUM" et non "SPATIAL".

<center><img src="img/Annotation_correction.png" width="80%"></center>

Quelques remarques :

- il est possible de revenir à une séquence précédente, en cliquant sur la séquence souhaitée dans le menu history.

ATTENTION : lorsque l'on clique sur 'enregistrer' le menu  'history' est vidé, on ne peut donc plus accéder aux annotations précédentes.

- Avant de fermer l'outil, ne pas oublier de cliquer sur enregistrer (en haut, à gauche), pour enregistrer l'ensemble du travail de la session.

- En relançant la même ligne de commande, je reprends mon annotation à la séquence suivante :

> !prodigy ner.manual ptm_notebook blank:fr data/ed1898_xmlPage.jsonl --label TITRE,PAGE,NUM,NUM_GLOB,PART,PERS,PRENOM,ORG,STATUT,VILLE,VOIE,RUE,NUM_PERS,GER,LOC,SPATIAL


<center><img src="img/Annotation_continuer.png" width="50%"></center>

- Il est possible d'annoter à partir de modèles existants, par exemple 'fr_core_news_sm' utilisant les étiquettes du dico Spacy (cf. Sequoia) :

> prodigy ner.correct ptm_testCorrec fr_core_news_sm Annuaires_xmlPage.jsonl --label LOC,MISC,ORG,PER

- Il est donc possible d'utiliser les LOC et PER du modèle fr_core_news_sm, et d'ajouter son propre jeu d'étiquettes par exemple STATUS

> prodigy ner.correct ptm_testCorrec fr_core_news_sm Annuaires_xmlPage.jsonl --label LOC,PER,STATUS


# Observer ses annotations


## ... avec Prodigy

In [5]:
!prodigy stats

[1m

Version          1.11.7                        
Location         /home/frederique/Documents/Prodigy/prodigyEnv/lib/python3.8/site-packages/prodigy
Prodigy Home     /home/frederique/.prodigy     
Platform         Linux-5.4.0-125-generic-x86_64-with-glibc2.29
Python Version   3.8.10                        
Database Name    SQLite                        
Database Id      sqlite                        
Total Datasets   7                             
Total Sessions   31                            



Par sésurité, il est possible (et conseillé!) avant toute modifications majeure de faire une copie de la base de donnée Prodigy. Pour ce faire, il suffit de faire une copie de la base nommée "prodigy.db" contenu dans le répertoire ".prodigy".

La commande "stats" indique où se trouve Prodigy sur ma machine :

    > Prodigy Home  /home/frederique/.prodigy

<center><img src="img/bdd_prodigy.png" width="80%"></center>

### récupérer les annotations au format JSONL

... sur la sortie standard

In [6]:
!prodigy db-out ptm_notebook

{"text":"  pi, atre, age ovige Qr peaie.","meta":{"file_name":"./1898_XML/XML_page/Tot/1898_pg0542.xml","TR_id":"p1_b1"},"_input_hash":1241943533,"_task_hash":-1530122178,"_is_binary":false,"tokens":[{"text":"  ","start":0,"end":2,"id":0,"ws":false},{"text":"pi","start":2,"end":4,"id":1,"ws":false},{"text":",","start":4,"end":5,"id":2,"ws":true},{"text":"atre","start":6,"end":10,"id":3,"ws":false},{"text":",","start":10,"end":11,"id":4,"ws":true},{"text":"age","start":12,"end":15,"id":5,"ws":true},{"text":"ovige","start":16,"end":21,"id":6,"ws":true},{"text":"Qr","start":22,"end":24,"id":7,"ws":true},{"text":"peaie","start":25,"end":30,"id":8,"ws":false},{"text":".","start":30,"end":31,"id":9,"ws":false}],"_view_id":"ner_manual","answer":"reject","_timestamp":1663743880}
{"text":"N.B. Les rues sont class\u00e9es suivant l\u2019ordre officiel de la Ville de Paris.","meta":{"file_name":"./1898_XML/XML_page/Tot/1898_pg0542.xml","TR_id":"p1_b2"},"_input_hash":-687072050,"_task_hash":17172

<b style="color:#FF0000">Rappel! Dans la cellule de ce notebook, où Prodigy a été lancé, il faut arrêter Prodigy (carré noir das le menu en haut). Sinon il aucune action ne sera lancée ici.
<b> 

Il est donc possible d'envoyer le résultat dans un fichier

In [7]:
!prodigy db-out ptm_notebook > ptm_notebook.json

Il est possible d'effacer un ensemble de données

In [8]:
!prodigy drop ptm_test


[38;5;1m✘ Can't find 'ptm_test' in database SQLite[0m



### Observer et corriger ses annotations

1/ Visualiser ses annotation de manière 'jolie' (... tout est relatif !) 

In [9]:
!prodigy print-dataset --help

usage: prodigy print-dataset [-h] [-s auto] dataset

    Pretty-print annotations from a given dataset on the command line. Supports
    plain text, text classification and NER annotations. If no `--type` is
    specified, Prodigy will try to infer it from the data via the `"_view_id"`
    that's automatically added since v1.8.
    

positional arguments:
  dataset               Dataset to print

optional arguments:
  -h, --help            show this help message and exit
  -s auto, --style auto
                        Annotation type


In [10]:
!prodigy print-dataset ptm_notebook

  pi, atre, age ovige Qr peaie.

N.B. Les rues sont classées suivant l’ordre officiel de la Ville de Paris.

9ain

[38;5;16;48;5;222m .2 ABBAYE (Rue de l’) 24 [0m[38;5;16;48;5;2m TITRE [0m

[38;5;16;48;5;222m 1 [0m[38;5;16;48;5;2m NUM [0m [38;5;16;48;5;222m Entrée pass. Petite-Boucherie, 1. [0m[38;5;16;48;5;2m SPATIAL [0m / [38;5;16;48;5;222m 3 à 7 [0m[38;5;16;48;5;2m NUM [0m [38;5;16;48;5;222m Laguibourgère [0m[38;5;16;48;5;2m PERS [0m ([38;5;16;48;5;222m C. de [0m[38;5;16;48;5;2m STATUT [0m), [38;5;16;48;5;222m Paris [0m[38;5;16;48;5;2m LOC [0m, [38;5;16;48;5;222m pl. [0m[38;5;16;48;5;2m VOIE [0m [38;5;16;48;5;222m St-1 / Germain-des-Prés [0m[38;5;16;48;5;2m RUE [0m, [38;5;16;48;5;222m 3 [0m[38;5;16;48;5;2m NUM_PERS [0m. / 11-13 Vallois, Paris, r. Abbaye, 13. / 17-19 Entrée r. Rennes, 44. / 2 Entrée r. Echaudé, 18. / 2bis-4 Entrée r. Furstemberg, 7-9. / 6 Michau et Douanne, Paris, r. Denfert- / Rochereau, 47. / 8 Delmas, Paris, r. Lota,

Dans cette version de Prodigy, la recette <i>review</i> permet de relire et corriger ses annotations.

> prodigy + nom de la recette + nom donné au travail + nom du lot annoté (que l'on souhaite relire) + les labels

In [11]:
!prodigy review ptm_notebookReview ptm_notebook --label TITRE,PAGE,NUM,NUM_GLOB,PART,PERS,PRENOM,ORG,STATUT,VILLE,VOIE,RUE,NUM_PERS,GER,LOC,SPATIAL

Using 16 label(s): TITRE, PAGE, NUM, NUM_GLOB, PART, PERS, PRENOM, ORG, STATUT,
VILLE, VOIE, RUE, NUM_PERS, GER, LOC, SPATIAL

✨  Starting the web server at http://localhost:8080 ...
Open the app in your browser and start annotating!

^C


<center><img src="img/Annotation_Review.png" width="80%"></center>

Remarques :

Il est important :

 - de nommer avec un nom significatif le travail affectué
    
    dans l'exemple 'ptm_notebookReview' (ce nom est explicite)
    
    
 - de mettre le bon jeu d'étiquettes 
    
    exemple : j'ai annoté mes villes avec l'étiquette "VILLE". Si la liste de label dans mon étape de correction contient l'étqiuette "CITY", je pourrais voir ce qui a été annoté 'VILLE', je pourrais effacer les annotations 'VILLE', mais je ne pourrais pas à nouveau les annoter comme 'VILLE'
 
    

In [12]:
!prodigy db-out ptm_notebookReview
!prodigy db-out ptm_notebookReview > ptm_notebookReview.jsonl

{"text":".2 ABBAYE (Rue de l\u2019) 24","meta":{"file_name":"./1898_XML/XML_page/Tot/1898_pg0542.xml","TR_id":"p1_b4"},"_input_hash":891159033,"_task_hash":44222113,"_is_binary":false,"tokens":[{"text":".2","start":0,"end":2,"id":0,"ws":true},{"text":"ABBAYE","start":3,"end":9,"id":1,"ws":true},{"text":"(","start":10,"end":11,"id":2,"ws":false},{"text":"Rue","start":11,"end":14,"id":3,"ws":true},{"text":"de","start":15,"end":17,"id":4,"ws":true},{"text":"l","start":18,"end":19,"id":5,"ws":false},{"text":"\u2019","start":19,"end":20,"id":6,"ws":false},{"text":")","start":20,"end":21,"id":7,"ws":true},{"text":"24","start":22,"end":24,"id":8,"ws":false}],"_view_id":"review","spans":[],"answer":"accept","_timestamp":1663748354,"_session_id":"ptm_notebook","sessions":["ptm_notebook"],"versions":[{"text":".2 ABBAYE (Rue de l\u2019) 24","meta":{"file_name":"./1898_XML/XML_page/Tot/1898_pg0542.xml","TR_id":"p1_b4"},"_input_hash":891159033,"_task_hash":44222113,"_is_binary":false,"tokens":[{"te

## ... avec SQLite

La base de données Prodigy se nomme prodigy.db. Elle est dans mon répertoire de travail Prodigy :

 > Prodigy Home  /home/frederique/.prodigy

Elle est organisée en 3 tables : 'dataset','example' et 'link'.

Il existe plusieurs solutions pour se connecter à la base de données prodigy :

- depuis mon environnement virtuel, en ligne de commande (ici sous Ubuntu) :

> cd /home/frederique/.prodigy
> sqlite3 prodigy.db

- directement dans le notebook :

Se placer à l'endroit où se trouve la base de données

In [13]:
cd /home/frederique/.prodigy/

/home/frederique/.prodigy


In [14]:
import pandas as pd
import numpy as np
import sqlite3 as sql

database = "prodigy.db"
connection = sql.connect(database)

In [15]:
query = '''SELECT * from dataset'''

In [16]:
df = pd.read_sql_query(query,connection)
df.head()

Unnamed: 0,id,name,created,meta,session
0,1,ptm_test1,1648562727,b'{}',0
1,2,2022-03-29_16-05-26,1648562727,"b'{""created"":1648569927}'",1
2,3,ptm_Alena_test,1649839620,b'{}',0
3,4,2022-04-13_10-47-00,1649839620,"b'{""created"":1649846820}'",1
4,5,2022-04-13_11-04-51,1649840691,"b'{""created"":1649846820}'",1


Nous avons enregistré nos exemples sous le nom "ptm_notebook"

In [17]:
myDataset = "SELECT * FROM dataset"

df = pd.read_sql_query(myDataset,connection)
df.head()

Unnamed: 0,id,name,created,meta,session
0,1,ptm_test1,1648562727,b'{}',0
1,2,2022-03-29_16-05-26,1648562727,"b'{""created"":1648569927}'",1
2,3,ptm_Alena_test,1649839620,b'{}',0
3,4,2022-04-13_10-47-00,1649839620,"b'{""created"":1649846820}'",1
4,5,2022-04-13_11-04-51,1649840691,"b'{""created"":1649846820}'",1


Les annotations sont dans la table "example"

In [18]:
myExemplesPTM = "SELECT * FROM example \
INNER JOIN link ON example.id = link.example_id \
INNER JOIN dataset ON link.dataset_id =  dataset.id \
WHERE dataset.name = 'ptm_notebook'"

df = pd.read_sql_query(myExemplesPTM,connection)
df.head()

Unnamed: 0,id,input_hash,task_hash,content,id.1,example_id,dataset_id,id.2,name,created,meta,session
0,1879,1241943533,-1530122178,"b'{""text"":"" pi, atre, age ovige Qr peaie."",""m...",3757,1879,37,37,ptm_notebook,1663743736,b'{}',0
1,1880,-687072050,1717208169,"b'{""text"":""N.B. Les rues sont class\\u00e9es s...",3758,1880,37,37,ptm_notebook,1663743736,b'{}',0
2,1881,-1501313454,660873640,"b'{""text"":""9ain"",""meta"":{""file_name"":""./1898_X...",3759,1881,37,37,ptm_notebook,1663743736,b'{}',0
3,1882,891159033,-737305864,"b'{""text"":"".2 ABBAYE (Rue de l\\u2019) 24"",""me...",3760,1882,37,37,ptm_notebook,1663743736,b'{}',0
4,1883,-1232796226,1114627467,"b'{""text"":""1 Entr\\u00e9e pass. Petite-Boucher...",3761,1883,37,37,ptm_notebook,1663743736,b'{}',0


Obtenir le nombre d'exemple annoter grâce à "count"

In [19]:
myCountExemplesPTM = "SELECT count(*) FROM example \
INNER JOIN link ON example.id = link.example_id \
INNER JOIN dataset ON link.dataset_id =  dataset.id \
WHERE dataset.name = 'ptm_notebook'"

df = pd.read_sql_query(myCountExemplesPTM,connection)
df.head()

Unnamed: 0,count(*)
0,5


Voir les exemples annotés, afficher le champ "content"

In [20]:
myContentPTM = "SELECT content FROM example \
INNER JOIN link ON example.id = link.example_id \
INNER JOIN dataset ON link.dataset_id =  dataset.id \
WHERE dataset.name = 'ptm_notebook'"

df = pd.read_sql_query(myContentPTM,connection)
pd.set_option('max_colwidth', 5000)
df.head()

Unnamed: 0,content
0,"b'{""text"":"" pi, atre, age ovige Qr peaie."",""meta"":{""file_name"":""./1898_XML/XML_page/Tot/1898_pg0542.xml"",""TR_id"":""p1_b1""},""_input_hash"":1241943533,""_task_hash"":-1530122178,""_is_binary"":false,""tokens"":[{""text"":"" "",""start"":0,""end"":2,""id"":0,""ws"":false},{""text"":""pi"",""start"":2,""end"":4,""id"":1,""ws"":false},{""text"":"","",""start"":4,""end"":5,""id"":2,""ws"":true},{""text"":""atre"",""start"":6,""end"":10,""id"":3,""ws"":false},{""text"":"","",""start"":10,""end"":11,""id"":4,""ws"":true},{""text"":""age"",""start"":12,""end"":15,""id"":5,""ws"":true},{""text"":""ovige"",""start"":16,""end"":21,""id"":6,""ws"":true},{""text"":""Qr"",""start"":22,""end"":24,""id"":7,""ws"":true},{""text"":""peaie"",""start"":25,""end"":30,""id"":8,""ws"":false},{""text"":""."",""start"":30,""end"":31,""id"":9,""ws"":false}],""_view_id"":""ner_manual"",""answer"":""reject"",""_timestamp"":1663743880}'"
1,"b'{""text"":""N.B. Les rues sont class\\u00e9es suivant l\\u2019ordre officiel de la Ville de Paris."",""meta"":{""file_name"":""./1898_XML/XML_page/Tot/1898_pg0542.xml"",""TR_id"":""p1_b2""},""_input_hash"":-687072050,""_task_hash"":1717208169,""_is_binary"":false,""tokens"":[{""text"":""N.B."",""start"":0,""end"":4,""id"":0,""ws"":true},{""text"":""Les"",""start"":5,""end"":8,""id"":1,""ws"":true},{""text"":""rues"",""start"":9,""end"":13,""id"":2,""ws"":true},{""text"":""sont"",""start"":14,""end"":18,""id"":3,""ws"":true},{""text"":""class\\u00e9es"",""start"":19,""end"":27,""id"":4,""ws"":true},{""text"":""suivant"",""start"":28,""end"":35,""id"":5,""ws"":true},{""text"":""l\\u2019"",""start"":36,""end"":38,""id"":6,""ws"":false},{""text"":""ordre"",""start"":38,""end"":43,""id"":7,""ws"":true},{""text"":""officiel"",""start"":44,""end"":52,""id"":8,""ws"":true},{""text"":""de"",""start"":53,""end"":55,""id"":9,""ws"":true},{""text"":""la"",""start"":56,""end"":58,""id"":10,""ws"":true},{""text"":""Ville"",""start"":59,""end"":64,""id"":11,""ws"":true},{""text"":""de"",""start"":65,""end"":67,""id"":12,""ws"":true},{""text"":""Paris"",""start"":68,""end"":73,""id"":13,""ws"":false},{""text"":""."",""start"":73,""end"":74,""id"":14,""ws"":false}],""_view_id"":""ner_manual"",""answer"":""reject"",""_timestamp"":1663746207}'"
2,"b'{""text"":""9ain"",""meta"":{""file_name"":""./1898_XML/XML_page/Tot/1898_pg0542.xml"",""TR_id"":""p1_b3""},""_input_hash"":-1501313454,""_task_hash"":660873640,""_is_binary"":false,""tokens"":[{""text"":""9ain"",""start"":0,""end"":4,""id"":0,""ws"":false}],""_view_id"":""ner_manual"",""answer"":""reject"",""_timestamp"":1663746209}'"
3,"b'{""text"":"".2 ABBAYE (Rue de l\\u2019) 24"",""meta"":{""file_name"":""./1898_XML/XML_page/Tot/1898_pg0542.xml"",""TR_id"":""p1_b4""},""_input_hash"":891159033,""_task_hash"":-737305864,""_is_binary"":false,""tokens"":[{""text"":"".2"",""start"":0,""end"":2,""id"":0,""ws"":true},{""text"":""ABBAYE"",""start"":3,""end"":9,""id"":1,""ws"":true},{""text"":""("",""start"":10,""end"":11,""id"":2,""ws"":false},{""text"":""Rue"",""start"":11,""end"":14,""id"":3,""ws"":true},{""text"":""de"",""start"":15,""end"":17,""id"":4,""ws"":true},{""text"":""l"",""start"":18,""end"":19,""id"":5,""ws"":false},{""text"":""\\u2019"",""start"":19,""end"":20,""id"":6,""ws"":false},{""text"":"")"",""start"":20,""end"":21,""id"":7,""ws"":true},{""text"":""24"",""start"":22,""end"":24,""id"":8,""ws"":false}],""_view_id"":""ner_manual"",""spans"":[{""start"":0,""end"":24,""token_start"":0,""token_end"":8,""label"":""TITRE""}],""answer"":""accept"",""_timestamp"":1663746210}'"
4,"b'{""text"":""1 Entr\\u00e9e pass. Petite-Boucherie, 1. / 3 \\u00e0 7 Laguibourg\\u00e8re (C. de), Paris, pl. St-1 / Germain-des-Pr\\u00e9s, 3. / 11-13 Vallois, Paris, r. Abbaye, 13. / 17-19 Entr\\u00e9e r. Rennes, 44. / 2 Entr\\u00e9e r. Echaud\\u00e9, 18. / 2bis-4 Entr\\u00e9e r. Furstemberg, 7-9. / 6 Michau et Douanne, Paris, r. Denfert- / Rochereau, 47. / 8 Delmas, Paris, r. Lota, 2. / 10 Peignot, Paris, boul. Eg. Quinet, 68. / 12 Romagny, Vincennes, av. Marigny, 37. / 14 St-Luc (Cte de), Paris, r. Abbaye, 14. / 16 Len\\u00e8gre (Vve), Poissy, av. Mignot, 16 / (S. et-O.). / 18 Entr\\u00e9e r. Bonaparte, 37. / 20 Entr\\u00e9e r. Bonaparte, 42. / 22 Baudreuil (de), Paris, r. Bonaparte, 29. / 24 Entr\\u00e9e r. St-Benoit, 11."",""meta"":{""file_name"":""./1898_XML/XML_page/Tot/1898_pg0542.xml"",""TR_id"":""p1_b5""},""_input_hash"":-1232796226,""_task_hash"":1114627467,""_is_binary"":false,""tokens"":[{""text"":""1"",""start"":0,""end"":1,""id"":0,""ws"":true},{""text"":""Entr\\u00e9e"",""start"":2,""end"":8,""id"":1,""ws"":true},{""text"":""pass"",""start"":9,""end"":13,""id"":2,""ws"":false},{""text"":""."",""start"":13,""end"":14,""id"":3,""ws"":true},{""text"":""Petite-Boucherie"",""start"":15,""end"":31,""id"":4,""ws"":false},{""text"":"","",""start"":31,""end"":32,""id"":5,""ws"":true},{""text"":""1"",""start"":33,""end"":34,""id"":6,""ws"":false},{""text"":""."",""start"":34,""end"":35,""id"":7,""ws"":true},{""text"":""/"",""start"":36,""end"":37,""id"":8,""ws"":true},{""text"":""3"",""start"":38,""end"":39,""id"":9,""ws"":true},{""text"":""\\u00e0"",""start"":40,""end"":41,""id"":10,""ws"":true},{""text"":""7"",""start"":42,""end"":43,""id"":11,""ws"":true},{""text"":""Laguibourg\\u00e8re"",""start"":44,""end"":57,""id"":12,""ws"":true},{""text"":""("",""start"":58,""end"":59,""id"":13,""ws"":false},{""text"":""C."",""start"":59,""end"":61,""id"":14,""ws"":true},{""text"":""de"",""start"":62,""end"":64,""id"":15,""ws"":false},{""text"":"")"",""start"":64,""end"":65,""id"":16,""ws"":false},{""text"":"","",""start"":65,""end"":66,""id"":17,""ws"":true},{""text"":""Paris"",""start"":67,""end"":72,""id"":18,""ws"":false},{""text"":"","",""start"":72,""end"":73,""id"":19,""ws"":true},{""text"":""pl"",""start"":74,""end"":76,""id"":20,""ws"":false},{""text"":""."",""start"":76,""end"":77,""id"":21,""ws"":true},{""text"":""St-1"",""start"":78,""end"":82,""id"":22,""ws"":true},{""text"":""/"",""start"":83,""end"":84,""id"":23,""ws"":true},{""text"":""Germain-des-Pr\\u00e9s"",""start"":85,""end"":101,""id"":24,""ws"":false},{""text"":"","",""start"":101,""end"":102,""id"":25,""ws"":true},{""text"":""3"",""start"":103,""end"":104,""id"":26,""ws"":false},{""text"":""."",""start"":104,""end"":105,""id"":27,""ws"":true},{""text"":""/"",""start"":106,""end"":107,""id"":28,""ws"":true},{""text"":""11"",""start"":108,""end"":110,""id"":29,""ws"":false},{""text"":""-"",""start"":110,""end"":111,""id"":30,""ws"":false},{""text"":""13"",""start"":111,""end"":113,""id"":31,""ws"":true},{""text"":""Vallois"",""start"":114,""end"":121,""id"":32,""ws"":false},{""text"":"","",""start"":121,""end"":122,""id"":33,""ws"":true},{""text"":""Paris"",""start"":123,""end"":128,""id"":34,""ws"":false},{""text"":"","",""start"":128,""end"":129,""id"":35,""ws"":true},{""text"":""r."",""start"":130,""end"":132,""id"":36,""ws"":true},{""text"":""Abbaye"",""start"":133,""end"":139,""id"":37,""ws"":false},{""text"":"","",""start"":139,""end"":140,""id"":38,""ws"":true},{""text"":""13"",""start"":141,""end"":143,""id"":39,""ws"":false},{""text"":""."",""start"":143,""end"":144,""id"":40,""ws"":true},{""text"":""/"",""start"":145,""end"":146,""id"":41,""ws"":true},{""text"":""17"",""start"":147,""end"":149,""id"":42,""ws"":false},{""text"":""-"",""start"":149,""end"":150,""id"":43,""ws"":false},{""text"":""19"",""start"":150,""end"":152,""id"":44,""ws"":true},{""text"":""Entr\\u00e9e"",""start"":153,""end"":159,""id"":45,""ws"":true},{""text"":""r."",""start"":160,""end"":162,""id"":46,""ws"":true},{""text"":""Rennes"",""start"":163,""end"":169,""id"":47,""ws"":false},{""text"":"","",""start"":169,""end"":170,""id"":48,""ws"":true},{""text"":""44"",""start"":171,""end"":173,""id"":49,""ws"":false},{""text"":""."",""start"":173,""end"":174,""id"":50,""ws"":true},{""text"":""/"",""start"":175,""end"":176,""id"":51,""ws"":true},{""text"":""2"",""start"":177,""end"":178,""id"":52,""ws"":true},{""text"":""Entr\\u00e9e"",""start"":179,""end"":185,""id"":53,""ws"":true},{""text"":""r."",""start"":186,""end"":188,""id"":54,""ws"":true},{""text"":""Echaud\\u00e9"",""start"":189,""end"":196,""id"":55,""ws"":false},{""text"":"","",""start"":196,""end"":197,""id"":56,""ws"":true},{""text"":""18"",""start"":198,""end"":200,""id"":57,""ws"":false},{""text"":""."",""start"":200,""end"":201,""id"":58,""ws"":true},{""text"":""/"",""start"":202,""end"":203,""id"":59,""ws"":true},{""text"":""2bis-4"",""start"":204,""end"":210,""id"":60,""ws"":true},{""text"":""Entr\\u00e9e"",""start"":211,""end"":217,""id"":61,""ws"":true},{""text"":""r."",""start"":218,""end"":220,""id"":62,""ws"":true},{""text"":""Furstemberg"",""start"":221,""end"":232,""id"":63,""ws"":false},{""text"":"","",""start"":232,""end"":233,""id"":64,""ws"":true},{""text"":""7"",""start"":234,""end"":235,""id"":65,""ws"":false},{""text"":""-"",""start"":235,""end"":236,""id"":66,""ws"":false},{""text"":""9"",""start"":236,""end"":237,""id"":67,""ws"":false},{""text"":""."",""start"":237,""end"":238,""id"":68,""ws"":true},{""text"":""/"",""start"":239,""end"":240,""id"":69,""ws"":true},{""text"":""6"",""start"":241,""end"":242,""id"":70,""ws"":true},{""text"":""Michau"",""start"":243,""end"":249,""id"":71,""ws"":true},{""text"":""et"",""start"":250,""end"":252,""id"":72,""ws"":true},{""text"":""Douanne"",""start"":253,""end"":260,""id"":73,""ws"":false},{""text"":"","",""start"":260,""end"":2..."


## Créer un modèle

Se placer dans le répertoire de travail souhaité.

In [21]:
cd /home/frederique/Documents/Prodigy/NOTEBOOK

/home/frederique/Documents/Prodigy/NOTEBOOK


Il suffit :

- d'appeler le module d'entrainement : 'train') 
- de l'appliquer à un jeu de données annoté : 'ptm_Alena_test'
- d'indiquer un répertoire de sortie : 'output_model_notebook' (ce répertoire sera crée dans mon espace de travail, ici dans le dossier 'NOTEBOOK)

Attention : choisir un nom de dossier pertinent et significatif pour stocker son model.

In [2]:
!prodigy train --ner ptm_Alena_test output_model_notebook

[38;5;4mℹ Using CPU[0m
[1m
[38;5;4mℹ Auto-generating config with spaCy[0m
[38;5;2m✔ Generated training config[0m
[1m
[2022-09-21 10:43:08,239] [INFO] Set up nlp object from config
Components: ner
Merging training and evaluation data for 1 components
  - [ner] Training: 392 | Evaluation: 97 (20% split)
Training: 195 | Evaluation: 46
Labels: ner (14)
[2022-09-21 10:43:08,591] [INFO] Pipeline: ['tok2vec', 'ner']
[2022-09-21 10:43:08,594] [INFO] Created vocabulary
[2022-09-21 10:43:08,594] [INFO] Finished initializing nlp object
[2022-09-21 10:43:10,286] [INFO] Initialized pipeline components: ['tok2vec', 'ner']
[38;5;2m✔ Initialized pipeline[0m
[1m
Components: ner
Merging training and evaluation data for 1 components
  - [ner] Training: 392 | Evaluation: 97 (20% split)
Training: 195 | Evaluation: 46
Labels: ner (14)
[38;5;4mℹ Pipeline: ['tok2vec', 'ner'][0m
[38;5;4mℹ Initial learn rate: 0.001[0m
E    #       LOSS TOK2VEC  LOSS NER  ENTS_F  ENTS_P  ENTS_R  SCORE 
---  ------

## Utiliser le modèle créé

### ... annoter et visualiser l'ensemble de son corpus avec Spacy

In [22]:
import spacy
from spacy import displacy
nlp = spacy.load("output_model_notebook/model-best")

Importer un fichier brut, non annoté.

In [23]:
import json

file = open("data/test.jsonl")
lignes = file.readlines()

Définir un lot d'étiquettes à visualiser et la couleur à leur attribuer.

In [24]:
# choisir les labels à afficher, et leur couleur (colors est optionnel)
# pour rappel nos labels :
# TITRE,PAGE,NUM,NUM_GLOB,PART,PERS,PRENOM,ORG,STATUT,VILLE,VOIE,RUE,NUM_PERS
myLabels = ["TITRE", "NUM", "PERS", "VILLE", "VOIE", "RUE", "NUM_PERS","STATUT","SPATIAL","LOC"]

# Comment choisir un ensemble de couleurs, un site utile : 
# https://observablehq.com/@d3/color-schemes
myColors = ["#e41a1c","#377eb8","#4daf4a","#984ea3","#ff7f00","#ffff33","#a65628","#f781bf","#999999"]

# ces deux listes doivent avoir le même nombre d'éléments!

colors = dict()
for nLabel in range(len(myLabels)-1):
   colors[myLabels[nLabel]]=myColors[nLabel]
print(colors)
options={"ents": myLabels,"colors":colors}

{'TITRE': '#e41a1c', 'NUM': '#377eb8', 'PERS': '#4daf4a', 'VILLE': '#984ea3', 'VOIE': '#ff7f00', 'RUE': '#ffff33', 'NUM_PERS': '#a65628', 'STATUT': '#f781bf', 'SPATIAL': '#999999'}


In [25]:
for ligne in lignes:
    
    s = json.loads(ligne)
    # sentence with Annotations
    try:
        doc = nlp(s["text"])
        #displacy.render(doc, style="ent")
        displacy.render(doc, style="ent",options=options)
    # sentence without Annotations
    except:
        print(s["text"])

<center><img src="img/Annotations.png" width="80%"></center>

### ... annoter l'ensemble de son corpus avec Prodigy

...info à venir...