# Analyse 1 : utilisation de regexp et de patterns spacy

on essaie d'extraire des termes connus, et des locutions typiques, pour d√©tecter les r√©f√©rences aux personnages et aux lieux.



## Trouver et lister les fichiers

In [1]:
from glob import glob
import os.path

In [2]:
# FIXME fournir code lecture fichiers depuis Google Drive ici (archive format zip)

In [3]:
PATH_TEXT_FILES_DIR = "/home/jchazalo/tmp/French_ELTEC_NER_Open_Dataset/texts"

In [4]:
files = sorted(glob(os.path.join(PATH_TEXT_FILES_DIR, "*.txt")))
print("Found", len(files), "files.")
files[:10]

Found 100 files.


['/home/jchazalo/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00101_Adam.txt',
 '/home/jchazalo/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00102_Adam.txt',
 '/home/jchazalo/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00201_Audoux.txt',
 '/home/jchazalo/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00301_Aimard.txt',
 '/home/jchazalo/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00302_Aimard.txt',
 '/home/jchazalo/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00401_Allais.txt',
 '/home/jchazalo/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00501_Balzac.txt',
 '/home/jchazalo/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00502_Balzac.txt',
 '/home/jchazalo/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00503_Balzac.txt',
 '/home/jchazalo/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA00601_Boisgobey.txt']

In [5]:
sample = files[50]
sample

'/home/jchazalo/tmp/French_ELTEC_NER_Open_Dataset/texts/tr_FRA03001_Ohnet.txt'

## Import spacy and start processing

In [6]:
import spacy


## L'objet [`Language`](https://spacy.io/api/language)
On construit une nouvelle cha√Æne de traitements de plusieurs fa√ßon. La mani√®re la plus simple est de construire une cha√Æne de traitement vide (ou presque) pour le fran√ßais √† l'aide de la "fabrique" √† cha√Ænes de traitement `spacy.blank(LANGAGE)`.

In [7]:
nlp = spacy.blank("fr")


La cha√Æne de traitements contient diff√©rents traitements appliqu√©s les uns apr√®s les autres.
On peut afficher cette liste de traitements √† l'aide de l'attribut `pipe_names` de l'objet `nlp`.

In [8]:
nlp.pipe_names

[]

Par d√©faut, une cha√Æne de traitement ne contient rien‚Ä¶ Sauf un *tokenizer*, d'o√π l'importance de pr√©ciser la langue !

## L'objet [`Doc`](https://spacy.io/api/doc)
On obtient un objet [`Doc`](https://spacy.io/api/doc) en appliquant la cha√Æne de traitement [`Language`](https://spacy.io/api/language) √† une cha√Æne de texte.

Cet objet [`Doc`](https://spacy.io/api/doc) est central pour Spacy car va √™tre progressivement enrichi par chacun de traitements qui va venir y piocher les informations dont il a besoin en entr√©e, et ajouter les informations qu'il a calcul√©es.
Par exemple, le composant "ner" va venir affecter une √©tiquette (*"label"*) √† chacun des *tokens* du document. Il va stocker cette information dans un nouvel attribut `doc.ents` du document.

L'attribut `doc.text` quant √† lui contient la liste des *tokens* extraits.

![](https://spacy.io/images/architecture.svg)

![](https://spacy.io/images/pipeline.svg)

In [9]:
# Cr√©√© en traitant une chaine de caract√®res avec l'objet nlp
doc = nlp("Bonjour tout le monde !")

On peut parcourir les *tokens* extraits d'un [`Doc`](https://spacy.io/api/doc) √† l'aide d'une boucle classique en Python.

In [10]:
# It√®re sur les tokens dans un Doc
for token in doc:
    print(token.text)

Bonjour
tout
le
monde
!


In [11]:
# On peut s√©lectionner un token particulier, gr√¢ce √† son indice dans le document
token = doc[1]
token

tout

### Exemple de cellule avec contenu cach√© par d√©faut
#### üöß <b>Essayez √† pr√©sent de s√©lectionner et afficher les <i>tokens</i> "tout le monde".</b>

<details>
<summary>Indices</summary>

Vous pouvez utiliser les *ranges* pour s√©lectionner plusieurs √©l√©ments d'un it√©rable. Voici un exemple de la syntaxe √† utiliser :
```python
ma_liste = [0, 1, 2, 3]
print(ma_liste[1:3])
```
</details>

<details>
<summary>Solution</summary>

On applique cette syntaxe pour s√©lectionner les tokens du rang 1 (2e token, inclus) au rang 4 (non inclus) :

```python
doc[1:4]
```
</details>


In [12]:
# On peut √©galement utiliser les "ranges" Python pour s√©lectionner plusieurs tokens
span = doc[1:4]
span

tout le monde

In [13]:
# On peut √©galement acc√©der aux attributs d'un span
span.text

'tout le monde'

## 

In [15]:
## Autres attributs des tokens et des spans

doc = nlp("Cela co√ªte 5 ‚Ç¨.")

print("Index :   ", [token.i for token in doc])
print("Text :    ", [token.text for token in doc])

print("is_alpha :", [token.is_alpha for token in doc])
print("is_punct :", [token.is_punct for token in doc])
print("like_num :", [token.like_num for token in doc])

Index :    [0, 1, 2, 3, 4]
Text :     ['Cela', 'co√ªte', '5', '‚Ç¨', '.']
is_alpha : [True, True, False, False, False]
is_punct : [False, False, False, False, True]
like_num : [False, False, True, False, False]


## Utilisation d'un pipeline avec un pos_tagger et un reconnaisseur d'entit√©s nomm√©es

In [None]:
!python -m spacy download fr_core_news_sm

Collecting fr-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_sm-3.7.0/fr_core_news_sm-3.7.0-py3-none-any.whl (16.3 MB)
[2K     [38;2;114;156;31m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m16.3/16.3 MB[0m [31m2.6 MB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m[36m0:00:01[0m
Installing collected packages: fr-core-news-sm
Successfully installed fr-core-news-sm-3.7.0
[38;5;2m‚úî Download and installation successful[0m
You can now load the package via spacy.load('fr_core_news_sm')


In [None]:
nlp = spacy.load("fr_core_news_sm")
# Charge un vocabulaire fran√ßais (utilis√© pour la tokenization), et bien d'autres composants !
nlp.pipe_names

In [37]:
# Process a text
doc = nlp("La journ√©e de formation √† Lyon se d√©roule bien.")
for token in doc:
    # print(token.text, token.pos_, token.dep_, token.head.text)
    print(f"{token.text:>10s}", f"{token.pos_:>6s}", f"{token.dep_:>12s}", f"{token.head.text:>10s}")

        La    DET          det    journ√©e
   journ√©e   NOUN        nsubj    d√©roule
        de    ADP         case  formation
 formation   NOUN         nmod    journ√©e
         √†    ADP         case       Lyon
      Lyon  PROPN         nmod    journ√©e
        se   PRON    expl:comp    d√©roule
   d√©roule   VERB         ROOT    d√©roule
      bien    ADV       advmod    d√©roule
         .  PUNCT        punct    d√©roule


## Visualisation des r√©sultats avec *displaCy*

In [38]:
from spacy import displacy

In [39]:
displacy.render(doc, style="ent", jupyter=True)

In [42]:
displacy.render(doc, style="span", jupyter=True)

In [43]:
displacy.render(doc, style="dep", jupyter=True)

## Utilisation de la nouvelle cha√Æne de traitement pour traiter nos donn√©es

In [21]:
def load_text(filename: str) -> str:
    with open(filename, encoding="utf8") as in_file:
        return "".join(in_file.readlines())

In [22]:
text = load_text(files[50])
print(text)
doc = nlp(text)

I
Dans un de ces charmants chemins creux de Normandie, serpentant entre les lev√©es, plant√©es de grands arbres, qui entourent les fermes d'un rempart de verdure imp√©n√©trable au vent et au soleil, par une belle matin√©e d'√©t√©, une amazone, mont√©e sur une jument de forme assez m√©diocre, s'avan√ßait au pas, les r√™nes abandonn√©es, r√™veuse, respirant l'air ti√®de, embaum√© du parfum des tr√®fles en fleurs. Avec son chapeau de feutre noir entour√© d'un voile de gaze blanche, son costume de drap gris fer √† longue jupe, elle avait fi√®re tournure. On e√ªt dit une de ces aventureuses grandes dames qui, au temps de Stofflet et de Cathelineau, suivaient hardiment l'arm√©e royaliste, dans les tra√Ænes du Bocage, et √©clairaient de leur sourire la sombre √©pop√©e vend√©enne.
√âl√©gante et svelte, elle se laissait aller gracieusement au mouvement de sa monture, fouettant distraitement de sa cravache les tiges vertes des gen√™ts. Un l√©vrier d'√âcosse au poil rude et rouge√¢tre l'accompagn

In [23]:
# It√®re sur les entit√©s pr√©dites
for ent in doc.ents:
    # Affiche le texte de l'entit√© et son label
    print(ent.text, ent.label_)

I LOC
Normandie LOC
Stofflet PER
Cathelineau LOC
Bocage LOC
√âl√©gante ORG
√âcosse LOC
amazone LOC
Madame PER
Rassurez PER
Monsieur PER
Allons PER
Fox ORG
O√π MISC
La Neuville LOC
Madame PER


In [24]:
spacy.explain("GPE")

'Countries, cities, states'

In [25]:
spacy.explain("LOC")

'Non-GPE locations, mountain ranges, bodies of water'

## (‚ùì opt ‚ùì) Utilisation du matcher Spacy
TODO montrer comment filtrer sur lex√®me, nature ou fonction du token.

In [26]:
pattern = [{"POS": "PROPN"}]

In [27]:
spacy.explain("PROPN")

'proper noun'

In [28]:
from spacy.matcher import Matcher
matcher = Matcher(nlp.vocab)
matcher.add("NOMS_PROPRES", [pattern])
matches = matcher(doc)

In [29]:
print("Nombre de correspondances trouv√©es :", len(matches))

# It√®re sur les correspondances et affiche la portion de texte
for match_id, start, end in matches:
    print("Correspondance trouv√©e :", doc[start:end].text)

Nombre de correspondances trouv√©es : 10
Correspondance trouv√©e : Normandie
Correspondance trouv√©e : Stofflet
Correspondance trouv√©e : Cathelineau
Correspondance trouv√©e : √âcosse
Correspondance trouv√©e : Rassurez
Correspondance trouv√©e : Allons
Correspondance trouv√©e : Fox
Correspondance trouv√©e : Neuville
Correspondance trouv√©e : volontiers
Correspondance trouv√©e : hasard


## Traitement massif des donn√©es

TODO documentation de l'utilisation de `nlp.pipe` plut√¥t √† ce moment-l√† ?

Lorsqu'on souhaite traiter plusieurs documents, on peut utiliser `nlp.pipe(LISTE_DE_TEXTES)`.
Dans ce cas, on obtient une liste de documents en sortie, qu'il est possible d'inspecter avec une seconde boucle !

In [31]:
TEXTES = [
    "Bonjour tout le monde !", 
    "Comment allez-vous ? Bien, j'esp√®re !",
    "Savez-vous qu'une cha√Æne de caract√®res peut contenir des retours √† la ligne\ncomme celui-ci ?"
    ]
documents = nlp.pipe(TEXTES)
for doc_id, doc in enumerate(documents):
    for token in doc:
        print(f"doc#{doc_id}, tok#{token.i}: {token.text}")

doc#0, tok#0: Bonjour
doc#0, tok#1: tout
doc#0, tok#2: le
doc#0, tok#3: monde
doc#0, tok#4: !
doc#1, tok#0: Comment
doc#1, tok#1: allez
doc#1, tok#2: -vous
doc#1, tok#3: ?
doc#1, tok#4: Bien
doc#1, tok#5: ,
doc#1, tok#6: j'
doc#1, tok#7: esp√®re
doc#1, tok#8: !
doc#2, tok#0: Savez
doc#2, tok#1: -vous
doc#2, tok#2: qu'
doc#2, tok#3: une
doc#2, tok#4: cha√Æne
doc#2, tok#5: de
doc#2, tok#6: caract√®res
doc#2, tok#7: peut
doc#2, tok#8: contenir
doc#2, tok#9: des
doc#2, tok#10: retours
doc#2, tok#11: √†
doc#2, tok#12: la
doc#2, tok#13: ligne
doc#2, tok#14: 

doc#2, tok#15: comme
doc#2, tok#16: celui-ci
doc#2, tok#17: ?


In [32]:
%%time
# FIXME use the dataset file here
documents = nlp.pipe([load_text(path) for path in files])
per_tokens = []
spat_tokens = []
for doc in documents:
    for ent in doc.ents:
        if ent.label_ in ("PER"):
            per_tokens.append(ent)
        elif ent.label_ in ("LOC", "GPE"):
            spat_tokens.append(ent)
print(f"Got {len(per_tokens)} entites about persons, and {len(spat_tokens)} entities about spatial objects.")

CPU times: user 4 ¬µs, sys: 0 ns, total: 4 ¬µs
Wall time: 7.15 ¬µs
Got 1655 entites about persons, and 1562 entities about spatial objects.


In [34]:
spat_tokens

[I,
 Norine Duclos,
 Adonc,
 Rose,
 Norine,
 Saint-Brunelle,
 Armandine,
 Rose,
 r√©serve de la Rose,
 Norine,
 couseuses,
 couseuses,
 Garde-les,
 Tiens,
 Norine,
 Bassette,
 bras-le-corps,
 Sorgues,
 Vaucluse,
 Ch√¢teau de Saint-Est√®ve,
 Durance,
 notre Provence,
 Oasis,
 Saint-Est√®ve,
 Durance,
 Notre voisine,
 Paris,
 Prologue,
 l'Am√©rique,
 l'Am√©rique,
 Am√©rique,
 Espagnols,
 les Incas,
 l'Europe,
 l'Am√©rique,
 √âtats,
 √âtat de Sonora,
 rio Gila,
 √âtat,
 sierra Madre,
 golfe de Californie,
 sierra Madre,
 Durango,
 √âtats de Durango,
 Guadalajara,
 Pacifique,
 Sonora,
 rio Gila,
 sierra Madre,
 Indiens,
 Comanches,
 Pawnees,
 Pimas,
 Opatas,
 Apaches,
 Sonora,
 Guaymas,
 Hermosillo,
 Pacifique,
 Montagne,
 Hermosillo,
 Gambusinos,
 Rosario,
 rue du Rosaire,
 Mexique,
 I,
 l'Am√©rique,
 la France,
 Canada,
 Nouvelle-France,
 Anglais,
 Angleterre,
 Mississipiens,
 la France,
 Canada,
 Europ√©ens,
 Indiens,
 Nouvelle-France,
 baie d'Hudson,
 golfe du Mexique,
 Nouvelle-Orl√©a

## Mise en place d'une √©valuation objective
Tr√®s important : besoin d'avoir une r√©f√©rence valid√©e, aussi appel√©e "v√©rit√© terrain" (*"ground truth"*), "donn√©es cibles" (*"targets"*), *"gold standard"*‚Ä¶

Cette r√©f√©rence contient, pour une √©chantillon repr√©sentatif de donn√©es d'entr√©e de notre syst√®me, les donn√©es id√©ales que notre syst√®me devrait produire en sortie.
Dans le doute, il est important de bien coller √† la d√©finition d'une t√¢che de traitement de donn√©es "classique", c'est √† dire √† un triplet (type et format des donn√©es d'entr√©es, type et format des donn√©es de sortie, m√©thode d'√©valuation de la conformit√© entre donn√©es pr√©dite et donn√©es attendues) commun√©ment utilis√© par les √©quipes exp√©riment√©es sur ce sujet.

TODO introduire notions de precision/recall/fscore (m√©triques de d√©tection / retrieval)

In [74]:
# On charge le dataset dans un format facile
import json
def load_dataset(path_to_json: str) -> dict[str, tuple[str, list[tuple[int, int, str]]]]:
    with open(path_to_json, encoding="utf8") as in_file:
        return json.load(in_file)

all_data = load_dataset("../dataset/French_ELTEC_NER_Open_Dataset.json")
print(f"Loaded text and target entities for {len(all_data)} samples.")

Loaded text and target entities for 100 samples.


In [75]:
from spacy.scorer import Scorer
from spacy.training.example import Example

def evaluate(ner_model, dataset_dict, debug=False):
    """FIXME DOC"""
    examples = []
    for doc_id, (text, target_entities) in dataset_dict.items():
        pred_doc = ner_model(text)
        if debug:
            print("Pred.:", [(ent.text, ent.label_) for ent in pred_doc.ents], " ‚Üî Targ.:", [(text[e[0]:e[1]], e[2]) for e in target_entities])
        try:
            example = Example.from_dict(pred_doc, {"entities": target_entities})
            examples.append(example)
        except ValueError as e:
            err_msg = f"Error parsing document '{doc_id}': "
            err_msg += getattr(e, "msg", str(e))
            print(err_msg)
            raise ValueError(err_msg)
    
    scorer = Scorer()
    scores = scorer.score_spans(examples, "ents")
    # print(scores["ents_f"])
    return scores

In [80]:
# Load a NER model
ner_model = spacy.load('fr_core_news_sm')

We should deactivate the useless parts of the pipeline here, to accelerate the evaluation.

In [81]:
ner_model.pipe_names

['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']

In [82]:
ner_model.select_pipes(enable="ner")
ner_model.pipe_names

['ner']

In [85]:
%%time
# evaluate using custom function, maybe useless because of the Language.evaluate() method! <https://spacy.io/api/language#evaluate>
results = evaluate(ner_model, all_data, debug=False)
results

O√π..." with entities "[[51, 58, 'PER'], [106, 113, 'PER'], [369, 374, 'L...". Use `spacy.training.offsets_to_biluo_tags(nlp.make_doc(text), entities)` to check the alignment. Misaligned entities ('-') will be ignored during training.
Dans la grande salle des f√™tes de 1' ¬´ ..." with entities "[[1003, 1014, 'PER'], [1246, 1252, 'PER'], [1254, ...". Use `spacy.training.offsets_to_biluo_tags(nlp.make_doc(text), entities)` to check the alignment. Misaligned entities ('-') will be ignored during training.



CHAPITRE PREMIER
PREMIERS SIGNES
Je suis toute..." with entities "[[122, 140, 'PER'], [160, 168, 'PER'], [998, 1006,...". Use `spacy.training.offsets_to_biluo_tags(nlp.make_doc(text), entities)` to check the alignment. Misaligned entities ('-') will be ignored during training.


CPU times: user 7.77 s, sys: 213 ms, total: 7.98 s
Wall time: 7.98 s


{'ents_p': 0.4317656129529684,
 'ents_r': 0.6339622641509434,
 'ents_f': 0.5136829231004433,
 'ents_per_type': {'MISC': {'p': 0.0, 'r': 0.0, 'f': 0.0},
  'PER': {'p': 0.6165458937198067,
   'r': 0.5984759671746777,
   'f': 0.6073765615704938},
  'LOC': {'p': 0.4205488194001276,
   'r': 0.698093220338983,
   'f': 0.5248904818797292},
  'ORG': {'p': 0.0, 'r': 0.0, 'f': 0.0}}}


Try the evaluation using the [`Language.evaluate()`](https://spacy.io/api/language#evaluate) method.

In [86]:
%%time
examples = []
for doc_id, (text, target_entities) in all_data.items():
    base_doc = ner_model.make_doc(text)  # We create simpler examples here but will the evaluate function recompute them?
    try:
        example = Example.from_dict(base_doc, {"entities": target_entities})
        examples.append(example)
    except ValueError as e:
        err_msg = f"Error parsing document '{doc_id}': "
        err_msg += getattr(e, "msg", str(e))
        print(err_msg)
        raise ValueError(err_msg)
print(f"Created {len(examples)} examples.")

O√π..." with entities "[[51, 58, 'PER'], [106, 113, 'PER'], [369, 374, 'L...". Use `spacy.training.offsets_to_biluo_tags(nlp.make_doc(text), entities)` to check the alignment. Misaligned entities ('-') will be ignored during training.
Dans la grande salle des f√™tes de 1' ¬´ ..." with entities "[[1003, 1014, 'PER'], [1246, 1252, 'PER'], [1254, ...". Use `spacy.training.offsets_to_biluo_tags(nlp.make_doc(text), entities)` to check the alignment. Misaligned entities ('-') will be ignored during training.



CHAPITRE PREMIER
PREMIERS SIGNES
Je suis toute..." with entities "[[122, 140, 'PER'], [160, 168, 'PER'], [998, 1006,...". Use `spacy.training.offsets_to_biluo_tags(nlp.make_doc(text), entities)` to check the alignment. Misaligned entities ('-') will be ignored during training.


Created 100 examples.
CPU times: user 3.13 s, sys: 2.09 ms, total: 3.13 s
Wall time: 3.14 s


In [87]:
%%time
scores = ner_model.evaluate(examples)
scores

CPU times: user 7.78 s, sys: 8.48 s, total: 16.3 s
Wall time: 16.4 s


{'token_acc': 1.0,
 'token_p': 1.0,
 'token_r': 1.0,
 'token_f': 1.0,
 'ents_p': 0.43243243243243246,
 'ents_r': 0.6339622641509434,
 'ents_f': 0.5141545524100996,
 'ents_per_type': {'LOC': {'p': 0.4216250799744082,
   'r': 0.698093220338983,
   'f': 0.5257279617072198},
  'MISC': {'p': 0.0, 'r': 0.0, 'f': 0.0},
  'PER': {'p': 0.6172914147521161,
   'r': 0.5984759671746777,
   'f': 0.6077380952380953},
  'ORG': {'p': 0.0, 'r': 0.0, 'f': 0.0}},
 'speed': 9838.436375865644}

On obtient les m√™mes valeurs, mais plus lentement ; probablement car on fait une √©valuation plus large avec l'√©valuation de la tokenization et de la vitesse en plus.

## TODO produire soi-m√™me des donn√©es d'entra√Ænement ou de test

jeu de test : besoin d'une quantit√© et d'une vari√©t√© suffisantes pour que les r√©sulats soient significatifs. Ce jeu de donn√©es ne peut pas contenir de donn√©es vues pendant l'entra√Ænement.

jeu d'entra√Ænement : g√©n√©ralement besoin d'une quantit√© plus importante pour permettre la stabilisation des param√®tres statistiques d'un mod√®le.
Ces donn√©es doivent √™tre suffisamment vari√©es pour permettre de capturer les subtilit√©s des donn√©es √† traiter, et assez repr√©sentatives pour capturer en priorit√© les g√©n√©ralit√©s.

Dans les 2 cas, il faut pr√©parer :
- de exemples de donn√©es d'entr√©e pour le syt√®me (√©chantillons de textes)
- les sorties parfaites attendues pour ces donn√©es (dans le cas du NER, liste des entit√©s ‚Äî avec position et √©tiquette ‚Äî √† extraire)


TODO indiquer exemple proc√©dure la plus basique possible :
- identifier groupe de textes √† √©tiqueter
- les importer dans <https://tecoholic.github.io/ner-annotator/> et annoter
- exporter les donn√©es
- les convertir au format adapt√©

### ü§ì Pour aller plus loin
Questions √† pointer (sans forc√©ment y r√©pondre car √ßa serait pour une autre formation/atelier) :
- quelles √©tiquettes/labels ?
- quelles r√®gles suivre, comment g√©rer les ambigu√Øt√©s ?
- comment distribuer le travail ? Comment assurer la coh√©rence entre le travail des diff√©rents annotateurs ?
- Comment diffuser ton travail, le partager, quelle licence utiliser ?