**Summary**

L'objectif de ce TP est de découvrir et de mettre en pratique la Reconnaissance d'Entités Nommées (NER) en utilisant :

- Le dataset CoNLL-2003, un benchmark standard pour la NER.
    - Contient des phrases en anglais avec des entités annotées (Personnes, Organisations, Lieux, Dates, etc.)
    - Format : chaque mot est associé à une étiquette (O, B-PER, I-LOC, etc.)
- La bibliothèque spaCy, un outil puissant pour le traitement du langage naturel (NLP).

La NER est une tâche de NLP qui consiste à identifier et classer des entités nommées dans un texte (par exemple, noms de personnes, organisations, lieux, dates).

spaCy est une bibliothèque open-source pour le traitement du langage naturel (NLP) et inclut des modèles pré-entraînés pour la NER. Elle peut être utilisée pour construire des systèmes d’extraction d’information, de compréhension du langage naturel ou de prétraitement de texte en vue d’un apprentissage approfondi. Cependant, spaCy ne prend pas en charge directement le format CoNLL-2003, donc nous devrons d'abord convertir les données dans un format compatible avec spaCy. Pour plus de détails, vous pouvez consulter cette [vidéo](https://youtu.be/sqDHBH9IjRU).
Le modèle NER de SpaCy est basé sur les CNN (Convolutional Neural Networks).

Vous pouvez explorer d'autres datasets NER comme OntoNotes ou WikiNER.


Il existe des outils d’annotation pour NER comme [Prodigy](https://prodi.gy/) ou autre, mentionné [ici](https://medium.com/dataturks/document-pdf-annotation-tool-f13d94a4b9c). Ces outils permettent de taggers les entités nommées dans chaque séquence.

In [None]:
%%bash

pip install spacy datasets

# Download model
python -m spacy download en_core_web_sm
python -m spacy download en_core_web_lg

# List of available models: https://spacy.io/models

Collecting en-core-web-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.8.0/en_core_web_sm-3.8.0-py3-none-any.whl (12.8 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m5.0 MB/s[0m eta [36m0:00:00[0m MB/s[0m eta [36m0:00:01[0m:01[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')
Collecting en-core-web-lg==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_lg-3.8.0/en_core_web_lg-3.8.0-py3-none-any.whl (400.7 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m400.7/400.7 MB[0m [31m3.2 MB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m[36m0:00:04[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_lg')


# Import librairies

In [None]:
from os import environ
from tqdm import tqdm

from loguru import logger
from pathlib import Path
from spacy.tokens import DocBin

# Settings

In [None]:
ROOT_DIR = Path.cwd().parent  # project folder
DATA_DIR = Path(ROOT_DIR, "data")  # data
CONFIG_DIR = Path(ROOT_DIR, "config")  # config, bins
OUTPUT_DIR  = Path(ROOT_DIR, "ner_output")  # models

DATA_DIR.mkdir(parents=True, exist_ok=True)
CONFIG_DIR.mkdir(parents=True, exist_ok=True)
OUTPUT_DIR.mkdir(parents=True, exist_ok=True)

# Add paths in env
environ["SPACY_BINS_DIR"] = str(CONFIG_DIR)
environ["SPACY_DATA_DIR"] = str(DATA_DIR)
environ["SPACY_OUTPUT_DIR"] = str(OUTPUT_DIR)

logger.info(f"\nRoot directory: {ROOT_DIR} \nData directory: {DATA_DIR} \nConfig directory: {CONFIG_DIR} \nOutput directory: {OUTPUT_DIR}")

[32m2025-03-18 09:16:29.496[0m | [1mINFO    [0m | [36m__main__[0m:[36m<module>[0m:[36m15[0m - [1m
Root directory: /Users/mouslydiaw/Documents/ml-courses/nlp 
Data directory: /Users/mouslydiaw/Documents/ml-courses/nlp/data 
Config directory: /Users/mouslydiaw/Documents/ml-courses/nlp/config 
Output directory: /Users/mouslydiaw/Documents/ml-courses/nlp/ner_output[0m


# Use spaCy to make a NER example

### Test pre-trained model

In [None]:
import spacy

# Load model
nlp = spacy.load("en_core_web_sm")

# Text example
text = "Apple is looking at buying U.K. startup for $1 billion in 2023."

# Text preprocessing
doc = nlp(text)

# Display entity
for ent in doc.ents:
    print(f"{ent.text} -> {ent.label_}")

Apple -> ORG
U.K. -> GPE
$1 billion -> MONEY
2023 -> DATE


In [None]:
spacy.displacy.serve(doc, style="ent", auto_select_port=True)




Using the 'ent' visualizer
Serving on http://0.0.0.0:5001 ...



127.0.0.1 - - [18/Mar/2025 09:18:25] "GET / HTTP/1.1" 200 1682
127.0.0.1 - - [18/Mar/2025 09:18:25] "GET /favicon.ico HTTP/1.1" 200 1682


Shutting down server on port 5001.


### SpaCy QickStart

https://spacy.io/usage/training#quickstart

# Train a custom NER

## Load data

Le jeu de données CoNLL-2003, très connu pour les tâches de Reconnaissance d'Entités Nommées (NER) comme PERSON, LOCATION, ORGANIZATION, etc;

Le dataset CoNLL-2003 est structuré comme suit :

- Chaque phrase est représentée par une séquence de tokens.
- Chaque token est associé à une étiquette NER au format IOB (Inside, Outside, Beginning).
    - `B-PER` : Début d'une entité de type "Personne".
    - `I-PER` : Suite d'une entité de type "Personne".
    - `B-ORG` : Début d'une entité de type "Organisation".
    - `I-ORG` : Suite d'une entité de type "Organisation".
    - `B-LOC` : Début d'une entité de type "Lieu".
    - `I-LOC` : Suite d'une entité de type "Lieu".
    - `B-MISC` : Début d'une entité de type "Divers".
    - `I-MISC` : Suite d'une entité de type "Divers".
    - `O` : Token ne faisant pas partie d'une entité.

In [None]:
from datasets import load_dataset
dataset_conll = load_dataset("conll2003")
logger.info(f"\n {dataset_conll['train'][0]}")

[32m2025-03-18 09:18:42.262[0m | [1mINFO    [0m | [36m__main__[0m:[36m<module>[0m:[36m3[0m - [1m
 {'id': '0', 'tokens': ['EU', 'rejects', 'German', 'call', 'to', 'boycott', 'British', 'lamb', '.'], 'pos_tags': [22, 42, 16, 21, 35, 37, 16, 21, 7], 'chunk_tags': [11, 21, 11, 12, 21, 22, 11, 12, 0], 'ner_tags': [3, 0, 7, 0, 0, 0, 7, 0, 0]}[0m


In [None]:
label_list = dataset_conll["train"].features["ner_tags"].feature.names
logger.info(f"NER labels: {label_list}")

[32m2025-03-18 09:18:42.268[0m | [1mINFO    [0m | [36m__main__[0m:[36m<module>[0m:[36m2[0m - [1mNER labels: ['O', 'B-PER', 'I-PER', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC', 'B-MISC', 'I-MISC'][0m


In [None]:
# Example
dataset_conll["train"][0]

{'id': '0',
 'tokens': ['EU',
  'rejects',
  'German',
  'call',
  'to',
  'boycott',
  'British',
  'lamb',
  '.'],
 'pos_tags': [22, 42, 16, 21, 35, 37, 16, 21, 7],
 'chunk_tags': [11, 21, 11, 12, 21, 22, 11, 12, 0],
 'ner_tags': [3, 0, 7, 0, 0, 0, 7, 0, 0]}

## Modeling

### Preprocessing

- Conversion des données en objets Doc et DocBin, le format interne de spaCy.
- Reconstruction des entités à partir des tags IOB (Begin, Inside, Outside).

In [None]:
def create_spacy_docs(dataset_split, label_names):
    """Convert data to SpaCy format."""
    db = DocBin()  # doc binary
    for example in tqdm(dataset_split, desc="Doc binary transformation ..."):
        words = example['tokens']
        labels = example['ner_tags']
        doc = nlp.make_doc(" ".join(words))
        ents = []
        start = 0
        for word, label_idx in zip(words, labels):
            label = label_names[label_idx]
            word_start = doc.text.find(word, start)
            word_end = word_start + len(word)
            if label != "O":
                if label.startswith("B-") or label.startswith("I-"):
                    ents.append(doc.char_span(word_start, word_end, label=label[2:]))
            start = word_end
        ents = [e for e in ents if e is not None]
        doc.ents = ents
        db.add(doc)
    return db

In [None]:
# Create files
train_db = create_spacy_docs(dataset_conll["train"], label_names=label_list)
valid_db = create_spacy_docs(dataset_conll["validation"], label_names=label_list)
test_db = create_spacy_docs(dataset_conll["test"], label_names=label_list)


train_db.to_disk(Path(DATA_DIR, "conll_train.spacy"))
valid_db.to_disk(Path(DATA_DIR, "conll_valid.spacy"))
test_db.to_disk(Path(DATA_DIR, "conll_test.spacy"))

Doc binary transformation ...: 100%|██████████████████████████████| 14041/14041 [00:02<00:00, 5525.62it/s]
Doc binary transformation ...: 100%|████████████████████████████████| 3250/3250 [00:00<00:00, 5328.04it/s]
Doc binary transformation ...: 100%|████████████████████████████████| 3453/3453 [00:00<00:00, 6203.51it/s]


spaCy utilise un fichier de configuration pour définir les paramètres d'entraînement. Vous pouvez générer un fichier de configuration de base avec la commande suivante :

### SpaCy config file
<img src="attachment:afb1d94c-f254-4a3f-90c0-70d5e6010102.png" alt="spaCy" style="width: 400px;"/>

le fichier de configuration (`config.cfg`) est un élément indispensable qui définit tous les **composants**, **hyperparamètres** et **pipelines** nécessaires à l’entraînement ou à l’utilisation d’un modèle NLP.

**À quoi sert ce fichier ?**
- Définir les composants du pipeline (tokenizer, tagger, parser, NER, etc.)
- Spécifier les données d'entraînement et de validation
- Définir les modèles de embeddings (par exemple, tok2vec)
- Choisir les optimiseurs, stratégies d’apprentissage, batch sizes, etc.
- Rendre le processus reproductible.

#### spacy init config

La commande spacy init config est utilisée pour générer un fichier de configuration de base pour un projet spaCy. Ce fichier de configuration définit les paramètres d'entraînement, les composants du pipeline, les hyperparamètres, etc.

`python -m spacy init config config.cfg --lang en --pipeline ner --optimize efficiency`

Options principales :
- `lang` : spécifie la langue du modèle (par exemple, `en` pour l'anglais).
- `pipeline` : définit les composants du pipeline (par exemple, `ner` pour la reconnaissance d'entités nommées).
- `optimize` : spécifie l'optimisation pour `efficiency` (efficacité) ou `accuracy` (précision).

In [None]:
%%bash
# Generate config file got spaCy
python -m spacy init config ${SPACY_BINS_DIR}/config.cfg --lang en --pipeline ner --optimize efficiency --force

[38;5;3m⚠ To generate a more effective transformer-based config (GPU-only),
install the spacy-transformers package and re-run this command. The config
generated now does not use transformers.[0m
[38;5;4mℹ Generated config template specific for your use case[0m
- Language: en
- Pipeline: ner
- Optimize for: efficiency
- Hardware: CPU
- Transformer: None
[38;5;2m✔ Auto-filled config with all values[0m
[38;5;2m✔ Saved config[0m
/Users/mouslydiaw/Documents/ml-courses/nlp/config/config.cfg
You can now add your data and train your pipeline:
python -m spacy train config.cfg --paths.train ./train.spacy --paths.dev ./dev.spacy


#### spacy init fill-config

La commande spacy init fill-config est utilisée pour compléter un fichier de configuration existant avec des valeurs par défaut pour les paramètres manquants. Elle est utile lorsque vous avez un fichier de configuration partiel: `base_config`. Ce dernier vous pouvez le télécharger [ici](https://spacy.io/usage/training#quickstart).

Un fichier, nommé `acc_config.cfg`, est généré en ajoutant les valeurs par défaut aux paramètres manquants dans `base_config.cfg`. Le nom du fichier peut être personnalisé selon vos préférences. Par exemple, j’ai ajouté le préfixe `acc_` (puisque le fichier `base_config.cfg` a été téléchargé avec l’option `accuracy`) afin de le distinguer de celui généré précédemment avec l’option `efficiency`.

In [None]:
%%bash
python -m spacy init fill-config ${SPACY_BINS_DIR}/acc_base_config.cfg ${SPACY_BINS_DIR}/acc_config.cfg

[38;5;2m✔ Auto-filled config with all values[0m
[38;5;2m✔ Saved config[0m
/Users/mouslydiaw/Documents/ml-courses/nlp/config/acc_config.cfg
You can now add your data and train your pipeline:
python -m spacy train acc_config.cfg --paths.train ./train.spacy --paths.dev ./dev.spacy


### Training

In [None]:
%%bash

START=$(date '+%Y-%m-%d %H:%M:%S')
echo "Start time: $START"
printf "\nConfig file path: $SPACY_BINS_DIR \nData directory: ${SPACY_DATA_DIR}"

# scan/debug data: vérifier la qualité, la structure et la compatibilité de vos données d'entraînement et de validation
printf "**************************************** Starting debug config...\n\n"
python -m spacy debug data $SPACY_BINS_DIR/acc_config.cfg --paths.train $SPACY_DATA_DIR/conll_train.spacy --paths.dev $SPACY_DATA_DIR/conll_valid.spacy

Start time: 2025-03-18 09:30:00

Config file path: /Users/mouslydiaw/Documents/ml-courses/nlp/config 
Data directory: /Users/mouslydiaw/Documents/ml-courses/nlp/data**************************************** Starting debug config...

[1m
[38;5;2m✔ Pipeline can be initialized with data[0m
[38;5;2m✔ Corpus is loadable[0m
[1m
Language: en
Training pipeline: tok2vec, ner
14041 training docs
3250 evaluation docs
[38;5;3m⚠ 129 training examples also in evaluation data[0m
[1m
[38;5;4mℹ 216122 total word(s) in the data (22303 unique)[0m
[38;5;4mℹ 342918 vectors (684830 unique keys, 300 dimensions)[0m
[38;5;3m⚠ 6387 words in training data without vectors (3%)[0m
[1m
[38;5;4mℹ 4 label(s)[0m
0 missing value(s) (tokens with '-' label)
[38;5;2m✔ Good amount of examples for all labels[0m
[38;5;2m✔ Examples without occurrences available for all labels[0m
[38;5;2m✔ No entities consisting of or starting/ending with whitespace[0m
[38;5;2m✔ No entities crossing sentence boundaries

In [None]:
%%bash

START=$(date '+%Y-%m-%d %H:%M:%S')
echo "Start time: $START"

printf "\nConfig file path: $SPACY_BINS_DIR \nData directory: ${SPACY_DATA_DIR} \nOutput directory: ${SPACY_OUTPUT_DIR}\n\n"

printf "\n\n**************************************** Starting training model...\n\n"

python -m spacy train $SPACY_BINS_DIR/acc_config.cfg \
--paths.train $SPACY_DATA_DIR/conll_train.spacy --paths.dev $SPACY_DATA_DIR/conll_valid.spacy \
--output $SPACY_OUTPUT_DIR

Start time: 2025-03-18 09:30:34

Config file path: /Users/mouslydiaw/Documents/ml-courses/nlp/config 
Data directory: /Users/mouslydiaw/Documents/ml-courses/nlp/data 
Output directory: /Users/mouslydiaw/Documents/ml-courses/nlp/ner_output



**************************************** Starting training model...

[38;5;4mℹ Saving to output directory:
/Users/mouslydiaw/Documents/ml-courses/nlp/ner_output[0m
[38;5;4mℹ Using CPU[0m
[38;5;4mℹ To switch to GPU 0, use the option: --gpu-id 0[0m
[1m
[38;5;2m✔ Initialized pipeline[0m
[1m
[38;5;4mℹ Pipeline: ['tok2vec', 'ner'][0m
[38;5;4mℹ Initial learn rate: 0.001[0m
E    #       LOSS TOK2VEC  LOSS NER  ENTS_F  ENTS_P  ENTS_R  SCORE 
---  ------  ------------  --------  ------  ------  ------  ------
  0       0          0.00     46.28    0.00    0.00    0.00    0.00
  0     200         15.27   2230.25   78.06   79.41   76.75    0.78
  0     400         39.38   1447.32   85.55   86.39   84.73    0.86
  0     600         27.91   1339.6

- `E`: Numéro de l’époque (epoch) en cours
- `#`: Numéro du lot (batch) (par exemple: à l'étape initiale 0: 100 séquences ont été utilisées, cf [training.batcher.size] dans le fichier de config)
- `LOSS TOK2VEC` : Perte associée à la représentation des tokens
- `LOSS NER`: Perte associée à la prédiction des entités nommées
- `ENTS_F`: Score F1 sur les entités (moyenne harmonique de la précision et du rappel)
- `ENTS_P`: précision score (mesure la fraction des entités prédites par le modèle qui sont correctes)
- `ENTS_R`: recall score (mesure la fraction des entités réelles qui sont correctement détectées par le modèle)
- `SCORE`: score global du modèle, qui est généralement identique au score F1 (ENTS_F) pour la tâche de NER

### Test

In [None]:
%%bash

# performance evaluation
START=$(date '+%Y-%m-%d %H:%M:%S')
echo "Start time: $START"

printf "\n\n***************************************** Training performances\n"
python -m spacy evaluate ${SPACY_OUTPUT_DIR}/model-best $SPACY_DATA_DIR/conll_train.spacy --output ${SPACY_OUTPUT_DIR}/train_evaluation.json

printf "\n\n***************************************** Validation performances\n"
python -m spacy evaluate ${SPACY_OUTPUT_DIR}/model-best $SPACY_DATA_DIR/conll_valid.spacy --output ${SPACY_OUTPUT_DIR}/valid_evaluation.json

printf "\n\n***************************************** Test performances\n"
python -m spacy evaluate ${SPACY_OUTPUT_DIR}/model-best $SPACY_DATA_DIR/conll_test.spacy --output ${SPACY_OUTPUT_DIR}/test_evaluation.json

END=$(date '+%Y-%m-%d %H:%M:%S')
echo "End time: $END"

Start time: 2025-03-18 10:00:26


***************************************** Training performances
[38;5;4mℹ Using CPU[0m
[38;5;4mℹ To switch to GPU 0, use the option: --gpu-id 0[0m
[1m

TOK     100.00
NER P   92.28 
NER R   91.84 
NER F   92.06 
SPEED   1769  

[1m

           P       R       F
ORG    91.53   86.28   88.83
LOC    92.79   93.98   93.38
MISC   86.04   87.46   86.74
PER    94.94   95.87   95.40

[38;5;2m✔ Saved results to
/Users/mouslydiaw/Documents/ml-courses/nlp/ner_output/valid_evaluation.json[0m


***************************************** Test performances
[38;5;4mℹ Using CPU[0m
[38;5;4mℹ To switch to GPU 0, use the option: --gpu-id 0[0m
[1m

TOK     100.00
NER P   87.19 
NER R   88.87 
NER F   88.02 
SPEED   1712  

[1m

           P       R       F
LOC    87.03   91.69   89.30
PER    93.75   94.05   93.90
ORG    86.16   84.29   85.22
MISC   72.05   79.74   75.70

[38;5;2m✔ Saved results to
/Users/mouslydiaw/Documents/ml-courses/nlp/ner_output/test_eva

### Prediction

In [None]:
custom_nlp_ner = spacy.load(Path(environ["SPACY_OUTPUT_DIR"], "model-best"))

text_test = "Barack Obama visited London in 2020."

doc_test = custom_nlp_ner(text_test)
for ent in doc_test.ents:
    print(ent.text, ent.label_)

Barack PER
Obama PER
London LOC


In [None]:
spacy.displacy.serve(doc_test, style="ent", auto_select_port=True)




Using the 'ent' visualizer
Serving on http://0.0.0.0:5001 ...



## Comment optimiser un modèle NER

- **1. Optimiser les données**
    - Qualité des annotations
    - Volume de données
    - Diversité
- **Ajuster la configuration (config.cfg)**
    - Taille du réseau (hidden_width) : par défaut 64 pour certains modèles. Tester 128 ou 256 pour un modèle plus puissant.
    - Utilisation de vecteurs pré-entraînés : spécifier un vecteur comme en_core_web_lg ou des vecteurs custom
    - Dropout : pour éviter le surapprentissage
    - Augmenter max_steps ou max_epochs
- **Stratégies d’entraînement**
    - Évaluation fréquente: `eval_frequency = 200` permet de sauvegarder le meilleur modèle plus souvent.
    - Batching intelligent utiliser un batching compounding
- **4. Transfert de connaissance: utiliser un tok2vec pré-entraîné**
- **6. Data augmentation (facultatif mais puissant)**
     - Ajouter des variantes dans les textes : paraphrases, substitutions d’entités par d’autres, ajout de synonymes, ...
     - Vous pouvez utiliser des outils comme `nlpaug`, `textattack`, etc.

### **TO DO**



1.   Indexer les noms de vos modèles avec votre **nom_prenom**
2.   Fichier de performances (ex: train_evaluation.json), vous les renommez en

  - <YYYYMMDD_train_evaluation.json>  
- <YYYYMMDD_valid_evaluation.json>
- <YYYYMMDD_test_evaluation.json>  



YYYYMMDD : année (YYYY), mois (MM) et jour (DD)



In [None]:
# --- 1. Indexer les noms de vos modèles avec votre nom_prenom ---
MY_NAME_PRENOM = "diop_papamagatte"

output_dir = Path(environ["SPACY_OUTPUT_DIR"])
model_best_path = output_dir / "model-best"
new_model_name = f"{MY_NAME_PRENOM}-model-best"
new_model_path = output_dir / new_model_name

if model_best_path.exists() and not new_model_path.exists():
    model_best_path.rename(new_model_path)
    print(f"Modèle renommé de '{model_best_path.name}' à '{new_model_path.name}'")
elif new_model_path.exists():
    print(f"Le modèle '{new_model_path.name}' existe déjà. Pas de renommage nécessaire.")
else:
    print(f"Le répertoire '{model_best_path.name}' n'existe pas.")



In [None]:
# --- 2. Renommer les fichiers de performances avec YYYYMMDD ---
current_date = datetime.now().strftime("%Y%m%d")

evaluation_files = [
    "train_evaluation.json",
    "valid_evaluation.json",
    "test_evaluation.json",
]

for filename in evaluation_files:
    old_path = output_dir / filename
    if old_path.exists():
        new_filename = f"{current_date}_{filename}"
        new_path = output_dir / new_filename
        old_path.rename(new_path)
        print(f"Fichier de performance renommé de '{filename}' à '{new_filename}'")
    else:
        print(f"Le fichier '{filename}' n'existe pas dans '{output_dir}'.")