# Description du Notebook

Ce notebook permet d'entraîner un modèle de NER en français avec spaC en se basant les infos de voyage. 

Les étapes incluent : 
- l'importation, le nettoyage et la préparation des données annotées,
- l'entraînement du modèle. 

Ensuite, on fait un comparaison de performances entre le modèle personnalisé et le modèle spaCy préentraîné, avec des visualisations pour évaluer la diversité et le nombre d'entités détectées par chaque modèle.


In [6]:
import spacy
from spacy.tokens import DocBin
from tqdm import tqdm
import time
import subprocess
import pandas as pd
import ast
from random import shuffle
import matplotlib.pyplot as plt
from collections import Counter
from spacy import displacy
from IPython.display import HTML

print("Librairies importées avec  succès")

Librairies importées avec  succès


In [7]:
models = {
    "sm": "fr_core_news_sm",
    "md": "fr_core_news_md",
    "lg": "fr_core_news_lg"
}
print("Chargement des modèles spaCy...")

# liste pour stocker les modèles chargés
loaded_models = []

for model_name, model_id in tqdm(models.items()):
    nlp = spacy.load(model_id)
    loaded_models.append((model_name, nlp))

print("Les modèles spaCy ont été bien chargés")

Chargement des modèles spaCy...


100%|██████████| 3/3 [00:13<00:00,  4.65s/it]

Les modèles spaCy ont été bien chargés





In [8]:
# dictionnaire pour stocker les modèles chargés
nlp_models = {}
for model_key, model_name in models.items():
    print(f"Chargement du modèle spaCy {model_key}...")
    nlp_models[model_key] = spacy.load(model_name)
    print(f"Modèle spaCy {model_key} chargé avec succès")

Chargement du modèle spaCy sm...
Modèle spaCy sm chargé avec succès
Chargement du modèle spaCy md...
Modèle spaCy md chargé avec succès
Chargement du modèle spaCy lg...
Modèle spaCy lg chargé avec succès


In [11]:
# test de NER sur du texte simple
def test_ner_recognition(nlp, text):
    print(f"Test de reconnaissance d'entités avec le modèle spaCy {nlp.meta['name']}...\n")
    doc = nlp(text)
    spacy.displacy.render(doc, style="ent", jupyter=True)

texte_simple = '''Je souhaiterais me rendre de Paris à Marseille.
Quelle est la meilleure façon d'aller à Sannois depuis la gare de Toulouse ?
Je prévois de rendre visite à mon ami Patrick à Paris en partant de Bordeaux.'''

for model_key in models.keys():
    test_ner_recognition(nlp_models[model_key], texte_simple)

Test de reconnaissance d'entités avec le modèle spaCy core_news_sm...



Test de reconnaissance d'entités avec le modèle spaCy core_news_md...



Test de reconnaissance d'entités avec le modèle spaCy core_news_lg...



In [13]:
# chargement du dataset
def load_dataset(file_path):
    print("Chargement du dataset pour l'entraînement...")
    
    # Read the CSV file in chunks to improve performance and memory usage
    chunksize = 10000  # Adjust chunk size as needed
    df_chunks = pd.read_csv(file_path, sep=',', encoding='utf-8', on_bad_lines='skip', chunksize=chunksize)
    
    # Concatenate chunks with a progress bar
    df = pd.concat(tqdm(df_chunks, total=len(pd.read_csv(file_path, nrows=10))))
    
    print("Dataset chargé avec succès.")
    return df

df = load_dataset('../../dataset/raw/initial_training_data.csv')

Chargement du dataset pour l'entraînement...


 10%|█         | 1/10 [00:00<00:00, 214.97it/s]

Dataset chargé avec succès.





In [14]:
# nettoyage des données
def clean_text(text):
    return text.replace('\r', '').strip()

df['text'] = df['text'].apply(clean_text)
print("Les données ont été nettoyées.")

Les données ont été nettoyées.


In [18]:
# vérification de l'alignement des entités nommées
def verify_entity_alignment(text, entities):
    verified_entities = []
    for ent in entities:
        start, end, label = ent['start'], ent['end'], ent['label']
        if text[start:end] == text[start:end]:
            verified_entities.append(ent)
        else:
            print(f"Skipping entity: {text[start:end]} in text: {text}")
    return verified_entities

In [19]:
# préparation des données pour spaCy
def prepare_data_for_spacy(df):
    print("Conversion du dataset au format spaCy...")
    db = DocBin()
    data = list(zip(df['text'], df['entities']))
    shuffle(data)

    for text, entities in data:
        entities = ast.literal_eval(entities)
        verified_entities = verify_entity_alignment(text, entities)

        if verified_entities:
            doc = nlp_models["sm"].make_doc(text)
            doc.ents = create_entity_spans(doc, verified_entities)
            db.add(doc)

    print("Dataset converti au format spaCy.")
    return db

In [20]:
# création des spans d'entités
def create_entity_spans(doc, verified_entities):
    ents = []
    for ent in verified_entities:
        start, end, label = ent['start'], ent['end'], ent['label']
        span = doc.char_span(start, end, label=label, alignment_mode="contract")
        if span:
            ents.append(span)
    return ents

print("Préparation des données pour spaCy...")
db = prepare_data_for_spacy(df)

Préparation des données pour spaCy...
Conversion du dataset au format spaCy...
Dataset converti au format spaCy.


In [21]:
# sauvegarde des données au format spaCy
db.to_disk("../../dataset/processed/processed_training_data.spacy")
print("Les données ont été sauvegardées")

Les données ont été sauvegardées


In [23]:
# entraînement du modèle
def train_model(config_path, output_path, training_data_path):
    print("Génération de la configuration...")
    subprocess.run(f"python -m spacy init config {config_path} --lang fr --pipeline ner --optimize efficiency --force", shell=True)
    print("Configuration générée.")

    print("Début de l'entraînement du modèle...")
    process = subprocess.Popen(f"python -m spacy train {config_path} --output {output_path} --paths.train {training_data_path} --paths.dev {training_data_path}", shell=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE)

    with tqdm(total=100, desc="Entraînement du modèle") as pbar:
        while True:
            output = process.stdout.readline()
            if output == b"" and process.poll() is not None:
                break
            if output:
                print(output.decode().strip()) 
            pbar.update(1)
            time.sleep(1)

# entrainement de chaque modèle
for model_key in models.keys():
    print(f"Entraînement pour le modèle {model_key}...")
    train_model('./configuration.cfg', f'../../models/spacy/{model_key}', '../../dataset/processed/processed_training_data.spacy')
    print(f"Entraînement du modèle {model_key} terminé.")

Entraînement pour le modèle sm...
Génération de la configuration...
Configuration générée.
Début de l'entraînement du modèle...


Entraînement du modèle:   1%|          | 1/100 [00:03<05:51,  3.55s/it]

[38;5;2m✔ Created output directory: ..\..\models\spacy\sm[0m


Entraînement du modèle:   2%|▏         | 2/100 [00:04<03:21,  2.05s/it]

[38;5;4mℹ Saving to output directory: ..\..\models\spacy\sm[0m


Entraînement du modèle:   3%|▎         | 3/100 [00:05<02:32,  1.57s/it]

[38;5;4mℹ Using CPU[0m


Entraînement du modèle:   4%|▍         | 4/100 [00:06<02:09,  1.35s/it]

[1m


Entraînement du modèle:   5%|▌         | 5/100 [00:07<01:56,  1.22s/it]



Entraînement du modèle:   6%|▌         | 6/100 [00:09<02:08,  1.37s/it]

[38;5;2m✔ Initialized pipeline[0m


Entraînement du modèle:   7%|▋         | 7/100 [00:10<01:56,  1.25s/it]

[1m


Entraînement du modèle:   8%|▊         | 8/100 [00:11<01:47,  1.17s/it]



Entraînement du modèle:   9%|▉         | 9/100 [00:12<01:41,  1.12s/it]

[38;5;4mℹ Pipeline: ['tok2vec', 'ner'][0m


Entraînement du modèle:  10%|█         | 10/100 [00:13<01:37,  1.08s/it]

[38;5;4mℹ Initial learn rate: 0.001[0m


Entraînement du modèle:  11%|█         | 11/100 [00:14<01:34,  1.06s/it]

E    #       LOSS TOK2VEC  LOSS NER  ENTS_F  ENTS_P  ENTS_R  SCORE


Entraînement du modèle:  12%|█▏        | 12/100 [00:15<01:31,  1.04s/it]

---  ------  ------------  --------  ------  ------  ------  ------


Entraînement du modèle:  13%|█▎        | 13/100 [00:16<01:29,  1.03s/it]

0       0          0.00     48.93    0.00    0.00    0.00    0.00


Entraînement du modèle:  14%|█▍        | 14/100 [00:23<04:05,  2.85s/it]

8     200         50.44   1319.81   89.23   90.62   87.88    0.89


Entraînement du modèle:  15%|█▌        | 15/100 [00:37<09:04,  6.41s/it]

18     400        201.20    205.10   97.98   97.98   97.98    0.98


Entraînement du modèle:  16%|█▌        | 16/100 [00:51<11:46,  8.41s/it]

31     600         99.46     80.10  100.00  100.00  100.00    1.00


Entraînement du modèle:  17%|█▋        | 17/100 [01:05<14:10, 10.25s/it]

46     800         99.73     28.09   99.50   99.00  100.00    0.99


Entraînement du modèle:  18%|█▊        | 18/100 [01:20<16:07, 11.79s/it]

65    1000        117.62     31.59  100.00  100.00  100.00    1.00


Entraînement du modèle:  19%|█▉        | 19/100 [01:38<18:15, 13.52s/it]

88    1200         23.78      6.09  100.00  100.00  100.00    1.00


Entraînement du modèle:  20%|██        | 20/100 [01:57<20:13, 15.17s/it]

115    1400         43.98      9.53  100.00  100.00  100.00    1.00


Entraînement du modèle:  21%|██        | 21/100 [02:20<23:04, 17.52s/it]

149    1600        134.56     24.37  100.00  100.00  100.00    1.00


Entraînement du modèle:  22%|██▏       | 22/100 [02:45<25:43, 19.78s/it]

190    1800         87.75     15.74  100.00  100.00  100.00    1.00


Entraînement du modèle:  23%|██▎       | 23/100 [03:17<30:08, 23.48s/it]

240    2000         96.43     15.29  100.00  100.00  100.00    1.00


Entraînement du modèle:  24%|██▍       | 24/100 [03:54<34:58, 27.61s/it]

302    2200        104.91     15.65  100.00  100.00  100.00    1.00


Entraînement du modèle:  25%|██▌       | 25/100 [03:55<24:32, 19.63s/it]

[38;5;2m✔ Saved pipeline to output directory[0m


Entraînement du modèle:  26%|██▌       | 26/100 [03:56<17:18, 14.04s/it]

..\..\models\spacy\sm\model-last


Entraînement du modèle:  26%|██▌       | 26/100 [03:57<11:17,  9.15s/it]


Entraînement du modèle sm terminé.
Entraînement pour le modèle md...
Génération de la configuration...
Configuration générée.
Début de l'entraînement du modèle...


Entraînement du modèle:   1%|          | 1/100 [00:03<05:53,  3.57s/it]

[38;5;2m✔ Created output directory: ..\..\models\spacy\md[0m


Entraînement du modèle:   2%|▏         | 2/100 [00:04<03:22,  2.07s/it]

[38;5;4mℹ Saving to output directory: ..\..\models\spacy\md[0m


Entraînement du modèle:   3%|▎         | 3/100 [00:05<02:33,  1.58s/it]

[38;5;4mℹ Using CPU[0m


Entraînement du modèle:   4%|▍         | 4/100 [00:06<02:09,  1.35s/it]

[1m


Entraînement du modèle:   5%|▌         | 5/100 [00:07<01:56,  1.23s/it]



Entraînement du modèle:   6%|▌         | 6/100 [00:08<01:54,  1.22s/it]

[38;5;2m✔ Initialized pipeline[0m


Entraînement du modèle:   7%|▋         | 7/100 [00:09<01:46,  1.15s/it]

[1m


Entraînement du modèle:   8%|▊         | 8/100 [00:10<01:41,  1.10s/it]



Entraînement du modèle:   9%|▉         | 9/100 [00:11<01:37,  1.07s/it]

[38;5;4mℹ Pipeline: ['tok2vec', 'ner'][0m


Entraînement du modèle:  10%|█         | 10/100 [00:12<01:34,  1.05s/it]

[38;5;4mℹ Initial learn rate: 0.001[0m


Entraînement du modèle:  11%|█         | 11/100 [00:13<01:32,  1.03s/it]

E    #       LOSS TOK2VEC  LOSS NER  ENTS_F  ENTS_P  ENTS_R  SCORE


Entraînement du modèle:  12%|█▏        | 12/100 [00:14<01:30,  1.02s/it]

---  ------  ------------  --------  ------  ------  ------  ------


Entraînement du modèle:  13%|█▎        | 13/100 [00:15<01:28,  1.02s/it]

0       0          0.00     48.93    0.00    0.00    0.00    0.00


Entraînement du modèle:  14%|█▍        | 14/100 [00:21<03:32,  2.47s/it]

8     200         50.44   1319.81   89.23   90.62   87.88    0.89


Entraînement du modèle:  15%|█▌        | 15/100 [00:34<07:58,  5.62s/it]

18     400        201.20    205.10   97.98   97.98   97.98    0.98


Entraînement du modèle:  16%|█▌        | 16/100 [00:47<10:56,  7.82s/it]

31     600         99.46     80.10  100.00  100.00  100.00    1.00


Entraînement du modèle:  17%|█▋        | 17/100 [01:01<13:20,  9.64s/it]

46     800         99.73     28.09   99.50   99.00  100.00    0.99


Entraînement du modèle:  18%|█▊        | 18/100 [01:16<15:30, 11.35s/it]

65    1000        117.62     31.59  100.00  100.00  100.00    1.00


Entraînement du modèle:  19%|█▉        | 19/100 [01:35<18:10, 13.47s/it]

88    1200         23.78      6.09  100.00  100.00  100.00    1.00


Entraînement du modèle:  20%|██        | 20/100 [01:54<20:21, 15.26s/it]

115    1400         43.98      9.53  100.00  100.00  100.00    1.00


Entraînement du modèle:  21%|██        | 21/100 [02:18<23:25, 17.79s/it]

149    1600        134.56     24.37  100.00  100.00  100.00    1.00


Entraînement du modèle:  22%|██▏       | 22/100 [02:46<27:06, 20.85s/it]

190    1800         87.75     15.74  100.00  100.00  100.00    1.00


Entraînement du modèle:  23%|██▎       | 23/100 [03:23<33:12, 25.88s/it]

240    2000         96.43     15.29  100.00  100.00  100.00    1.00


Entraînement du modèle:  24%|██▍       | 24/100 [04:01<37:06, 29.30s/it]

302    2200        104.91     15.65  100.00  100.00  100.00    1.00


Entraînement du modèle:  25%|██▌       | 25/100 [04:02<26:00, 20.81s/it]

[38;5;2m✔ Saved pipeline to output directory[0m


Entraînement du modèle:  26%|██▌       | 26/100 [04:03<18:20, 14.87s/it]

..\..\models\spacy\md\model-last


Entraînement du modèle:  26%|██▌       | 26/100 [04:04<11:34,  9.39s/it]


Entraînement du modèle md terminé.
Entraînement pour le modèle lg...
Génération de la configuration...
Configuration générée.
Début de l'entraînement du modèle...


Entraînement du modèle:   1%|          | 1/100 [00:04<06:53,  4.18s/it]

[38;5;2m✔ Created output directory: ..\..\models\spacy\lg[0m


Entraînement du modèle:   2%|▏         | 2/100 [00:05<03:46,  2.31s/it]

[38;5;4mℹ Saving to output directory: ..\..\models\spacy\lg[0m


Entraînement du modèle:   3%|▎         | 3/100 [00:06<02:46,  1.71s/it]

[38;5;4mℹ Using CPU[0m


Entraînement du modèle:   4%|▍         | 4/100 [00:07<02:17,  1.43s/it]

[1m


Entraînement du modèle:   5%|▌         | 5/100 [00:08<02:01,  1.28s/it]



Entraînement du modèle:   6%|▌         | 6/100 [00:10<02:34,  1.64s/it]

[38;5;2m✔ Initialized pipeline[0m


Entraînement du modèle:   7%|▋         | 7/100 [00:11<02:13,  1.43s/it]

[1m


Entraînement du modèle:   8%|▊         | 8/100 [00:12<01:59,  1.30s/it]



Entraînement du modèle:   9%|▉         | 9/100 [00:13<01:49,  1.20s/it]

[38;5;4mℹ Pipeline: ['tok2vec', 'ner'][0m


Entraînement du modèle:  10%|█         | 10/100 [00:14<01:42,  1.14s/it]

[38;5;4mℹ Initial learn rate: 0.001[0m


Entraînement du modèle:  11%|█         | 11/100 [00:15<01:37,  1.10s/it]

E    #       LOSS TOK2VEC  LOSS NER  ENTS_F  ENTS_P  ENTS_R  SCORE


Entraînement du modèle:  12%|█▏        | 12/100 [00:16<01:34,  1.07s/it]

---  ------  ------------  --------  ------  ------  ------  ------


Entraînement du modèle:  13%|█▎        | 13/100 [00:17<01:31,  1.05s/it]

0       0          0.00     48.93    0.00    0.00    0.00    0.00


Entraînement du modèle:  14%|█▍        | 14/100 [00:23<03:49,  2.66s/it]

8     200         50.44   1319.81   89.23   90.62   87.88    0.89


Entraînement du modèle:  15%|█▌        | 15/100 [00:37<08:32,  6.03s/it]

18     400        201.20    205.10   97.98   97.98   97.98    0.98


Entraînement du modèle:  16%|█▌        | 16/100 [00:53<12:20,  8.82s/it]

31     600         99.46     80.10  100.00  100.00  100.00    1.00


Entraînement du modèle:  17%|█▋        | 17/100 [01:09<15:30, 11.21s/it]

46     800         99.73     28.09   99.50   99.00  100.00    0.99


Entraînement du modèle:  18%|█▊        | 18/100 [01:26<17:41, 12.95s/it]

65    1000        117.62     31.59  100.00  100.00  100.00    1.00


Entraînement du modèle:  19%|█▉        | 19/100 [01:44<19:15, 14.27s/it]

88    1200         23.78      6.09  100.00  100.00  100.00    1.00


Entraînement du modèle:  20%|██        | 20/100 [02:05<21:39, 16.24s/it]

115    1400         43.98      9.53  100.00  100.00  100.00    1.00


Entraînement du modèle:  21%|██        | 21/100 [02:30<25:03, 19.03s/it]

149    1600        134.56     24.37  100.00  100.00  100.00    1.00


Entraînement du modèle:  22%|██▏       | 22/100 [02:57<27:57, 21.51s/it]

190    1800         87.75     15.74  100.00  100.00  100.00    1.00


Entraînement du modèle:  23%|██▎       | 23/100 [03:34<33:35, 26.17s/it]

240    2000         96.43     15.29  100.00  100.00  100.00    1.00


Entraînement du modèle:  24%|██▍       | 24/100 [04:13<37:44, 29.80s/it]

302    2200        104.91     15.65  100.00  100.00  100.00    1.00


Entraînement du modèle:  25%|██▌       | 25/100 [04:14<26:26, 21.16s/it]

[38;5;2m✔ Saved pipeline to output directory[0m


Entraînement du modèle:  26%|██▌       | 26/100 [04:15<18:38, 15.11s/it]

..\..\models\spacy\lg\model-last


Entraînement du modèle:  26%|██▌       | 26/100 [04:16<12:09,  9.85s/it]

Entraînement du modèle lg terminé.





In [27]:
def load_and_test_model(model_path, text):
    nlp_model = spacy.load(model_path)
    doc = nlp_model(text)
    return doc

def test_model_on_texts(model_paths):
    texts = [
        '''Je souhaite me rendre à Lille en partant d'Aubervilliers pour assister à une conférence.''',
        '''Je dois planifier un voyage Nice Toulouse pour les prochaines vacances.''',
        '''Je veux partir à Paris à partir de Lyon via Marseille'''
    ]

    colors = {"DEPARTURE": "#1f77b4", "DESTINATION": "#2ca02c", "STOP": "#9467bd"}
    options = {"colors": colors}

    for model_key, model_path in model_paths.items():
        print(f"Test du modèle {model_key}...")
        for text in texts:
            doc = load_and_test_model(model_path, text)
            displacy.render(doc, style="ent", jupyter=True, options=options)

model_paths = {key: f"../../models/spacy/{key}/model-best/" for key in models.keys()}
test_model_on_texts(model_paths)

# Comparaison des modèles
def extract_entities(doc):
    return [(ent.text, ent.label_) for ent in doc.ents]

def compare_models(model_paths, texts, ground_truths):
    results = {key: [] for key in models.keys()}

    for text in texts:
        for model_key, model_path in model_paths.items():
            doc = load_and_test_model(model_path, text)
            entities = extract_entities(doc)
            results[model_key].append(entities)

    return results

texts_to_compare = [
    '''Je souhaite me rendre à Lille en partant d'Aubervilliers pour assister à une conférence.''',
    '''Je dois regarder les trains Toulouse - Brest pour aller voir mon ami Albert.'''
]

ground_truths = [
    [('Aubervilliers', 'DEPARTURE'), ('Lille', 'DESTINATION')],
    [('Toulouse', 'DEPARTURE'), ('Brest', 'DESTINATION')]
]

compare_models(model_paths, texts_to_compare, ground_truths)


Test du modèle sm...




Test du modèle md...


Test du modèle lg...


{'sm': [[], [('Brest', 'DESTINATION')]],
 'md': [[], [('Brest', 'DESTINATION')]],
 'lg': [[], [('Brest', 'DESTINATION')]]}