In [50]:
# Import Spacy

import spacy
from spacy import displacy
from spacy.tokens import Doc
import random
import plac
from spacy.util import minibatch
from spacy.util import compounding
from spacy.training.example import Example
from pathlib import Path
from spacy.matcher import Matcher





In [51]:
nlp = spacy.load("fr_core_news_lg")
doc = nlp("Je veux aller voir mon ami Albert à Tours en partant de Bordeaux")

displacy.render(doc, style="dep") # (1)
displacy.render(doc, style="ent") # (2)
displacy.render(doc, style="span") # (2)



# Display detected entities with their labels
for token in doc:
    if token.dep_:
        print(f"Token : {token.text}, Relation : {token.dep_}, Dépendant : {token.head.text}")


Available keys: []


Token : Je, Relation : nsubj, Dépendant : veux
Token : veux, Relation : ROOT, Dépendant : veux
Token : aller, Relation : xcomp, Dépendant : veux
Token : voir, Relation : xcomp, Dépendant : aller
Token : mon, Relation : det, Dépendant : ami
Token : ami, Relation : obj, Dépendant : voir
Token : Albert, Relation : flat:name, Dépendant : ami
Token : à, Relation : case, Dépendant : Tours
Token : Tours, Relation : obl:arg, Dépendant : voir
Token : en, Relation : mark, Dépendant : partant
Token : partant, Relation : advcl, Dépendant : voir
Token : de, Relation : case, Dépendant : Bordeaux
Token : Bordeaux, Relation : obl:arg, Dépendant : partant


In [52]:
for token in doc:
    print(token , token.tag_, token.dep_, token.ent_type_)
    

Je PRON nsubj 
veux VERB ROOT 
aller VERB xcomp 
voir VERB xcomp 
mon DET det 
ami NOUN obj 
Albert PROPN flat:name PER
à ADP case 
Tours PROPN obl:arg LOC
en ADP mark 
partant VERB advcl 
de ADP case 
Bordeaux PROPN obl:arg LOC


In [53]:
for token in doc:
    if token.dep_:
        print(f"Token : {token.text}, Relation : {token.dep_}, Dépendant : {token.head.text}")

Token : Je, Relation : nsubj, Dépendant : veux
Token : veux, Relation : ROOT, Dépendant : veux
Token : aller, Relation : xcomp, Dépendant : veux
Token : voir, Relation : xcomp, Dépendant : aller
Token : mon, Relation : det, Dépendant : ami
Token : ami, Relation : obj, Dépendant : voir
Token : Albert, Relation : flat:name, Dépendant : ami
Token : à, Relation : case, Dépendant : Tours
Token : Tours, Relation : obl:arg, Dépendant : voir
Token : en, Relation : mark, Dépendant : partant
Token : partant, Relation : advcl, Dépendant : voir
Token : de, Relation : case, Dépendant : Bordeaux
Token : Bordeaux, Relation : obl:arg, Dépendant : partant


In [54]:
arrays = [
    [((21, 26), (29, 38))],
    [((28, 32), (35, 43))],
    [((29, 37), (40, 45))],
    [((26, 30), (33, 43))], 
    [((33, 43), (26, 30))],
    [((36, 42), (45, 53))],
    [((23, 27), (30, 35))], 
    [((30, 35), (23, 27))], 
    [((23, 27), (30, 35))],
    [((34, 43), (46, 54))],
    [((32, 40), (55, 60))], 
    [((55, 60), (32, 40))], 
    [((32, 40), (55, 60))],
    [((39, 43), (26, 36))], 
    [((26, 36), (39, 43))],
    [((36, 41), (56, 61))], 
    [((56, 61), (36, 41))], 
    [((56, 61), (36, 41))],
    [((37, 42), (45, 49))],
    [((26, 34), (37, 45))],
    [((37, 45), (26, 34))],
    [((26, 34), (37, 45))],
    [((37, 45), (26, 34))],
    [((26, 34), (37, 45))],
    [((23, 32), (35, 39))], 
    [((23, 32), (35, 39))],
    [((34, 42), (45, 49))],
    [((52, 56), (32, 37))], 
    [((32, 37), (52, 56))], 
    [((52, 56), (32, 37))],
    [((45, 53), (37, 42))],
    [((26, 30), (33, 43))], 
    [((33, 43), (26, 30))], 
    [((26, 30), (33, 43))],
    [((36, 44), (59, 68))],
    [((45, 50), (37, 42))], 
    [((37, 42), (45, 50))], 
    [((37, 42), (45, 50))],
    [((26, 34), (37, 41))],
    [((23, 32), (35, 39))], 
    [((35, 39), (23, 32))],
    [((45, 53), (34, 42))],
    [((34, 42), (45, 53))],
    [((45, 53), (34, 42))],
    [((34, 42), (45, 53))],
    [((45, 53), (34, 42))],
    [((32, 36), (51, 56))], 
    [((51, 56), (32, 36))], 
    [((32, 36), (51, 56))],
    [((45, 54), (37, 42))],
    [((39, 43), (26, 36))], 
    [((26, 36), (39, 43))], 
    [((39, 43), (26, 36))],
    [((56, 64), (36, 41))], 
    [((36, 41), (56, 64))], 
    [((56, 64), (36, 41))],
    [((44, 53), (37, 41))], 
    [((37, 41), (44, 53))],
    [((26, 34), (37, 45))],
    [((37, 45), (26, 34))],
    [((26, 34), (37, 45))],
    [((37, 45), (26, 34))],
    [((26, 34), (37, 45))],
    [((23, 27), (30, 40))], 
    [((30, 40), (23, 27))],
    [((34, 43), (46, 51))],
    [((32, 40), (55, 60))], 
    [((55, 60), (32, 40))], 
    [((32, 40), (55, 60))],
    [((37, 45), (48, 52))],
    [((26, 36), (39, 44))],
    [((36, 45), (60, 65))],
    [((48, 56), (37, 45))],
    [((37, 45), (48, 56))],
    [((48, 56), (37, 45))],
    [((37, 45), (48, 56))],
    [((48, 56), (37, 45))],
    [((26, 30), (33, 37))],
    [((31, 36), (23, 28))], 
    [((23, 28), (31, 36))], 
    [((23, 28), (31, 36))],
    [((34, 43), (46, 50))], 
    [((34, 43), (46, 50))],
    [((32, 40), (55, 63))],
    [((55, 63), (32, 40))],
    [((32, 40), (55, 63))],
    [((55, 63), (32, 40))],
    [((32, 40), (55, 63))],
]

TRAIN_DATA = [
    (
        "Je voudrais aller de Paris à Marseille",
        {"entities": [(21, 26, "DEPART"), (29, 38, "ARRIVER")]},
    ),
    (
        "Je veux prendre un train de Lyon à Bordeaux",
        {"entities": [(28, 32, "DEPART"), (35, 43, "ARRIVER")]},
    ),
    (
        "Comment puis-je me rendre de Toulouse à Lille ?",
        {"entities": [(29, 37, "DEPART"), (40, 45, "ARRIVER")]},
    ),
    (
        "Il y a-t-il des trains de Nice à Strasbourg ?",
        {"entities": [(26, 30, "DEPART"), (33, 43, "ARRIVER")]},
    ),
    (
        "Pouvez-vous m'indiquer le trajet de Nantes à Bordeaux ?",
        {"entities": [(36, 42, "DEPART"), (45, 53, "ARRIVER")]},
    ),
    (
        "Je souhaite voyager de Lyon à Paris",
        {"entities": [(23, 27,"DEPART"), (30, 35, "ARRIVER")]},
    ),
    (
        "Y a-t-il un moyen de se rendre de Marseille à Toulouse ?",
        {"entities": [(34, 43, "DEPART"), (46, 54, "ARRIVER")]},
    ),
    (
        "Je veux aller voir ma famille à Bordeaux en partant de Paris",
        {"entities": [(32, 40, "ARRIVER"), (55, 60, "DEPART")]},
    ),
    (
        "Pouvez-vous me dire comment aller de Toulouse à Lille ?",
        {"entities": [(37, 45, "DEPART"), (48, 53, "ARRIVER")]},
    ),
    (
        "Je veux aller passer mes vacances à Lille en partant de Paris",
        {"entities": [(36, 41, "ARRIVER"), (56, 61, "DEPART")]},
    ),
    (
        "Pouvez-vous me dire comment aller de Paris à Nice ?",
        {"entities": [(37, 42, "DEPART"), (45, 49, "ARRIVER")]},
    ),
    (
        "Il y a-t-il des trains de Toulouse à Bordeaux ?",
        {"entities": [(26, 34, "DEPART"), (37, 45, "ARRIVER")]},
    ),
    (
        "Je souhaite voyager de Marseille à Lyon",
        {"entities": [(23, 32, "DEPART"), (35, 39, "ARRIVER")]},
    ),
    (
        "Y a-t-il un moyen de se rendre de Bordeaux à Nice ?",
        {"entities": [(34, 42, "DEPART"), (45, 49, "ARRIVER")]},
    ),
    (
        "Je veux aller voir ma famille à Paris en partant de Lyon",
        {"entities": [(32, 37, "ARRIVER"), (52, 56, "DEPART")]},
    ),
    (
        "Pouvez-vous me dire comment aller de Lille à Toulouse ?",
        {"entities": [(37, 42, "ARRIVER"), (45, 53, "DEPART")]},
    ),
    (
        "Il y a-t-il des trains de Lyon à Strasbourg ?",
        {"entities": [(26, 30, "DEPART"), (33, 43, "ARRIVER")]},
    ),
    (
        "Je veux aller passer mes vacances à Bordeaux en partant de Marseille",
        {"entities": [(36, 44, "ARRIVER"), (59, 68, "DEPART")]},
    ),
    (
        "Pouvez-vous me dire comment aller de Paris à Lille ?",
        {"entities": [(37, 42, "DEPART"), (45, 50, "ARRIVER")]},
    ),
    (
        "Il y a-t-il des trains de Toulouse à Lyon ?",
        {"entities": [(26, 34, "DEPART"), (37, 41, "ARRIVER")]},
    ),
    (
        "Je souhaite voyager de Marseille à Nice",
        {"entities": [(23, 32, "DEPART"), (35, 39, "ARRIVER")]},
    ),
    (
        "Y a-t-il un moyen de se rendre de Bordeaux à Toulouse ?",
        {"entities": [(45, 53, "DEPART"), (34, 42, "ARRIVER")]},
    ),
    (
        "Pouvez-vous me dire comment aller de Lille à Marseille ?",
        {"entities": [(37, 42, "DEPART"), (45, 54, "ARRIVER")]},
    ),
    (
        "Il y a-t-il des trains de Strasbourg à Lyon ?",
        {"entities": [(26, 36, "DEPART"), (39, 43, "ARRIVER")]},
    ),
    (
        "Je veux aller passer mes vacances à Paris en partant de Lille",
        {"entities": [(56, 64, "DEPART"), (36, 41, "ARRIVER")]},
    ),
    (
        "Pouvez-vous me dire comment aller de Bordeaux à Lyon ?",
        {"entities": [(37, 45, "DEPART"),(48, 52, "ARRIVER")]},
    ),
    (
        "Il y a-t-il des trains de Nice à Toulouse ?",
        {"entities": [(26, 30, "DEPART"), (33, 43, "ARRIVER")]},
    ),
    (
        "Je souhaite voyager de Marseille à Paris",
        {"entities": [(23, 32, "DEPART"), (35, 40, "ARRIVER")]},
    ),
    (
        "Y a-t-il un moyen de se rendre de Toulouse à Bordeaux ?",
        {"entities": [(34, 42, "DEPART"),(45, 53, "ARRIVER")]},
    ),

    (
        "Je veux aller voir ma famille à Lyon en partant de Paris",
        {"entities": [(51, 56, "DEPART"),(32, 36, "ARRIVER")]},
    ),
]

print(len(TRAIN_DATA))


30


In [59]:
import spacy
from spacy.training.example import Example
from spacy.util import minibatch, compounding
from pathlib import Path
import random


def check_alignment(nlp, train_data):
    for text, annotations in train_data:
        doc = nlp.make_doc(text)
        tags = spacy.training.offsets_to_biluo_tags(doc, annotations.get("entities", []))

def train_ner(model, new_model_name, output_dir, n_iter, train_data):
    # Load the pre-trained spaCy model
    nlp = spacy.load(model)

    # Vérification de la présence du composant NER
    if "ner" not in nlp.pipe_names:
        ner = nlp.create_pipe("ner")
        nlp.add_pipe(ner)
        # print("ADD PIPE")
    else:
        ner = nlp.get_pipe("ner")
        # print("GET PIPE")
    
    # Supprimer les autres composants du pipeline
    other_pipes = [pipe for pipe in nlp.pipe_names if pipe != "ner"]
    
    # Ajouter ou mettre à jour les labels du NER
    for label in ["DEPART", "ARRIVER"]:
        ner.add_label(label)

    # print("Labels du NER:", ner.labels)
    # Initialisation de l'optimiseur
    if model:
        optimizer = nlp.resume_training()

    # Remove other pipeline components
    with nlp.disable_pipes(*other_pipes):
        # Check entity alignment
        check_alignment(nlp, train_data)
        nlpLG = spacy.load('fr_core_news_lg')
        # Train the NER model
        for itn in range(n_iter):
            random.shuffle(train_data)
            losses = {}

            for batch in minibatch(train_data, size=compounding(1.0, 4.0, 1.001)):
                examples = []
                for text, annotations in batch:
                    
                    doc = nlpLG(text)
                    for token in doc:
                        print(f"Token: {token.text}, Dépendance: {token.dep_}, Tête: {token.head.text}")
                    
                    for token in doc:
                        # Vérifier si le token a une relation de dépendance "obl:arg" avec un verbe
                        if token.dep_ == "obl:arg" and token.head.pos_ == "VERB":
                            # Vérifier si le token est une ville (ent_type_ == "LOC") ou un mot lié au départ
                            if any(child.ent_type_ == "LOC" or child.dep_ == "case" for child in token.children):
                                # Vérifier si le token n'est pas déjà associé à une entité et si ce n'est pas une personne
                                if not any(start <= token.i < end for start, end, _ in annotations["entities"]) and token.ent_type_ != "PER":
                                    annotations["entities"].append((token.i, token.i + len(token.text), "DEPART"))
                    
                        # Vérifier si le token a une relation de dépendance "obl:arg" avec une entité ARRIVER
                        elif token.dep_ == "obl:arg" and (token.ent_type_ == "ARRIVER" or any(child.ent_type_ == "ARRIVER" for child in token.children)):
                            # Vérifier si le token est une ville (ent_type_ == "LOC") ou un mot lié au départ
                            if any(child.ent_type_ == "LOC" or child.dep_ == "case" for child in token.children):
                                # Vérifier si le token n'est pas déjà associé à une entité
                                if not any(start <= token.i < end for start, end, _ in annotations["entities"]):
                                    annotations["entities"].append((token.i, token.i + len(token.text), "ARRIVER"))
                    



                    example = Example.from_dict(nlp.make_doc(text), annotations)
                    examples.append(example)


                nlp.update(examples, drop=0.35, losses=losses, sgd=optimizer)

                # Logique pour ajuster les annotations en fonction de la dépendance "case"
               

            # print("Iteration {} - Losses: {}".format(itn, losses))

    # Save the trained model    
    output_dir_path = Path(output_dir)
    output_dir_path.mkdir(parents=True, exist_ok=True)
    nlp.meta["name"] = new_model_name
    nlp.to_disk(output_dir_path)

    # Test the model
    test_ner(output_dir, "Je voudrais aller de Paris à Marseille")

def test_ner(model, test_text):
    # Load the trained spaCy model
    nlp = spacy.load(model)

    # Process the test text
    doc = nlp(test_text)





if __name__ == "__main__":
    train_ner(model="fr_core_news_sm", new_model_name="model_test_train_1", output_dir="./model/model_test_train_1", n_iter=500, train_data=TRAIN_DATA)


Token: Y, Dépendance: ROOT, Tête: Y
Token: a, Dépendance: dep, Tête: Y
Token: -t, Dépendance: dep, Tête: a
Token: -il, Dépendance: dep, Tête: -t
Token: un, Dépendance: det, Tête: moyen
Token: moyen, Dépendance: obj, Tête: a
Token: de, Dépendance: mark, Tête: rendre
Token: se, Dépendance: expl:comp, Tête: rendre
Token: rendre, Dépendance: acl, Tête: moyen
Token: de, Dépendance: case, Tête: Bordeaux
Token: Bordeaux, Dépendance: obl:arg, Tête: rendre
Token: à, Dépendance: case, Tête: Nice
Token: Nice, Dépendance: obl:mod, Tête: rendre
Token: ?, Dépendance: punct, Tête: Y
Token: Je, Dépendance: nsubj, Tête: souhaite
Token: souhaite, Dépendance: ROOT, Tête: souhaite
Token: voyager, Dépendance: xcomp, Tête: souhaite
Token: de, Dépendance: case, Tête: Lyon
Token: Lyon, Dépendance: obl:arg, Tête: voyager
Token: à, Dépendance: case, Tête: Paris
Token: Paris, Dépendance: obl:mod, Tête: voyager
Token: Pouvez, Dépendance: ROOT, Tête: Pouvez
Token: -vous, Dépendance: nsubj, Tête: Pouvez
Token: me, 

In [60]:
def analyze_predictions(model, train_data):
    nlp = spacy.load(model)
    
    for text, annotations in train_data:
        doc = nlp(text)
        predicted_entities = [(ent.text, ent.label_) for ent in doc.ents]
        true_entities = [(text[start:end], label) for start, end, label in annotations.get("entities", [])]

        if predicted_entities != true_entities:
            
            print(f"Text: {text}")
            print(f"True Entities: {true_entities}")
            print(f"Predicted Entities: {predicted_entities}\n")
            

# Utilisez la fonction pour analyser les prédictions
analyze_predictions("./model/model_test_train_1", TRAIN_DATA)

Text: Pouvez-vous m'indiquer le trajet de Nantes à Bordeaux ?
True Entities: [('Nantes', 'DEPART'), ("us m'ind", 'DEPART')]
Predicted Entities: [('Nantes', 'DEPART')]

Text: Je veux aller passer mes vacances à Paris en partant de Lille
True Entities: [(' alle', 'DEPART')]
Predicted Entities: []

Text: Je veux aller voir ma famille à Bordeaux en partant de Paris
True Entities: [('Paris', 'DEPART'), (' aller v', 'DEPART')]
Predicted Entities: [('Paris', 'DEPART')]

Text: Je souhaite voyager de Marseille à Lyon
True Entities: [('ouhaite v', 'DEPART')]
Predicted Entities: []

Text: Pouvez-vous me dire comment aller de Paris à Nice ?
True Entities: [('vous ', 'DEPART')]
Predicted Entities: []

Text: Pouvez-vous me dire comment aller de Paris à Lille ?
True Entities: [('vous ', 'DEPART')]
Predicted Entities: []

Text: Je souhaite voyager de Marseille à Paris
True Entities: [('ouhaite v', 'DEPART')]
Predicted Entities: []

Text: Je veux prendre un train de Lyon à Bordeaux
True Entities: [('Ly

In [62]:
input_data = [
"je voudrais aller de Toulouse à bordeaux",
"Comment me rendre à Port-Boulet depuis la gare de Tours ?",
"Je veux aller voir mon ami Albert à Tours en partant de Bordeaux",
"Il y a-t-il des trains de Nantes à Montaigu"
]

def test_ner(model, test_text):
    # Load the trained spaCy model
    nlp = spacy.load(model)

    # Process the test text
    doc = nlp(test_text)

    # Display detected entities with their labels
    print("\nEntities in '{}':".format(test_text))
    for ent in doc.ents:
        print(ent.label_, ent.text)
for text in input_data:
    test_ner("./model/model_test_train_1", text)


Entities in 'je voudrais aller de Toulouse à bordeaux':

Entities in 'Comment me rendre à Port-Boulet depuis la gare de Tours ?':

Entities in 'Je veux aller voir mon ami Albert à Tours en partant de Bordeaux':

Entities in 'Il y a-t-il des trains de Nantes à Montaigu':
DEPART Nantes
