In [46]:
import spacy
import torch
from transformers import CamembertTokenizer, CamembertForTokenClassification
from transformers import pipeline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import classification_report, accuracy_score
import seaborn as sns
import tensorflow as tf
import sentencepiece
import re

In [78]:
print("Vérification GPU...")
device = torch.device("cuda" if torch.cuda.is_available() else "cpu") # cuda : Compute Unified Device Architecture
if torch.cuda.is_available():
    print("GPU détecté")
else:
    print("Aucun GPU détecté, l'entraînement se fera sur le CPU")

Vérification GPU...
Aucun GPU détecté, l'entraînement se fera sur le CPU


In [150]:
def load_ner_dataset_file():
    ner_data = pd.read_csv("../../../../students_bootstrap/corpus/ner_dataset.csv", encoding='latin1', delimiter=",")
    print("Loaded ner_dataset file\n")
    return ner_data
    
def load_bottins_file():
    bottins_data = pd.read_csv("../../../../students_bootstrap/bottins.csv", encoding="utf-8", delimiter=",", header=None)
    bottins_data.columns = ["Text", "Source"]
    print("Loaded bottins file \n")
    return bottins_data

ner_data = load_ner_dataset_file()
print("Premières lignes du dataset ner_dataset.csv :\n")
print(ner_data.head())

print("\n######################################################################\n")

bottins_data = load_bottins_file()
print("Premières lignes du dataset bottins.csv :\n")
print(bottins_data.head())

Loaded ner_dataset file

Premières lignes du dataset ner_dataset.csv :

    Sentence #           Word  POS Tag
0  Sentence: 1      Thousands  NNS   O
1          NaN             of   IN   O
2          NaN  demonstrators  NNS   O
3          NaN           have  VBP   O
4          NaN        marched  VBN   O

######################################################################

Loaded bottins file 

Premières lignes du dataset bottins.csv :

                                                Text           Source
0  <PER>Dufan et Clémendot</PER>, <ACT>pharmacien...   "Bottin1_1820"
1  <PER>Dufant (Victor)</PER>, <ACT>libraire</ACT...   "Bottin1_1820"
2  <PER>Dufay</PER>, <ACT>essayeur du commerce</A...   "Bottin1_1820"
3  <PER>Dulay</PER>, <ACT>chandronnier</ACT>, <LO...   "Bottin1_1820"
4  <PER>Dufay (V.e)</PER>, <ACT>grenetière</ACT>,...   "Bottin1_1820"


In [152]:
# Nettoyage des données `bottins.csv` pour séparer le texte et les annotations
def clean_bottins_data(data):
    sentences = []
    # Limiter l'affichage à seulement 3 entrées
    max_display = 3
    for i, entry in enumerate(data["Text"]):
        if i < max_display:
            print(f"Original entry: {entry}")  # phrase originale
        cleaned_sentence = entry.split(",")[0]
        if i < max_display:
            print(f"Cleaned sentence: {cleaned_sentence}")  # phrase nettoyée
        sentences.append(cleaned_sentence)
    return sentences

bottins_sentences = clean_bottins_data(bottins_data)

# affichage des premières phrases nettoyées
print(f"Sentences prétraitées : {bottins_sentences[:5]}")

Original entry: <PER>Dufan et Clémendot</PER>, <ACT>pharmaciens</ACT>, <LOC>r. de la Chaussée-d&apos;Antin</LOC>, <CARDINAL>34</CARDINAL>. <TITRE>(Elig.)</TITRE> 449
Cleaned sentence: <PER>Dufan et Clémendot</PER>
Original entry: <PER>Dufant (Victor)</PER>, <ACT>libraire</ACT>, <LOC>r. du Gros-Che- net</LOC>, <CARDINAL>2</CARDINAL>. 392
Cleaned sentence: <PER>Dufant (Victor)</PER>
Original entry: <PER>Dufay</PER>, <ACT>essayeur du commerce</ACT>, <LOC>place Dau- phine</LOC>, <CARDINAL>5</CARDINAL>.         355
Cleaned sentence: <PER>Dufay</PER>
Sentences prétraitées : ['<PER>Dufan et Clémendot</PER>', '<PER>Dufant (Victor)</PER>', '<PER>Dufay</PER>', '<PER>Dulay</PER>', '<PER>Dufay (V.e)</PER>']


In [154]:
# Tokenisation des phrases et gestion des annotations
def tokenize_and_preserve_labels(sentence, tokenizer):
    tokenized_sentence = []
    labels = []
    for word in sentence.split():
        tokenized_word = tokenizer.tokenize(word)
        tokenized_sentence.extend(tokenized_word)
    return tokenized_sentence

tokenizer = CamembertTokenizer.from_pretrained('camembert-base')

sample_sentence = bottins_sentences[0]
tokenized_sentence = tokenize_and_preserve_labels(sample_sentence, tokenizer)
print(f"Phrase tokenisée : {tokenized_sentence}")



Phrase tokenisée : ['▁<', 'PER', '>', 'Du', 'fan', '▁et', '▁Clé', 'men', 'dot', '</', 'PER', '>']


In [156]:
nlp = spacy.load("fr_core_news_sm")
print("Le modele fr_core_news_sm a ete bien charge")

Le modele fr_core_news_sm a ete bien charge


In [158]:
# Fonction pour enlever les balises manuelles <PER>, <LOC>, etc.
def clean_annotations(sentence):
    return re.sub(r'<.*?>', '', sentence)

# Nettoyer les phrases et appliquer le modèle spaCy
def apply_spacy_model_cleaned(sentences):
    for sentence in sentences:
        cleaned_sentence = clean_annotations(sentence)
        doc = nlp(cleaned_sentence)
        print(f"Phrase : {cleaned_sentence}")
        print("Entités détectées :")
        for ent in doc.ents:
            print(ent.text, ent.label_)
        print("-" * 40)

apply_spacy_model_cleaned(bottins_sentences[:5])

Phrase : Dufan et Clémendot
Entités détectées :
Dufan MISC
Clémendot MISC
----------------------------------------
Phrase : Dufant (Victor)
Entités détectées :
Victor PER
----------------------------------------
Phrase : Dufay
Entités détectées :
Dufay MISC
----------------------------------------
Phrase : Dulay
Entités détectées :
----------------------------------------
Phrase : Dufay (V.e)
Entités détectées :
Dufay MISC
V.e MISC
----------------------------------------


In [160]:
from sklearn.metrics import precision_recall_fscore_support

# simulation des annotations pour evaluation
true_labels = ['O', 'B-PER', 'O', 'B-ACT', 'B-LOC']
predicted_labels = ['O', 'B-PER', 'O', 'B-ACT', 'O']

# calculs de metriques de performances : precision, rappel, f1-score
precision, recall, f1, support = precision_recall_fscore_support(true_labels, predicted_labels, average=None, labels=['O', 'B-PER', 'B-ACT', 'B-LOC'])

print("Resultats detailles par classe :")
for label, p, r, f, s in zip(['O', 'B-PER', 'B-ACT', 'B-LOC'], precision, recall, f1, support):
    print(f"Classe : {label}")
    print(f"  Précision : {p}")
    print(f"  Rappel : {r}")
    print(f"  F1-score : {f}")
    print(f"  Support : {s}")

# calculs de metriques de performances moyennees
precision_weighted, recall_weighted, f1_weighted, _ = precision_recall_fscore_support(true_labels, predicted_labels, average='weighted')

print("\nResultats :")
print(f"Précision : {precision_weighted}")
print(f"Rappel : {recall_weighted}")
print(f"F1-score : {f1_weighted}")

Resultats detailles par classe :
Classe : O
  Précision : 0.6666666666666666
  Rappel : 1.0
  F1-score : 0.8
  Support : 2
Classe : B-PER
  Précision : 1.0
  Rappel : 1.0
  F1-score : 1.0
  Support : 1
Classe : B-ACT
  Précision : 1.0
  Rappel : 1.0
  F1-score : 1.0
  Support : 1
Classe : B-LOC
  Précision : 0.0
  Rappel : 0.0
  F1-score : 0.0
  Support : 1

Resultats :
Précision : 0.6666666666666666
Rappel : 0.8
F1-score : 0.72


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [162]:
print(f"Utilisation du dispositif: {device} \n")

# chargement du modele CamemBERT pour la classification des tokens
def load_camemBert_model(device):
    print("chargement du modele CamemBERT pour la classification des tokens ...")
    model = CamembertForTokenClassification.from_pretrained("camembert-base", num_labels=2)
    model.to(device)
    print("Modele CamemBERT a ete bien charge et deplace sur le dispositif \n")
    return model

# chargement du tokenizer
def load_tokenizer():
    print("chargement du tokenizer ...")
    tokenizer = CamembertTokenizer.from_pretrained("camembert-base")
    print("Tokenizer CamemBERT a ete bien charge \n")
    return tokenizer

# application du modele sur les données annotees
def tokenize_sentence(tokenizer, sentence, device):
    print("application du modele sur les données annotees ...")
    inputs = tokenizer(sentence, return_tensors="pt", truncation=True).to(device)
    print("Phrase tokenisée et convertie en tenseurs.")
    print(f"Inputs: {inputs}")
    return inputs

# passage des inputs à travers le modele
def apply_model(model, inputs):
    print("passage des inputs à travers le modele ...")
    outputs = model(**inputs)
    print("Modèle appliqué aux inputs.")
    return outputs

model = load_camemBert_model(device)

print("\n##############################################################\n")

tokenizer = load_tokenizer()

print("\n##############################################################\n")

bottins_sentences = ["Ceci est une phrase d'exemple."]
print(f"Phrase à annoter: {bottins_sentences[0]}")
inputs = tokenize_sentence(tokenizer, bottins_sentences[0], device)

print("\n##############################################################\n")
outputs = apply_model(model, inputs)

print("\n##############################################################\n")

print("Résultats bruts du modèle:")
print(outputs)

Utilisation du dispositif: cpu 

chargement du modele CamemBERT pour la classification des tokens ...


Some weights of CamembertForTokenClassification were not initialized from the model checkpoint at camembert-base and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Modele CamemBERT a ete bien charge et deplace sur le dispositif 


##############################################################

chargement du tokenizer ...




Tokenizer CamemBERT a ete bien charge 


##############################################################

Phrase à annoter: Ceci est une phrase d'exemple.
application du modele sur les données annotees ...
Phrase tokenisée et convertie en tenseurs.
Inputs: {'input_ids': tensor([[   5, 2978,   30,   28, 3572,   18,   11, 3733,    9,    6]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

##############################################################

passage des inputs à travers le modele ...
Modèle appliqué aux inputs.

##############################################################

Résultats bruts du modèle:
TokenClassifierOutput(loss=None, logits=tensor([[[ 0.1683, -0.0484],
         [ 0.0612,  0.0871],
         [-0.0662,  0.2371],
         [-0.0106,  0.1153],
         [-0.0266,  0.1017],
         [ 0.0234,  0.0939],
         [ 0.0284,  0.0894],
         [ 0.0607,  0.1743],
         [ 0.1462, -0.0713],
         [ 0.1938, -0.0581]]], grad_fn=<ViewBackward0>), hidden_state

In [164]:
# comparaison des performances entre spaCy et CamemBERT
def compare_models_spaCy_and_camembert(spacy_labels, transformer_labels):
    spacy_metrics = precision_recall_fscore_support(spacy_labels, transformer_labels, average='weighted')
    print(f"spaCy - Précision : {spacy_metrics[0]}, Rappel : {spacy_metrics[1]}, F1-score : {spacy_metrics[2]}")

    transformer_metrics = precision_recall_fscore_support(transformer_labels, transformer_labels, average='weighted')
    print(f"Transformers - Précision : {transformer_metrics[0]}, Rappel : {transformer_metrics[1]}, F1-score : {transformer_metrics[2]}")

    if spacy_metrics > transformer_metrics:
        print("\nConclusion : spaCy a de meilleures performances")
    else:
        print("\nConclusion : le modele Transformer (CamemBERT) a de meilleures performances")

compare_models_spaCy_and_camembert(true_labels, predicted_labels)

spaCy - Précision : 0.6666666666666666, Rappel : 0.8, F1-score : 0.72
Transformers - Précision : 1.0, Rappel : 1.0, F1-score : 1.0

Conclusion : le modele Transformer (CamemBERT) a de meilleures performances


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [186]:
from tabulate import tabulate

bottins_sentences = [
    "Je veux aller à Monaco depuis Paris.",
    "Je suis actuellement à Lyon et je veux aller à Marseille.",
    "Avec Albert, on voudrait partir de Nice pour aller à Bordeaux.",
    "Je veux aller à Monaco depuis Albertville pour voir Paris.",
    
    "Je veux aller à Paris depuis Monaco.",
    "Je suis actuellement à Marseille et je veux aller à Lyon.",
    "Avec Albert, on voudrait partir de Bordeaux pour aller à Nice.",
    "Je veux aller à Albertville depuis Monaco pour voir Paris.",
    
    "Je suis à Bordeaux et je veux aller à Paris.",
    "Je veux voyager vers Nice depuis Marseille.",
    "Je veux aller à Bordeaux depuis Lyon.",
    "Je veux aller à Albertville depuis Paris pour voir Nice.",
    
    "Je veux aller à Lyon depuis Monaco pour un rendez-vous.",
    "Je suis à Paris, et je dois aller à Marseille pour une réunion.",
    "Je voudrais aller à Monaco depuis Bordeaux.",
    "Je voudrais aller voir Paris depuis Nice."
]


def manual_annotation():
    annotated_data = []
    
    for sentence in bottins_sentences:
        dep, arr = "Unknown", "Unknown"
        
        # Cherche "depuis" pour trouver la ville de départ
        if "depuis" in sentence:
            dep_start = sentence.index("depuis") + len("depuis ")
            dep_end = sentence.find(" ", dep_start)
            if dep_end == -1:
                dep_end = len(sentence)
            dep = sentence[dep_start:dep_end]
        
        # Cherche "à" ou "vers" pour trouver la ville d'arrivée
        if "à" in sentence:
            arr_start = sentence.index("à") + len("à ")
            arr_end = sentence.find(" ", arr_start) if sentence.find(" ", arr_start) != -1 else len(sentence)
            arr = sentence[arr_start:arr_end].rstrip(".")
        elif "vers" in sentence:
            arr_start = sentence.index("vers") + len("vers ")
            arr_end = sentence.find(" ", arr_start) if sentence.find(" ", arr_start) != -1 else len(sentence)
            arr = sentence[arr_start:arr_end].rstrip(".")
        
        # Crée une annotation avec les entités "Dep" et "Arr"
        annotation = [sentence, f"{dep}", f"{arr}"]
        annotated_data.append(annotation) 
    
    # Afficher les données annotées sous forme de tableau
    headers = ["Sentence", "Departure", "Arrival"]
    print(tabulate(annotated_data, headers=headers, tablefmt="grid"))

manual_annotation()

+-----------------------------------------------------------------+-------------+-------------+
| Sentence                                                        | Departure   | Arrival     |
| Je veux aller à Monaco depuis Paris.                            | Paris.      | Monaco      |
+-----------------------------------------------------------------+-------------+-------------+
| Je suis actuellement à Lyon et je veux aller à Marseille.       | Unknown     | Lyon        |
+-----------------------------------------------------------------+-------------+-------------+
| Avec Albert, on voudrait partir de Nice pour aller à Bordeaux.  | Unknown     | Bordeaux    |
+-----------------------------------------------------------------+-------------+-------------+
| Je veux aller à Monaco depuis Albertville pour voir Paris.      | Albertville | Monaco      |
+-----------------------------------------------------------------+-------------+-------------+
| Je veux aller à Paris depuis Monaco.  

In [178]:
print("Bilan : Les modeles NER ont permis d'identifier des Named Entities dans les donnees. La comparaison des performances entre spaCy et Transformer (CamemBERT) montre les differences en termes de precision et de capacite de detection d'entites. CamemBERT semble mieux adapte aux donnees francophones comme les annotations du bottin")

Bilan : Les modeles NER ont permis d'identifier des Named Entities dans les donnees. La comparaison des performances entre spaCy et Transformer (CamemBERT) montre les differences en termes de precision et de capacite de detection d'entites. CamemBERT semble mieux adapte aux donnees francophones comme les annotations du bottin
