# Bootstrap T-AIA-901

Ce notebook se concentre sur la reconnaissance des entités nommées (NER) dans le contexte des commandes de voyage.

**But :** Identifier les entités comme les lieux de départ dans des phrases

**Etapes :**
- charger les données
- prétraiter des données
- utiliser des modèles pré-entrainés comme spaCy et Transformers pour la NER
- entrainer les modèles avec les données qu'on a
- évaluer et comparer les performances des modèles
- visualiser les résultats

In [None]:
import sys
import os
import pandas as pd
import spacy
import numpy as np
from transformers import pipeline
from spacy.training import Example
from sklearn.metrics import classification_report
import matplotlib.pyplot as plt
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Embedding, Dense, Dropout, Bidirectional
from tensorflow.keras.preprocessing.text import Tokenizer

## Chargement et Prétraitement des Données

**Chargement du Dataset**

Avant de commencer avec l'analyse des entités nommées, nous avons chargé les données depuis un fichier CSV.

**Prétraitement des Données**

Avant d'utiliser les données pour entrainer un modèle, il faut les prétraiter, c'est à dire : la normalisation du texte, la suppression des caractères non désirés et la mise en forme des données

In [102]:
print("Chargement et prétraitement des données...")

def load_data(file_path):
    return pd.read_csv(file_path)

def preprocess_data(df):
    return df

print("Chargement du dataset...")
df = load_data('../data/bottins.csv')

print("Affichage des premières lignes...")
print(df.head())

print("Prétraitement des données...")
preprocessed_df = preprocess_data(df)
print("Prétraitement terminé.")

Chargement et prétraitement des données...
Chargement du dataset...
Affichage des premières lignes...
  <PER>Dufan et Clémendot</PER>, <ACT>pharmaciens</ACT>, <LOC>r. de la 
Chaussée-d&apos;Antin</LOC>, <CARDINAL>34</CARDINAL>. <TITRE>(Elig.)</TITRE> 449  \
0  <PER>Dufant (Victor)</PER>, <ACT>libraire</ACT...                                                                                                      
1  <PER>Dufay</PER>, <ACT>essayeur du commerce</A...                                                                                                      
2  <PER>Dulay</PER>, <ACT>chandronnier</ACT>, <LO...                                                                                                      
3  <PER>Dufay (V.e)</PER>, <ACT>grenetière</ACT>,...                                                                                                      
4  <PER>Dufay</PER>, <ACT>papetier</ACT>, <LOC>r....                                                                      

## Analyse des Entités Nommées avec spaCy

**Chargement du Modèle spaCy**

spaCy est une librairie connue pour NLP. On utilise un modèle pré-entrainé pour reconnaitre/identifier les entités nommées (NER) dans un texte.

**Traitement du Texte avec spaCy**

Une fois que le chargé est chargé, on l'applique au texte pour identifier les entités nommées.

In [105]:
print("Analyse des entités nommées avec spaCy...")

def spacy_inference(text):
    print("Chargement du modèle spaCy...")
    nlp = spacy.load("fr_core_news_sm")
    print("Traitement du texte avec spaCy...")
    doc = nlp(text)
    
    entities = [(ent.text, ent.label_) for ent in doc.ents]
    
    print("Entités reconnues :")
    for entity in entities:
        print(f"Texte : {entity[0]}, Label : {entity[1]}")
    
    return entities

text = "je m'appelle John, je serai votre encadrant à Epitech. je viens de Paris pour aller à Marseille"
print(text)
entities = spacy_inference(text)
print("Entités reconnues par spaCy :")
print(entities)

Analyse des entités nommées avec spaCy...
je m'appelle John, je serai votre encadrant à Epitech. je viens de Paris pour aller à Marseille
Chargement du modèle spaCy...
Traitement du texte avec spaCy...
Entités reconnues :
Texte : John, Label : PER
Texte : Epitech, Label : ORG
Texte : Paris, Label : LOC
Texte : Marseille, Label : LOC
Entités reconnues par spaCy :
[('John', 'PER'), ('Epitech', 'ORG'), ('Paris', 'LOC'), ('Marseille', 'LOC')]


## Analyse des Entités Nommées avec Transformers

**Initialisation du Pipeline NER avec Transformers**

Transformers est une autre librairie qui offre des modèles pré-entrainés basé sur des archietcture modernes comme BERT.

**Traitement du Texte avec Transformers**

Après initialisation, on utilise le modèle Transformers pour identifier les entités nommées dans le texte.

In [110]:
print("Extraction des entités nommées avec Transformers...")

def transformers_inference(text, model_name="dbmdz/bert-large-cased-finetuned-conll03-english"):
    print("Initialisation du pipeline NER avec Transformers...")
    ner_pipeline = pipeline("ner", model=model_name)
    
    print("Traitement du texte avec Transformers...")
    results = ner_pipeline(text)
    
    print("Entités reconnues :")
    for result in results:
        print(f"Texte : {result['word']}, Label : {result['entity']}, Score : {result['score']:.4f}")
    
    return results

text = "My name is John, i am a teacher at Epitech. I travel from Paris to Lyon everyday."
results = transformers_inference(text)
print("Entités reconnues par Transformers :")
for result in results:
    print(result)

Extraction des entités nommées avec Transformers...
Initialisation du pipeline NER avec Transformers...


All PyTorch model weights were used when initializing TFBertForTokenClassification.

All the weights of TFBertForTokenClassification were initialized from the PyTorch model.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFBertForTokenClassification for predictions without further training.


Traitement du texte avec Transformers...
Entités reconnues :
Texte : John, Label : I-PER, Score : 0.9989
Texte : E, Label : I-ORG, Score : 0.9986
Texte : ##pit, Label : I-ORG, Score : 0.9522
Texte : ##ech, Label : I-ORG, Score : 0.9806
Texte : Paris, Label : I-LOC, Score : 0.9984
Texte : Lyon, Label : I-LOC, Score : 0.9938
Entités reconnues par Transformers :
{'entity': 'I-PER', 'score': 0.9989214, 'index': 4, 'word': 'John', 'start': 11, 'end': 15}
{'entity': 'I-ORG', 'score': 0.9986092, 'index': 11, 'word': 'E', 'start': 35, 'end': 36}
{'entity': 'I-ORG', 'score': 0.95216924, 'index': 12, 'word': '##pit', 'start': 36, 'end': 39}
{'entity': 'I-ORG', 'score': 0.98063767, 'index': 13, 'word': '##ech', 'start': 39, 'end': 42}
{'entity': 'I-LOC', 'score': 0.99844754, 'index': 18, 'word': 'Paris', 'start': 58, 'end': 63}
{'entity': 'I-LOC', 'score': 0.99379987, 'index': 20, 'word': 'Lyon', 'start': 67, 'end': 71}


## Entraînement du Modèle NER avec spaCy

**Entraînement du Modèle**

C'est l'étape où le modèle apprend.
L'entrainement du modèle NER implique de l'ajuster sur des données spécifiques pour améliorer sa précision. Le modèle
Le modèle est ajusté sur plusieurs epochs pour apprendre à identifier les entités avec précision.

In [112]:
print("Entraînement du modèle NER avec spaCy...")

def train_model(nlp, TRAIN_DATA):
    ner = nlp.get_pipe("ner")
    
    # Ajout des nouvelles étiquettes
    ner.add_label("DEP")
    ner.add_label("ARR")
    
    optimizer = nlp.resume_training()

    for epoch in range(10):
        losses = {}
        print(f"Epoch {epoch} en cours...")
        
        for text, annotations in TRAIN_DATA:
            doc = nlp.make_doc(text)
            example = Example.from_dict(doc, annotations)            
            nlp.update([example], drop=0.5, losses=losses)
        
        print(f"Epoch {epoch} terminée. Pertes : {losses}")

    print("Entraînement terminé.")
    return nlp

TRAIN_DATA = [
    ("Je veux aller de Paris à Mumbai", {"entities": [(18, 23, "DEP"), (27, 33, "ARR")]}),
]

trained_nlp = train_model(spacy.load("fr_core_news_lg"), TRAIN_DATA)

Entraînement du modèle NER avec spaCy...
Epoch 0 en cours...




Epoch 0 terminée. Pertes : {'tok2vec': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'ner': 0.3276451889504699}
Epoch 1 en cours...
Epoch 1 terminée. Pertes : {'tok2vec': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'ner': 0.02694186654760955}
Epoch 2 en cours...
Epoch 2 terminée. Pertes : {'tok2vec': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'ner': 0.003725719503354874}
Epoch 3 en cours...
Epoch 3 terminée. Pertes : {'tok2vec': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'ner': 0.011250158434187085}
Epoch 4 en cours...
Epoch 4 terminée. Pertes : {'tok2vec': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'ner': 0.004061764701084792}
Epoch 5 en cours...
Epoch 5 terminée. Pertes : {'tok2vec': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'ner': 0.06034897325128763}
Epoch 6 en cours...
Epoch 6 terminée. Pertes : {'tok2vec': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'ner': 0.000513426049533347}
Epoch 7 en cours...
Epoch 7 terminée. Pertes : {'tok2vec': 0.0, 'morphologizer': 0.0, 'parser': 0.0, 'ner': 0.0022

In [114]:
def prepare_rnn_data(df):
    print("Préparation des données pour l'entraînement RNN/LSTM...")
    tokenizer = Tokenizer()
    tokenizer.fit_on_texts(df['text'])
    sequences = tokenizer.texts_to_sequences(df['text'])
    X = pad_sequences(sequences, padding='post')
    
    max_len = X.shape[1]
    y = np.array(df['label'][0])
    
    y = np.pad(y, (0, max_len - len(y)), 'constant') if len(y) < max_len else y[:max_len]
    y = np.reshape(y, (1, max_len))
    y = to_categorical(y, num_classes=len(set(y.flatten())))
    
    print("Données préparées pour RNN/LSTM.")
    return X, y, tokenizer

df_rnn = pd.DataFrame({
    'text': ["Je veux aller de Paris à Monaco"],
    'label': [[0, 0, 0, 1, 0, 0, 0, 1]]  # format one-hot pour simplification
})

X, y, tokenizer = prepare_rnn_data(df_rnn)

def build_rnn_model(vocab_size, num_classes):
    print("Construction du modèle RNN/LSTM...")
    model = Sequential([
        Embedding(input_dim=vocab_size, output_dim=128),
        Bidirectional(LSTM(64, return_sequences=True)),
        Dropout(0.5),
        Dense(num_classes, activation='softmax')
    ])
    model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
    
    print("Modèle compilé.")
    return model

vocab_size = len(tokenizer.word_index) + 1
num_classes = y.shape[2]

model_rnn = build_rnn_model(vocab_size, num_classes)
model_rnn.fit(X, y, epochs=20, batch_size=1)

Préparation des données pour l'entraînement RNN/LSTM...
Données préparées pour RNN/LSTM.
Construction du modèle RNN/LSTM...
Modèle compilé.
Epoch 1/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m11s[0m 11s/step - accuracy: 0.2857 - loss: 0.6994
Epoch 2/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 207ms/step - accuracy: 0.7143 - loss: 0.6874
Epoch 3/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 123ms/step - accuracy: 0.8571 - loss: 0.6717
Epoch 4/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 91ms/step - accuracy: 0.8571 - loss: 0.6652
Epoch 5/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 62ms/step - accuracy: 0.8571 - loss: 0.6516
Epoch 6/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 58ms/step - accuracy: 0.8571 - loss: 0.6419
Epoch 7/20
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 76ms/step - accuracy: 0.8571 - loss: 0.6276
Epoch 8/20
[1m1/1[0m [32m━━━━━━━━━━━

<keras.src.callbacks.history.History at 0x2e51b709550>

## Évaluation des Modèles

**Évaluation des Métriques spaCy**

On évalue les performances du modèle spaCy sur des textes de test pour voir comment il se comporte en termes de précision.

**Évaluation des Métriques RNN**

De même, on évalue le modèle RNN (Modèles de réseaux de neurones utilisés pour traiter les séquences de texte) sur le même texte. 

_Métriques : Mesures de performance du modèle telles que la précision, le rappel, et le score F1, qui indiquent combien le modèle est précis et complet dans ses prédictions._

In [136]:
def evaluate_spacy_model(nlp, test_data):
    y_true, y_pred = [], []

    for text, annotations in test_data:
        print(f"Processing text: {text}")
        print(f"Annotations: {annotations}")

        doc = nlp(text)
        true_labels = [ent[2] for ent in annotations["entities"] if ent[2] in ["DEP", "ARR"]]
        pred_labels = [ent.label_ for ent in doc.ents if ent.label_ in ["DEP", "ARR"]]

        print(f"True labels: {true_labels}")
        print(f"Predicted labels: {pred_labels}")

        if true_labels and pred_labels:
            y_true.extend(true_labels)
            y_pred.extend(pred_labels)

    if not y_true or not y_pred:
        print("No true or predicted labels found.")
        return None

    print("Generating classification report...")
    return classification_report(y_true, y_pred, output_dict=True)

def evaluate_rnn_model(model, tokenizer, test_data):
    y_true = []
    y_pred = []

    label_mapping = {0: 'O', 1: 'DEP', 2: 'ARR'} 

    for sentence, annotations in test_data:
        print(f"Processing sentence: {sentence}")
        print(f"Annotations: {annotations}")

        tokens = tokenizer.texts_to_sequences([sentence])[0]
        tokens = np.array(tokens).reshape(1, -1) 

        print(f"Tokens: {tokens}")

        true_labels = ['O'] * len(tokens[0])

        for start, end, label in annotations["entities"]:
            if start < len(true_labels) and end <= len(true_labels):
                true_labels[start] = label
            else:
                print(f"Avertissement : Indices {start}, {end} hors limites pour la phrase : {sentence}")

        print(f"True labels: {true_labels}")

        pred_labels = model.predict(tokens)
        pred_labels = np.argmax(pred_labels[0], axis=-1)
        pred_labels = [label_mapping[pred] for pred in pred_labels]  

        print(f"Predictions: {pred_labels}")

        if len(pred_labels) != len(true_labels):
            print(f"Erreur : Longueur des prédictions ({len(pred_labels)}) différente des étiquettes vraies ({len(true_labels)}) pour la phrase : {sentence}")
            continue 
            
        y_true.extend(true_labels)
        y_pred.extend(pred_labels)

    print("Generating classification report...")
    return classification_report(y_true, y_pred, output_dict=True, zero_division=0)

test_data = [
    ("Je veux aller de Paris à Marseille", {"entities": [(18, 23, "DEP"), (27, 35, "ARR")]}),
]

print("Evaluating spacy metrics")
spacy_metrics = evaluate_spacy_model(trained_nlp, test_data)
print(spacy_metrics)

print("\n---------------------------------------------------\n")

print("Evaluating rnn metrics")
rnn_metrics = evaluate_rnn_model(model_rnn, tokenizer, test_data)
print(rnn_metrics)

Evaluating spacy metrics
Processing text: Je veux aller de Paris à Marseille
Annotations: {'entities': [(18, 23, 'DEP'), (27, 35, 'ARR')]}
True labels: ['DEP', 'ARR']
Predicted labels: []
No true or predicted labels found.
None

---------------------------------------------------

Evaluating rnn metrics
Processing sentence: Je veux aller de Paris à Marseille
Annotations: {'entities': [(18, 23, 'DEP'), (27, 35, 'ARR')]}
Tokens: [[1 2 3 4 5 6]]
Avertissement : Indices 18, 23 hors limites pour la phrase : Je veux aller de Paris à Marseille
Avertissement : Indices 27, 35 hors limites pour la phrase : Je veux aller de Paris à Marseille
True labels: ['O', 'O', 'O', 'O', 'O', 'O']
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 46ms/step
Predictions: ['O', 'O', 'O', 'O', 'O', 'O']
Generating classification report...
{'O': {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support': 6.0}, 'accuracy': 1.0, 'macro avg': {'precision': 1.0, 'recall': 1.0, 'f1-score': 1.0, 'support':

## Comparaison des Modèles spaCy et RNN

**spaCy vs Transformers**

spaCy : Offre des résultats rapides et précis avec des modèles pré-entraînés. Il est souvent utilisé pour des tâches pratiques en production.
Transformers : Fournit des modèles basés sur des architectures modernes comme BERT, qui peuvent offrir une meilleure compréhension contextuelle mais nécessitent plus de ressources.

**RNN**

RNN : Peut avoir des difficultés avec les longues séquences et les indices hors limites, ce qui peut entraîner des performances inférieures. Les modèles basés sur Transformers sont généralement préférés pour les tâches NER modernes.


**En conclusion**, spaCy et Transformers sont généralement plus performants pour les tâches NER modernes par rapport aux RNN traditionnels. spaCy est excellent pour des applications rapides et efficaces, tandis que Transformers, avec des architectures avancées, offre une compréhension contextuelle plus profonde mais à un coût plus élevé en ressources.

In [140]:
def plot_comparison(spacy_metrics, rnn_metrics):
    # Vérifiez que les résultats ne sont pas None
    if spacy_metrics is None or rnn_metrics is None:
        print("Les métriques ne sont pas disponibles. Assurez-vous que les fonctions d'évaluation ont fonctionné correctement.")
        return

    # Vérifiez que les clés 'DEP' existent dans les métriques
    if 'DEP' not in spacy_metrics or 'DEP' not in rnn_metrics:
        print("Les clés 'DEP' sont manquantes dans les métriques.")
        return

    metrics = ["precision", "recall", "f1-score"]

    spacy_scores = [spacy_metrics["DEP"].get("precision", 0), spacy_metrics["DEP"].get("recall", 0), spacy_metrics["DEP"].get("f1-score", 0)]
    rnn_scores = [rnn_metrics["DEP"].get("precision", 0), rnn_metrics["DEP"].get("recall", 0), rnn_metrics["DEP"].get("f1-score", 0)]

    x = np.arange(len(metrics))
    width = 0.35

    fig, ax = plt.subplots()
    bars1 = ax.bar(x - width/2, spacy_scores, width, label='spaCy')
    bars2 = ax.bar(x + width/2, rnn_scores, width, label='RNN/LSTM')

    ax.set_xlabel('Métriques')
    ax.set_ylabel('Scores')
    ax.set_title('Comparaison des Modèles NER')
    ax.set_xticks(x)
    ax.set_xticklabels(metrics)
    ax.legend()

    plt.show()

spacy_metrics = evaluate_spacy_model(trained_nlp, test_data) 
rnn_metrics = evaluate_rnn_model(model_rnn, tokenizer, test_data) 

plot_comparison(spacy_metrics, rnn_metrics)

Processing text: Je veux aller de Paris à Marseille
Annotations: {'entities': [(18, 23, 'DEP'), (27, 35, 'ARR')]}
True labels: ['DEP', 'ARR']
Predicted labels: []
No true or predicted labels found.
Processing sentence: Je veux aller de Paris à Marseille
Annotations: {'entities': [(18, 23, 'DEP'), (27, 35, 'ARR')]}
Tokens: [[1 2 3 4 5 6]]
Avertissement : Indices 18, 23 hors limites pour la phrase : Je veux aller de Paris à Marseille
Avertissement : Indices 27, 35 hors limites pour la phrase : Je veux aller de Paris à Marseille
True labels: ['O', 'O', 'O', 'O', 'O', 'O']
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 53ms/step
Predictions: ['O', 'O', 'O', 'O', 'O', 'O']
Generating classification report...
Les métriques ne sont pas disponibles. Assurez-vous que les fonctions d'évaluation ont fonctionné correctement.
