# ** Notebook: Named Entity Recognition in Wolof**

La reconnaissance des entités nommées (NER) est une tâche en traitement naturel du langage qui consiste à identifier les mots importants dans un texte. Il peut s'agir des mots correspondant à des personnes, des villes, des évènements, etc. Ce sont ces mots qu'on appelle des entités nommées.

Dans ce notebook, l'objectif est de créer un modèle capable de reconnaître de telles entités dans du texte en wolof.

Notebook réalisé par [Alimoudine IDRISSOU](https://www.linkedin.com/in/ialim/), de l'équipe BylyAI

Dans la reconnaissance d'entité nommées , il existe plusieurs modèles de base apprécier dans la tache du ner tels que lstm, bert, xlm roberta, xlmr , spacy, flair.Mais pour les langues africains la performances de ses modèles reste minime car ces modèles sont pas préentrainés pour les langues africaines.
Nous avons expérimentés la majorité de ces modèles ...
* **LSTM**
L'expérimentation du modèle lstm bidirectionnel nous à donné une très bonne performe (72% lorsqu'il s'agit de l'évaluation sur le val set. Mais une performance minable  sur le test set (39% pour la moyenne) .Ce qui montre que ce modèle nécessite encore plus de ressources d'entrainements pour avoir une bonne performance.
* **bert**
 Le modèle bert étant pré-entrainer sur de plus large data set nous à donner un score f1 avoisinnant 63%. Ce qui est pluot mieux avec des epocs maximales de 20.Ce qui montre qu'on aurait plus de performance avec plus d'epocs ...
* **roberta**
Le modèle roberta base nous à donner un score de plutot 64-65% qui est plus impressionnant avec seuleument 10 epocs.
* **xlmroberta**
Le modèle xlmr était pour le moment le modèle plus performant nous ayant permis d'avoir le plus large score de 67% avec seuleument 10 epocs.Ce modèle étant un modèle multilingue nous avions donc éssayer de tester ce modèle sur des ensembles de langues avec la langue wolof puis choisir les plus performant set de langue avec la langue wolof.Nous avions remarqués que le swa data set et le wol data sont de beaux paires  car faisant partir  de la meme  famille de langue mais aussi au vue des resulats obtenus.Il en ait de meme pour le yoruba.
Le modèle xlmroberta est un très bon choix par rapport aux autres modèles.
* **afroxlmr-large-ner-masakhaner-1.0_2.0.**
Ce modèle est celui qui jusque là nous à donner le plus bon résulat.Contrairement aux autres modèles, ce modèle à la particularité d'etre entrainer sur les langues africaines.Nous l'avons expérimentés avec des features et notre score semble mieux que celui obtenue avec le modèle xlmr.Dans ce notebook nous avons fine tuner ce modèle avec un F1 score est de 84% en moyenne.

# Nous installons ici les packages et dépendances nécessaires pour notre environnement

In [1]:
# # Install packages
!pip install seqeval
!pip install jedi
!pip install datasets
!pip install -U transformers
!pip install -U accelerate
!pip3 install pandas python_crfsuite summarytools sklearn_crfsuite unidecode


Collecting seqeval
  Downloading seqeval-1.2.2.tar.gz (43 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m43.6/43.6 kB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25ldone
Building wheels for collected packages: seqeval
  Building wheel for seqeval (setup.py) ... [?25ldone
[?25h  Created wheel for seqeval: filename=seqeval-1.2.2-py3-none-any.whl size=16165 sha256=34fe17e9ea0f913f5d8c1bae5ce731c52d1204ac04dacc530de1c8e7f618ac3b
  Stored in directory: /root/.cache/pip/wheels/1a/67/4a/ad4082dd7dfc30f2abfe4d80a2ed5926a506eb8a972b4767fa
Successfully built seqeval
Installing collected packages: seqeval
Successfully installed seqeval-1.2.2
Collecting transformers
  Downloading transformers-4.34.1-py3-none-any.whl (7.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.7/7.7 MB[0m [31m46.8 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting tokenizers<0.15,>=0.14 (from transformers)
  Downloading token

In [2]:
# Import libraries
import pandas as pd
import numpy as np
import tensorflow as tf
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score





In [3]:
# from google.colab import drive
# drive.mount('/content/drive')

In [4]:

def read_and_parse(counter=0, filepath ="/kaggle/input/nerafrican/wol/train.txt"):
  dataset = []
  with open(filepath, encoding="utf-8") as f:
    for line in f:
      temp = []
      line = line.strip()
      if len(line) < 2  or line == "\n":
        counter +=1
      else:
        sentence_id = counter
        temp.append(sentence_id)
        temp += line.split(" ")
        dataset.append(temp)
  df = pd.DataFrame(dataset, columns =['sentence_id', 'words', 'labels'], dtype = str)
  return df, counter


In [5]:
train_data, count = read_and_parse(0, "/kaggle/input/nerafrican/wol/train.txt")
val_data, count = read_and_parse(count, "/kaggle/input/nerafrican/wol/dev.txt")




In [6]:
# Tags in the dataset
original_tags = list(train_data['labels'].value_counts().keys())
num_tags = len(original_tags)

print("La liste des tag dans notre jeu de données train:", original_tags)

print("\nLe nombre de tag dans notre jeu de données:", len(original_tags))

La liste des tag dans notre jeu de données train: ['O', 'B-LOC', 'B-PER', 'I-PER', 'B-ORG', 'I-DATE', 'B-DATE', 'I-ORG', 'I-LOC']

Le nombre de tag dans notre jeu de données: 9


In [7]:
# Aggregate lists of words into sentences
train_sentences, train_tags = [], []
sent, labels = "", []
for index, row in train_data.iterrows():
    sent += str(row.words) + " "
    labels.append(str(row.labels))
    if row.words in [".", "?", "!"]:
        if len(labels) > 1:
            train_sentences.append(sent)
            train_tags.append(labels)
        sent, labels = "", []

val_sentences, val_tags = [], []
sent, labels = "", []
for index, row in val_data.iterrows():
    sent += str(row.words) + " "
    labels.append(str(row.labels))
    if row.words in [".", "?", "!"]:
        if len(labels) > 1:
            val_sentences.append(sent)
            val_tags.append(labels)
        sent, labels = "", []



In [8]:
# some stats
print("Le nombre total de phrases dans le train dataset est {:,}:".format(len(train_sentences)))
print("Le nombre total de mots dans le train dataset est {:,}:".format(train_data.shape[0]))
print("Le nombre total de phrases dans le val dataset est {:,}:".format(len(val_sentences)))
print("Le nombre total de mots dans le val dataset est {:,}:".format(val_data.shape[0]))


Le nombre total de phrases dans le train dataset est 1,801:
Le nombre total de mots dans le train dataset est 36,805:
Le nombre total de phrases dans le val dataset est 259:
Le nombre total de mots dans le val dataset est 4,384:


# Statistiques Générales sur les données de train et de val

In [9]:
#statistics on the dataset
from summarytools import dfSummary, tabset


# Assuming you have dataframes like pd_train_data, pd_augment_ner_iob_data, and pd_dev_data

# Create summaries for your dataframes
train_summary = dfSummary(train_data)
val_summary = dfSummary(val_data)


# Render the summaries to HTML
train_html = train_summary.to_html()
val_html = val_summary.to_html()


# Create a tabset
tabset({
    "train_data": train_html,
    "val_data": val_html,

})


No,Variable,Stats / Values,Freqs / (% of Valid),Graph,Missing
1,sentence_id [object],1. 1579 2. 1847 3. 1133 4. 654 5. 1796 6. 1185 7. 623 8. 1484 9. 1742 10. 609 11. other,"83 (0.2%) 81 (0.2%) 74 (0.2%) 74 (0.2%) 72 (0.2%) 72 (0.2%) 71 (0.2%) 70 (0.2%) 65 (0.2%) 65 (0.2%) 36,078 (98.0%)",,0 (0.0%)
2,words [object],"1. , 2. . 3. ci 4. - 5. a 6. yi 7. ko 8. ak 9. bi 10. la 11. other","2,810 (7.6%) 1,604 (4.4%) 1,141 (3.1%) 688 (1.9%) 502 (1.4%) 480 (1.3%) 470 (1.3%) 455 (1.2%) 445 (1.2%) 361 (1.0%) 27,849 (75.7%)",,0 (0.0%)
3,labels [object],1. O 2. B-LOC 3. B-PER 4. I-PER 5. B-ORG 6. I-DATE 7. B-DATE 8. I-ORG 9. I-LOC,"34,648 (94.1%) 566 (1.5%) 522 (1.4%) 440 (1.2%) 179 (0.5%) 170 (0.5%) 130 (0.4%) 129 (0.4%) 21 (0.1%)",,0 (0.0%)

No,Variable,Stats / Values,Freqs / (% of Valid),Graph,Missing
1,sentence_id [object],1. 1934 2. 1885 3. 2006 4. 1983 5. 1956 6. 2054 7. 2136 8. 2106 9. 1906 10. 1874 11. other,"52 (1.2%) 47 (1.1%) 46 (1.0%) 45 (1.0%) 39 (0.9%) 38 (0.9%) 37 (0.8%) 36 (0.8%) 36 (0.8%) 35 (0.8%) 3,973 (90.6%)",,0 (0.0%)
2,words [object],"1. , 2. . 3. ci 4. a 5. yi 6. ak 7. ko 8. - 9. la 10. bi 11. other","339 (7.7%) 239 (5.5%) 131 (3.0%) 65 (1.5%) 62 (1.4%) 58 (1.3%) 57 (1.3%) 54 (1.2%) 48 (1.1%) 38 (0.9%) 3,293 (75.1%)",,0 (0.0%)
3,labels [object],1. O 2. B-LOC 3. B-PER 4. I-PER 5. B-ORG 6. I-ORG 7. B-DATE 8. I-DATE 9. I-LOC,"4,231 (96.5%) 59 (1.3%) 33 (0.8%) 28 (0.6%) 11 (0.3%) 6 (0.1%) 6 (0.1%) 5 (0.1%) 5 (0.1%)",,0 (0.0%)


Nous initialisons le modèle de base

In [10]:
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("masakhane/afroxlmr-large-ner-masakhaner-1.0_2.0")
model = AutoModelForTokenClassification.from_pretrained("masakhane/afroxlmr-large-ner-masakhaner-1.0_2.0")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)


Downloading (…)okenizer_config.json:   0%|          | 0.00/404 [00:00<?, ?B/s]

Downloading (…)tencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/1.21k [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

Cette fonction permet de parcourir un string retourner un tableau contenant le début (index) de chaque mot dans le string.
En effet  le pipeline du  modèle "masakhane/afroxlmr-large-ner-masakhaner-1.0_2.0" est basé sur une compréhension sur le début de chaque mots.Ce qui nous amène à prendre en compte ce format pour utiliser ce pipeline de facon efficace.

In [11]:
import re

def get_word_starts(sentence):
    words = re.findall(r'\S+', sentence)
    word_starts = {}
    start = 0

    for word in words:
        word_starts[start] = word
        start += len(word) + 1

    return word_starts

Cette fonction comme son nom l'indique ne fait qu'attribuer une entitée à chaque mots en fonction des performances obtenues sur la pipeline de la prédiction du token passer en entrer.

In [12]:
def assign_entities_to_words(word_dict, entity_list):
    entities = {}

    for word_start, word in word_dict.items():
        entities[word] = "O"

        for entity in entity_list:
            if entity['start'] == word_start:
                entities[word] = entity['entity']
                break

    return entities

Inférence de la prédiction de notre algorithme sur une phrase

In [13]:
assign_entities_to_words(get_word_starts("Ali dem Bu nu delloo woon waat yi farañse àbb seen i woroom , lu farañsey dese ciy waat ? "),nlp("Ali ak dem Dakar ak  Bu nu delloo woon waat yi farañse àbb seen i woroom , lu farañsey dese ciy waat ? "))

{'Ali': 'B-PER',
 'dem': 'O',
 'Bu': 'O',
 'nu': 'B-LOC',
 'delloo': 'O',
 'woon': 'B-PER',
 'waat': 'O',
 'yi': 'O',
 'farañse': 'O',
 'àbb': 'O',
 'seen': 'O',
 'i': 'O',
 'woroom': 'O',
 ',': 'O',
 'lu': 'O',
 'farañsey': 'O',
 'dese': 'O',
 'ciy': 'O',
 '?': 'O'}

Créaction du test sentences

In [14]:
# Aggregate lists of words into sentences test set

test = pd.read_csv("/kaggle/input/nerafrican/wol/test.txt", sep=" ", header=None)
test.columns = ["Word", "Tag"]
test = test.drop("Tag", axis=1)
test_sentences = []
sent = ""
for index, row in test.iterrows():
    sent += str(row.Word) + " "
    if row.Word in [".", "?", "!"]:
        test_sentences.append(sent)
        sent = ""

Nous utilisons ici notre algorithme de base pour faire la prédiction sur le test sentence Listes de prédiction sur le test sentence

In [15]:
# List to store the predictions for all sentences
all_predictions = []


# Iterate through the list of sentences and make predictions
for sentence in test_sentences:

    predictions = assign_entities_to_words(get_word_starts(sentence),nlp(sentence))

    all_predictions.append(predictions)

Voir si il n'y a pas de prédiction manquante

In [16]:
len(all_predictions)

462

In [17]:
len(test_sentences)

462

Extraction de la prédiction pour chaque mot dans un dataframe

In [18]:
word_label_pairs = []

for sentence, labels in zip(test_sentences, all_predictions):
    words = sentence.split()

    for word in words:
        label = labels.get(word, 0)  # Obtenez le label du dictionnaire ou 0 par défaut
        word_label_pairs.append((word, label))

# Créez un DataFrame à partir de la liste de tuples
df = pd.DataFrame(word_label_pairs, columns=["word", "label"])

Formatage au format d'envoie du fichier de submission

In [19]:
df

Unnamed: 0,word,label
0,Bu,O
1,nu,O
2,delloo,O
3,woon,O
4,waat,O
...,...,...
11677,faatu,O
11678,ngir,O
11679,mu,O
11680,folliku,O


In [20]:
df["id"]    = range(len(df))
df = df.drop(columns='word')


In [21]:
df = df[['id', 'label']]

In [22]:
df.head()

Unnamed: 0,id,label
0,0,O
1,1,O
2,2,O
3,3,O
4,4,O


Nous obtenons ainsi un premier fichier de submission avec  notre modèle de base et notre algorithme de base

In [23]:
df.to_csv('submission.csv', index=False)
!wc -l submission.csv

11683 submission.csv


In [24]:
from IPython.display import FileLink

FileLink(r'submission.csv')

Génerer un téléchagement de fichier de submission automatique sur google colab pour la prédiction du modèle de base sur l'ensemble test

In [25]:
# from google.colab import files
# files.download("submission.csv")

Les performances de ce modèle et de notre algorithme de détection d'entités peuvent etre améliorer avec un fine tuning supplémentaire est notre hypothèse suivante

Nous construisons ici notre propre modèle

Model Building

Nous construisons ici notre modèle personnalisé.

---



In [26]:
# Create the aggregated dataframes
agg_train = pd.DataFrame(zip(train_sentences, train_tags), columns=["Sentence", "labels"])
agg_val = pd.DataFrame(zip(val_sentences, val_tags), columns=["Sentence", "labels"])
# agg_test = pd.DataFrame(zip(val_sentences, val_tags), columns=["Sentence", "labels"])



In [27]:
# Convert sentences and tags into list
train_sentences_list = agg_train['Sentence'].tolist()
train_tags_list = agg_train['labels'].tolist()

val_sentences_list = agg_val['Sentence'].tolist()
val_tags_list = agg_val['labels'].tolist()

In [28]:
# Tokenize both training and validation data
train_encodings = tokenizer(train_sentences, truncation=True, padding="max_length", is_split_into_words=True)
val_encodings = tokenizer(val_sentences, truncation=True, padding="max_length", is_split_into_words=True)

Mapping de tag et id

In [29]:
tag_to_id = {
    "O": 0,
    "B-PER": 1,
    "I-PER": 2,
    "B-ORG": 3,
    "I-ORG": 4,
    "B-LOC": 5,
    "I-LOC": 6,
    "B-DATE": 7,
"I-DATE": 8
}


Maping de id et tag

In [30]:
id_to_tag = {v: k for k, v in tag_to_id.items()}

In [31]:
id_to_tag

{0: 'O',
 1: 'B-PER',
 2: 'I-PER',
 3: 'B-ORG',
 4: 'I-ORG',
 5: 'B-LOC',
 6: 'I-LOC',
 7: 'B-DATE',
 8: 'I-DATE'}

Creaction de data frame pour le train et le val

In [32]:
# Initialize a DataFrame
train_data_set = pd.DataFrame(agg_train)

# Tokenize the sentences
train_data_set['tokens'] = train_data_set['Sentence'].apply(lambda x: x.split())
train_data_set['tokens'] = train_data_set['tokens']

# Extract the NER tags and create a sequence of NER tag IDs
train_data_set['ner_tags'] = train_data_set['labels'].apply(lambda tags: [tag_to_id[tag] for tag in tags])
train_data_set['ner_tags_str'] =train_data_set['labels']

# Drop the 'Sentence' and 'Tags' columns
train_data_set =train_data_set.drop(columns=['Sentence', 'labels'])

# Reset the index to create an 'id' column
train_data_set = train_data_set.reset_index()
train_data_set = train_data_set.rename(columns={'index': 'id'})

In [33]:
# Initialize a DataFrame
val_data_set = pd.DataFrame(agg_val)

val_data_set['tokens'] = val_data_set['Sentence'].apply(lambda x: x.split())
val_data_set['tokens'] = val_data_set['tokens']

val_data_set['ner_tags'] = val_data_set['labels'].apply(lambda tags: [tag_to_id[tag] for tag in tags])
val_data_set['ner_tags_str'] = val_data_set['labels']


val_data_set =val_data_set.drop(columns=['Sentence', 'labels'])

val_data_set = val_data_set.reset_index()
val_data_set = val_data_set.rename(columns={'index': 'id'})


In [34]:
train_data_set


Unnamed: 0,id,tokens,ner_tags,ner_tags_str
0,0,"[SAFIYETU, BÉEY, Céy, Koronaa, !]","[1, 2, 0, 0, 0]","[B-PER, I-PER, O, O, O]"
1,1,"[Doomu, -, jàngoro, bii, yëngal, na, jamono, .]","[0, 0, 0, 0, 0, 0, 0, 0]","[O, O, O, O, O, O, O, O]"
2,2,"[Ku, mënoon, a, gëm, lu, ndawe, nii, dina, noo...","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]","[O, O, O, O, O, O, O, O, O, O, O, O]"
3,3,"[Tax, na, ba, kenn, ñemeetul, a, .]","[0, 0, 0, 0, 0, 0, 0]","[O, O, O, O, O, O, O]"
4,4,"[SÉEX, TIIJAAN, JÉEY, (, Xeltukat, /, Enda, -,...","[1, 2, 2, 0, 0, 0, 3, 0, 3, 0, 0, 0, 1, 2, 2, ...","[B-PER, I-PER, I-PER, O, O, O, B-ORG, O, B-ORG..."
...,...,...,...,...
1796,1796,"[Ndax, yow, jàpp, nga, ni, bor, bi, dañ, koo, ...","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]","[O, O, O, O, O, O, O, O, O, O, O, O, O]"
1797,1797,"[Askani, Afrig, ,, ëllëg, ,, ëllëgu, booloo, l...","[0, 5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...","[O, B-LOC, O, O, O, O, O, O, O, O, O, O, O, O,..."
1798,1798,"[Ñàkk, naa, nit, ku, ma, bëggoon, bu, baax, ,,...","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...","[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ..."
1799,1799,"[Jàpp, naa, ni, waxu, ku, mer, la, ;, xéy, -, ...","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...","[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ..."


In [35]:
val_data_set


Unnamed: 0,id,tokens,ner_tags,ner_tags_str
0,0,"[Ndekete, ,, da, cee, am, ñu, xër, ci, diine, ...","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...","[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ..."
1,1,"[Gisaanekat, yi, tamit, kenn, demul, ñu, des, .]","[0, 0, 0, 0, 0, 0, 0, 0]","[O, O, O, O, O, O, O, O]"
2,2,"[Ñii, a, ngi, naan, koronaawiris, bi, amul, ,,...","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]","[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O]"
3,3,"[Moo, tax, ,, bi, leen, jawriñ, ji, kalaamee, ...","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, ...","[O, O, O, O, O, O, O, O, O, O, O, O, O, B-PER,..."
4,4,"[Waaye, ,, bi, leen, DIC, wooloo, ,, ku, nekk,...","[0, 0, 0, 0, 3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]","[O, O, O, O, B-ORG, O, O, O, O, O, O, O, O, O, O]"
...,...,...,...,...
254,254,"[Yenn, làkki, islaaf, ak, yu, indoy, amerig, :...","[0, 0, 0, 0, 0, 0, 5, 0, 0, 0, 0, 0, 0, 0, 0, ...","[O, O, O, O, O, O, B-LOC, O, O, O, O, O, O, O,..."
255,255,"[Wolof, :, àbb, na, ko, ay, waat, yu, bari, li...","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]","[O, O, O, O, O, O, O, O, O, O, O, O, O, O]"
256,256,"[🤩, Niral, :, laptot, :, lapptoo, ,, banane, :...","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...","[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ..."
257,257,"[), 😌, Ci, gàttal, ,, wenn, làkk, setul, ci, à...","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...","[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ..."


Créaction de dictionnaire de donnée pour le train et le val conforme au format CoNLL

In [36]:
from datasets import Dataset, DatasetDict

train_dataset = Dataset.from_dict(train_data_set)  # Convert  training data to a Dataset
val_dataset = Dataset.from_dict(val_data_set)      # Convert  validation data to a Dataset

# Create a DatasetDict
data_dict = DatasetDict({'train': train_dataset, 'val': val_dataset})



In [37]:
data_dict

DatasetDict({
    train: Dataset({
        features: ['id', 'tokens', 'ner_tags', 'ner_tags_str'],
        num_rows: 1801
    })
    val: Dataset({
        features: ['id', 'tokens', 'ner_tags', 'ner_tags_str'],
        num_rows: 259
    })
})



# 1.   Tokenization



In [38]:
tokenizer.is_fast

True

In [39]:
train_data_dict = train_data_set.to_dict(orient='records')


In [40]:
val_data_dict = val_data_set.to_dict(orient='records')


In [41]:
train_data_set['tokens'][0]

['SAFIYETU', 'BÉEY', 'Céy', 'Koronaa', '!']

In [42]:
print(tokenizer("ali dem Dakar").tokens())

['<s>', '▁ali', '▁dem', '▁Da', 'kar', '</s>']


In [43]:
inputs = train_data_set['tokens'][0]
inputs = tokenizer( train_data_set['tokens'][0], is_split_into_words=True)

print(inputs.tokens())

['<s>', '▁', 'SAF', 'IYE', 'TU', '▁B', 'É', 'EY', '▁Cé', 'y', '▁Koro', 'na', 'a', '▁!', '</s>']


In [44]:
print(train_data_set['tokens'][0])
print(train_data_set['ner_tags_str'][0])

['SAFIYETU', 'BÉEY', 'Céy', 'Koronaa', '!']
['B-PER', 'I-PER', 'O', 'O', 'O']


In [45]:
train_data_set['tokens'][0]

['SAFIYETU', 'BÉEY', 'Céy', 'Koronaa', '!']

In [46]:
inputs.word_ids()


[None, 0, 0, 0, 0, 1, 1, 1, 2, 2, 3, 3, 3, 4, None]

In [47]:
def align_labels_with_tokens(labels, word_ids):
    aligned_labels = []
    for word_id in word_ids:
        if word_id is None:
            aligned_labels.append(-100)
        else:
            aligned_labels.append(labels[word_id])
    return aligned_labels

In [48]:
train_data_dict[0]

{'id': 0,
 'tokens': ['SAFIYETU', 'BÉEY', 'Céy', 'Koronaa', '!'],
 'ner_tags': [1, 2, 0, 0, 0],
 'ner_tags_str': ['B-PER', 'I-PER', 'O', 'O', 'O']}

In [49]:
labels = [tag_to_id[tag] for tag in train_data_dict[0]['ner_tags_str']]
word_ids = inputs.word_ids()
print(labels, train_data_dict[0]['ner_tags'])

[1, 2, 0, 0, 0] [1, 2, 0, 0, 0]


In [50]:
align_labels_with_tokens(labels, word_ids)


[-100, 1, 1, 1, 1, 2, 2, 2, 0, 0, 0, 0, 0, 0, -100]

In [51]:
def tokenize_and_align_labels(examples):
  tokenized_inputs = tokenizer(examples['tokens'], truncation=True, is_split_into_words=True)

  all_labels = examples['ner_tags']

  new_labels = []
  for i, labels in enumerate(all_labels):
    word_ids = tokenized_inputs.word_ids(i)
    new_labels.append(align_labels_with_tokens(labels, word_ids))

  tokenized_inputs['labels'] = new_labels

  return tokenized_inputs

Tokenization for all datasets

In [52]:
tokenized_datasets = data_dict.map(tokenize_and_align_labels, batched=True,remove_columns=data_dict['train'].column_names )


  0%|          | 0/2 [00:00<?, ?ba/s]

  0%|          | 0/1 [00:00<?, ?ba/s]

# Data Collation and Metrics

In [53]:
tokenized_datasets

DatasetDict({
    train: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 1801
    })
    val: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 259
    })
})

In [54]:
from transformers import DataCollatorForTokenClassification

data_collator = DataCollatorForTokenClassification(tokenizer=tokenizer)

In [55]:
batch = data_collator([tokenized_datasets['train'][i] for i in range(2)])
batch

You're using a XLMRobertaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


{'input_ids': tensor([[     0,      6, 176846, 212129,  19454,    335,   6642,  53253,  53285,
             53, 105622,     76,     11,    711,      2,      1,      1,      1,
              1,      1],
        [     0,    984,    306,     34,     20,   1647,   1298,    449,  12393,
            333,     14,    113,   2279,   2870,     24,     79,  64176,      6,
              5,      2]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0],
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]), 'labels': tensor([[-100,    1,    1,    1,    1,    2,    2,    2,    0,    0,    0,    0,
            0,    0, -100, -100, -100, -100, -100, -100],
        [-100,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
            0,    0,    0,    0,    0,    0,    0, -100]])}

In [56]:
!pip install seqeval
!pip install evaluate

import evaluate
metric = evaluate.load('seqeval')

Collecting evaluate
  Downloading evaluate-0.4.1-py3-none-any.whl (84 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m84.1/84.1 kB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: evaluate
Successfully installed evaluate-0.4.1


Downloading builder script:   0%|          | 0.00/6.34k [00:00<?, ?B/s]

In [57]:
data_dict['train'].features

{'id': Value(dtype='int64', id=None),
 'tokens': Sequence(feature=Value(dtype='string', id=None), length=-1, id=None),
 'ner_tags': Sequence(feature=Value(dtype='int64', id=None), length=-1, id=None),
 'ner_tags_str': Sequence(feature=Value(dtype='string', id=None), length=-1, id=None)}

In [58]:
label_names = [
    'O', 'B-PER', 'I-PER', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC', 'B-DATE', 'I-DATE'
]

In [59]:
label_names

['O', 'B-PER', 'I-PER', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC', 'B-DATE', 'I-DATE']

In [60]:
labels=train_data_set['ner_tags'][0]
labels = [label_names[i] for i in labels]
labels


['B-PER', 'I-PER', 'O', 'O', 'O']

In [61]:
predictions = labels.copy()
#Nous changeons volontairement la valeur du résultat attendu pour voir son impacte sur nos metric ./Quand on efface l'error creer notre metric est performant . Ce qui prouve que notre métric est pret.
predictions[2] = "B-PER"


Test de métric sur un simple exemple.Cela garentit que notre métrique est prèt pour utilisation car nous avions modifier une valeur juste et son impacte est réflécter avec un pourcentage équivalent

In [62]:
metric.compute(predictions=[predictions], references=[labels])


{'PER': {'precision': 0.5,
  'recall': 1.0,
  'f1': 0.6666666666666666,
  'number': 1},
 'overall_precision': 0.5,
 'overall_recall': 1.0,
 'overall_f1': 0.6666666666666666,
 'overall_accuracy': 0.8}

# Mise en place de metric pour tous notre data set

In [63]:
import numpy as np

def compute_metrics(eval_preds):
  logits, labels = eval_preds

  predictions = np.argmax(logits, axis=-1)

  true_labels = [[label_names[l] for l in label if l!=-100] for label in labels]

  true_predictions = [[label_names[p] for p,l in zip(prediction, label) if l!=-100]
                      for prediction, label in zip(predictions, labels)]

  all_metrics = metric.compute(predictions=true_predictions, references=true_labels)

  return {"precision": all_metrics['overall_precision'],
          "recall": all_metrics['overall_recall'],
          "f1": all_metrics['overall_f1'],
          "accuracy": all_metrics['overall_accuracy']}

In [64]:
id_to_tag

{0: 'O',
 1: 'B-PER',
 2: 'I-PER',
 3: 'B-ORG',
 4: 'I-ORG',
 5: 'B-LOC',
 6: 'I-LOC',
 7: 'B-DATE',
 8: 'I-DATE'}

In [65]:
tag_to_id

{'O': 0,
 'B-PER': 1,
 'I-PER': 2,
 'B-ORG': 3,
 'I-ORG': 4,
 'B-LOC': 5,
 'I-LOC': 6,
 'B-DATE': 7,
 'I-DATE': 8}

In [66]:
model.config.num_labels


9

Avec 1 epoc la performance de notre modèle est plutot mieux

Pour des raisions d'espaces nous prenons juste 2 epocs . Mais sur colab on va jusqu'à 5 et plus avec un temps de 10 min maxi pour 5 epocs.

In [67]:
from transformers import TrainingArguments

args = TrainingArguments(    output_dir = "bylyai",
                         evaluation_strategy = "epoch",
                         save_strategy="epoch",
                         learning_rate = 2e-5,
                         num_train_epochs=2,
                         weight_decay=0.01)

# Définission des paramètres

In [68]:
from transformers import Trainer
trainer = Trainer(model=model,
                  args=args,
                  train_dataset = tokenized_datasets['train'],
                  eval_dataset = tokenized_datasets['val'],
                  data_collator=data_collator,
                  compute_metrics=compute_metrics,
                  tokenizer=tokenizer)



# Entrainement du modèle

Sur kaggle le trainer.train() indique un code sur wandb pour le ampper sur hugging face dans le but de suivre notre entrainement. Inscrivez vous juste wandb pour avoir un code.L'avantage est que le code permet de suivre l'entrainement sur un graphique sur huggingface.Sur colab cela n'exige pas de code .Donc toute adaptation des routes (path des fichiers data) sur colab n'exige aucune inscription lors de la compilation du code.

In [69]:
trainer.train()

[34m[1mwandb[0m: Logging into wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)
[34m[1mwandb[0m: You can find your API key in your browser here: https://wandb.ai/authorize
[34m[1mwandb[0m: Paste an API key from your profile and hit enter, or press ctrl+c to quit:

  ········································


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc




Epoch,Training Loss,Validation Loss,Precision,Recall,F1,Accuracy
1,No log,0.083613,0.883333,0.854839,0.868852,0.991078
2,No log,0.085181,0.844,0.850806,0.84739,0.989294




TrainOutput(global_step=226, training_loss=0.059744210369819035, metrics={'train_runtime': 1105.5674, 'train_samples_per_second': 3.258, 'train_steps_per_second': 0.204, 'total_flos': 572448986011884.0, 'train_loss': 0.059744210369819035, 'epoch': 2.0})

In [70]:
# trainer.save_model("bylyai")

In [71]:
from transformers import pipeline

checkpoint = "/kaggle/working/bylyai/checkpoint-226"

In [72]:
token_classifier = pipeline(
    "token-classification", model=checkpoint, aggregation_strategy="simple"
)


Notre modèle entrainer prédire très bien les entités dans une phrase. Mais l'étiquetage de ces derniers n'est pas cohérent.La cohérence est retrouvé en lisant comme ceci: x->y signifie que pour x prédire, l'étiquetage réel est y. Voici la bonne étiquettage de notre modèle d'après nos tests:

  

*    Date->Personne
*   LOC->Date
*   ORG->LOC
*   PER->ORG





Une correction de l'alignement des tokens peut aussi résoudre la permuttation lors de notre tokenization mais nous le gérons avec une fonction custom

Dans ce exemple, la séquence Li est identifié comme une ORG d'après notre algo cela veut dire LOC .Meme logique pour les autres

In [73]:
token_classifier("Liwisiyaan, Niiw Orleyoon, mel na ne tawat ji nit ñu ñuul ñi la singali nde ñoom 33 % mooy seen ub lim waaye 70 % ca ña faatu ay nit ñu ñuul la ñu.")


[{'entity_group': 'ORG',
  'score': 0.98591864,
  'word': 'Li',
  'start': 0,
  'end': 2},
 {'entity_group': 'ORG',
  'score': 0.96464336,
  'word': 'wis',
  'start': 2,
  'end': 5},
 {'entity_group': 'ORG',
  'score': 0.5317498,
  'word': 'iyaan',
  'start': 5,
  'end': 10},
 {'entity_group': 'DATE',
  'score': 0.9948224,
  'word': 'Nii',
  'start': 12,
  'end': 15},
 {'entity_group': 'DATE',
  'score': 0.9987314,
  'word': 'w Orleyoon',
  'start': 15,
  'end': 25}]

In [74]:
import re

def assign_entities_IOB(phrase, entities):
    # Diviser la phrase en mots en utilisant des espaces comme séparateurs et supprimer les espaces autour de chaque mot
    mots = [mot.strip() for mot in phrase.split()]

    resultat = []

    for mot in mots:
        if len(mot) == 0:
            continue

        entity = "O"

        # Vérifier si le mot est alphanumérique
        if mot.isalnum():
            for entite in entities:
                start_index = phrase.find(mot)
                end_index = start_index + len(mot) - 1

                if entite['start'] <= start_index <= entite['end'] or entite['start'] <= end_index <= entite['end']:
                    if start_index == entite['start']:
                        entity = "B-" + entite['entity_group']
                    else:
                        entity = "I-" + entite['entity_group']
                    break

        resultat.append((entity, mot))

    return transform_tags(resultat)


def transform_tags(tag_list):
    result = []
    prev_tag = None

    for tag, word in tag_list:
        if prev_tag == 'O' and tag.startswith('I-'):
            tag = 'B' + tag[1:]
        result.append((tag, word))
        prev_tag = tag

    return result


In [75]:
def exchange_labels(dataframe):
    # Créer un dictionnaire de correspondance pour les échanges de labels
    label_mapping = {
        'B-DATE': 'B-PER',
        'B-LOC': 'B-DATE',
        'B-ORG': 'B-LOC',
        'B-PER': 'B-ORG',
        'I-DATE': 'I-PER',
        'I-LOC': 'I-DATE',
        'I-ORG': 'I-LOC',
        'I-PER': 'I-ORG'
    }

    # Appliquer le remplacement en utilisant le dictionnaire de correspondance
    dataframe['label'] = dataframe['label'].map(label_mapping).fillna(dataframe['label'])

    return dataframe

In [78]:
# List to store the predictions for all sentences
all_predictions_new = pd.DataFrame(columns=['label', 'Word'])

# Iterate through the list of sentences and make predictions
for sentence in test_sentences:

    predictions =exchange_labels(pd.DataFrame(assign_entities_IOB(sentence,token_classifier(sentence)), columns=['label', 'Word']))

    all_predictions_new = pd.concat([all_predictions_new, predictions], ignore_index=True)


In [79]:
all_predictions_new

Unnamed: 0,label,Word
0,O,Bu
1,O,nu
2,O,delloo
3,O,woon
4,O,waat
...,...,...
11677,O,faatu
11678,O,ngir
11679,O,mu
11680,O,folliku


In [80]:
all_predictions_new["id"]    = range(len(df))
all_predictions_new = all_predictions_new.drop(columns='Word')


In [81]:
all_predictions_new= all_predictions_new[['id', 'label']]
all_predictions_new


Unnamed: 0,id,label
0,0,O
1,1,O
2,2,O
3,3,O
4,4,O
...,...,...
11677,11677,O
11678,11678,O
11679,11679,O
11680,11680,O


In [82]:
all_predictions_new.to_csv('submission_custom.csv', index=False)
!wc -l submission.csv

11683 submission.csv


In [83]:
from IPython.display import FileLink

FileLink(r'submission_custom.csv')

Enregistrement d'une sauvegarde du modèle pour la mise en place de notre api de détection de NER

In [None]:
!zip -r bylyai_afroml_fine_ner.zip "bylyai"
