# NER

Fichier pris en entrée :
- *.csv -> provient du notebook **nettoyeur**

Fichiers de sortie produits par le notebook :
- NLP_{date}_{type_pipeline}_{nombre_resultats}.html -> **fichier HTML des résultats de la NER**

- NLP_{date}_{type_pipeline}_{nombre_resultats}.csv -> **tableau avec autant de lignes que de résultats et deux colonnes : titre et pers**
**-> pers** = entitées nommées "personnage" issues de spacy pour lesquelles un traitement de nettoyage a été effectué :
    - suppression des termes inférieur à 2 caractères
    - suppression des doublons malgré d'éventuelles coquilles d'OCR dans la graphie du nom -> la graphie retenue est celle qui revient le plus de fois au sein du CR

In [1]:
import pandas as pd
import spacy
from spacy import displacy
from collections import Counter
import fr_core_news_lg # md, sm
nlp_spacy = fr_core_news_lg.load()
import json
import itertools
import regex as re
import fuzzywuzzy
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
import stanza
nlp_stanza = stanza.Pipeline(lang='fr', processors='tokenize,ner')
# # NOT WORKING ON APPLE SILICON
# from flair.data import Sentence
# from flair.models import SequenceTagger
# tagger = SequenceTagger.load("flair/ner-french")

2023-02-06 17:38:39 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.4.1.json:   0%|   …

2023-02-06 17:38:41 INFO: Loading these models for language: fr (French):
| Processor | Package |
-----------------------
| tokenize  | gsd     |
| mwt       | gsd     |
| ner       | wikiner |

2023-02-06 17:38:41 INFO: Use device: cpu
2023-02-06 17:38:41 INFO: Loading: tokenize
2023-02-06 17:38:41 INFO: Loading: mwt
2023-02-06 17:38:41 INFO: Loading: ner
2023-02-06 17:38:42 INFO: Done loading processors!


In [2]:
# Variables à changer par l'utilisateur
source_csv = 'results/clean_w_names_24-01-23.csv'
pipeline = "fr_core_news_lg" # /!\ PENSER À CHANGER PLUS HAUT

# Importation des données depuis le CSV
df = pd.read_csv(source_csv)

# Nombre de résultats dans la réponse produite, varie en fonction des essais
# nb_a_traiter = len(df.index)
nb_a_traiter = 5

In [3]:
lists = []

# Boucle de constitution
for i in range(nb_a_traiter):
    title = df.loc[i, 'area_title']
    text = df.loc[i, 'area_text']
    sign_name = df.loc[i, 'extracted_names']

    # NER spacy
    doc_spacy = nlp_spacy(text)

    # NER stanza
    doc_stanza = nlp_stanza(text)

    # # NER flair
    # wip ?

    # Constitution de la grande liste destinée à être convertie en df ------------------------
    spacy = [(ent.text) for ent in doc_spacy.ents if ent.label_ == "PER"]
    stanza = [(ent.text) for ent in doc_stanza.ents if ent.type == "PER"]
    list = [title, sign_name, spacy, stanza]
    lists.append(list)

    print(i)

0
1
2
3
4


In [4]:
# Conversion de la liste vers df
df_PER = pd.DataFrame(lists, columns=['title', 'sign_name', 'spacy', 'stanza'])

In [5]:
# Fonction de nettoyage de la liste des entitées reconnues
def clean_names(list):
    patterns = [
        r'^M\.',
        r'^MM\.',
        r'^MMe.',
        r'^MMe ',
        r'^ +',
    ]
    for i in range(len(list)):
        for pattern in patterns:
            list[i] = re.sub(pattern, '', list[i])
    return(list)

# Comptage des termes au sein de la liste
def make_count(list):
    list_count = []
    for i in range(len(list)):
        mot = list[i]
        count = list.count(list[i])
        list_count.append([mot, count])
    return(list_count)

# Fonction de comparaisons des mots 2 à 2 : lorsque plusieurs noms sont similaires, on n'en garde qu'un
# Fonction qui prend une liste en entrée et ressort une liste en sortie
def keep_best_name(list):
    discri_list = [
        r'^[\P{Lu}]',
        r'[0-9]+',
        r'\.$',
        r'\"|\'|\\|\/|«|»'
    ]

    # Pour chaque mot
    temp_list = []
    for i in range(len(list)):
        ref = list[i]

        # On va comparera avec tous autres mots de la liste
        for j in range(len(list)):
            # Si on confronte le mot avec lui même -> on ne fait rien
            if i == j:
                pass
            else:
                # Sinon comparaison du score entre les deux noms
                ratio = fuzz.token_sort_ratio(ref[0], list[j][0])
                partial_ratio = fuzz.partial_ratio(ref[0], list[j][0])
                if ratio > 85 or partial_ratio > 85:
                    # Si le second mot est présent plus de fois, on le retient lui
                    if ref[1] < list[j][1]:
                        ref = list[j]

        # Discrimination des noms de 2 lettres ou moins, ceux qui contiennent de chiffres, qui ne commencent pas par une maj et ceux ne contenant pas de voyelles
        if (ref[0] not in temp_list) & (len(ref[0]) > 2):
            ready = True
            for pattern in discri_list:
                if re.search(pattern, ref[0]):
                    ready = False
                if not re.search('(?i)[aeiouy]+', ref[0]):
                    ready = False
            if ready:
                temp_list.append(ref[0])
    return(temp_list)

In [6]:
def process_names(list_of_names):
    # On appelle la fonction de nettoyage sur nos entitées "personnes"
    list_PER_clean = clean_names(list_of_names)
    # Chaque entitée est compté, un nombre d'occurence lui est attribué = [['Personne1', 2], ['Personne2', 3], ['Personne3', 1], ['Personne4', 1]]
    list_PER_count = make_count(list_PER_clean)
    # De tous les noms qui se ressemblent (= coquilles dans la graphie), on ne garde que l'occurence qui est apparue le plus de fois
    best_names = keep_best_name(list_PER_count)
    return(best_names)

# Pour chaque ligne de notre tableau de départ
for i in range(len(df_PER.index)):
    df_PER.at[i, 'spacy'] = process_names(df_PER.at[i, 'spacy'])
    df_PER.at[i, 'stanza'] = process_names(df_PER.at[i, 'stanza'])

In [7]:
# (Re)création d'un fichier de sortie propre + en tête
nom_fichier = f"results/ner_{nb_a_traiter}r"

# Conversion du df vers csv
df_PER.to_csv(f"{nom_fichier}.csv")