# Projet Mots interdits

In [1]:
# Librairies nécessaires
# --------------------------------------
# ---- Calculs
import numpy as np
import pandas as pd
# ---- Traitement de texte
import re #regex cheat sheet : http://www.rexegg.com/regex-quickstart.html
import unicodedata
# ---- NLP
import spacy #pip install spacy
import nltk #pip install nltk
# ---- Sauvegarde & Excel 
import pickle
import xlsxwriter #pip install xlsxwriter
import time #mesure du temps d'exécution

#conda install openpyxl #pour lire du xlsx

In [2]:
# Variables globales 
# --------------------------------------
PATH = "C:/Users/A3193307/Groupe BPCE/CEMP - Data & Décisionnel - Data Science/Analyse Mots Interdits"
UTILS = PATH + "/utilities"

### Chargement des données

In [3]:
# Récupération des fichiers
# --------------------------------------
# Lecture de la base Osirisk dans laquelle il faudra détecter les mots interdits (un peu long à charger)
# df_osirisk = pd.read_excel("data/Osirisk_export_20230524 - mots interdits RGPD.xlsx")

# Sauvegarde de la base Osirisk sous un format plus rapide à charger
# df_osirisk.to_pickle("temp_result/df_osirisk.pkl")
df_osirisk = pd.read_pickle("temp_result/df_osirisk.pkl")  

In [5]:
# Lecture de la 1ère table de mots interdits (contrôle à postériori)
df_posteriori = pd.read_excel("data/2023 01 20 Dictionnaire contrôle a posteriori.xlsx")

# Lecture de la 2eme table de mots interdits (contrôle à priori)
df_priori = pd.read_excel("data/2023 01 20 Dictionnaire contrôle a priori.xlsx")

# Lecture de la liste des pénoms de 1900-2021
# source : https://www.insee.fr/fr/statistiques/2540004
df_prenoms = pd.read_csv("data/prenoms_France_1900-2021.csv",encoding = 'ANSI',delimiter = ';')

In [6]:
# Pré-traitement des fichiers récupérés
# --------------------------------------
# ------ 1) Mots interdits
df_priori = df_priori.loc[2:]
# liste de tous les mots interdits (contrôle à priori + contrôle à postériori)
motsInterdits = list(df_priori["CODEMS"].values) + list(df_posteriori["Mots interdits"].values)
# on retire tous les mots en double
motsInterdits = list(set(motsInterdits))

# ------ 2) Table Osirik
# liste des colonnes pour lequelles regarder les mots interdits
columns = ["Libellé Incident", "Description",  "Réclamation", "Local", "Client", "Lieu"]
# réduction de la table aux colonnes intéressantes
df_osirisk = df_osirisk[["# Incident"] + columns]

# ------ 3) Table des prénoms
# on retire les valeurs nulles
df_prenoms = df_prenoms.dropna()
# on récupère la liste des prénoms
prenoms = list(df_prenoms["preusuel"].unique())
# on retire le 1er élément qui n'est pas un prénom
prenoms = prenoms[1:]
# on retire les prénoms composés d'une seule lettre ou de deux lettres (ex: 'A', 'De', 'El',...)
prenoms = [p for p in prenoms if len(p)>2]

### Fonction pour le pré-traitement des données

In [7]:
def preprocess_text(txt,treatment=[]):
    """
    Cette fonction prend en entrée un string et retire : 
    - la poncutation si treatment=['p']
    - les majuscules si treatment=['m']
    - les accents si treatment=['a']
    - les espaces superflus si treatment=['s']
    - les chiffres si treatment=['d']
    - les valeurs nan si treatment=['n']
    - la ponctuation + les majuscules is treatment=['p','m']
    - ...
    - tout ce qui est mentionné ci-dessus si treatment=[]
    
    Input:
    -----
    - txt (string) : texte à modifier
    - treatment (list of caracters) : liste indiquant quel traitement
      doit être effectué sur le texte. 
    
    Output:
    ------
     - txt (string) : modifié
    """
    # si treatment=[], on effectue tous les traitements de texte
    if len(treatment)==0:
        treatment = ['p','m','a','s','d','n']
    
    # Traitements de texte : 
    # ------------------------------
    for treat in treatment:
        
        # Transforme txt en string
        txt = str(txt)
        
        # Retire la ponctuation
        if treat == 'p':
            txt = re.sub(r'[^\w\s]', '',txt)
        
        # Met tout en minuscule 
        if treat == 'm':
            txt = txt.lower()
        
        # Retire les chiffres
        if treat == 'd':
            txt = re.sub('\d+', '', txt)
       
        # Retire les espaces superflus
        if treat == 's':
            # Remplace de multiples espaces possibles à l'intérieur du string par un seul espace
            txt = re.sub("\s\s+" , " ", txt)
            # Retire les espaces au début et à la fin du string
            txt = txt.strip()
        
        # Retire les accents
        if treat == 'a':
            txt = ''.join(c for c in unicodedata.normalize('NFD', txt) if unicodedata.category(c) != 'Mn')
        
        # Si le texte est nan, on met un string vide à la place
        if treat == 'n':
            if txt == 'nan' : txt = ''
    
    return txt

### Pré-traitement des données

In [8]:
# Pré-traitement du texte pour chaque colonne de la table
# -----------------------------
df_osirisk_1 = df_osirisk.copy()
for col in columns: 
    df_osirisk_1[col] = df_osirisk_1[col].apply(lambda x : preprocess_text(x))

# Pré-traitement des mots interdits
# -----------------------------    
motsInterdits_1 = motsInterdits.copy()
motsInterdits_1 = [preprocess_text(mot) for mot in motsInterdits_1]

# Pré-traitement des prénoms
# -----------------------------    
prenoms_1= prenoms.copy()
prenoms_1 = [preprocess_text(prenom) for prenom in prenoms_1]
# comme on a retiré les accents et les majuscules, cela a pu créer 
# doublons dans la liste des prénoms. On supprime ces doublons
prenoms_1 = list(dict.fromkeys(prenoms_1))

## Méthode 1 : sans lemmatisation

**Méthode utilisée dans cette partie :**

Dans cette partie, nous recherchons les mots de la liste motsInterdits présents dans la base Osirisk. Pour ce faire, nous effectuons d'abord un pré-traitement du texte de la base Osirisk et des motsInterdits (retrait accents, ponctuation, chiffres, valeurs manquantes, majuscules) puis nous recherchons les mots de motsInterdits (après pré-traitement) qui sont dans Osirisk (après pré-traitement). Cependant, il arrive que certains prénoms comme 'Nègre Véronique' soient considérés à tort comme des mots interdits. De fait, nous téléchargons une liste de tous les prénoms de 1900-2021. Lorsque nous recherchons les motsInterdits qui sont dans Osirisk, nous considérons qu'un mot n'est pas un mot interdit si celui-ci est précédé ou suivi d'un mot qui se trouve dans la liste des prénoms. \
Rq: Nous aurions pu utiliser les NER (reconnaissance d'entité nommée) pour déterminer si un mot est un prénom ou pas, mais de nombreux prénoms ne sont pas reconnus avec le NER (ex du prénom Urbain). Au prélable, nous avons également retiré les accents et les majuscules de la liste des prénoms et nous avons supprimé les prénoms composé de moins de 2 lettres (ex : 'A', 'El'). 

In [9]:
def sec2min(time):
    """
    Cette fonction prend en entrée un argument time en secondes
    et renvoie un tuple contenant la valeur de time en (minutes,secondes).
    """
    minutes = int(time//60) 
    secondes = round(time - minutes*60,3)
    return (minutes,secondes)

In [10]:
def ban_word_if_name(txt,mot_interdit,prenoms,debug=False):
    """
    Cette fonction prend en entrée un string "txt" et 
    permet de dire si dans "txt", le mot qui précède le mot "mot_interdit"
    ou le mot qui suit le mot "mot_interdit" fait partie de la liste "prenoms".    
    
    Intput:
    ------
    - txt (string) : string dans lequel rechercher la présence de prénoms.
      txt contient le mot mot_interdit.
    - mot_interdit (sring) : mot interdit contenu dans txt.
    - prenoms (list of strings) : liste de prénoms.
    - debug (bool) : si True, on affiche des infos.
    
    Output:
    ------
    - found_name (bool) : si True, le mot_interdit est entouré d'un prénom
     (collé avant ou apèrs mot_interdit).
    - name (string) : prenom trouvé dans le cas où found_name = True.
    
    ================================= Notes =================================
    Pour reconnaître si c'est un prénom, on aurait pu utiliser la 
    Reconnaissance d’entités nommées (NER) de Spacy avec le code suivant : 
    doc = nlp(sentence)
    return [(X.text, X.label_) for X in doc.ents]
    Cependant, cela ne fonctionne pas pour un très grand nombre de prénoms. 
    =========================================================================
    """
    
    # ----- initialisation
    name = ''    
    found_name = False   
    
    # ----- on extrait de txt, le mot avant et après le mot_interdit 
    before_keyword, keyword, after_keyword = txt.partition(mot_interdit) #mot_interdit=keyword

    # vérification que le mot avant keyword existe bien et n'est pas un espace
    if len(before_keyword) > 0 and before_keyword.isspace() == False:
        before_keyword = before_keyword.split()[-1] #on ne veut que le mot avant keyword et pas toute l'expression
    # vérification que le mot avant keyword existe bien et n'est pas un espace
    if len(after_keyword) > 0 and after_keyword.isspace() == False:
        after_keyword = after_keyword.split()[0] #on ne veut que le mot après keyword et pas toute l'expression    

    # ----- affichage si debug = True 
    if debug :
        print("\nmot interdit :", keyword)
        print("mot trouvé avant le mot interdit : ",before_keyword)
        print("mot trouvé après le mot interdit :",after_keyword)
    
    # ----- parcourt des éléments de la liste prenoms et verification
    #       si before_keyword ou after_keyword est un prénom
    j=0
    while not(found_name) and j < len(prenoms):
        p = prenoms[j]
        if p==before_keyword or p==after_keyword:
            found_name = True
            name = p 
        else :
            j+=1
    
    return found_name, name

In [11]:
def trouve_mot_interdit_1(txt_list,motsInterdits,prenoms):
    """
    Trouve les mots interdits.
    Cette fonction trouve dans la liste de phrases "txt_list", les mots interdits
    de la liste "motsInterdits" qui ne sont pas dans la liste "prenoms".
    On effectue une simple comparaison pour rechercher les mots interdits :
    les mots de "motsInterdits" qui sont exactement dans "txt_list" sont renvoyés,
    sauf si un mot de "motsInterdits" est suivi ou précédé par un mot de "prenoms".
    >> Utilise la fonction ban_word_if_name()
     
    Intput:
    -------
    - txt_list (list of string) : liste de phrases pour lesquelles on doit 
      détecter les mots interdits.
    - motsInterdits (list of string) : liste contenant les mots interdits.
    - prenoms (list of string) : liste de prénoms.  
    
    Output:
    -------
    - dict_interdit (dict) : dictionnaire avec en key, l'indice du mot interdit dans la liste 
      "txt_list" et en value, le mot interdit. Lorsqu'il y a plusieurs mots interdits pour un 
      même indice, on a en value une liste de mots interdits. 
      
    Référence:
    ---------
    Adding a value to a specific key in a dictionary in Python :
    - https://stackoverflow.com/questions/67799632/adding-a-value-to-a-specific-key-in-a-dictionary-in-python
    """

    # dictionnaire avec en key, l'indice du mot interdit dans la liste 
    # "txt_list" et en value, le mot interdit. 
    # Comme il peut y avoir plusieurs mots interdits pour un même indice,
    # certains éléments du dictionnaire sont des listes
    dict_interdit = {}
    
    i = 0 
    
    # pacours de chaque élément de txt_list
    for txt in txt_list:
        
        
        # parcours de chaque mot interdit
        for word in motsInterdits: 
            # on regarde si le mot interdit est dans le texte
            found_compteur = 0 #compteur pour dire cb de mots du mots interdits sont le dans texte
            #(le mot interdit peut être composé de plusieurs mots)
            for w in word.split(): 
                if w in txt.split():
                    found_compteur+=1
            if len(word.split()) == found_compteur: #si tous les mots du mot interdit sont dans le texte

                # vérification que le mot interdit n'est pas en réalité un prénom
                found_name, _ = ban_word_if_name(txt,word,prenoms)
                
                if not(found_name): # si le mot interdit n'est pas un prénom
                    
                    # sauvegarde du mot interdit et de l'indice de ce mot dans la liste "txt_list" :
                    # ----------------------------
                    # dans dict_interdit, key=i et value = word
                    # si la key n'est pas déjà dans le dict, on l'ajoute
                    if not(i in dict_interdit):
                        dict_interdit[i] = word
                    # si la key est déjà dans le dict ie si dict[key] existe...    
                    else :
                        #...si dict[key] est déjà une liste, on ajoute la value à cette liste
                        if type(dict_interdit[i]) is list:
                            dict_interdit[i].append(word)
                        #...si dict[key] est juste une valeur (=pas de liste),
                        # on crée une liste avec la valeur déjà présente + la nouvelle value à ajouter
                        else: 
                            tmp = []
                            tmp.append(dict_interdit[i])
                            tmp.append(word)
                            dict_interdit[i] = tmp
                    # ----------------------------                   
        
        i+=1
               

    return dict_interdit

In [12]:
def create_df_interdit(table_osirisk,columns,motsInterdits,prenoms):
    """
    Cette fonction crée une liste où chaque élément est une dataframe contenant les mots 
    interdits d'une colonne données de la base Osirisk. 
    (parmi les colonnes "Libellé Incident", "Description", "Réclamation", "Local", "Client", "Lieu"). 
    Chaque élément de la liste est une dataframe contenant les colonnes suivantes :
    - numéro client
    - mots interdits : mots interdits trouvés 
    - texte : texte dans lequel on a trouvé les mots interdits
    - index osirik : indice du mot interdit dans la dataframe df_osirisk. 
    
    >>> Utilise la fonction trouve_mot_interdit_1() et sec2min().
    
    Input:
    ------
    - table_osirisk (dataframe) : dataframe contenant la table osirik.
    - columns (list of string) : liste des colonnes de table_osirisk pour 
      lesquelles rechercher les mots interdits. 
    - motsInterdits (list of string) : liste contenant les mots interdits 
      à trouver dans la table Osirisk.
    - prenoms (list of string) : liste des prénoms tels que un mot interdit
      qui précède ou qui suit un prénom n'est pas considéré comme un mot interdit.  
      
    Output:
    -------
    - df_interdit : liste de dataframes où chaque élément représente la dataframe
    des mots interdits de la base Osirik pour une colonne donnée 
    (colonnes: "Libellé Incident", "Description",  "Réclamation", "Local", "Client", "Lieu")
    Chaque dataframe de la liste contien les colonnes suivantes :
    - numéro client
    - mots interdits : mots interdits trouvés 
    - texte : texte dans lequel on a trouvé les mots interdits
    - index osirik : indice du mot interdit dans la dataframe df_osirisk. 
    """
    # ====================
    # Temps de départ
    st = time.time()
    print("Debut Analyse mots interdits...")
    # ====================
    
    # liste de dataframes où chaque élément représente la dataframe
    # des mots interdits de la base Osirik pour une colonne donnée 
    # (colonnes: "Libellé Incident", "Description",  "Réclamation", "Local", "Client", "Lieu")
    df_interdit = []

    for col in columns:    
        # calcul des mots interdits pour chaque colonne
        if print_progress:
            print("\ncolonne",col)
        
        dict_interdit = trouve_mot_interdit_1(txt_list = table_osirisk[col],
                                              motsInterdits = motsInterdits,
                                              prenoms = prenoms,
                                              print_progress=print_progress)

        # création d'une dataframe vide pour chaque colonne
        df_i = pd.DataFrame()

        # remplissage de la dataframe pour chaque colonne
        for j in range(len(dict_interdit)):
            idx =  list(dict_interdit.keys())[j]
            row_df= {'numero incident': table_osirisk["# Incident"].iloc[idx],
                     'mots interdits': dict_interdit[idx],
                     'texte': table_osirisk[col].iloc[idx],
                     'index osirik' : idx}

            df_i = pd.concat([df_i, pd.DataFrame([row_df])], ignore_index=True)

        df_interdit.append(df_i)
    
    # ====================
    print("\n\n... fin !")
    # Temps de fin
    et = time.time()
    # Temps d'exécution
    execution_time = et - st
    minutes,secondes = sec2min(execution_time)
    print("Temps d'exécution : {} minutes {} secondes".format(minutes,secondes))
    # ====================
    
    return df_interdit

In [325]:
# Recherche des mots interdits
# -----------------------------    
df_interdit = create_df_interdit(table_osirisk=df_osirisk_1,
                                 columns=columns,
                                 motsInterdits=motsInterdits_1,
                                 prenoms=prenoms_1,
                                 print_progress=True)

Debut Analyse mots interdits...

colonne Libellé Incident

colonne Description

colonne Réclamation

colonne Local

colonne Client

colonne Lieu


... fin !
Temps d'exécution : 6 minutes 8.691 secondes


In [13]:
# Sauvegarde du résultat au format pickle
"""
with open('temp_result/df_resultat_meth1.pkl', 'wb') as f:
    pickle.dump(df_interdit, f)
"""    
# Récupération de la sauvegarde pickle  
with open('temp_result/df_resultat_meth1.pkl', 'rb') as f:
    df_interdit = pickle.load(f)

In [17]:
def write_results_excel(file_name,df_interdit,columns):
    """
    Cette fonction écrit les résultats obtenus par la fonction create_df_interdit()
    dans un tableau excel. 
    Chaque feuille de l'excel correspond à une dataframe de la liste de dataframe renvoyée par 
    create_df_interdit(). Les mots interdits sont écris en rouge
    
    Input:
    -----
    - file_name (string) : nom du fichier excel que l'on veut créer.
    - df_interdit (list of dataframes) : liste de dataframes renvoyées par la
      fonction create_df_interdit()
    - columns (list of strings) : liste des colonnes pour lequelles on recherche 
      les mots interdits. 
      
    Output:
    ------
    - fichier excel où chaque feuille correspond à une dataframe de df_interdit.
      Chaque feuille porte le nom d'une colonne de la base osirisk pour dans lesuquelles
      on a recherché des mots interdits.          
    
    Reference:
    ----------
    Ecrire la couleur dans un fichier excel:
    - https://github.com/jmcnamara/XlsxWriter/issues/346
    """

    # Création du document excel
    workbook = xlsxwriter.Workbook(file_name + '.xlsx')

    # Définition des couleurs
    red = workbook.add_format({'color': 'red'})
    #blue = workbook.add_format({'color': 'blue'})
    text_wrap = workbook.add_format({'text_wrap': True})

    # ###################################
    # Parcours de chaque dataframe df_i de df_interdit
    # ###################################
    for i in range(len(df_interdit)):
        worksheet = workbook.add_worksheet(columns[i])
        df_i = df_interdit[i]

        # ***********************************
        # Parcours de chaque ligne de df_i
        # ***********************************
        for j in range(len(df_i)):
            texte = df_i["texte"].iloc[j]
            num_incident = df_i["numero incident"].iloc[j]
            mot_int = df_i["mots interdits"].iloc[j] #peut être 1 string ou une liste de strings
            idx_osirisk = df_i["index osirik"].iloc[j]

            # ===================================
            # Ecriture de l'entête du document excel
            # ===================================
            bold = workbook.add_format({'bold': True}) #bold format
            for jj, t in enumerate(df_i.columns):
                worksheet.write(0, jj, t, bold)
            # ===================================

            # ===================================
            # Création du texte en couleur
            # ===================================
            # on a un texte avec des mots interdits : 
            # texte = "blabla mot_interdit_1 bloblo mot_interdit_2 blublu mot_iterdit_3 blibli"
            # on veut ajouter la couleur red avant chaque mot interdit de telle sorte : 
            # string_parts = ["blabla", red, "mot_interdit_1", "bloblo" , red, 
            # "mot_interdit_2" ,"blublu" ,red,"mot_iterdit_3","blibli"]

            # si mot_int n'est pas une liste, on en fait une liste
            if isinstance(mot_int, list)==False:
                mot_int_ = [mot_int]
                mot_to_write = mot_int
            else:
                mot_int_ = mot_int
                mot_to_write = (', ').join(mot_int)
            
            for mi in mot_int_:
                # remplace le mot interdit par "red" + le mot interdit
                texte = re.sub(r"\b"+ mi + r"\b", "red " + mi, texte)
            string_parts = texte.split() 
            # remplace "red" par red
            string_parts_ = [" " +x+" " if x !='red' else red for x in string_parts]
            string_parts_.append(text_wrap)
            
            # ===================================

            # ===================================
            # Ecriture des informations sur la feuille excel
            # ===================================
            row = j+1 #ligne j + entête
            worksheet.write(row,0,num_incident)                                                         
            worksheet.write(row,1,mot_to_write) #row, col, *args
            worksheet.write_rich_string(row,2, *string_parts_) #row, col, *string_parts
            worksheet.write(row,3,idx_osirisk) #row, col, *args
            # ===================================
        info_txt = str(len(df_i)) + ' mots interdits trouvés'
        worksheet.write(0,4,info_txt,bold) #row, col, *args 
        # ***********************************
    # ###################################

    # Fermeture du document excel
    workbook.close()

In [18]:
# Sauvagarde du résultat sous excel + coloration des mots interdits
# -----------------------------    
write_results_excel("Python_resultat_meth1_sans_lemmatisation",df_interdit,columns)

  warn(


## Méthode 2 : avec lemmatisation

**Méthode utilisée dans cette partie :**
  
Dans cette partie, nous lemmatisons le texte de la table Osirisk ainsi que le texte des motsInterdits. Puis nous effectuons un pre-traitement de la table Osirisk et des motsInterdits (retrait accents, majuscules, ponctuation...). Le pre-traitement est effectué après la lemmatisation car celui-ci pourrait fausser la compréhension du texte nécessaire pour la lemmatisation, en retirant par exemple les accents (branchées deviendrait branchees). \
Une fois ces étapes réalisées, nous recherchons les motsInterdits (lemmatisés + pré-traités) qui se trouvent dans la table Osirisk (lemmatisée + pré-traitée). \
Cependant, nous remarquons que la lemmatisation modifie certains prénoms (véronique devient véroniqu), ce qui empêche ensuite de ne pas considérer comme mot interdit les mots qui sont entourés par des prénoms. Pour pallier ce problème, nous avons tenté une première approche qui consistait à lemmatiser les mots de la base Osirik seulement si ceux-ci n'étaient pas des prénoms. La lemmatisation prend déjà beaucoup de temps à calculer et cette première approche prennait encore plus de temps car en plus de la lemmatisation, il fallait rechercher si chaque mot de la base Osirik était ou pas dans la liste des prénoms. \
De fait, nous avons implémenté une deuxième approche qui consiste à lemmatiser en plus les prénoms. Ainsi, lorsque nous recherchons si un motInterdit est en réalité un prénom, cela ne pose plus de problème. Cette méthode est bien plus rapide mais un peu moins robuste que la première (par exemple, 'brigitte' seul n'est pas lemmatisé lorsque l'on lemmatise la liste des prénoms, mais est lemmartisé en 'brigitt' dans une phrase). 

**----------------- INSTALLATION DES LIBRAIRIES NECESSAIRES A LA MAIN -----------------**

**Tutoriel simple pour le NLP en français** 

https://maelfabien.github.io/machinelearning/NLPfr/#2-enlever-les-mots-les-plus-fr%C3%A9quents

**Installation de Spacy et des modèles Français**


Il nous faut un Lemmatizer en Français. Ceci est proposé par la librairie SpaCy. Pour cela, on commence par installer spacy, comme recommandé par ce tutoriel https://maelfabien.github.io/machinelearning/NLPfr/#ii-les-grands-principes : \
`pip install spacy` \
Ensuite, on veut télécharger le modèle français :\
`python -m spacy download fr_core_news_sm` \
Le problème est que l'on est bloqué par la caisse d'épargne. Il faut donc réaliser une installation à la main des modèles français (sources : https://github.com/explosion/spacy-models, https://stackoverflow.com/questions/69216523/spacy-download-en-core-web-lg-manually).

Pour télécharger le modèle français, on se rend sur ce lien : https://github.com/explosion/spacy-models/releases/tag/fr_core_news_sm-3.5.0. Descendre en bas de la page sur la rubrique `Assets` et télécharger l'archive `fr_core_news_sm-3.5.0.tar.gz     15.5 MB    Jan 18`. Par exemple, on peut mettre cette archive dans un répertoire `utilities` préalablement créé. \
Une fois l'archive téléchargée, on extrait cette archive. Cela va créer un répertoire `dist` qui contient lui-même un répertoire `._` et un répertoire `fr_core_news_sm-3.5.0`. Lors de l'extraction, il se peut que l'on ait un problème de noms de fichiers pour le répertoire `._`. Cela n'a pas d'importance car le répertoire `._` ne sera pas utilisé. Cliquer sur remplacer les noms ou renommer, peu importe. \
Nous avons la configuration suivante après extraction de `fr_core_news_sm-3.5.0.tar.gz`:

    |--- dist
    |    |--- ._
    |    |--- fr_core_news_sm-3.5.0
    |    |    |    |--- fr_core_news_sm
    |    |    |    |    |--- fr_core_news_sm-3.5.0
    |    |    |    |    |    |--- attribute_ruler
    |    |    |    |    |    |--- lemmatizer
    |    |    |    |    |    |--- morphologizer
    |    |    |    |    |    |--- ner
    |    |    |    |    |    |--- parser
    |    |    |    |    |    |--- senter
    |    |    |    |    |    |--- tok2vec
    |    |    |    |    |    |--- vocab
    |    |    |    |    |    |--- accuracy.json
    |    |    |    |    |    |--- config.cfg
    |    |    |    |    |    |--- LICENCE
    |    |    |    |    |    |--- LICENSES_SOURCES
    |    |    |    |    |    |--- meta.json
    |    |    |    |    |    |--- README.md
    |    |    |    |    |    |--- tokenizer
    |    |    |    |    |---__init__.py
    |    |    |    |    |---meta.json
    |    |    |--- fr_core_news_sm.egg-info
    |    |    |--- meta.json
    |    |    |--- LICENSE
    |    |    |--- LICENSES_SOURCES
    |    |    |--- MANIFEST.in
    |    |    |--- PKG-INFO
    |    |    |--- README.md
    |    |    |--- setup.cfg
    |    |    |--- setup.py


Nous aurons seulement besoin du répertoire `fr_core_news_sm-3.5.0` situé ici : `dist/fr_core_news_sm-3.5.0/fr_core_news_sm/fr_core_news_sm-3.5.0`, contenant le `lemmatizer`,`ner`,`tokenizer`,... \
On copie tout le répertoire `fr_core_news_sm-3.5.0` situé ici `dist/fr_core_news_sm-3.5.0` et on le place dans `utilities` ou dans le répertoire de votre choix.

Dans un notebook Python (sous l'environnement qui convient), écrire les lignes suivantes pour charger le modèle français :

`import spacy` \
`nlp = spacy.load(r'chemin_vers_utilities/fr_core_news_sm-3.5.0/fr_core_news_sm/fr_core_news_sm-3.5.0')`


_______________
Voici les différents modèles français de spacy qui existent : https://spacy.io/models/fr

Les suffixes `sm/md/lg` font référence aux tailles des modèles (respectivement petit, moyen et grand).

Les différences entre les modèles sont essentiellement statistiques. En général, nous nous attendons à ce que les modèles plus grands soient "meilleurs" et plus précis. En fin de compte, cela dépend de notre cas d'utilisation et de nos besoins. Nous recommandons de commencer par les modèles par défaut.

Pour information, le modèle `sm` est le modèle par défaut. \
[source : https://stackoverflow.com/questions/50487495/what-is-difference-between-en-core-web-sm-en-core-web-mdand-en-core-web-lg-mod]
_______________
*Remarque*: 
Si on veut savoir où est installé une librairie sur mon environemment `motsInterdits` : \
Ouvrir un notebook ou un script python sous l'environnement `motsInterdits` et taper les lignes de commande suivantes (pour connaitre l'emplacement par exemple de la librairie `spacy`) : 

`import spacy` \
`spacy.__file__` 

_______________

**Installation de nltk**

Intaller la librairie python nltk avec la commande suivante :\
`pip install nltk`\
Puis dans un notebook python : \
`import ntlk` \
Il faut ensuite charger `nltk data`, mais on est bloqués par la caisse d'épargne lorsque l'on essaie de procéder par la voie
classique en tapant par exemple la commande : \
`nltk.download('stopwords')` 

Il faut donc faire une installation à la main. Pour cela, on utilise le tutoriel https://www.nltk.org/data.html et on regarde les instructions de la rubrique `Manual installation`. \
Selon les instructions du tutoriel, on se rend dans un des répertoires listés par la variable NLTK_DATA. Pour avoir la valeur de NLTK_DATA, on exécute la commande `nltk.data.path` dans un notebook python après avoir importé la librairie nltk. Si le répertoire n'existe pas déjà, on le crée. Par exemple, ici on crée un répertoire `nltk_data` à cet endroit : `'C:\\Users\\A3193307\\AppData\\Local\\miniforge3\\envs\\motsInterdits\\nltk_data'`. \
Dans le répertoire `nltk_data`, on crée les sous-répertoires `chunkers`, `grammars`, `misc`, `sentiment`, `taggers`, `corpora`, `help`, `models`, `stemmers`, `tokenizers`. \
Il faudra télécharger individuellement chaque package nécessaire depuis le lien https://www.nltk.org/nltk_data/. Puis dézipper le package et le placer dans le sous-répertoire de `nltk_data` approprié. Par exemple, si on veut télécharger les `stopwords`, on se rend sur le lien https://www.nltk.org/nltk_data/ et on trouve le fichier correspondant, ici intitulé `Stopwords Corpus [ download | source ]`. On effectue un clic droit sur le mot `download` et on clique sur `Copier le lien` pour obtenir le lien de téléchargement de `stopwords`, ici `https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/stopwords.zip`. Ce lien de téléchargement nous indique dans quel sous-répertoire placer `stopwords`, ici dans le sous-répertoire `corpora`. 
On peut maintenant télécharger le fichier `stopwords` et le dézipper dans le répertoire `corpora` de `nltk_data`. Une fois le fichier dézippé, on peut supprimer le .zip et ne garder que le fichier dézippé. 

On peut à présent utiliser les `stopwords` par exemple : \
`from nltk.corpus import stopwords` \
`stopWords = set(stopwords.words('french'))`

**----------------- FIN DE L'INSTALLATION -----------------**

**Ressources**

- Liste des prénoms français de 1900 à 2021 : \
https://www.insee.fr/fr/statistiques/2540004?sommaire=4767262#:~:text=20%2F06%2F2022-,Le%20fichier%20des%20pr%C3%A9noms%20contient%20des%20donn%C3%A9es%20sur%20les%20pr%C3%A9noms,niveau%20France%20et%20par%20d%C3%A9partement.&text=Les%20fichiers%20propos%C3%A9s%20en%20t%C3%A9l%C3%A9chargement,personnes%20vivantes%20une%20ann%C3%A9e%20donn%C3%A9e.


- Ce que veux dire chaque fichier quand on dowload une librairie open-source : https://stackoverflow.com/questions/22842691/what-is-the-meaning-of-the-dist-directory-in-open-source-projects



- Lemmatisation/stemming/stopWords toujours utile ? If you are going to use frequency based vectorization to convert text to numbers, then removal of stopwords and using stemming/lemmatization looks ok. As it helps reduce the dimensions and there is no issue of the context anyways.
If you are going to use embeddings based vectorization to convert text to numbers then removal of stopwords and using stemming/lemmatization does not look ok. As the dimensions anyway get fixed by other means and the context is not lost.
https://www.google.com/search?q=nltk+french+lemmatizer&oq=nltk+french+l&aqs=edge.0.0i512j69i57.5964j0j4&sourceid=chrome&ie=UTF-8 \

In [286]:
# Chargement du modèle français de spacy
# -----------------------------   
nlp = spacy.load(UTILS + '/fr_core_news_sm-3.5.0/fr_core_news_sm/fr_core_news_sm-3.5.0')

# Chargement des stopwords français de nltk
# -----------------------------  
from nltk.corpus import stopwords
stopWords = set(stopwords.words('french'))

In [287]:
def return_token(sentence):
    """
    Cette fonction permet de tokeniser un texte.
    
    Input:
    -----
    - sentence (string) : texte à tokeniser.
    
    Output:
    ------
    - token_list (list of string) : liste des tokens obtenus.    
        
    =========================== Notes ===========================
    La tokenisation consiste à transformer une phrase en mots 
    ou tokens (qui peuvent ne pas être tout à fait des mots
    selon le tokenizer utilisé).
    
    Exemple : "J'aime le chocolat, les fraises." devient  
    ["J'", 'aime', 'le', 'chocolat', ',', 'les', 'fraises', '.']
    =============================================================
    """
    # Tokeniser la phrase
    doc = nlp(sentence)
    # Retourner le texte de chaque token
    token_list = [token.text for token in doc]
    return token_list

def return_lemma(sentence):
    """
    Cette fonction permet de lemmatizer tous les mots d'un texte. 
    Pour la lemmatisation, on utilise la librairie spacy et le modèle fr_core_news_sm.
    >>> Utilise la fonction preprocess_text().
    
    Input:
    -----
    - sentence (string) : texte à lemmatiser.
    
    Output:
    ------
    - sentence_lemma (string) : texte lemmatisé.
    
    =========================== Notes ===========================
    Il existe deux façons principales de normaliser un texte. 
    1)--- Le stemming. 
    Le stemming est le processus qui consiste à dériver ou à supprimer les 
    derniers caractères d'un mot, ce qui conduit souvent à des significations
    et à des orthographes incorrectes. On retire les stopWords avant le stemming
    
    Certains mots issus du stemming peuvent 
    ne vouloir rien dire et ne pas être des mots réels. 
    Le stemming est utilisé dans le cas de grands ensembles de données où la 
    performance est un problème. Pour palier au problème du stemming, on utilise
    la lemmatisation. 
    2)--- La lemmatisation 
    La lemmatisation prend en compte le contexte et convertit le mot en
    sa forme de base significative, appelée lemme. Les mots issus de la lemmatisation
    sont des mots réels. 
    La lemmatisation est coûteuse en termes de calcul, car elle comprend des tables 
    de recherche et nécessite beaucoup de connaissances et de compréhension de la structure
    d'une langue.  
    
    Normalement, avant de procéder à la lemmatisation ou au stemming, on convertit 
    les phrases en tokens (~ mots). 
    La tokenization permet par exemple de tranformer : 
    "J'aime le chocolat, les fraises et la crème" en 
    ["J'", 'aime', 'le', 'chocolat', ',', 'les', 'fraises', 'et', 'la', 'crème']
    Cependant, ici Il n'y a pas besoin de tokenizer au préalable le texte, la librairie
    spacy le fait automatiquement avant d'appliquer la lemmatisation. 
    
    La lemmatisation retire les majuscules, et les articles "l'".
    =============================================================
    
    Référence:
    ----------
    French lemmatizer :
    - https://maelfabien.github.io/machinelearning/NLPfr/#
    - https://stackoverflow.com/questions/13131139/lemmatize-french-text
    """
    doc = nlp(sentence)
    sentence_lemma = ' '.join([token.lemma_ for token in doc])
    return sentence_lemma

def remove_stopwords(sentence):
    """
    Cette fonction permet de retirer les stopwords d'un texte. 
    >>> Utilise la fonction return_token()
    
    Input:
    -----
    - sentence (string) : texte pour lequel retirer les stopwords.
    
    Output:
    -------
    - sentence_clean (string) : texte pour lequel on a retiré les stopwords.
    
    =========================== Notes ===========================
    Certains mots se retrouvent très fréquemment dans la langue française. 
    En anglais, on les appelle les “stop words”. Ces mots, bien souvent, n’apportent pas
    d’information dans certaines tâches de NLP. 
    Les “stop words” sont établis comme des listes de mots. 
    Ces listes sont généralement disponibles dans une librairie appelée NLTK
    =============================================================
    """
    
    clean_words = []
    
    # on parcourt chaque mot de la phrase sentence
    # chaque mot est obtenu en tokenisant. 
    for token in return_token(sentence):
        if token not in stopWords:
            clean_words.append(token)
            
    sentence_clean = ' '.join(clean_words)
    return sentence_clean

In [288]:
# Test des fonctions remove_stopwords() et return_lemma()
# -----------------------------  
texte = "Le vif renard brun saute par-dessus le chien paresseux. L'oiseau est posé sur une branche."
print("---- Texte original :\n", texte)

texte_sw = remove_stopwords(texte)
print("---- Retrait stopwords:\n", texte_sw)

texte_lm = return_lemma(texte)
print("---- Lemmatisation :\n", texte_lm)

texte_sw_lm = return_lemma(texte_sw)
print("---- Retrait stopwords puis lemmatisation :\n", texte_sw_lm)

texte_lm_sw = remove_stopwords(texte_lm)
print("---- Lemmatisation puis retrait stopwords :\n", texte_lm_sw)

---- Texte original :
 Le vif renard brun saute par-dessus le chien paresseux. L'oiseau est posé sur une branche.
---- Retrait stopwords:
 Le vif renard brun saute - dessus chien paresseux . L' oiseau posé branche .
---- Lemmatisation :
 le vif renard brun saute par - dessus le chien paresseux . le oiseau être poser sur un branche .
---- Retrait stopwords puis lemmatisation :
 le vif renard brun saute - dessus chien paresseux . l ' oiseau poser branch .
---- Lemmatisation puis retrait stopwords :
 vif renard brun saute - dessus chien paresseux . oiseau être poser branche .


In [19]:
# /.\ Attention, cette cellule est longue à tourner /.\
# Lemmatisation du texte de la table 
# -----------------------------
'''
df_osirisk_2 = df_osirisk.copy()
for col in columns: 
    print("\ncolonne", col)
    
    # retire les nan avant la lemmatisation
    df_osirisk_2[col] = df_osirisk_2[col].apply(lambda x : preprocess_text(x,['n']))
    
    # lemmatisation (sans drawProgressBar)
    df_osirisk_2[col] = df_osirisk_2[col].apply(lambda x : return_lemma(sentence=x))
    
    # lemmatisation (avec drawProgressBar)
    """for j in range(len(df_osirisk_2)):
        add_text = ' ' + str(j) + '/' + str(len(df_osirisk_2))
        drawProgressBar(j/len(df_osirisk_2), add_text=add_text, barLen=20)
        df_osirisk_2[col].iloc[j] = return_lemma(sentence=df_osirisk_2[col].iloc[j])
    drawProgressBar(j/len(df_osirisk_2), add_text=add_text, barLen=20)"""
       
'''
# Enregistrement/Récupération du résultat au format pkl pour utilisation ultérieure
# -----------------------------    
# Enregistrement du résultat
# df_osirisk_2.to_pickle("temp_result/df_osirisk_apres_lemmatisation.pkl")
# Récupération du résultat
df_osirisk_2 = pd.read_pickle("temp_result/df_osirisk_apres_lemmatisation.pkl")  

In [20]:
df_osirisk_2.head()

Unnamed: 0,# Incident,Libellé Incident,Description,Réclamation,Local,Client,Lieu
0,163930,anomalie de kg0r1 de le pas supérieur à 3 mois,anomalie de kg0r1 de le pas supérieur à 3 mois...,,,,
1,163932,abdelkader NETADJ Abbou,erreur agencer sur contrat IARD auto .,45594.0,,4384749402.0,105.0
2,163971,SIMON Jeanine,sur avis de dju NOUS indemniser ce client QUI ...,45358.0,,4174259503.0,507.0
3,163999,do santos Chrystelle,problème de gestion interne suite IB .,46951.0,,4242148082.0,440.0
4,164022,FELIX Jacques,erreur cemp sur cni rb espec,1.3135201708044632e+16,,4500386738.0,30.0


In [330]:
# Pré-traitement du texte de la table 
# après avoir effectué la lemmatisation pour conserver le sens du texte
# (notamment les accents qui peuvent être des conjugaisons et aider la lemmatisation)
# ----------------------------- 
for col in columns: 
    # pré-traitement
    df_osirisk_2[col] = df_osirisk_2[col].apply(lambda x : preprocess_text(x))

In [331]:
# Pré-traitement des prénoms
# -----------------------------   
prenoms_2 = prenoms.copy()
prenoms_2 = [preprocess_text(pre) for pre in prenoms_2]

# Lemmatisation des prénoms
# ----------------------------- 
prenoms_lemma = []
for pre in prenoms_2:
        prenoms_lemma.append(return_lemma(sentence=pre))
        
# suppression des duplicatas qui ont pu apparaître avec la lemmatisation
prenoms_lemma = list(dict.fromkeys(prenoms_lemma)) 

In [332]:
# Lemmatisation des mots interdits
# -----------------------------    
motsInterdits_2 = motsInterdits.copy()
motsInterdits_2 = [return_lemma(mot) for mot in motsInterdits_2]

# Pré-traitement des mots interdits
# -----------------------------    
motsInterdits_2 = [preprocess_text(mot) for mot in motsInterdits_2]

# suppression des duplicatas qui ont pu apparaître avec la lemmatisation ou le pre-traitement
motsInterdits_2 = list(dict.fromkeys(motsInterdits_2)) 

In [333]:
# Recherche des mots interdits
# -----------------------------    
df_interdit_2 = create_df_interdit(table_osirisk=df_osirisk_2,
                                   columns=columns,
                                   motsInterdits=motsInterdits_2,
                                   prenoms=prenoms_lemma,
                                   print_progress=False)

Debut Analyse mots interdits...


... fin !
Temps d'exécution : 5 minutes 30.722 secondes


In [22]:
# Sauvegarde du résultat au formart pickle
"""
with open('temp_result/df_resultat_meth2.pkl', 'wb') as f:
    pickle.dump(df_interdit_2, f)
"""

# Récupération de la sauvegarde pickle 
with open('temp_result/df_resultat_meth2.pkl', 'rb') as f:
    df_interdit_2 = pickle.load(f)

In [23]:
df_interdit_2[0]

Unnamed: 0,numero incident,mots interdits,texte,index osirik
0,172756,protester,refuge protester de mazamet,344
1,172834,vigiclient,vigiclient indisponibilite image cheq,366
2,173074,vigiclient,probleme vigiclient,421
3,173459,vigiclient,dysfonctionnement acce vigiclient,487
4,183245,canaille,association parents de eleve le petit canaille,690
5,189908,rat,virt saccef non identifie rat,771
6,339381,boite a lettre,vol espece boite a lettre marssac,4184
7,340075,gens de voyage,occupation temporaire de gens de voyage et deg...,4238
8,347219,assedic,regul sur paiement assedic novembre,4333
9,347233,assedic,ecart cotisation urssaf assedic,4342


In [24]:
# Sauvagarde du résultat sous excel + coloration des mots interdits
# -----------------------------    
write_results_excel("Python_resultat_meth2_avec_lemmatisation",df_interdit_2,columns)

  warn(


# Idées poursuite du projet/consignes

**Détection d'insultes en Français avec BERT**

-- Essayer une correction d'orthographe et des typos pour améliorer les résultats 

-- Analyse de sentiment sur texte + interprétabilité pour voir quels mots ont participé à la décision et voir si ces mots matchent avec la liste de mots interdits


-- Récupérer un réseau de neurones pour le NLP (ex: BERT) entraîné sur des insultes en Français. Puis générer des phrases avec les mots interdits qui sont dans la liste afin de créer notre propre base de données d'entraînement (par exemple en utilisant un modèle génératif comme ChatGPT). Eventuellement faire de la data augmentation sur ces phrases. Enfin, réetraîner (fine-tuning) un réseau de neurones sur ce dataset créé. \

/.\ le modèle génératif biaisé ? Attention à avoir un modèle génératif qui fonctionne \
Limite : pas de capacités de calcul (pas de GPU) donc très difficile de réentraîner un modèle. Pas accès à ChatGPT avec l'ordinateur de la banque. 

Detection of Racist Language in French Tweets : 
https://www.mdpi.com/2078-2489/13/7/318

https://aclanthology.org/2020.lrec-1.175.pdf

https://www.researchgate.net/publication/345694077_HurtBERT_Incorporating_Lexical_Features_with_BERT_for_the_Detection_of_Abusive_Language

https://www.telecom-valley.fr/wp-content/uploads/2020/11/VILLATA-CABRIO-171120.pdf

Hate speech detection on Twitter using transfer learning : https://www.sciencedirect.com/science/article/abs/pii/S0885230822000110


Bert en Français : CamemBert, FlowBert

-- Traduction du texte en anglais pour avoir de meilleures bases de données

-- Pas de GPU ? VertexIA sur GCP -> notebooks dans le cloud. On charge les 50000 lignes et les mots interdits dans Vertex et on entraîne dans un notebook. Mais pour le moment, GCP est bloqué. Cependantr, les data-scientists de BPCE ont accès à la puissance de calcul. 