In [3]:
# Importation des bibliothèques nécessaires
import sys

sys.path.append('/home/acantin/.local/lib/python3.10/site-packages')

import numpy
import transformers
import tqdm
#import deep-translator

# Installation

In [4]:
# Importation des bibliothèques nécessaires
import pyspark
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
from tqdm import tqdm
import nltk
from deep_translator import GoogleTranslator
import matplotlib.pyplot as plt
import numpy as np
from collections import Counter
import re
import pandas as pd
import re
import nltk
from transformers import pipeline
from concurrent.futures import ThreadPoolExecutor
import pickle

# Ensure nltk punkt is downloaded
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/acantin/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

# Traduction

In [5]:
# Fonction pour diviser un texte en phrases
def split_text_into_sentences(text):
    """
    Divise le texte en phrases en utilisant NLTK.
    
    Args:
    text (str): Le texte à diviser en phrases.
    
    Returns:
    list: Une liste contenant les phrases du texte.
    """
    return nltk.sent_tokenize(text)

# Fonction de traduction avec Google Translate (deep_translator)
# Cette fonction prend un texte dans une langue source (par défaut 'en' pour anglais)
# et le traduit dans une langue de destination (par défaut 'fr' pour français)
def translate_text_v2(text, src='en', dest='fr'):
    """
    Traduit un texte en utilisant GoogleTranslator.
    La traduction se fait phrase par phrase pour éviter les limites de caractères.

    Args:
    text (str): Le texte à traduire.
    src (str): La langue source (par défaut 'en').
    dest (str): La langue de destination (par défaut 'fr').

    Returns:
    str: Le texte traduit.
    """
    # Diviser le texte en phrases pour une meilleure gestion
    sentences = split_text_into_sentences(text)
    translated_sentences = []   # Liste pour stocker les phrases traduites

    current_chunk = ""          # Variable pour stocker les morceaux de texte à traduire
    translator = GoogleTranslator(source=src, target=dest)
    count = 0                   # Compteur pour contrôler la première phrase
    for sentence in sentences:
        # Pour la première phrase(souvent rempli d<acronyme et ID), on vérifie si la traduction est significative
        if count == 0:
            # Traduction
            x = GoogleTranslator(source='fr', target='en').translate(sentence)
            # Si la traduction est trop courte(indicateur demauvaise traduction), garder la phrase originale
            if len(x) < 2*len(sentence)//3:
                translated_sentences.append(sentence)
                current_chunk = sentence + " "
            else:
                translated_sentences.append(x)
        
        # Si le texte traduit est trop long pour être ajouté à l'actuel 'chunk'        
        elif len(current_chunk) + len(sentence) + 1 <= 5000:
            current_chunk += sentence + " "
            
        else:
            # Traduire le 'chunk' et recommencer
            x = GoogleTranslator(source='fr', target='en').translate(current_chunk)
            translated_sentences.append(x)
            current_chunk = sentence + " "
            
        count += 1
    
    # Traduire le dernier 'chunk' s'il en reste
    if current_chunk:
        translated_sentences.append(GoogleTranslator(source='fr', target='en').translate(current_chunk))

    # Retourner toutes les phrases traduites sous forme de texte
    return ' '.join(translated_sentences)

# Fonction pour diviser une étiquette en mots et les convertir en minuscules
def split_and_lowercase(label):
    """
    Divise l'étiquette en mots et les convertit en minuscules.
    
    Args:
    label (str): L'étiquette à traiter.
    
    Returns:
    list: Une liste de mots en minuscules.
    """
    return re.findall(r'\b\w+\b', label.lower())

# Fonction pour transformer un texte
# Cette fonction passe tous les mots en minuscules sauf la première lettre du premier mot
def transform_text(text):
    """
    Transforme les mots en majuscules en minuscules sauf la première lettre du premier mot.
    
    Args:
    text (str): Le texte à transformer.
    
    Returns:
    str: Le texte transformé.
    """
    # Séparer le texte en mots
    words = text.split()
    
    # Transformer les mots tout en respectant la casse pour le premier caractère
    return ' '.join([word[0] + word[1:].lower() if word.isupper() else word for word in words])

"""
def transform_caps_word(word):
    if word.isupper():
        return word[0] + word[1:].lower()
    return word

def transform_text(text):
    words = text.split()
    transformed_words = [transform_caps_word(word) for word in words]
    return ' '.join(transformed_words)
"""

"\ndef transform_caps_word(word):\n    if word.isupper():\n        return word[0] + word[1:].lower()\n    return word\n\ndef transform_text(text):\n    words = text.split()\n    transformed_words = [transform_caps_word(word) for word in words]\n    return ' '.join(transformed_words)\n"

# NER

In [6]:
#fonction du modèle
def NER_text_split_v2(text, ner_pipeline):
    """
    Applique le modèle NER sur un texte divisé en phrases.

    Paramètres:
    text (str): Le texte d'entrée à traiter.
    ner_pipeline (pipeline): Le pipeline NER (modèle NER utilisé pour la reconnaissance d'entités nommées).

    Retourne:
    list: Les labels NER (entités nommées) extraits du texte.
    """
    # Diviser le texte en phrases
    sentences = split_text_into_sentences(text)
    labels = []

    current_chunk = ""      # Accumulateur pour stocker les phrases avant de les traiter
    chunk_start_offset = 0  # Pour garder une trace du décalage de début du chunk (ensemble de phrases)
    
    # Utilisation de ThreadPoolExecutor pour traiter les chunks en parallèle
    with ThreadPoolExecutor() as executor:
        futures = []        # Liste pour stocker les futures (résultats asynchrones)
        for sentence in sentences:
            # Si la longueur totale actuelle + celle de la phrase ne dépasse pas 1500 caractères, on l'ajoute au chunk
            if len(current_chunk) + len(sentence) + 1 <= 1500:
                current_chunk += sentence + " "
            else:
                # Si le chunk dépasse 1500 caractères, traiter le chunk avec le pipeline NER
                futures.append(executor.submit(process_chunk, current_chunk, ner_pipeline, chunk_start_offset))
                
                # Mettre à jour le décalage de départ pour le prochain chunk
                chunk_start_offset += len(current_chunk)
                
                # Réinitialiser le chunk avec la nouvelle phrase
                current_chunk = sentence + " "

        # Si un chunk est encore présent après la boucle, on le traite aussi
        if current_chunk:
            futures.append(executor.submit(process_chunk, current_chunk, ner_pipeline, chunk_start_offset))
        
        # Collecter les résultats des tâches parallélisées (futures)
        for future in futures:
            labels.extend(future.result())

    return labels

# Fonction pour extraire un mot basé sur un intervalle donné dans le texte
def extract_word_by_interval_v2(text, start, end):
    """
    Extrait le mot pointé par l'intervalle donné dans le texte.

    Paramètres:
    text (str): Le texte d'entrée.
    start (int): L'index de début de l'intervalle.
    end (int): L'index de fin de l'intervalle.

    Retourne:
    tuple: Le mot extrait de l'intervalle, l'index de début et l'index de fin mis à jour.
    """
    # Vérifie si les indices sont valides
    if start < 0 or end > len(text) or start >= end:
        return "", start, end

    # Ajuster l'index de début à celui du début du mot
    word_start = start
    while word_start > 0 and re.match(r'[\w-]', text[word_start - 1]):           # re.match(r'[\w.-]', text[word_start - 1])
        word_start -= 1

    # Ajuster l'index de fin à celui de la fin du mot
    word_end = end
    while word_end < len(text) and re.match(r'[\w-]', text[word_end]):           # re.match(r'[\w.-]', text[word_start - 1])
        word_end += 1

    return text[word_start:word_end], word_start, word_end

# Fonction pour corriger les sorties NER en fusionnant les mots séparés et en corrigeant les intervalles
def fix_output(NER_output, text):
    """
    Corrige la sortie du NER pour fusionner les mots séparés et ajuster les intervalles.

    Paramètres:
    NER_output (list): La sortie du modèle NER.
    text (str): Le texte original.

    Retourne:
    list: La sortie NER corrigée.
    """
    out = []
    pointer = 0
    for n in NER_output:
        if pointer <= n['start']:
            n['word'], n['start'], ending = extract_word_by_interval_v2(text, n['start'], n['end'])
            n['end'] = ending
            pointer = ending
            out.append(n)
    return out

# Fonction pour diviser le texte en phrases
def split_text_into_sentences(text):
    """
    Divise le texte en phrases en utilisant NLTK.

    Paramètres:
    text (str): Le texte d'entrée.

    Retourne:
    list: La liste des phrases.
    """
    sentences = nltk.sent_tokenize(text)
    return sentences

# Fonction pour traiter un segment de texte à travers le pipeline NER et ajuster les offsets
def process_chunk(chunk, ner_pipeline, start_offset):
    """
    Traite un segment de texte à travers le pipeline NER et ajuste les offsets.

    Paramètres:
    chunk (str): Le segment de texte.
    ner_pipeline (pipeline): Le pipeline NER.
    start_offset (int): L'offset de début pour ce segment.

    Retourne:
    list: Les étiquettes NER avec les offsets ajustés.
    """
    chunk_labels = ner_pipeline(chunk)
    for label in chunk_labels:
        if label['entity_group'] == 'PER':       # Se concentre uniquement sur les entités de type "PER"
            label['start'] += start_offset
            label['end'] += start_offset
    return [label for label in chunk_labels if label['entity_group'] == 'PER']

# Fonction pour diviser et mettre en minuscules les mots d'une étiquette
def split_and_lowercase_v2(label):
    """
    Divise l'étiquette en mots et les convertit en minuscules.

    Paramètres:
    label (str): L'étiquette à traiter.

    Retourne:
    list: Une liste de mots en minuscules.
    """
    label = [word.lower() for word in label.split()]
    y = []
    for x in label:
        # Expression régulière pour capturer les mots avec le format 'mot.-mot'
        pattern = re.compile(r"[A-Za-z]+[.]+[-][A-Za-z]+")

        # Appliquer l'expression régulière
        match = pattern.match(x)

        if match:
            y.extend([x])                        # Si la correspondance est trouvée, ajouter le mot
        else:
            y.extend(re.findall(r'\b\w+\b', x))  # Sinon, diviser les mots par la méthode générique
            
    return y

# Fonction pour ajouter toutes les occurrences des mots dans la chaîne d'origine à partir de la sortie NER
def add_all_word_occurrences(ner_output, original_string):
    """
    Ajoute toutes les occurrences de mots dans la chaîne originale en fonction de la sortie NER.

    Paramètres:
    ner_output (list): La sortie NER.
    original_string (str): La chaîne de texte originale.

    Retourne:
    list: Toutes les occurrences des mots trouvés dans la chaîne originale.
    """
    original_string = original_string.lower()
    all_occurrences = []
    ner_output = [word for label in ner_output for word in split_and_lowercase_v2(label)]
    
    for word in ner_output:
        start = 0
        while start < len(original_string):
            start = original_string.find(word, start)
            if start == -1:
                break
            all_occurrences.append(word)
            start += len(word)
    
    return all_occurrences


# La BlackListe

In [8]:
# Charger la BlackList du fichier
with open("Anonymisation/blacklist/blacklist.pkl", "rb") as file:  # Use "rb" to read in binary mode
    blacklist = pickle.load(file)

def filter_label(labels, blacklist):
    """
    Éliminer certaines étiquettes identifiées selon une liste noire.

    Paramètres:
    labels (list): Les mots identifiés.
    blacklist (list): La liste noire de mots à exclure.

    Retourne:
    fixed_labels (list): Les mots identifiés filtrés.
    """
    fixed_labels = []
    black_list = blacklist  # Utilisation d'une liste noire pour des recherches rapides
    digit_pattern = re.compile(r'\d')  # Précompiler la regex pour chercher des chiffres
    for word in labels:
        word_lower = word.lower()
        if not digit_pattern.search(word):  # Vérifie s'il n'y a pas de chiffre dans le mot
            if word_lower not in black_list:  # Vérifie si le mot est dans la blacklist 
                fixed_labels.append(word)

    return fixed_labels

def find_whole_word(original_string, word, start=0):    
    """
    Trouve un mot entier dans une chaîne d'origine.

    Paramètres:
    original_string (str): La chaîne dans laquelle rechercher le mot.
    word (str): Le mot à rechercher.
    start (int): L'index à partir duquel commencer la recherche (par défaut à 0).

    Retourne:
    int: L'index de début du mot s'il est trouvé, -1 sinon.
    """
    # Créer un motif regex qui correspond au mot entier
    pattern = r'\b' + re.escape(word) + r'\b'
    
    # Utiliser re.search pour trouver le mot à partir de l'index donné
    match = re.search(pattern, original_string[start:])
    
    if match:
        return start + match.start()
    return -1

# Remplacement de noms

In [9]:
import pandas as pd
import random
from transformers import pipeline

# Télécharge et prépare la base de donnée de noms
def load_name_database(file_path):
    """
    Load the name database from a CSV file containing only a single column of names.

    Parameters:
    file_path (str): Path to the CSV file containing names.

    Returns:
    list: A list of names.
    """
    # Load the CSV file
    names_df = pd.read_csv(file_path)
    
    # Check if the 'name' column is present
    if 'name' not in names_df.columns:
        raise ValueError("CSV file must contain a 'name' column.")
    
    # Convert the 'name' column to a list
    names_list = names_df['name'].tolist()
    return names_list

# fonction de remplacement de noms dans le texte
def change_all_word_occurrences_v2(ner_output, original_string, name_database):
    """
    Changer toutes les occurrences de mots dans la chaîne d'origine en fonction de la sortie NER.

    Paramètres:
    ner_output (list): La sortie NER, une liste de mots.
    original_string (str): La chaîne de texte originale.
    name_database (list de str): Liste de noms de remplacements.

    Retourne:
    list: Toutes les occurrences des mots trouvés dans la chaîne originale.
    """
    original_string = original_string.lower()       # Convertir la chaîne originale en minuscules pour des correspondances insensibles à la casse
    modified_string = original_string
    all_occurrences = []
    changed = []                                    # Liste pour suivre les mots déjà vérifiés
    ner_output = [word for label in ner_output for word in split_and_lowercase_v2(label)]
    
    # Dictionary to store randomized replacements for each detected word
    replacements = {}
    
    for word in ner_output:
        if word in changed:
            continue
        elif len(word) <= 2:                        # Changer pour vérifier les mots changer sont de longueur supérieure à 2
            continue
        
        if word not in replacements:                               #choisi un nom de remplacemement
            replacements[word] = random.choice(name_database)
            
        start = 0
        while start < len(modified_string):
            start = find_whole_word(original_string, word, start)
            if start == -1:
                break
            end = start + len(word)
            modified_string = (
                modified_string[:start] + replacements[word] + modified_string[end:]
            )
            original_string = (
                original_string[:start] + replacements[word] + original_string[end:]
            )
            start += len(replacements[word]) 
            changed.append(word)       # Ajouter le mot à la liste des mots vérifiés

    return modified_string, replacements

# Modèle 

In [11]:
def model_packaged_v2(text, ner_pipeline, blacklist, name_database, names=None):
    """
    Fonction principale de traitement de texte avec traduction, transformation et pipeline NER.
    
    Paramètres:
    text (str): Texte à traiter.
    ner_pipeline (pipeline): Pipeline NER pour la reconnaissance des entités nommées.
    blacklist (list): Liste des termes à exclure.
    name_database (list): Base de données des noms pour les remplacements.
    names (list of string, optional): Liste de noms supplémentaires à inclure dans le traitement.
    
    Retourne:
    list: Liste des occurrences de mots trouvés dans le texte original.
    """
    # Étape 1 : Traduction du texte
    translated = translate_text_v2(text)
    
    # Étape 2 : Transformation du texte (par ex. mise en forme des majuscules)
    transformed = transform_text(translated)
    
    # Étape 3 : Application du pipeline NER pour extraire les étiquettes
    raw_labels = NER_text_split_v2(transformed, ner_pipeline)
    
    # Étape 4 : Correction des étiquettes NER pour ajuster les mots et les intervalles
    ner_output = fix_output(raw_labels, transformed)
    
    # Extraction des mots de sortie
    labels = [y['word'] for y in ner_output]
    
    # Ajout des noms dans la liste des étiquettes si fourni
    if names:
        split_names = [name_part for name in names for name_part in split_and_lowercase_v2.split()]
        labels.extend(split_names)
    
    # Filtrage des étiquettes en fonction de la blacklist
    fixed_labels = filter_label(labels, blacklist)
    
    # change de toutes les occurrences de mots dans le texte original
    return change_all_word_occurrences_v2(fixed_labels, text, name_database) 

# Application du Modèle

In [23]:
from pyspark.sql.functions import col
from pyspark.sql import Row
from pyspark.sql.types import StructType, StructField, IntegerType, StringType, MapType
import pandas as pd

def apply_model(model, TestSet, ner_pipeline, blacklist, name_database):
    """
    Parameters:
    model (function): The decision function (String -> List of String)
    TestSet (DataFrame): Test set dataframe containing column 'observation_value'.
    ner_pipeline (object): NER pipeline to extract named entities.
    blacklist (list de str): Liste de mots à exclure des anonymisation.
    name_database (list de str): Liste de noms de remplacements.
    
    Returns:
    Anonymised (DataFrame): Anonymised text dataframe.
    """
    # Récupère le nombre total de lignes dans l'ensemble de test
    n = TestSet.count()
    
    # Listes pour stocker les résultats d'anonymisation   
    anonymized_data = []
    
    schema = StructType([
        StructField("index", IntegerType(), True),
        StructField("anonymized_text", StringType(), True),
        StructField("name_replacements",  MapType(StringType(), StringType()), True)
    ])
    
    # Boucle sur chaque ligne de l'ensemble de test
    for count in tqdm(range(n), desc="Anonymizing Text", unit="row"):
        # Récupère la ligne en fonction de l'index actuel
        row = TestSet.filter(col("index") == count).collect()[0]
        
        # Extraction des observations et des étiquettes réelles de la ligne
        x = row['observation_value']
        
        # Vérifie si la colonne 'name' existe dans la ligne
        if 'name' in row:
            name = row['name']
            # Applique le modèle avec la colonne 'name'
            anonymized_text, replacements = model(x, ner_pipeline, blacklist, name_database, name)
        else:
            # Applique le modèle sans la colonne 'name'
            anonymized_text, replacements = model(x, ner_pipeline, blacklist, name_database)
        
        # Append the anonymized text to the list
        anonymized_data.append(Row(index=count, anonymized_text=anonymized_text, name_replacements=replacements))
        
    df = pd.DataFrame(anonym, columns=["index", "observation_value", "remplacements"])
    # Sauvegarder dans un fichier CSV
    df.to_csv("output.csv", index=False)
    
    return df



# Chargement des données

In [25]:
spark = SparkSession.builder \
    .appName("ExampleApp") \
    .getOrCreate()

# Définition de l'ensemble de test à utiliser pour l'évaluation du modèle
df = spark.read.parquet('TestSet2.2')  #changer pour l<ensemble de donnée voulu
df.show()     #montrer quelque info sur le df
df.count()    #montrer quelque info sur le df

+-----+--------------------+--------------------+------+
|index|   observation_value|               label|N_mots|
+-----+--------------------+--------------------+------+
|    0|Dossier:  0323480...|[ELARICH, IHSENE,...|   248|
|    1|Dossier:  0310728...|[AMMAR, YANNI, SA...|   155|
|    2|Dossier:  0239248...|[DIALLO, AISSATOU...|   223|
|    3|Dossier:  P011456...|[LAMONTAGNE, MYLE...|   206|
|    4|Dossier:  0127689...|[GAGNON, NATACHA,...|   384|
|    5|Dossier:  X361189...|[GU, SARAH, Mucha...|   339|
|    6|Dossier:  0254246...|[BOUCHARD, SOPHIA...|   424|
|    7|Dossier:  0231956...|[LAPORTE, CHRISTO...|   300|
|    8|Dossier:  0323811...|[APETOFIA, MATHEO...|   271|
|    9|Dossier:  0343202...|[GUTIERREZ MARTIN...|   842|
|   10|Dossier:  0219196...|[BENOIT, PIER-OLI...|  1076|
|   11|Dossier:  X361387...|[LEBEL, PIERRE, M...|   351|
|   12|Dossier:  X361533...|[JOURDAIN, GERARD...|   548|
|   13|Dossier:  0330779...|[BAREZI, NICOLE, ...|   735|
|   14|Dossier:  X360424...|[NA

375

# Main Script

In [14]:
################################################### TQDM ########################################################################
import re
from transformers import AutoModelForTokenClassification, AutoTokenizer, pipeline

# Chargement du modèle BERT pour la reconnaissance d'entités nommées (NER)
loaded_model = AutoModelForTokenClassification.from_pretrained('Anonymisation/bert-large-NER')
loaded_tokenizer = AutoTokenizer.from_pretrained('Anonymisation/bert-large-NER')

# Pipeline NER avec stratégie d'agrégation 'simple'
ner_pipeline = pipeline("ner", model=loaded_model, tokenizer=loaded_tokenizer, aggregation_strategy="simple")

# Download la Blackliste
with open("Anonymisation/blacklist/blacklist.pkl", "rb") as file:  # Use "rb" to read in binary mode
    blacklist = pickle.load(file)

# Download les noms de remplacement
name_database = load_name_database('Anonymisation/prenomBD/prenom_M_et_F.csv')

# Application du modèle sur l'ensemble de test
###anonym = apply_model(model_packaged_v2, TestSet, ner_pipeline, blacklist, name_database)

In [26]:
# Limit the DataFrame to the first 5 rows
first_five_rows = df.limit(5)

# Show the result
first_five_rows.show()

+-----+--------------------+--------------------+------+
|index|   observation_value|               label|N_mots|
+-----+--------------------+--------------------+------+
|    0|Dossier:  0323480...|[ELARICH, IHSENE,...|   248|
|    1|Dossier:  0310728...|[AMMAR, YANNI, SA...|   155|
|    2|Dossier:  0239248...|[DIALLO, AISSATOU...|   223|
|    3|Dossier:  P011456...|[LAMONTAGNE, MYLE...|   206|
|    4|Dossier:  0127689...|[GAGNON, NATACHA,...|   384|
+-----+--------------------+--------------------+------+



In [27]:
# Exemple d'ensemble de test et évaluation du modèle
TestSet = df.limit(5)  # Chargez votre ensemble de test ici (remplacer df par le DataFrame correct)

# Évaluation du modèle sur l'ensemble de test
anonym = apply_model(model_packaged_v2, TestSet, ner_pipeline, blacklist, name_database)


Anonymizing Text: 100%|██████████| 5/5 [00:18<00:00,  3.70s/row]


In [28]:
type(anonym)

pandas.core.frame.DataFrame

In [32]:
df.limit(20).write.parquet("ExempleSet20.parquet")