In [None]:
from keybert import KeyBERT
from sentence_transformers import SentenceTransformer
import os, sys, pandas as pd

In [None]:
sys.path.append(os.path.abspath('..'))
from Scripts.toolbox import read_txt_file, filter_similar_entities

In [None]:
def entities_extractions(dossier):
    """
    Extrait les mots-clés de fichiers texte dans un dossier et enregistre les résultats dans des fichiers séparés.

    Paramètres:
    dossier : str
        Chemin vers le dossier contenant les fichiers texte (.txt).
    """

    odd_number = dossier[-2:]
    print("------------------------------------------------------------------------------------------------")
    print(f"\nDébut de traitement de l'ODD {odd_number}...")
    sentence_model = SentenceTransformer("all-MiniLM-L6-v2")

    # Liste des fichiers texte à traiter
    txt_files = [fichier for fichier in os.listdir(dossier)
                 if fichier.endswith(".txt") and "keywords" not in fichier]

    keywords_ODD = []
    print("Extraction des mots clés...\n")
    for txt_file in txt_files:
        # Convertir le fichier texte en une chaîne de caractères
        texte = read_txt_file(f"{dossier}/{txt_file}")

        # Configurer le modèle KeyBert pour l'extraction des mots-clés
        kw_model = KeyBERT(model=sentence_model)
        keywords = kw_model.extract_keywords(
            texte,
            keyphrase_ngram_range=(1, 2),   # Taille de mots/phrases clé(e)s
            stop_words='english',           # Eliminer les mots usuels en anglais
            use_maxsum=True,                # Eviter de séléectionner trop proches de sens
            nr_candidates=20,               # Nombre d'éléments à étudier
            top_n=10                        # Nombre d'éléments choisis
        )
        
        # Filtrer les entités similaires
        entities_filtered = filter_similar_entities(keywords, threshold=80)

        # Filtrer les résultats par score et cible
        filtered_keywords = [(kw[0], kw[1], txt_file[12:14]) for kw in entities_filtered if kw[1] > 0.5]
        keywords_ODD.extend(filtered_keywords)

    # Stockage des résultats en dataframe
    df = pd.DataFrame(keywords_ODD, columns=["Mots-cles", "Scores", "Cibles"])
    grouped = df.groupby("Cibles")
    results_dfs = []
    for cible, group in grouped :
        df_targets = pd.DataFrame({f"Cible {cible}": group["Mots-cles"].values, "Scores": group["Scores"].values})
        results_dfs.append(df_targets)
    
    final_results = pd.concat(results_dfs, axis=1)
    
    display(final_results)
    
    print(f"...Fin de traitement de l'ODD {odd_number}\n")


entities_extractions("../MetaData/ODD01")

In [None]:
# if __name__ == "__main__":
#     # Exécution de tous les ODD
#     path = "../MetaData"
#     odd_files = os.listdir(path)
#     for odd_file in odd_files:
#         entities_extractions(f"{path}/{odd_file}")
#         print("----------------------------------------------------------------------------------------------------------")