# Extraction de Keywords

## Imports

In [1]:
import os
import yake

## Extraire les mots clés d'un document avec Yake

https://github.com/LIAAD/yake

In [2]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

<yake.yake.KeywordExtractor at 0x21d12b28850>

In [9]:
# Lister les Fichiers
data_path = "../../data/txt/"
files = [f for f in os.listdir(data_path) if f.endswith('.txt')]

Fonction de sélection des fichiers d'une année spécifique

In [10]:
def selectionner_fichiers_par_annee(repertoire, annee_cible):
    """
    Sélectionne tous les fichiers .txt d'une année spécifique basée sur leur nom.
    
    :param repertoire: Chemin du dossier contenant les fichiers.
    :param annee_cible: Année cible sous forme de chaîne ('1906').
    :return: Liste des fichiers correspondant à l'année.
    """
    fichiers_selectionnes = []

    # Parcourir tous les fichiers dans le répertoire
    for fichier in os.listdir(repertoire):
        # Vérifier si c'est un fichier texte
        if fichier.endswith(".txt"):
            try:
                # Découper le nom du fichier
                fichier_split = fichier.split('_')  # ['KB', 'JB838', '1887-12-22', '01-00001']
                date = fichier_split[2]            # "1887-12-22"
                annee = date.split('-')[0]         # "1887"

                # Vérifier si l'année correspond à l'année cible
                if annee == annee_cible:
                    fichiers_selectionnes.append(os.path.join(repertoire, fichier))  # Chemin complet
            except IndexError:
                # Ignorer les fichiers mal formatés
                pass

    return fichiers_selectionnes

Appel de la fonction de sélection pour l'année cible (1906)

In [11]:
# Spécifier l'année et le répertoire
repertoire = data_path
annee_cible = "1906"

# Appeler la fonction
fichiers_selectionnes = selectionner_fichiers_par_annee(repertoire, annee_cible)

Compter et afficher le nombre de fichiers sélectionnés pour l'année cible (1906)

In [12]:
# Compter le nombre de fichiers sélectionnés
nombre_fichiers = len(fichiers_selectionnes)

# Afficher le nombre de fichiers sélectionnés
print(f"Nombre de fichiers sélectionnés pour l'année {annee_cible} : {nombre_fichiers}")

Nombre de fichiers sélectionnés pour l'année 1906 : 100


Récupérer le texte des fichiers de l'année cible dans une seul fichier

In [14]:
# Variable pour stocker tout le texte sous forme de chaîne pour l'année cible
all_text_annee_cible = ""

# Parcourir chaque fichier sélectionné et extraire son texte
for fichier in fichiers_selectionnes:
    try:
        # Ouvrir le fichier et lire son contenu
        with open(fichier, 'r', encoding='utf-8') as f:
            text = f.read()  # Lire tout le contenu du fichier
            
            # Concaténer le texte du fichier à la variable all_text_annee_cible
            all_text_annee_cible += text + "\n"  # Ajouter une nouvelle ligne entre les fichiers
    except Exception as e:
        print(f"Erreur lors de l'ouverture du fichier {fichier}: {e}")

# Sauvegarder tout le texte dans un fichier 'all-text_année_cible.txt' dans data_path
output_filename = os.path.join(data_path, f"all-text_{annee_cible}.txt")
with open(output_filename, 'w', encoding='utf-8') as output_file:
    output_file.write(all_text_annee_cible)

print(f"Le texte pour l'année {annee_cible} a été sauvegardé dans le fichier '{output_filename}'.")

Le texte pour l'année 1906 a été sauvegardé dans le fichier '../../data/txt/all-text_1906.txt'.


Extraction des mots-clés

In [16]:
# Lire le texte du fichier
input_filename = os.path.join(data_path, "all-text_1906.txt")

# Lire le contenu du fichier
with open(input_filename, 'r', encoding='utf-8') as f:
    text = f.read()

# Initialiser Yake et extraire les mots-clés
kw_extractor = yake.KeywordExtractor()
keywords = kw_extractor.extract_keywords(text)

# Afficher les mots-clés extraits
for keyword, score in keywords:
    print(f"{keyword}: {score}")


tous les jours: 1.946609628037995e-06
dans les: 2.153653319257531e-06
des ventes par: 2.1632662554490712e-06
les: 2.3597538952453367e-06
dans toutes les: 2.6166408551066797e-06
RUE DES: 2.7370653677351656e-06
pour les: 3.330556444395215e-06
par les: 3.8143870478619365e-06
dans les rues: 4.076686023208183e-06
tous les: 4.492693089990194e-06
dans tous les: 4.6270033628486246e-06
des: 4.933158527065683e-06
sur les: 5.670979492165108e-06
dans une maison: 6.441944202020223e-06
salle des ventes: 7.511151158170137e-06
rue des Foulons: 7.787735634303522e-06
rue des Palais: 7.867894435169351e-06
les rues les: 7.93352103620355e-06
rue: 8.87199394285604e-06
dans une: 1.04440053172405e-05


Vérifier le nombre de mots-clés extraits

In [17]:
# Vérifier le nombre de mots-clés extraits
print(f"Nombre de mots-clés extraits : {len(keywords)}")

# Afficher les mots-clés extraits
for keyword, score in keywords:
    print(f"{keyword}: {score}")

Nombre de mots-clés extraits : 20
tous les jours: 1.946609628037995e-06
dans les: 2.153653319257531e-06
des ventes par: 2.1632662554490712e-06
les: 2.3597538952453367e-06
dans toutes les: 2.6166408551066797e-06
RUE DES: 2.7370653677351656e-06
pour les: 3.330556444395215e-06
par les: 3.8143870478619365e-06
dans les rues: 4.076686023208183e-06
tous les: 4.492693089990194e-06
dans tous les: 4.6270033628486246e-06
des: 4.933158527065683e-06
sur les: 5.670979492165108e-06
dans une maison: 6.441944202020223e-06
salle des ventes: 7.511151158170137e-06
rue des Foulons: 7.787735634303522e-06
rue des Palais: 7.867894435169351e-06
les rues les: 7.93352103620355e-06
rue: 8.87199394285604e-06
dans une: 1.04440053172405e-05


Vérifier la qualité du texte extrait

In [None]:
# Lire le texte du fichier
input_filename = os.path.join(data_path, "all-text_1906.txt")

with open(input_filename, 'r', encoding='utf-8') as f:
    text = f.read()

# Vérifier le nombre de caractères dans le texte
text_length = len(text)
print(f"Nombre de caractères dans le fichier : {text_length}")

# Afficher les 500 premiers caractères du texte pour analyser la structure
print("Premiers 500 caractères du fichier :")
print(text[:500])
