# Extraction de Keywords

## Imports

In [2]:
import os
import yake

In [3]:
import pandas as pd
from pathlib import Path

## Extraire les mots clés d'un document avec Yake

https://github.com/LIAAD/yake

In [4]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

<yake.core.yake.KeywordExtractor at 0x18c942bf650>

In [5]:
# Lister les Fichiers
data_path = "../../data/txt"
files = [f for f in os.listdir(data_path) if f.endswith('.txt')]

# Filtrer les fichiers pour ne garder que ceux de l'année 1955
files_year = [f for f in files if "1955" in f]

In [6]:
# Imprimer le nombre de fichiers identifiés
len(files)

7986

In [7]:
# Imprimer le nombre de fichiers unique pour l'année 1955 
len(files_year)

100

In [8]:
# Les dix premiers fichiers
files_year[:11]

['KB_JB838_1955-01-01_01-00001.txt',
 'KB_JB838_1955-01-06_01-00007.txt',
 'KB_JB838_1955-01-17_01-00001.txt',
 'KB_JB838_1955-01-18_01-00010.txt',
 'KB_JB838_1955-01-18_01-00011.txt',
 'KB_JB838_1955-01-23_01-00002.txt',
 'KB_JB838_1955-01-25_01-00001.txt',
 'KB_JB838_1955-01-25_01-00005.txt',
 'KB_JB838_1955-01-28_01-00012.txt',
 'KB_JB838_1955-01-31_01-00003.txt',
 'KB_JB838_1955-02-03_01-00008.txt']

In [9]:
# Choisir un fichier
this_file = files_year[1]
this_file

'KB_JB838_1955-01-06_01-00007.txt'

In [10]:
# Récupérer le texte du fichier
text = open(os.path.join(data_path, this_file), 'r', encoding='utf-8').read()
text[:500]

"JEUDI 6 JANVIER 1955 j9 LE SOIR \\ LE FOOTBALL EN PROMOTION ] L’an neuf a réveillé l’intérêt Le second tour a 616 entamé par de nombreuses surprises. Celles-ci sont à imputer à une offensive de l'hiver, qui rendit les terrains durs et dangereux. Certains s'y adaptèrent, au grand dam des autres. Sauf les « victimes » de la Journée, personne ne s'en plaindra, car les championnats (sauf en série B) y ont regagné tout leur attrait. Tout est donc à refaire, avec plusieurs acteurs nouveaux. SERIE A Tou"

In [11]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)
keywords

[('Van', np.float64(0.003889299847933875)),
 ('match', np.float64(0.012011511419442419)),
 ('Prix', np.float64(0.01451787764686933)),
 ('Miss', np.float64(0.015200327540779674)),
 ('DIVISION III Série', np.float64(0.018116580631023834)),
 ('division III', np.float64(0.021046787675410947)),
 ('JANVIER', np.float64(0.021434858629913584)),
 ('Mrs', np.float64(0.021773694933159875)),
 ('DIVISION III Union', np.float64(0.022475339059384182)),
 ('Racing', np.float64(0.022795303256575996)),
 ('série', np.float64(0.02344756650694019)),
 ('Grand Prix', np.float64(0.02400308429997375)),
 ('III', np.float64(0.024342166851131324)),
 ('FRANCE', np.float64(0.024360501711605292)),
 ('Paris', np.float64(0.024497218299403826)),
 ('français', np.float64(0.024509705062535112)),
 ('Reims', np.float64(0.02599875421775566)),
 ('division', np.float64(0.02710907651449386)),
 ('fut', np.float64(0.028987738561180525)),
 ('Stade', np.float64(0.029001218518091915)),
 ('points', np.float64(0.029739272477791633)),


In [12]:
# Ne garder que les bigrammes
kept = []
for kw, score in keywords:
    words = kw.split()
    if len(words) == 2:
        kept.append(kw)
kept

['division III',
 'Grand Prix',
 'Coupe Davis',
 'Van Looy',
 'Stade Français',
 'Red Star',
 'Miss Connolly',
 'Van der',
 'White Star',
 'dimanche DIVISION']

## Faire la même opération sur tous les documents de l'année 1955

In [13]:
for f in sorted(files_year)[:11]:
    text = open(os.path.join(data_path, f), 'r', encoding="utf-8").read()
    keywords = kw_extractor.extract_keywords(text)
    kept = []
    for kw, score in keywords:
        words = kw.split()
        if len(words) == 2:
            kept.append(kw)
    print(f"{f} mentions these keywords: {', '.join(kept)}...")

KB_JB838_1955-01-01_01-00001.txt mentions these keywords: l’Assemblée nationale, BRUXELLES PARIS, qu’il faut, JOURNAL QUOTIDIEN, gouvernement français, Congo Belge, PARLEMENT FRANÇAIS...
KB_JB838_1955-01-06_01-00007.txt mentions these keywords: division III, Grand Prix, Coupe Davis, Van Looy, Stade Français, Red Star, Miss Connolly, Van der, White Star, dimanche DIVISION...
KB_JB838_1955-01-17_01-00001.txt mentions these keywords: JOURNAL QUOTIDIEN, Costa Rica, Pékin Tokio, Etats américains...
KB_JB838_1955-01-18_01-00010.txt mentions these keywords: Bel app, Porte Louise, QUARTIER LOUISE, Louise Studios, LOUER App, l’AGENCE ROSSEL...
KB_JB838_1955-01-18_01-00011.txt mentions these keywords: Agence Rossel, Rossel num, Ecrire Agence, Faire offre, Demande REPRESENTANT, Bruxelles demande, cherche REPRESENTANT, l’Agence Rossel, Importante Société, RECEPTEURS RADIO, Firme importante, Importante demande...
KB_JB838_1955-01-23_01-00002.txt mentions these keywords: Pierrette Bruno, Edouard Del