# Conversion de fichiers PDF en fichiers TXT

## Imports

In [24]:
import os
import textract
from collections import defaultdict

import matplotlib.pyplot as plt
import numpy as np

import yake

## Lister les fichiers dans `data/pdf`

## Créer un répertoire TXT s'il n'existe pas encore

In [26]:
txt_path = '../data/txt'
if not os.path.exists(txt_path):
    os.mkdir(txt_path)

## Lister les fichiers dans `data/txt`

In [56]:
txts = []
for f in os.listdir(txt_path):
    if os.path.isfile(os.path.join(txt_path, f)):
        txts.append(f)
txts[:50]

['Bxl_1847_Tome_I1_Part_1.txt',
 'Bxl_1847_Tome_I1_Part_2.txt',
 'Bxl_1847_Tome_I1_Part_3.txt',
 'Bxl_1847_Tome_I1_Part_4.txt',
 'Bxl_1847_Tome_I1_Part_5.txt',
 'Bxl_1848_Tome_I1_Part_1.txt',
 'Bxl_1848_Tome_I1_Part_2.txt',
 'Bxl_1848_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_1.txt',
 'Bxl_1849_Tome_I1_Part_2.txt',
 'Bxl_1849_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_4.txt',
 'Bxl_1849_Tome_I1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_1.txt',
 'Bxl_1849_Tome_II1_Part_2.txt',
 'Bxl_1849_Tome_II1_Part_3.txt',
 'Bxl_1849_Tome_II1_Part_4.txt',
 'Bxl_1849_Tome_II1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_6.txt',
 'Bxl_1849_Tome_II1_Part_7.txt',
 'Bxl_1850_Tome_I1_Part_1.txt',
 'Bxl_1850_Tome_I1_Part_2.txt',
 'Bxl_1850_Tome_I1_Part_3.txt',
 'Bxl_1850_Tome_I1_Part_4.txt',
 'Bxl_1850_Tome_II1_Part_1.txt',
 'Bxl_1850_Tome_II1_Part_2.txt',
 'Bxl_1850_Tome_II1_Part_3.txt',
 'Bxl_1850_Tome_II1_Part_4.txt',
 'Bxl_1850_Tome_II1_Part_5.txt',
 'Bxl_1850_Tome_II1_Part_6.txt',
 'Bxl_1850_Tome_II1_Part_7.

## Compter le nombre de mots dans l'ensemble du corpus

In [28]:
!wc ../data/all.txt

 20129954  93166932 460921664 ../data/all.txt


## Compter le nombre de documents dans le corpus


In [29]:
path = "../data/txt/"
files = sorted(os.listdir(path))

In [19]:
len(files)

2829

In [None]:
# Enlever les fichiers qui ne commencent pas par Bxl_
bxl_files = [f for f in files if f.startswith('Bxl_1901')]
len(bxl_files)

## Explorer les noms de fichier


In [46]:
type(chaine)

str

In [47]:
# la méthode split
chaine_split = chaine.split('_')
chaine_split

['Bxl', '1901']

## Extraire les mots clés d'un document avec Yake


In [48]:
# Création d'une liste de mots à ignorer
ignored = set(["conseil communal", "conseil général"])
ignored

{'conseil communal', 'conseil général'}

In [49]:
# Instantier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)
kw_extractor

<yake.yake.KeywordExtractor at 0x7fae45d48640>

In [50]:
# Lister les Fichiers
data_path = "../data/txt/"
files = os.listdir(data_path)


In [51]:
# Imprimer le nombre de fichiers identifiés
len(files)

2829

In [52]:
# Les 20 premiers fichiers
files[:20]

['.ipynb_checkpoints',
 'Bxl_1847_Tome_I1_Part_1.txt',
 'Bxl_1847_Tome_I1_Part_2.txt',
 'Bxl_1847_Tome_I1_Part_3.txt',
 'Bxl_1847_Tome_I1_Part_4.txt',
 'Bxl_1847_Tome_I1_Part_5.txt',
 'Bxl_1848_Tome_I1_Part_1.txt',
 'Bxl_1848_Tome_I1_Part_2.txt',
 'Bxl_1848_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_1.txt',
 'Bxl_1849_Tome_I1_Part_2.txt',
 'Bxl_1849_Tome_I1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_4.txt',
 'Bxl_1849_Tome_I1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_1.txt',
 'Bxl_1849_Tome_II1_Part_2.txt',
 'Bxl_1849_Tome_II1_Part_3.txt',
 'Bxl_1849_Tome_II1_Part_4.txt',
 'Bxl_1849_Tome_II1_Part_5.txt',
 'Bxl_1849_Tome_II1_Part_6.txt']

In [53]:
# Enlever les fichiers qui ne commencent pas par Bxl_
bxl_files = [f for f in files if f.startswith('Bxl_1913')]
len(bxl_files)

36

In [54]:
# Choisir un fichier
this_file = bxl_files
this_file

['Bxl_1913_Tome_I1_Part_1.txt',
 'Bxl_1913_Tome_I1_Part_10.txt',
 'Bxl_1913_Tome_I1_Part_11.txt',
 'Bxl_1913_Tome_I1_Part_12.txt',
 'Bxl_1913_Tome_I1_Part_2.txt',
 'Bxl_1913_Tome_I1_Part_3.txt',
 'Bxl_1913_Tome_I1_Part_4.txt',
 'Bxl_1913_Tome_I1_Part_5.txt',
 'Bxl_1913_Tome_I1_Part_6.txt',
 'Bxl_1913_Tome_I1_Part_7.txt',
 'Bxl_1913_Tome_I1_Part_8.txt',
 'Bxl_1913_Tome_I1_Part_9.txt',
 'Bxl_1913_Tome_I2_1_Part_1.txt',
 'Bxl_1913_Tome_I2_1_Part_10.txt',
 'Bxl_1913_Tome_I2_1_Part_2.txt',
 'Bxl_1913_Tome_I2_1_Part_3.txt',
 'Bxl_1913_Tome_I2_1_Part_4.txt',
 'Bxl_1913_Tome_I2_1_Part_5.txt',
 'Bxl_1913_Tome_I2_1_Part_6.txt',
 'Bxl_1913_Tome_I2_1_Part_7.txt',
 'Bxl_1913_Tome_I2_1_Part_8.txt',
 'Bxl_1913_Tome_I2_1_Part_9.txt',
 'Bxl_1913_Tome_I2_2_Part_1.txt',
 'Bxl_1913_Tome_I2_2_Part_10.txt',
 'Bxl_1913_Tome_I2_2_Part_11.txt',
 'Bxl_1913_Tome_I2_2_Part_2.txt',
 'Bxl_1913_Tome_I2_2_Part_3.txt',
 'Bxl_1913_Tome_I2_2_Part_4.txt',
 'Bxl_1913_Tome_I2_2_Part_5.txt',
 'Bxl_1913_Tome_I2_2_Part_6.txt'

In [55]:
# Récupérer le texte du fichier
text = open(os.path.join(data_path, this_file), 'r').read()
text[:500]

TypeError: join() argument must be str, bytes, or os.PathLike object, not 'list'

In [43]:
# Extraire les mots clés de ce texte
keywords = kw_extractor.extract_keywords(text)

NameError: name 'text' is not defined