# Conversion de fichiers PDF en fichiers TXT

## Imports

Pour utiliser ce notebook, vous devez préalablement récupérer les fichiers PDFs sur l'UV et les déposer dans le dossier `./data/pdf`


In [1]:
import os
import textract

## Lister les fichiers dans `data/pdf`

In [2]:
pdf_path = '../data/pdf'

pdfs = []
for f in os.listdir(pdf_path):
    if os.path.isfile(os.path.join(pdf_path, f)):
        pdfs.append(f)
pdfs[:10]

['KB_JB838_1911-08-03_01-00006.pdf',
 'KB_JB729_1939-10-31_01-00006.pdf',
 'KB_JB572_1850-03-15_01-00003.pdf',
 'KB_JB92_1885-09-29_01-00002.pdf',
 'KB_JB555_1836-02-08_01-00002.pdf',
 'KB_JB837_1925-01-01_01-00003.pdf',
 'KB_JB773_1950-07-22_01-00010.pdf',
 'KB_JB230_1903-10-16_01-0002.pdf',
 'KB_JB685_1913-06-07_01-0006.pdf',
 'KB_JB230_1892-08-07_01-0003.pdf']

## Créer un répertoire TXT s'il n'existe pas encore

In [3]:
txt_path = '../data/txt'
if not os.path.exists(txt_path):
    os.mkdir(txt_path)

## Lister les fichiers dans `data/txt`

In [4]:
txts = []
for f in os.listdir(txt_path):
    if os.path.isfile(os.path.join(txt_path, f)):
        txts.append(f)
txts[:10]

['KB_JB838_1906-11-12_01-00004.txt',
 'KB_JB838_1970-06-13_01-00012.txt',
 'KB_JB838_1922-01-02_01-00007.txt',
 'KB_JB838_1952-02-29_01-00010.txt',
 'KB_JB838_1960-10-30_01-00007.txt',
 'KB_JB838_1966-08-30_01-00011.txt',
 'KB_JB838_1923-07-29_01-00003.txt',
 'KB_JB838_1893-11-28_01-00004.txt',
 'KB_JB838_1932-06-03_01-00011.txt',
 'KB_JB838_1961-12-30_01-00015.txt']

In [5]:
#  Lister les fichiers pdf qui n'ont pas encore été convertis en txt
not_converted_pdfs = []
for pdf in pdfs:
    file_name = os.path.splitext(pdf)[0]
    if file_name + ".txt" not in txts:
        not_converted_pdfs.append(pdf)
len(not_converted_pdfs)
print(not_converted_pdfs)

[]


## Convertir les fichiers PDFs en TXT

In [6]:
for pdf in not_converted_pdfs:
    print(pdf)
    try:
        text = textract.process(os.path.join(pdf_path, pdf))
        with open(os.path.join(txt_path, f'{os.path.splitext(pdf)[0]}.txt'), 'wb') as output_file:
            output_file.write(text)
    except:
        print("Error with following file:", pdf)

## Créer un grand fichier 'corpus': commande bash

Avant d'exécuter le code qui suit, vous pouvez préalablement récupérer l'échantillon complet au format `.txt` sur l'UV et les déposer dans le dossier `./data/txt`

- `cat` permet d'imprimer le contenu de fichiers textes
- Un pattern (ici `../*.txt`) permet d'appliquer la commande sur tous les fichiers qui matchent
- `>` permet de rediriger le résultat de la commande précédente dans un fichier

Pour en savoir plus sur les flux de redirections :
https://openclassrooms.com/fr/courses/43538-reprenez-le-controle-a-laide-de-linux/40444-les-flux-de-redirection

In [7]:
!cat ../data/txt/*.txt > ../data/all.txt

## Compter le nombre de mots dans l'ensemble du corpus

In [8]:
!wc ../data/all.txt


   92793 51665309 315216742 ../data/all.txt


On obtient ici, dans l'ordre, le nombre de lignes, de mots, d'octets.

Pour en savoir plus sur la commande wc: https://fr.wikipedia.org/wiki/Wc_(Unix)