# Conversion de fichiers PDF en fichiers TXT

## Imports

Pour utiliser ce notebook, vous devez préalablement récupérer les fichiers PDFs sur l'UV et les déposer dans le dossier `./data/pdf`


In [1]:
import os
import textract

## Lister les fichiers dans `data/pdf`

In [2]:
pdf_path = '../data/pdf'

pdfs = []
for f in os.listdir(pdf_path):
    if os.path.isfile(os.path.join(pdf_path, f)):
        pdfs.append(f)
pdfs[:10]
len (pdfs) // pour compter le nombre de fichiers 

['KB_JB230_1892-08-07_01-0003.pdf',
 'KB_JB230_1903-10-16_01-0002.pdf',
 'KB_JB230_1913-07-05_01-0001.pdf',
 'KB_JB258_1884-09-03_01-0003.pdf',
 'KB_JB258_1894-12-09_01-0003.pdf',
 'KB_JB258_1906-01-09_01-0002.pdf',
 'KB_JB421_1899-05-15_01-00003.pdf',
 'KB_JB421_1926-10-29_01-00002.pdf',
 'KB_JB421_1950-04-15_01-00004.pdf',
 'KB_JB427_1920-01-10_01-00004.pdf']

## Créer un répertoire TXT s'il n'existe pas encore

In [3]:
txt_path = '../data/txt'
if not os.path.exists(txt_path):
    os.mkdir(txt_path)

## Lister les fichiers dans `data/txt`

In [4]:
txts = []
for f in os.listdir(txt_path):
    if os.path.isfile(os.path.join(txt_path, f)):
        txts.append(f)
txts[:10]

[]

In [5]:
#  Lister les fichiers pdf qui n'ont pas encore été convertis en txt
not_converted_pdfs = []
for pdf in pdfs:
    file_name = os.path.splitext(pdf)[0]
    if file_name + ".txt" not in txts:
        not_converted_pdfs.append(pdf)
len(not_converted_pdfs)
print(not_converted_pdfs)

['KB_JB230_1892-08-07_01-0003.pdf', 'KB_JB230_1903-10-16_01-0002.pdf', 'KB_JB230_1913-07-05_01-0001.pdf', 'KB_JB258_1884-09-03_01-0003.pdf', 'KB_JB258_1894-12-09_01-0003.pdf', 'KB_JB258_1906-01-09_01-0002.pdf', 'KB_JB421_1899-05-15_01-00003.pdf', 'KB_JB421_1926-10-29_01-00002.pdf', 'KB_JB421_1950-04-15_01-00004.pdf', 'KB_JB427_1920-01-10_01-00004.pdf', 'KB_JB427_1933-01-04_01-00003.pdf', 'KB_JB427_1949-07-18_01-00008.pdf', 'KB_JB449_1846-05-30_01-00002.pdf', 'KB_JB449_1912-01-04_01-00003.pdf', 'KB_JB449_1947-08-29_01-00003.pdf', 'KB_JB494_1853-10-30_01-0002.pdf', 'KB_JB494_1922-09-28_01-0005.pdf', 'KB_JB494_1939-12-08_01-0004.pdf', 'KB_JB555_1836-02-08_01-00002.pdf', 'KB_JB555_1899-01-19_01-00003.pdf', 'KB_JB555_1940-03-01_01-00004.pdf', 'KB_JB567_1857-02-02_01-00003.pdf', 'KB_JB567_1892-01-03_01-00005.pdf', 'KB_JB567_1924-08-30_01-00003.pdf', 'KB_JB572_1850-03-15_01-00003.pdf', 'KB_JB572_1927-07-20_01-00005.pdf', 'KB_JB572_1950-06-07_01-00004.pdf', 'KB_JB638_1860-05-21_01-00002.pdf', 

## Convertir les fichiers PDFs en TXT

In [8]:
for pdf in not_converted_pdfs:
    print(pdf)
    try:
        text = textract.process(os.path.join(pdf_path, pdf))
        with open(os.path.join(txt_path, f'{os.path.splitext(pdf)[0]}.txt'), 'wb') as output_file:
            output_file.write(text)
    except:
        print("Error with following file:", pdf)

KB_JB230_1892-08-07_01-0003.pdf


ShellError: The command `pdftotext ../data/pdf\KB_JB230_1892-08-07_01-0003.pdf -` failed with exit code 127
------------- stdout -------------
------------- stderr -------------


## Créer un grand fichier 'corpus': commande bash

Avant d'exécuter le code qui suit, vous pouvez préalablement récupérer l'échantillon complet au format `.txt` sur l'UV et les déposer dans le dossier `./data/txt`

- `cat` permet d'imprimer le contenu de fichiers textes
- Un pattern (ici `../*.txt`) permet d'appliquer la commande sur tous les fichiers qui matchent
- `>` permet de rediriger le résultat de la commande précédente dans un fichier

Pour en savoir plus sur les flux de redirections :
https://openclassrooms.com/fr/courses/43538-reprenez-le-controle-a-laide-de-linux/40444-les-flux-de-redirection

In [None]:
!cat ../data/txt/*.txt > ../data/all.txt

Pour les utilisateurs Windows, si la commande `cat` ne fonctionne pas, vous pouvez également réaliser l'opération directement en Python:

In [None]:
with open("../data/all.txt", "w", encoding="utf-8") as output_file:
    for file in os.listdir(txt_path):
        if file.endswith(".txt"):
            with open(os.path.join(txt_path, file), "r", encoding="utf-8") as f:
                output_file.write(f.read())


## Compter le nombre de mots dans l'ensemble du corpus

In [None]:
!wc ../data/all.txt


On obtient ici, dans l'ordre, le nombre de lignes, de mots, d'octets.

Pour en savoir plus sur la commande wc: https://fr.wikipedia.org/wiki/Wc_(Unix)

**Attention:** la commande `wc` ne fonctionne pas toujours sur Windows. Ne vous inquiétez pas, ce n'est pas crucial pour la suite du cours.