# Conversion de fichiers PDF en fichiers TXT

## Imports

Pour utiliser ce notebook, vous devez préalablement récupérer les fichiers PDFs sur l'UV et les déposer dans le dossier `./data/pdf`


In [None]:
import os
import textract

## Lister les fichiers dans `data/pdf`

In [None]:
pdf_path = '../data/pdf'

pdfs = []
for f in os.listdir(pdf_path):
    if os.path.isfile(os.path.join(pdf_path, f)):
        pdfs.append(f)
pdfs[:10]

## Créer un répertoire TXT s'il n'existe pas encore

In [None]:
txt_path = '../data/txt'
if not os.path.exists(txt_path):
    os.mkdir(txt_path)

## Lister les fichiers dans `data/txt`

In [None]:
txts = []
for f in os.listdir(txt_path):
    if os.path.isfile(os.path.join(txt_path, f)):
        txts.append(f)
txts[:10]

In [None]:
#  Lister les fichiers pdf qui n'ont pas encore été convertis en txt
not_converted_pdfs = []
for pdf in pdfs:
    file_name = os.path.splitext(pdf)[0]
    if file_name + ".txt" not in txts:
        not_converted_pdfs.append(pdf)
len(not_converted_pdfs)
print(not_converted_pdfs)

## Convertir les fichiers PDFs en TXT

In [None]:
for pdf in not_converted_pdfs:
    print(pdf)
    try:
        text = textract.process(os.path.join(pdf_path, pdf))
        with open(os.path.join(txt_path, f'{os.path.splitext(pdf)[0]}.txt'), 'wb') as output_file:
            output_file.write(text)
    except:
        print("Error with following file:", pdf)

## Créer un grand fichier 'corpus': commande bash

Avant d'exécuter le code qui suit, vous pouvez préalablement récupérer l'échantillon complet au format `.txt` sur l'UV et les déposer dans le dossier `./data/txt`

- `cat` permet d'imprimer le contenu de fichiers textes
- Un pattern (ici `../*.txt`) permet d'appliquer la commande sur tous les fichiers qui matchent
- `>` permet de rediriger le résultat de la commande précédente dans un fichier

Pour en savoir plus sur les flux de redirections :
https://openclassrooms.com/fr/courses/43538-reprenez-le-controle-a-laide-de-linux/40444-les-flux-de-redirection

In [None]:
!cat ../data/txt/*.txt > ../data/all.txt

## Compter le nombre de mots dans l'ensemble du corpus

In [None]:
!wc ../data/all.txt


On obtient ici, dans l'ordre, le nombre de lignes, de mots, d'octets.

Pour en savoir plus sur la commande wc: https://fr.wikipedia.org/wiki/Wc_(Unix)