# Converting PDFs to text files and moving them to a new directory

## Lister les fichiers dans `data/pdf`

In [14]:
from os import listdir
from os.path import isfile, join

pdf_path = '../data/pdf'

In [15]:
pdfs = [f for f in listdir(pdf_path) if isfile(join(pdf_path, f))]

In [16]:
pdfs[:3]

['Bxl_1851_Tome_I1_Part_2.pdf',
 'Bxl_1871_Tome_I1_Part_1.pdf',
 'Bxl_1862_Tome_I1_Part_4.pdf']

## Installer PdfToText (MacOS)

Sur le terminal, lancer :

```
ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" < /dev/null 2> /dev/null ; brew install caskroom/cask/brew-cask 2> /dev/null
```

Et puis :
```
brew cask install pdftotext
```

## Convertir les PDFs en TXT

In [17]:
import subprocess

In [18]:
from pathlib import Path

txt_path = '../data/txt'

Path(txt_path).mkdir(parents=True, exist_ok=True)

In [19]:
txts = [f for f in listdir(txt_path) if isfile(join(txt_path, f))]

In [24]:
not_converted_pdfs = [p for p in pdfs if f'{p[:-3]}txt' not in txts]

In [25]:
len(pdfs)

213

In [26]:
len(not_converted_pdfs)

21

In [27]:
for pdf in not_converted_pdfs:
    command = [
        'pdftotext',
        f'{pdf_path}/{pdf}',
        f'{txt_path}/{pdf[:-3]}txt'
    ]
    subprocess.run(command, capture_output=True)
    print(f"{pdf} converted!")

Bxl_1871_Tome_I1_Part_4.pdf converted!
Bxl_1871_Tome_I1_Part_5.pdf converted!
Bxl_1870_Tome_II1_Part_3.pdf converted!
Bxl_1870_Tome_I1_Part_6.pdf converted!
Bxl_1871_Tome_II1_Part_2.pdf converted!
Bxl_1871_Tome_II1_Part_3.pdf converted!
Bxl_1870_Tome_II1_Part_2.pdf converted!
Bxl_1870_Tome_I1_Part_5.pdf converted!
Bxl_1871_Tome_II1_Part_1.pdf converted!
Bxl_1870_Tome_I1_Part_4.pdf converted!
Bxl_1870_Tome_II1_Part_1.pdf converted!
Bxl_1870_Tome_II1_Part_5.pdf converted!
Bxl_1871_Tome_II1_Part_4.pdf converted!
Bxl_1869_Tome_II1_Part_5.pdf converted!
Bxl_1869_Tome_II1_Part_4.pdf converted!
Bxl_1870_Tome_I1_Part_1.pdf converted!
Bxl_1870_Tome_II1_Part_4.pdf converted!
Bxl_1870_Tome_II1_Part_6.pdf converted!
Bxl_1870_Tome_I1_Part_3.pdf converted!
Bxl_1870_Tome_I1_Part_2.pdf converted!
Bxl_1870_Tome_II1_Part_7.pdf converted!


Subprocess permet de lancer des commandes bash telles que celle ci-dessous pour l'ensemble des PDFs téléchargés.

`pdftotext data/pdf/Bxl_1847_Tome_I1_Part_2.pdf data/txt/Bxl_1847_Tome_I1_Part_2.txt`

Une commande pdftotext se structure comme ceci : `pdftotext fichier_source fichier_cible`

## Consolider tous les fichiers en un (Bash)

- `cat` permet d'imprimer le contenu de fichiers textes
- Un pattern (ici `.../*.txt`) permet d'appliquer la commande sur tous les fichiers qui matchent
- `>` permet de rediriger le résultat de la commande précédente dans un fichier

Pour en savoir plus sur les flux de redirections :
https://openclassrooms.com/fr/courses/43538-reprenez-le-controle-a-laide-de-linux/40444-les-flux-de-redirection

In [28]:
!cat ../data/txt/*.txt > ../data/all.txt

## Compter le nombre de mots

In [29]:
!wc ../data/all.txt

  327602 9147176 43356168 ../data/all.txt


On obtient ici, dans l'ordre, le nombre de lignes, de mots, d'octets.

Pour en savoir plus sur la commande wc: https://fr.wikipedia.org/wiki/Wc_(Unix)