# Converting PDFs to text files and moving them to a new directory

## Lister les fichiers dans `data/pdf`

In [1]:
from os import listdir
from os.path import isfile, join

pdf_path = '../data/pdf'

In [2]:
pdfs = [f for f in listdir(pdf_path) if isfile(join(pdf_path, f))]

## Installer PdfToText (MacOS)

Sur le terminal, lancer :

```
ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" < /dev/null 2> /dev/null ; brew install caskroom/cask/brew-cask 2> /dev/null
```

Et puis :
```
brew cask install pdftotext
```

## Convertir les PDFs en TXT

In [8]:
import subprocess

In [9]:
from pathlib import Path

txt_path = '../data/txt'

Path(txt_path).mkdir(parents=True, exist_ok=True)

In [10]:
txts = [f for f in listdir(txt_path) if isfile(join(txt_path, f))]

In [12]:
txts[:10]

['Bxl_1857_Tome_II1_Part_2.txt',
 'Bxl_1864_Tome_I1_Part_2.txt',
 'Bxl_1850_Tome_II1_Part_7.txt',
 'Bxl_1847_Tome_I1_Part_5.txt',
 'Bxl_1851_Tome_II1_Part_6.txt',
 'Bxl_1856_Tome_II1_Part_3.txt',
 'Bxl_1849_Tome_I1_Part_1.txt',
 'Bxl_1857_Tome_I1_Part_4.txt',
 'Bxl_1849_Tome_II1_Part_7.txt',
 'Bxl_1852_Tome_II1_Part_4.txt']

In [13]:
not_converted_pdfs = [p for p in pdfs if f'{p[:-3]}txt' not in txts]

In [14]:
len(pdfs)

131

In [17]:
for pdf in not_converted_pdfs:
    command = [
        'pdftotext',
        f'{pdf_path}/{pdf}',
        f'{txt_path}/{pdf[:-3]}txt'
    ]
    subprocess.run(command, capture_output=True)
    print(f"{pdf} converted!")

.DS_Store converted!


Subprocess permet de lancer des commandes bash telles que celle ci-dessous pour l'ensemble des PDFs téléchargés.

`pdftotext data/pdf/Bxl_1847_Tome_I1_Part_2.pdf data/txt/Bxl_1847_Tome_I1_Part_2.txt`

Une commande pdftotext se structure comme ceci : `pdftotext fichier_source fichier_cible`

## Consolider tous les fichiers en un (Bash)

- `cat` permet d'imprimer le contenu de fichiers textes
- Un pattern (ici `.../*.txt`) permet d'appliquer la commande sur tous les fichiers qui matchent
- `>` permet de rediriger le résultat de la commande précédente dans un fichier

Pour en savoir plus sur les flux de redirections :
https://openclassrooms.com/fr/courses/43538-reprenez-le-controle-a-laide-de-linux/40444-les-flux-de-redirection

In [None]:
!cat ../data/txt/*.txt > ../data/all.txt

## Compter le nombre de mots

In [19]:
!wc ../data/all.txt

  327602 9147176 43356168 ../data/all.txt


On obtient ici, dans l'ordre, le nombre de lignes, de mots, d'octets.

Pour en savoir plus sur la commande wc: https://fr.wikipedia.org/wiki/Wc_(Unix)