## Extraire des données d’un PDF

**pdfplumber** est un module python qui vous permet de parcourir un PDF et d’en extraire du texte.

On va parcourir un rapport de la Loterie Romande et tenter d’extraire ses valeurs.

Le gros problème, c’est que le format PDF est conçu pour l’impression et l’affichage à l’écran, mais ne structure pas du tout ses données. Ce sera à nous de trouver comment délimiter les différentes informations, et parfois ce n’est simplement pas possible.

Quand les PDF contiennent des tableaux, le logiciel libre et gratuit [Tabula](https://tabula.technology/) peut être d’une grande aide. On peut l’utiliser via Python, et même le combiner à pdfplumber. C’est un aspect que nous ne couvrons pas dans ce cours, mais vous trouvez un exemple dans [06c-PDF-Tabula.ipynb](06c-PDF-Tabula.ipynb).

In [5]:
! pip install pdfplumber

Collecting pdfplumber
  Downloading pdfplumber-0.5.28.tar.gz (45 kB)
[K     |████████████████████████████████| 45 kB 2.4 MB/s eta 0:00:011
[?25hCollecting pdfminer.six==20200517
  Downloading pdfminer.six-20200517-py3-none-any.whl (5.6 MB)
[K     |████████████████████████████████| 5.6 MB 5.1 MB/s eta 0:00:01
Collecting Wand
  Downloading Wand-0.6.6-py2.py3-none-any.whl (138 kB)
[K     |████████████████████████████████| 138 kB 19.7 MB/s eta 0:00:01
Collecting pycryptodome
  Downloading pycryptodome-3.10.1-cp35-abi3-macosx_10_9_x86_64.whl (1.5 MB)
[K     |████████████████████████████████| 1.5 MB 17.0 MB/s eta 0:00:01
Building wheels for collected packages: pdfplumber
  Building wheel for pdfplumber (setup.py) ... [?25ldone
[?25h  Created wheel for pdfplumber: filename=pdfplumber-0.5.28-py3-none-any.whl size=32220 sha256=e371485c1d1aac4dbf39f7cde5ef91182b56eaafaa1398f7b013207c0d1dd2bf
  Stored in directory: /Users/paulineturuban/Library/Caches/pip/wheels/36/61/6d/5fdf7f85a9598d42f0

In [6]:
import pandas as pd
import pdfplumber

In [7]:
# Cette fonction renverra soit une page de texte, soit «False»
def extract(page):
    try:
        text = page.extract_text()
        return text
    except ValueError as e:
        print('Erreur en ouvrant la page', e)
        return False

In [8]:
# Test de la fonction sur la première page (page zéro)
with pdfplumber.open("PDF/LoterieRomande.pdf") as pdf:
    firstPage = extract(pdf.pages[0])
    if firstPage:
        print(firstPage)

Loterie Romande
Répartition  
des bénéfices
 2019


## Ouverture du PDF et extraction du texte

Cette fois, on va laisser notre PDF ouvert pour le parcourir.

In [9]:
pdf = pdfplumber.open("PDF/LoterieRomande.pdf")

In [10]:
len(pdf.pages)

75

Un exemple de page.

Comment est-ce qu'on va extraire les données intéressantes?

Le caractère «saut de ligne», \n, pourra nous aider, de même que les tabulations (\t) et le symbole récurrent «.-».

Mais est-ce que tous les prix se terminent par .-?

Et qu’est-ce que **a r u J**?

Faites des essais avec:

* `text.split('\n')`
* `text.split('.-')`
* `text.split('\t')`
* `text.find('.-) > -1`

In [None]:
text = pdf.pages[70].extract_text()
print(text)