## Extraire des données d’un PDF

**pdfplumber** est un module python qui vous permet de parcourir un PDF et d’en extraire du texte.

On va parcourir un rapport de la Loterie Romande et tenter d’extraire ses valeurs.

Le gros problème, c’est que le format PDF est conçu pour l’impression et l’affichage à l’écran, mais ne structure pas du tout ses données. Ce sera à nous de trouver comment délimiter les différentes informations, et parfois ce n’est simplement pas possible.

Quand les PDF contiennent des tableaux, le logiciel libre et gratuit [Tabula](https://tabula.technology/) peut être d’une grande aide. On peut l’utiliser via Python, et même le combiner à pdfplumber. C’est un aspect que nous ne couvrons pas dans ce cours, mais vous trouvez un exemple dans [06c-PDF-Tabula.ipynb](06c-PDF-Tabula.ipynb).

In [7]:
import pandas as pd
import pdfplumber

In [8]:
# Cette fonction renverra soit une page de texte, soit «False»
def extract(page):
    try:
        text = page.extract_text()
        return text
    except ValueError as e:
        print('Erreur en ouvrant la page', e)
        return False

In [9]:
# Test de la fonction sur la première page (page zéro)
with pdfplumber.open("PDF/LoterieRomande.pdf") as pdf:
    firstPage = extract(pdf.pages[0])
    if firstPage:
        print(firstPage)

Loterie Romande
Répartition  
des bénéfices
 2019


## Ouverture du PDF et extraction du texte

Cette fois, on va laisser notre PDF ouvert pour le parcourir.

In [10]:
pdf = pdfplumber.open("PDF/LoterieRomande.pdf")

In [11]:
len(pdf.pages)

75

Un exemple de page.

Comment est-ce qu'on va extraire les données intéressantes?

Le caractère «saut de ligne», \n, pourra nous aider, de même que les tabulations (\t) et le symbole récurrent «.-».

Mais est-ce que tous les prix se terminent par .-?

Et qu’est-ce que **a r u J**?

Faites des essais avec:

* `text.split('\n')`
* `text.split('.-')`
* `text.split('\t')`
* `text.find('.-) > -1`

In [12]:
text = pdf.pages[70].extract_text()
print(text)

a
r
u
J
Tennis Club Les Breuleux    300.- Club équestre Chevenez    12'000.- Rossemaison    3'900.-
Tennis Club Porrentruy      1'390.- Club équestre St-Hubert Bassecourt  1'000.- Slalom de Bure    1'500.-
Tennis Club Saignelégier      1'200.- Course de côte Boécourt-  Sté de cavalerie d'Ajoie
Triumph Moto Club Vicques    710.- La Caquerelle    3'300.- Porrentruy    12'500.-
Union Jura Rugby Course pédestre Vicques-Rétemberg  500.- Sté de cavalerie Delémont  
Delémont     360.- Créa'Move Delémont    1'000.- et environs    3'900.-
VCO Delémont Megabike    250.- Critérium jurassien Sté de cavalerie des Franches-Montagnes
Delémont    14'500.- Saignelégier    1'500.-
Vélo Club Courtételle    810.-
Vélo Club Franches-Montagnes Curling Club Ajoie Sté de tir de la ville de Delémont  200.-
Saignelégier    1'060.- Porrentruy    1'400.- Sté de tir sportif d'Ajoie
Vélo Club Jurassia Bassecourt  700.- Domoniak Triathlon Porrentruy    500.-
Delémont    500.-
Volleyball Club Delémont    560.- Tennis