## Extraire des données d’un PDF

**pdfplumber** est un module python qui vous permet de parcourir un PDF et d’en extraire du texte.

On va parcourir un rapport de la Loterie Romande et tenter d’extraire ses valeurs.

Le gros problème, c’est que le format PDF est conçu pour l’impression et l’affichage à l’écran, mais ne structure pas du tout ses données. Ce sera à nous de trouver comment délimiter les différentes informations, et parfois ce n’est simplement pas possible.

Quand les PDF contiennent des tableaux, le logiciel libre et gratuit [Tabula](https://tabula.technology/) peut être d’une grande aide. On peut l’utiliser via Python, et même le combiner à pdfplumber. C’est un aspect que nous ne couvrons pas dans ce cours, mais vous trouvez un exemple dans [06c-PDF-Tabula.ipynb](06c-PDF-Tabula.ipynb).

In [1]:
import pandas as pd
import pdfplumber

In [2]:
# Cette fonction renverra soit une page de texte, soit «False»
def extract(page):
    try:
        text = page.extract_text()
        return text
    except ValueError as e:
        print('Erreur en ouvrant la page', e)
        return False

In [24]:
# Test de la fonction sur la première page (page zéro)
with pdfplumber.open("PDF/LoterieRomande.pdf") as pdf:
    firstPage = extract(pdf.pages[0])
    if firstPage:
        print(firstPage)

Python 3 Beginner's Reference Cheat Sheet  Alvaro Sebastian 
http://www.sixthresearcher.com 
Main data types  List operations  List methods 
boolean = True / False 
list = []  defines an empty list  list.append(x)  adds x to the end of the list 
integer = 10 
list[i] = x  stores x with index i  list.extend(L)  appends L to the end of the list 
float = 10.01 
list[i]  retrieves the item with index I 
list.insert(i,x)  inserts x at i position 
string = “123abc” 
list[-1]  retrieves last item 
list.remove(x)  removes the first list item whose 
list = [ value1, value2, … ] 
list[i:j]  retrieves items in the range i to j  value is x 
dictionary = { key1:value1, key2:value2, …}  
del list[i]  removes the item with index i  list.pop(i)  removes the item at position i and 
returns its value 
Numeric  Comparison 
list.clear()  removes all items from the list 
operators  operators  Dictionary operations 
list.index(x)  returns a list of values delimited 
+  addition  ==  equal  dict = {}  define

## Ouverture du PDF et extraction du texte

Cette fois, on va laisser notre PDF ouvert pour le parcourir.

In [12]:
pdf = pdfplumber.open("PDF/LoterieRomande.pdf")

In [13]:
len(pdf.pages)

75

Un exemple de page.

Comment est-ce qu'on va extraire les données intéressantes?

Le caractère «saut de ligne», \n, pourra nous aider, de même que les tabulations (\t) et le symbole récurrent «.-».

Mais est-ce que tous les prix se terminent par .-?

Et qu’est-ce que **a r u J**?

Faites des essais avec:

* `text.split('\n')`
* `text.split('.-')`
* `text.split('\t')`
* `text.find('.-) > -1`

In [21]:
text = pdf.pages[70].extract_text()
for line in text.split('.-'):
    print(line.split('    '))

['a\nr\nu\nJ\nTennis Club Les Breuleux', '300']
[' Club équestre Chevenez', "12'000"]
[' Rossemaison', "3'900"]
['\nTennis Club Porrentruy', "  1'390"]
[" Club équestre St-Hubert Bassecourt  1'000"]
[' Slalom de Bure', "1'500"]
['\nTennis Club Saignelégier', "  1'200"]
[" Course de côte Boécourt-  Sté de cavalerie d'Ajoie\nTriumph Moto Club Vicques", '710']
[' La Caquerelle', "3'300"]
[' Porrentruy', "12'500"]
['\nUnion Jura Rugby Course pédestre Vicques-Rétemberg  500']
[' Sté de cavalerie Delémont  \nDelémont', ' 360']
[" Créa'Move Delémont", "1'000"]
[' et environs', "3'900"]
['\nVCO Delémont Megabike', '250']
[' Critérium jurassien Sté de cavalerie des Franches-Montagnes\nDelémont', "14'500"]
[' Saignelégier', "1'500"]
['\nVélo Club Courtételle', '810']
['\nVélo Club Franches-Montagnes Curling Club Ajoie Sté de tir de la ville de Delémont  200']
['\nSaignelégier', "1'060"]
[' Porrentruy', "1'400"]
[" Sté de tir sportif d'Ajoie\nVélo Club Jurassia Bassecourt  700"]
[' Domoniak Triat