# NLP M2 YNOV CAMPUS

# Travailler avec des fichiers PDF

Vous aurez souvent à traiter des fichiers PDF. Il existe [de nombreuses bibliothèques en Python pour travailler avec des PDF] (https://reachtim.com/articles/PDF-Manipulation.html), chacune avec ses avantages et ses inconvénients, la plus courante étant **PyPDF2**. Vous pouvez l'installer avec (notez la sensibilité à la casse, vous devez vous assurer que votre capitalisation correspond) :

    pip install PyPDF2
    
Gardez à l'esprit que tous les fichiers PDF ne peuvent pas être lus avec cette bibliothèque. Les PDF qui sont trop flous, qui ont un encodage spécial, qui sont cryptés, ou qui ont été créés avec un programme particulier qui ne fonctionne pas bien avec PyPDF2 ne pourront pas être lus. Si vous vous trouvez dans cette situation, essayez d'utiliser les bibliothèques liées ci-dessus, mais gardez à l'esprit qu'elles peuvent également ne pas fonctionner. La raison en est qu'il existe de nombreux paramètres différents pour un PDF et que les paramètres peuvent être non standard, le texte peut être affiché comme une image au lieu d'un encodage utf-8. Il y a de nombreux paramètres à prendre en compte dans cet aspect.

En ce qui concerne PyPDF2, il ne peut lire que le texte d'un document PDF, il ne sera pas capable d'extraire des images ou d'autres fichiers multimédias d'un PDF.
___

## Travailler avec PyPDF2

Commençons par montrer les bases de la bibliothèque PyPDF2.

In [1]:
!pip3 install PyPDF2

Collecting PyPDF2
  Using cached pypdf2-3.0.1-py3-none-any.whl (232 kB)
Installing collected packages: PyPDF2
Successfully installed PyPDF2-3.0.1


In [2]:
# note the capitalization
import PyPDF2

## Lire les PDF

Tout d'abord, nous ouvrons un fichier PDF, puis nous créons un objet lecteur pour ce fichier. Remarquez que nous utilisons la méthode de lecture binaire, 'rb', au lieu de 'r'.

In [3]:
# Notice we read it as a binary with 'rb'
f = open('US_Declaration.pdf','rb')

In [4]:
# pdf_reader = PyPDF2.PdfFileReader(f)
pdf_reader = PyPDF2.PdfReader(f)

In [5]:
#pdf_reader.numPages
len(pdf_reader.pages)

5

In [6]:
#page_one = pdf_reader.getPage(0)
page_one = pdf_reader.pages[0]

Nous pouvons ensuite extraire le texte :

In [7]:
#page_one_text = page_one.extractText()
page_one_text = page_one.extract_text()

In [8]:
page_one_text

"Declaration of Independence\nIN CONGRESS, July 4, 1776.  \nThe unanimous Declaration of the thirteen united States of America,  \nWhen in the Course of human events, it becomes necessary for one people to dissolve thepolitical bands which have connected them with another, and to assume among the powers of theearth, the separate and equal station to which the Laws of Nature and of Nature's God entitlethem, a decent respect to the opinions of mankind requires that they should declare the causeswhich impel them to the separation. We hold these truths to be self-evident, that all men are created equal, that they are endowed bytheir Creator with certain unalienable Rights, that among these are Life, Liberty and the pursuit\nof Happiness.— \x14That to secure these rights, Governments are instituted among Men, derivingtheir just powers from the consent of the governed,—  \x14That whenever any Form of Government\nbecomes destructive of these ends, it is the Right of the People to alter or to 

In [9]:
f.close()

## Ajouter aux PDF

Nous ne pouvons pas écrire dans des PDF en utilisant Python à cause des différences entre le type de chaîne unique de Python et la variété de polices, de placements et d'autres paramètres qu'un PDF peut avoir.

Ce que nous pouvons faire, c'est copier des pages et ajouter des pages à la fin.

In [10]:
f = open('US_Declaration.pdf','rb')
# pdf_reader = PyPDF2.PdfFileReader(f)
pdf_reader = PyPDF2.PdfReader(f)

In [11]:
# first_page = pdf_reader.getPage(0)
first_page = pdf_reader.pages[0]

In [12]:
# pdf_writer = PyPDF2.PdfFileWriter()
pdf_writer = PyPDF2.PdfWriter()

In [13]:
# pdf_writer.addPage(first_page)
pdf_writer.add_page (first_page)

{'/Type': '/Page',
 '/Contents': {},
 '/MediaBox': [0, 0, 612, 792],
 '/Resources': {'/Font': {'/F9': {'/Type': '/Font',
    '/Subtype': '/Type1',
    '/Name': '/F9',
    '/Encoding': '/WinAnsiEncoding',
    '/FirstChar': 31,
    '/LastChar': 255,
    '/Widths': [778,
     250,
     333,
     555,
     500,
     500,
     1000,
     833,
     278,
     333,
     333,
     500,
     570,
     250,
     333,
     250,
     278,
     500,
     500,
     500,
     500,
     500,
     500,
     500,
     500,
     500,
     500,
     333,
     333,
     570,
     570,
     570,
     500,
     930,
     722,
     667,
     722,
     722,
     667,
     611,
     778,
     778,
     389,
     500,
     778,
     667,
     944,
     722,
     778,
     611,
     778,
     722,
     556,
     667,
     722,
     722,
     1000,
     722,
     722,
     667,
     333,
     278,
     333,
     581,
     500,
     333,
     500,
     556,
     444,
     556,
     444,
     333,
     500,
     556,

In [14]:
pdf_output = open("Some_New_Doc.pdf","wb")

In [16]:
pdf_writer.write(pdf_output)

(False, <_io.BufferedWriter name='Some_New_Doc.pdf'>)

In [17]:
pdf_output.close()
f.close()

Nous avons maintenant copié une page et l'avons ajoutée à un nouveau document !

___

## Exemple simple

Essayons d'extraire tout le texte de ce fichier PDF :

In [18]:
f = open('US_Declaration.pdf','rb')

# List of every page's text.
# The index will correspond to the page number.
pdf_text = [0]  # zero is a placehoder to make page 1 = index 1

pdf_reader = PyPDF2.PdfReader (f)

for p in range(len(pdf_reader.pages)):
    
    page = pdf_reader.pages[p]
    
    pdf_text.append(page.extract_text())

f.close()

In [17]:
pdf_text

[0,
 "Declaration of IndependenceIN CONGRESS, July 4, 1776. The unanimous Declaration of the thirteen united States of America, When in the Course of human events, it becomes necessary for one people to dissolve the\npolitical bands which have connected them with another, and to assume among the powers of the\nearth, the separate and equal station to which the Laws of Nature and of Nature's God entitle\n\nthem, a decent respect to the opinions of mankind requires that they should declare the causes\n\nwhich impel them to the separation. \nWe hold these truths to be self-evident, that all men are created equal, that they are endowed by\n\ntheir Creator with certain unalienable Rights, that among these are Life, Liberty and the pursuit\nof Happiness.ŠThat to secure these rights, Governments are instituted among Men, deriving\n\ntheir just powers from the consent of the governed,ŠThat whenever any Form of Government\nbecomes destructive of these ends, it is the Right of the People to alte

In [19]:
print(pdf_text[2])

He has dissolved Re presentative Ho uses repeatedly , for opposing wit h manly
firmness his invasions on the rights of the people.
He has refused for a long time, after such dissolutions, to cause others to be
elected; whereby the Leg islative powers, incapable of Annihilation, have returned
to the People at lar ge for their exe rcise; the State r emaining in the me an time
exposed to all the dangers of invasion from without, and convulsions within.
He has endeavou red to prevent the  population of these  States; for that pur pose
obstructing the L aws for Natural ization of Foreig ners; refusing  to pass others to
encourage their migrations hither, and raising the conditions of new
Appropriations of  Lands.
He has obstructed the Administration of Justice, by refusing his Assent to Laws
for establishing  Judiciary pow ers.
He has made Judge s dependent on his Wil l alone, for the te nure of their off ices,
and the amount and  payment of t heir salaries.
He has erected  a multitude of N

C'est tout pour PyPDF2 pour l'instant, souvenez-vous que cela ne fonctionnera pas avec tous les fichiers PDF et que son champ d'application est limité au texte des PDF.
## A suivre : Expressions régulières