# Bibliotecas para utilização de PDF em python
---

1. **PDFMiner:** is a tool for extracting information from PDF documents. Unlike other PDF-related tools, it focuses entirely on getting and analyzing text data.

2. **PyPDF2:** is a pure-python PDF library capable of splitting, merging together, cropping, and transforming the pages of PDF files. It can also add custom data, viewing options, and passwords to PDF files. It can retrieve text and metadata from PDFs as well as merge entire files together.

3. **Tabula-py:** is a simple Python wrapper of tabula-java, which can read the table of PDF. You can read tables from PDF and convert into pandas’ DataFrame. tabula-py also enables you to convert a PDF file into CSV/TSV/JSON file.

4. **Slate:** is warapper Implementation od PDFMiner.

5. **PDFQuery:** is a light wrapper around pdfminer, lxml and pyquery. It’s designed to reliably extract data from sets of PDFs with as little code as possible.

6. **Xpdf:** Python wrapper for xpdf (currently just the “pdftotext” utility).

### Links: 
* https://medium.com/@umerfarooq_26378/python-for-pdf-ef0fac2808b0
* https://www.geeksforgeeks.org/working-with-pdf-files-in-python/
* https://medium.com/@rqaiserr/how-to-convert-pdfs-into-searchable-key-words-with-python-85aab86c544f
* https://stackoverflow.com/questions/45795089/how-can-i-read-pdf-in-python
* https://realpython.com/pdf-python/
* https://stackabuse.com/working-with-pdfs-in-python-reading-and-splitting-pages/
* http://theautomatic.net/2020/01/21/how-to-read-pdf-files-with-python/
* https://pypi.org/project/tabula-py/
* https://www.binpress.com/manipulate-pdf-python/
*https://www.pythonprogramming.in/how-to-read-or-extract-text-data-from-pdf-file-in-python.html

# PyPDF2
---

In [78]:
import PyPDF2
import re

### Exemplificando uso:

In [151]:
# Lendo arquivo e criando seu objeto manipulador
pdfFileObj = open('base_de_dados/Interno em uso.pdf', 'rb')

# Criando objeto de leitura do pdf via PyPDF2
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

# Printando numero de paginas do PDF
print("Numero de paginas:", pdfReader.numPages)

# Obtendo uma pagina do PDF (indices funcionam da mesma forma que em arrays)
pagina = pdfReader.getPage(0)

# Extraindo texto da pagina
texto = pagina.extractText()

# Printando texto extraido
print("---\n")
print(texto)

Numero de paginas: 16
---

 Relatório: Aval
iação 
da hidratação
, barreir
a e análise de imagem
 Solicitação n°:
 EF_
24662-2019_
V00
 Página 
1 de
 16 Rua Alfredo Pin
to, 2258, Lote A052, Bl. 
01 e 02| CEP: 
83065
-150| Parque da Fonte 
Œ São José dos Pinhais 
Œ PR
  Cencoderma 
Œ Institu
ição de Pesquisa e Desenvolviment
o de Cosméticos LTDA
 1.OBJETIVO
 Avaliar
 o efe
ito 
da amostra 
HIDRATANTE FACIAL
 (2019.764.002.04)
 na hidratação
, integridade de
 barreira e 
redução de 
linhas finas
, atravé
s da
s técnica
s de corneometria
, TEWL e
 análise de imagem
.  2. DADOS DA SOLIC
ITAÇÃO
 Solicita
nte:
 Celina Cri
stia
ne Lis
 Proposta do Plano de Est
udo aprovado
: Plano de estudo_S24662_Hydra
 Realização do
 teste
/Pesquisador
: Thamile Luciane Reus
 Solicitação do teste:
 27/08
/201
9 Realiz
ação
 do teste: 
25/09
/2019
 a 06/11
/2019
  3. DELINEAMENTO EXPERIMENTAL
 Tabela 1. 
Amostras
 avalia
das DESCRIÇÃO
 DO PRODUTO
 REF. DE FÓRMULA
 CÓDIGO
 HIDRATANTE FACIAL
 2019.764.002.04
 

### Extraindo Referencia de formulas e ano de realizacao do teste:

In [147]:
# Abrindo o PDF ('rb' = read binary)
with open('base_de_dados/Interno em uso.pdf', 'rb') as pdfFileObj:
    
    # Criando objeto em modo LEITURA do PDF
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
    
    # Criando padrao do codigo de referencia de formulas
    pattern = re.compile(r'\d{4}.\d{3}.\d{3}.\d{2}')
    
    # Criando arrays pra armazenar o texto, as formulas e os anos
    texto, formulas, anos = [], [], []
    
    for i in range(0, pdfReader.numPages):
        pagina = pdfReader.getPage(i)
        texto.append(pagina.extractText())
        matches = pattern.finditer(texto[i])
        for j in matches:            
            if j.group(0) not in formulas:
                formulas.append(j.group(0))
                anos.append(j.group(0)[0:4])


In [155]:
print("  Formulas encontradas no PDF: ", formulas)
print("Anos de realizacao dos testes: ", anos)

  Formulas encontradas no PDF:  ['2019.764.002.04']
Anos de realizacao dos testes:  ['2019']


# Tabula-py
---

In [17]:
import tabula

In [41]:
# readinf the PDF file that contain Table Data
# read_pdf will save the pdf table into Pandas Dataframe
df = tabula.read_pdf("base_de_dados/Interno em uso.pdf", multiple_tables=True)
# in order to print first 5 lines of Table
df[0]

Unnamed: 0,0
0,Cencoderma – Instituição de Pesquisa e Desenvo...


In [32]:
df[1]

Unnamed: 0,0
0,DESCRIÇÃO DO PRODUTO
1,DESCRIÇÃO DO PRODUTO


In [33]:
df[2]

Unnamed: 0,0,1,2
0,DESCRIÇÃO DO PRODUTO,REF. DE FÓRMULA,CÓDIGO
1,DESCRIÇÃO DO PRODUTO,REF. DE FÓRMULA,CÓDIGO
2,2019.764.002.04,,


In [34]:
df[3]

Unnamed: 0,0
0,REF. DE FÓRMULA
1,REF. DE FÓRMULA


In [35]:
df[4]

Unnamed: 0,0
0,CÓDIGO
1,CÓDIGO


### Os resultados da biblioteca acima para os PDFs da Boticario nao aparentam ser muito bons [fazer mais testes antes de descartar completamente]. Utilizar a especificacao de area tambem aparenta nao retornar outputs satisfatorios, conforme visto abaixo.

In [76]:
#tabula.read_pdf("offense.pdf", area=(126,149,212,380), pages=1)

# area = (top, left, bottom, right)

df2 = tabula.read_pdf("base_de_dados/Interno em uso.pdf", area=(150,50,212,400), pages=2)
#df2 = tabula.read_pdf("base_de_dados/Interno em uso.pdf", guess=False, pages=2)
df2

Unnamed: 0,As avaliações do presente estudo foram realizadas seguin
0,as devidas adaptações:
1,• Hidratação através da técnica de corneometri...


# PDFMiner
---

Nao consegui instalar a biblioteca.