<a href="https://colab.research.google.com/github/joaovictor-loureiro/data-science/blob/master/Como_transformar_uma_tabela_de_um_arquivo_pdf_em_um_dataframe.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Como transformar uma tabela de um arquivo PDF em um DataFrame?


Neste notebook será apresentado um método para extrair dados de uma tabela, contida em um arquivo PDF, e transforma-los em um DataFrame.

Para isso, serão utilizadas as bibliotecas **PDFPlumber** e **Pandas**.

Para este exemplo, será utilizado o arquivo <a href="#">Empresa-Relatório-Mensal.pdf</a>

Segue abaixo os passos:

In [11]:
# Instalar a biblioteca PDFPlumber (não é nativa do Google Colab)
!pip install pdfplumber



In [2]:
# Impotar os pacotes do PDFPlumber e do Pandas
import pdfplumber
import pandas as pd

In [3]:
# Selecionar o documento PDF que contém a tabela onde deseja extrair os dados
pdf = pdfplumber.open('/content/Empresa-Relatório-Mensal.pdf')

In [4]:
# Verificar a quantidade de páginas do documento PDF
pdf.pages

[<Page:1>]

In [5]:
# Selecionar a página onde contém a tabela que deseja extrair os dados
page = pdf.pages[0]

In [6]:
# Extrair os dados da tabela
table = page.extract_table()

In [8]:
# Transformar os dados extraídos da tabela em um DataFrame
dataframe = pd.DataFrame(table[1:], columns=table[0])
for column in ["quantidade_produtos_vendidos", "valor_total"]:
    dataframe[column] = dataframe[column].str.replace(" ", "")

Com isso, o DataFrame já foi criado e a tabela antes presente apenas no arquivo PDF foi transformada em um conjunto de dados que podem ser manuseados aqui no ambiente do Google Colab ou como desejar.

In [12]:
# Exibindo o database criado
print(dataframe)

          data quantidade_produtos_vendidos valor_total
0   01/11/2020                           15     R$20,50
1   02/11/2020                           12     R$17,50
2   03/11/2020                            8     R$10,50
3   04/11/2020                           25     R$25,50
4   05/11/2020                            3      R$8,50
5   06/11/2020                           45     R$50,50
6   07/11/2020                           10     R$14,50
7   08/11/2020                            8     R$12,50
8   09/11/2020                           11     R$15,50
9   10/11/2020                           26     R$27,50
10  11/11/2020                           39     R$39,50
11  12/11/2020                           85     R$75,50
12  13/11/2020                           10     R$14,50
13  14/11/2020                           27     R$25,50
14  15/11/2020                           14     R$12,50
15  16/11/2020                           19     R$44,50
16  17/11/2020                           33     