## Biblioteca PDF Plumber

É muito comum termos de lidar com arquivos no formato PDF na nossa rotina de trabalho. Criamos, editamos, acessamos e compartilhamos arquivos nesse formato, que muitas vezes, fazem parte de nossas atividades primordiais na empresa.


<center><img width="30%" src="https://image.freepik.com/free-vector/group-people-working-together_52683-28615.jpg"></center>

Com essa biblioteca de Python, será possível facilitar esse processo. A biblioteca [PDF Plumber](https://github.com/jsvine/pdfplumber) possui uma grande gama de funções e argumentos, e aqui nós vamos começar a nos aventurar com essas funções.

Para isso, vamos precisar fazer o download do pdf de apoio que foi disponibilizado como material complementar dessa aula. Você pode upar o arquivo diretamente na aba de arquivos à esquerda do seu navegador, e acessá-lo por lá.

Entretanto, vamos fazer um processo mais robusto, e nos acostumar a montar e acessar nosso Google Drive, pois esse processo vai facilitar a nossa vida quando formos lidar com mais arquivos de uma vez.

Outro detalhe importante é que, nativamente, o Google Colab não possui essa biblioteca instalada, então nós precisamos instalar a mesma no nosso ambiente.

Para isso, vamos utilizar o gerenciador de pacotes `pip`, e com o comando `install` vamos instalar a biblioteca.



In [17]:
# instalando a biblioteca
!pip install pdfplumber -q

Agora que a biblioteca foi instalada, basta fazer a importação, e usar.

Para essa aula, precisaremos importar também a biblioteca `os` para manipular os arquivos, e o `drive` para montar e acessar nosso Google Drive.

In [3]:
# importando os pacotes necessários
import pdfplumber
import pandas as pd
import os
from google.colab import drive

Pronto! Agora é só montar nosso drive e buscar os arquivos.

In [4]:
# montando o drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


Verificando o conteúdo do nosso drive, podemos ver que o arquivo `modelo_de_relatorio.pdf` está lá, pronto para ser usado.

Vamos carregá-lo e ver como essa biblioteca funciona na prática.

In [5]:
# verificando o conteúdo do drive
!ls '/content/gdrive/MyDrive/datasets/pdf'

desempenho_da_vale_no_1t21_brl_pt.pdf


### pdfplumber.open()

Para abrir um arquivo, vamos associá-lo a uma variável, para que ele possa ser facilmente acessado depois.

Utilizamos o comando `pdfplumber.open('caminho/do/meu/arquivo')` com o caminho do arquivo dentro dos parênteses, dentro de aspas, simples ou duplas.

In [6]:
# abrindo o documento
pdf = pdfplumber.open('/content/gdrive/MyDrive/datasets/pdf/desempenho_da_vale_no_1t21_brl_pt.pdf')

### pages
Para acessar as páginas existentes no arquivo, utilizamos a função `pages`.

Ela retorna uma lista com as páginas do arquivo.

In [7]:
# ver o número de páginas do pdf:
pdf.pages[-1]

<Page:16>

Ao fazer qualquer manipulação, precisamos sempre identificar a página em que isso está acontecendo, mesmo que o documento possua apenas uma página.

Para isso, utilizaremos a função `pages`, passando como argumento o número da página que desejamos manipular, lembrando sempre que começamos a contar a partir do 0.

In [8]:
# selecionando os dados da primeira página
page1 = pdf.pages[0]
print(page1.extract_text())

 
 
Planta de filtragem de rejeitos no complexo de Vargem Grande, entregue em março de 2021 
DESEMPENHO DA VALE NO 
 
1T21


### metadata
Metadados, de forma simples, são dados sobre outros dados. No nosso caso, são dados sobre o nosso arquivo, como o autor, data de criação, palavras chaves, título, etc.

É possível extrair esses dados sobre nossos arquivos com facilidade usando a função `metadata` do pdfplumber.

In [9]:
# coletando os metadados do arquivo
pdf.metadata

{'Author': 'Mariano Szachtman',
 'CreationDate': "D:20210426222436-03'00'",
 'Creator': 'Microsoft® Word para Microsoft 365',
 'ModDate': "D:20210426222436-03'00'",
 'Producer': 'Microsoft® Word para Microsoft 365'}

Vamos extrair os dados da tabela contida na página 16:

<center><img width="60%" src="https://raw.githubusercontent.com/welricsson/portfolio/76af556eb28ef4995e4b7dde2d4f35a4b89ce023/images/balanco_patrimonial_vale.PNG"></center>

### extract_text()

No fim das contas, estamos interessados mesmo é no conteúdo do nosso arquivo, e isso também pode ser facilmente extraído utilizando o pdfplumber, através da função `extract_text()` que funciona no nível da página.

Aqui, precisamos ter extraído a página que iremos trabalhar, e vamos associar a uma variável o resultado da execução da função `extract_text()` sobre a página. Depois, é só imprimir.

In [10]:
# extraindo o texto da página 16
page16 = pdf.pages[15]
page16Text = page16.extract_text()
page16Text

' \nBalanço patrimonial – consolidado       \nR$ milhões  1T21  4T20  1T20 \nAtivo       \nCirculante  132.025  126.805  103.682 \nNão circulante  80.996  78.623  85.231 \nInvestimentos  10.658  10.557  11.299 \nIntangíveis  49.343  48.309  35.852 \nImobilizado  222.547  213.836  203.641 \nTotal   495.569  478.130  439.705 \nPassivo       \nCirculante  67.379  75.838  60.186 \nNão circulante  226.288  221.306  206.623 \nPatrimônio líquido  201.902  180.986  172.896 \nPatrimônio líquido dos acionistas da Vale  207.487  185.785  178.854 \nPatrimônio líquido dos acionistas não controladores  (5.585)  (4.799)  (5.958) \nTotal  495.569  478.130  439.705 \n       \n       \n       \n       \n       \n       \n       \n       \n \n \n  16                                           \n '

In [11]:
table = page16.extract_table()
table

[['Balanço patrimonial – consolidado', '', '', ''],
 ['R$ milhões', '1T21', '4T20', '1T20'],
 ['Ativo', '', '', ''],
 ['Circulante', '132.025', '126.805', '103.682'],
 ['Não circulante', '80.996', '78.623', '85.231'],
 ['Investimentos', '10.658', '10.557', '11.299'],
 ['Intangíveis', '49.343', '48.309', '35.852'],
 ['Imobilizado', '222.547', '213.836', '203.641'],
 ['Total', '495.569', '478.130', '439.705'],
 ['Passivo', '', '', ''],
 ['Circulante', '67.379', '75.838', '60.186'],
 ['Não circulante', '226.288', '221.306', '206.623'],
 ['Patrimônio líquido', '201.902', '180.986', '172.896'],
 ['Patrimônio líquido dos acionistas da Vale',
  '207.487',
  '185.785',
  '178.854'],
 ['Patrimônio líquido dos acionistas não controladores',
  '(5.585)',
  '(4.799)',
  '(5.958)'],
 ['Total', '495.569', '478.130', '439.705']]

In [18]:
df = pd.DataFrame(table[2:], columns=table[1])
df

Unnamed: 0,R$ milhões,1T21,4T20,1T20
0,Ativo,,,
1,Circulante,132.025,126.805,103.682
2,Não circulante,80.996,78.623,85.231
3,Investimentos,10.658,10.557,11.299
4,Intangíveis,49.343,48.309,35.852
5,Imobilizado,222.547,213.836,203.641
6,Total,495.569,478.130,439.705
7,Passivo,,,
8,Circulante,67.379,75.838,60.186
9,Não circulante,226.288,221.306,206.623


In [14]:
df.to_excel('/content/gdrive/MyDrive/extractions/excel/desempenho_da_vale.xlsx', index=False)

In [15]:
# verificando a extração do arquivo
!ls '/content/gdrive/MyDrive/extractions/excel/'

desempenho_da_vale.xlsx


In [16]:
# abrindo o documento
pd.read_excel("/content/gdrive/MyDrive/extractions/excel/desempenho_da_vale.xlsx")

Unnamed: 0,R$ milhões,1T21,4T20,1T20
0,Ativo,,,
1,Circulante,132.025,126.805,103.682
2,Não circulante,80.996,78.623,85.231
3,Investimentos,10.658,10.557,11.299
4,Intangíveis,49.343,48.309,35.852
5,Imobilizado,222.547,213.836,203.641
6,Total,495.569,478.130,439.705
7,Passivo,,,
8,Circulante,67.379,75.838,60.186
9,Não circulante,226.288,221.306,206.623
