<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#### **Python do Zero**
*by [sigmoidal.ai](https://sigmoidal.ai)*

---

## Biblioteca PDF Plumber

Em nossa rotina de trabalho é muito comum termos que lidar com arquivos no formato PDF. Criamos, editamos, acessamos e compartilhamos arquivos nesse formato, que muitas vezes, fazem parte de nossas atividades primordiais na empresa.


<center><img width="50%" src="https://image.freepik.com/free-vector/group-people-working-together_52683-28615.jpg"></center>

Com essa biblioteca de Python, será possível facilitar esse processo. A biblioteca [PDF Plumber](https://github.com/jsvine/pdfplumber) possui uma grande gama de funções e argumentos, e aqui nós vamos começar a nos aventurar com essas funções.

Para isso, vamos precisar fazer o download do pdf de apoio que foi disponibilizado como material complementar dessa aula. Você pode upar o arquivo diretamente na aba de arquivos à esquerda do seu navegador, e acessá-lo por lá.

Entretanto, vamos fazer um processo mais robusto, e nos acostumar a montar e acessar nosso Google Drive, pois esse processo vai facilitar a nossa vida quando formos lidar com mais arquivos de uma vez.

Outro detalhe importante é que, nativamente, o Google Colab não possui essa biblioteca instalada, então nós precisamos instalar a mesma no nosso ambiente.

Para isso, vamos utilizar o gerenciador de pacotes `pip`, e com o comando `install` vamos instalar a biblioteca.



In [1]:
# instalando a biblioteca
!pip install pdfplumber

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pdfplumber
  Downloading pdfplumber-0.7.4-py3-none-any.whl (40 kB)
[K     |████████████████████████████████| 40 kB 3.4 MB/s 
[?25hCollecting pdfminer.six==20220524
  Downloading pdfminer.six-20220524-py3-none-any.whl (5.6 MB)
[K     |████████████████████████████████| 5.6 MB 6.8 MB/s 
[?25hCollecting Pillow>=9.1
  Downloading Pillow-9.2.0-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.1 MB)
[K     |████████████████████████████████| 3.1 MB 21.3 MB/s 
[?25hCollecting Wand>=0.6.7
  Downloading Wand-0.6.8-py2.py3-none-any.whl (142 kB)
[K     |████████████████████████████████| 142 kB 45.7 MB/s 
[?25hCollecting cryptography>=36.0.0
  Downloading cryptography-37.0.4-cp36-abi3-manylinux_2_24_x86_64.whl (4.1 MB)
[K     |████████████████████████████████| 4.1 MB 15.1 MB/s 
Installing collected packages: cryptography, Wand, Pillow, pdfminer.six, pdfplumber
  Attemptin

Agora que a biblioteca foi instalada, basta fazer a importação, e usar.

Para essa aula, precisaremos importar também a biblioteca `os` para manipular os arquivos, e o `drive` para montar e acessar nosso Google Drive.

In [2]:
# importando os pacotes necessários
import pdfplumber
import os
from google.colab import drive

Pronto! Agora é só montar nosso drive e buscar os arquivos.

In [3]:
# montando o drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


Verificando o conteúdo do nosso drive, podemos ver que o arquivo `modelo_de_relatorio.pdf` está lá, pronto para ser usado.

Vamos carregá-lo e ver como essa biblioteca funciona na prática.

In [4]:
# verificando o conteúdo do drive
!ls '/content/gdrive/My Drive'

 881198_seival.zip
'BRUNO OLIVEIRA'
'Colab Notebooks'
'Copy of Planejamento Financeiro.xlsx.gsheet'
'Divulgação 10.jpg'
 DSCN4362.JPG
 IMG_550000.jpg
 intercambio.pdf
 ML0101EN-Clus-Hierarchical-Cars-py-v1.ipynb
 modelo_de_relatorio.pdf
'Orçamento equipamentos 60l.pdf'
'Panilha Europa - Mediterâneo.xls'
'Planejamento Financeiro (1).xlsx.gsheet'
'Planejamento Financeiro.xlsx'
'Planejamento Financeiro.xlsx.gsheet'
'Rótulo cópia.jpg'
 Screenshot_2015-10-28-13-56-24.png
'Sem título.jpg'
'tabela de pedido Rasen Brasil.xlsx'
'tabela de pedido Rasen Brasil.xlsx.gsheet'


### pdfplumber.open()

Para abrir um arquivo, vamos associá-lo a uma variável, para que ele possa ser facilmente acessado depois.

Utilizamos o comando `pdfplumber.open('caminho/do/meu/arquivo')` com o caminho do arquivo dentro dos parênteses, dentro de aspas, simples ou duplas.

In [5]:
# abrindo o documento
pdf = pdfplumber.open('/content/gdrive/My Drive/modelo_de_relatorio.pdf')

### pages
Para acessar as páginas existentes no arquivo, utilizamos a função `pages`.

Ela retorna uma lista com as páginas do arquivo.

In [6]:
# ver o número de páginas do pdf:
pdf.pages

[<Page:1>, <Page:2>, <Page:3>]

Ao fazer qualquer manipulação, precisamos sempre identificar a página em que isso está acontecendo, mesmo que o documento possua apenas uma página.

Para isso, utilizaremos a função `pages`, passando como argumento o número da página que desejamos manipular, lembrando sempre que começamos a contar a partir do 0.

In [7]:
# selecionando uma página
page = pdf.pages[0]
page

<Page:1>

### metadata
Metadados, de forma simples, são dados sobre outros dados. No nosso caso, são dados sobre o nosso arquivo, como o autor, data de criação, palavras chaves, título, etc.

É possível extrair esses dados sobre nossos arquivos com facilidade usando a função `metadata` do pdfplumber.

In [8]:
# coletando os metadados do arquivo
pdf.metadata

{'AssetID': 'TF10002026',
 'Author': 'Carlos Melo',
 'Comments': '',
 'Company': '',
 'CreationDate': 'D:20200831180053Z',
 'Creator': 'Acrobat PDFMaker 20 for Word',
 'Keywords': 'report, vendas, sigmoidal, diário, relatório',
 'ModDate': 'D:20220718112330',
 'Producer': 'HexaPDF version 0.23.0',
 'SourceModified': 'D:20200831180051',
 'Subject': 'Template para relatório diário',
 'Title': 'Relatório Sigmoidal'}

### extract_text()

No fim das contas, estamos interessados mesmo é no conteúdo do nosso arquivo, e isso também pode ser facilmente extraído utilizando o pdfplumber, através da função `extract_text()` que funciona no nível da página.

Aqui, precisamos ter extraído a página que iremos trabalhar, e vamos associar a uma variável o resultado da execução da função `extract_text()` sobre a página. Depois, é só imprimir.

In [9]:
# extraindo o texto do arquivo
text = page.extract_text()
print(text)

SIGMOIDAL 
   
Relatório Diário 
 
Data: 10/08/2020 
 
RECEITA: R$ 1.397,00 
DADOS ATUALIZADOS POR CARLOS MELO
 
 
 Visitantes: 1367 
A quantidade de visitantes diz respeito a visitantes únicos visitando qualquer 
página do domínio ou subdomínio sigmoidal.ai. Compreende, então, cursos, 
blogs e landing pages. 
 Inscritos: 33 
É considerado aqui o número de leads gerados por meio de cadastro 
voluntário nos formulários do cabeçalho, rodapé ou materiais ricos (como 
eBook, infográficos, entre outros). 
 Assinantes: 6 
Clientes assinantes da Escola de Data Science, considerando-se o plano 
renovável de assinatura mensal. 
 
 
brunoazambuja - brunoazambuja@gmail.com - IP: 177.23.208.18


In [10]:
page.extract_text()

'SIGMOIDAL \n   \nRelatório Diário \n \nData: 10/08/2020 \n \nRECEITA: R$ 1.397,00 \nDADOS ATUALIZADOS POR CARLOS MELO\n \n \n Visitantes: 1367 \nA quantidade de visitantes diz respeito a visitantes únicos visitando qualquer \npágina do domínio ou subdomínio sigmoidal.ai. Compreende, então, cursos, \nblogs e landing pages. \n Inscritos: 33 \nÉ considerado aqui o número de leads gerados por meio de cadastro \nvoluntário nos formulários do cabeçalho, rodapé ou materiais ricos (como \neBook, infográficos, entre outros). \n Assinantes: 6 \nClientes assinantes da Escola de Data Science, considerando-se o plano \nrenovável de assinatura mensal. \n \n \nbrunoazambuja - brunoazambuja@gmail.com - IP: 177.23.208.18'

In [11]:
page.extract_text().split("\n")[6].split("R$ ")[1]

'1.397,00 '

In [16]:
page.extract_text().split("\n")[10].split("Visitantes: ")[1]

'1367 '