<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#### **Python do Zero**
*by [sigmoidal.ai](https://sigmoidal.ai)*

---

## Biblioteca PDF Plumber

Em nossa rotina de trabalho é muito comum termos que lidar com arquivos no formato PDF. Criamos, editamos, acessamos e compartilhamos arquivos nesse formato, que muitas vezes, fazem parte de nossas atividades primordiais na empresa.


<center><img width="50%" src="https://image.freepik.com/free-vector/group-people-working-together_52683-28615.jpg"></center>

Com essa biblioteca de Python, será possível facilitar esse processo. A biblioteca [PDF Plumber](https://github.com/jsvine/pdfplumber) possui uma grande gama de funções e argumentos, e aqui nós vamos começar a nos aventurar com essas funções.

Para isso, vamos precisar fazer o download do pdf de apoio que foi disponibilizado como material complementar dessa aula. Você pode upar o arquivo diretamente na aba de arquivos à esquerda do seu navegador, e acessá-lo por lá.

Entretanto, vamos fazer um processo mais robusto, e nos acostumar a montar e acessar nosso Google Drive, pois esse processo vai facilitar a nossa vida quando formos lidar com mais arquivos de uma vez.

Outro detalhe importante é que, nativamente, o Google Colab não possui essa biblioteca instalada, então nós precisamos instalar a mesma no nosso ambiente.

Para isso, vamos utilizar o gerenciador de pacotes `pip`, e com o comando `install` vamos instalar a biblioteca.



In [None]:
# instalando a biblioteca
%pip install pdfplumber

Agora que a biblioteca foi instalada, basta fazer a importação, e usar.

Para essa aula, precisaremos importar também a biblioteca `os` para manipular os arquivos, e o `drive` para montar e acessar nosso Google Drive.

In [None]:
# importando os pacotes necessários
import pdfplumber
import os
from google.colab import drive

Pronto! Agora é só montar nosso drive e buscar os arquivos.

In [None]:
# montando o drive
drive.mount('/content/gdrive')

Verificando o conteúdo do nosso drive, podemos ver que o arquivo `modelo_de_relatorio.pdf` está lá, pronto para ser usado.

Vamos carregá-lo e ver como essa biblioteca funciona na prática.

In [None]:
# verificando o conteúdo do drive
!ls '/content/gdrive/My Drive'

### pdfplumber.open()

Para abrir um arquivo, vamos associá-lo a uma variável, para que ele possa ser facilmente acessado depois.

Utilizamos o comando `pdfplumber.open('caminho/do/meu/arquivo')` com o caminho do arquivo dentro dos parênteses, dentro de aspas, simples ou duplas.

In [None]:
# abrindo o documento
pdf = pdfplumber.open('/content/gdrive/My Drive/modelo_de_relatorio.pdf')

### pages
Para acessar as páginas existentes no arquivo, utilizamos a função `pages`.

Ela retorna uma lista com as páginas do arquivo.

In [None]:
# ver o número de páginas do pdf:
pdf.pages

Ao fazer qualquer manipulação, precisamos sempre identificar a página em que isso está acontecendo, mesmo que o documento possua apenas uma página.

Para isso, utilizaremos a função `pages`, passando como argumento o número da página que desejamos manipular, lembrando sempre que começamos a contar a partir do 0.

In [None]:
# selecionando uma página
page = pdf.pages[0]
page

### metadata
Metadados, de forma simples, são dados sobre outros dados. No nosso caso, são dados sobre o nosso arquivo, como o autor, data de criação, palavras chaves, título, etc.

É possível extrair esses dados sobre nossos arquivos com facilidade usando a função `metadata` do pdfplumber.

In [None]:
# coletando os metadados do arquivo
pdf.metadata

### extract_text()

No fim das contas, estamos interessados mesmo é no conteúdo do nosso arquivo, e isso também pode ser facilmente extraído utilizando o pdfplumber, através da função `extract_text()` que funciona no nível da página.

Aqui, precisamos ter extraído a página que iremos trabalhar, e vamos associar a uma variável o resultado da execução da função `extract_text()` sobre a página. Depois, é só imprimir.

In [None]:
# extraindo o texto do arquivo
text = page.extract_text()
print(text)

In [None]:
page.extract_text()