<a href="https://colab.research.google.com/github/quesia-araujo/exercicios-python/blob/main/Arquivos_PDF.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


## Biblioteca PDF Plumber

Em nossa rotina de trabalho é muito comum termos que lidar com arquivos no formato PDF. Criamos, editamos, acessamos e compartilhamos arquivos nesse formato, que muitas vezes, fazem parte de nossas atividades primordiais na empresa.

Com essa biblioteca de Python, será possível facilitar esse processo. A biblioteca [PDF Plumber](https://github.com/jsvine/pdfplumber) possui uma grande gama de funções e argumentos, e aqui nós vamos começar a nos aventurar com essas funções.

Outro detalhe importante é que, nativamente, o Google Colab não possui essa biblioteca instalada, então nós precisamos instalar a mesma no nosso ambiente.

Para isso, vamos utilizar o gerenciador de pacotes `pip`, e com o comando `install` vamos instalar a biblioteca.



In [None]:
# instalando a biblioteca
!pip install pdfplumber

Agora que a biblioteca foi instalada, basta fazer a importação, e usar.

É preciso importar também a biblioteca `os` para manipular os arquivos, e o `drive` para montar e acessar nosso Google Drive.

In [2]:
# importando os pacotes necessários
import pdfplumber
import os
from google.colab import drive

Pronto! Agora é só montar nosso drive e buscar os arquivos.

In [3]:
# montando o drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


Verificando o conteúdo do nosso drive, podemos ver que o arquivo `modelo_de_relatorio.pdf` está lá, pronto para ser usado.

Vamos carregá-lo e ver como essa biblioteca funciona na prática.

In [None]:
# verificando o conteúdo do drive
!ls '/content/gdrive/My Drive'

### pdfplumber.open()

Para abrir um arquivo, vamos associá-lo a uma variável, para que ele possa ser facilmente acessado depois.

Utilizamos o comando `pdfplumber.open('caminho/do/meu/arquivo')` com o caminho do arquivo dentro dos parênteses, dentro de aspas, simples ou duplas.

In [5]:
# abrindo o documento
pdf = pdfplumber.open('/content/gdrive/MyDrive/Construção adaptação e validação de instrumentos de autorrelato.pdf')

### pages
Para acessar as páginas existentes no arquivo, utilizamos a função `pages`.

Ela retorna uma lista com as páginas do arquivo.

In [6]:
# ver o número de páginas do pdf:
pdf.pages

[<Page:1>]

Ao fazer qualquer manipulação, precisamos sempre identificar a página em que isso está acontecendo, mesmo que o documento possua apenas uma página.

Para isso, utilizaremos a função `pages`, passando como argumento o número da página que desejamos manipular, lembrando sempre que começamos a contar a partir do 0.

In [7]:
# selecionando uma página
page = pdf.pages[0]
page

<Page:1>

### metadata
Metadados, de forma simples, são dados sobre outros dados. No nosso caso, são dados sobre o nosso arquivo, como o autor, data de criação, palavras chaves, título, etc.

É possível extrair esses dados sobre nossos arquivos com facilidade usando a função `metadata` do pdfplumber.

In [8]:
# coletando os metadados do arquivo
pdf.metadata

{'ModDate': 'D:20220224211338', 'Producer': 'HexaPDF version 0.20.4'}

### extract_text()

No fim das contas, estamos interessados mesmo é no conteúdo do nosso arquivo, e isso também pode ser facilmente extraído utilizando o pdfplumber, através da função `extract_text()` que funciona no nível da página.

Aqui, precisamos ter extraído a página que iremos trabalhar, e vamos associar a uma variável o resultado da execução da função `extract_text()` sobre a página. Depois, é só imprimir.

In [9]:
# extraindo o texto do arquivo
text = page.extract_text()
print(text)

Quesia de Araújo Santos
24/02/2022


In [10]:
page.extract_text()

'Quesia de Araújo Santos\n24/02/2022'