<a href="https://colab.research.google.com/github/marciadartup/Portif-lio/blob/master/Manipulando_Arquivos_PDF.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


## Biblioteca PDF Plumber

Em nossa rotina de trabalho é muito comum termos que lidar com arquivos no formato PDF. Criamos, editamos, acessamos e compartilhamos arquivos nesse formato, que muitas vezes, fazem parte de nossas atividades primordiais na empresa.


<center><img width="50%" src="https://image.freepik.com/free-vector/group-people-working-together_52683-28615.jpg"></center>

Com essa biblioteca de Python, será possível facilitar esse processo. A biblioteca [PDF Plumber](https://github.com/jsvine/pdfplumber) possui uma grande gama de funções e argumentos, e aqui nós vamos começar a nos aventurar com essas funções.

Para isso, vamos precisar fazer o download do pdf de apoio que foi disponibilizado como material complementar dessa aula. Você pode upar o arquivo diretamente na aba de arquivos à esquerda do seu navegador, e acessá-lo por lá.

Entretanto, vamos fazer um processo mais robusto, e nos acostumar a montar e acessar nosso Google Drive, pois esse processo vai facilitar a nossa vida quando formos lidar com mais arquivos de uma vez.

Outro detalhe importante é que, nativamente, o Google Colab não possui essa biblioteca instalada, então nós precisamos instalar a mesma no nosso ambiente.

Para isso, vamos utilizar o gerenciador de pacotes `pip`, e com o comando `install` vamos instalar a biblioteca.



In [1]:
# instalando a biblioteca
!pip install pdfplumber

Collecting pdfplumber
  Downloading https://files.pythonhosted.org/packages/2c/06/eb883f00ea3d78a2f860c593645498c39120f763d30b099cc98c4392b312/pdfplumber-0.5.23.tar.gz
Collecting pdfminer.six==20200517
[?25l  Downloading https://files.pythonhosted.org/packages/b0/c0/ef1c8758bbd86edb10b5443700aac97d0ba27a9ca2e7696db8cd1fdbd5a8/pdfminer.six-20200517-py3-none-any.whl (5.6MB)
[K     |████████████████████████████████| 5.6MB 4.0MB/s 
Collecting Wand
[?25l  Downloading https://files.pythonhosted.org/packages/82/e4/d00cdc270cad06a2dd2d3095ffe0f6541d69104db504c4e94de805e3c6e0/Wand-0.6.2-py2.py3-none-any.whl (130kB)
[K     |████████████████████████████████| 133kB 30.7MB/s 
Collecting pycryptodome
[?25l  Downloading https://files.pythonhosted.org/packages/17/55/17fa0b55849dc135f7bc400993a9206bf06d1b5d9520b0bc8d47c57aaef5/pycryptodome-3.9.8-cp36-cp36m-manylinux1_x86_64.whl (13.7MB)
[K     |████████████████████████████████| 13.7MB 305kB/s 
Building wheels for collected packages: pdfplumber
  

Agora que a biblioteca foi instalada, basta fazer a importação, e usar.

Para essa aula, precisaremos importar também a biblioteca `os` para manipular os arquivos, e o `drive` para montar e acessar nosso Google Drive.

In [22]:
# importando os pacotes necessários
import pdfplumber
import os
from google.colab import drive

Pronto! Agora é só montar nosso drive e buscar os arquivos.

In [23]:
# montando o drive
drive.mount('/content/gdrive')

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


Verificando o conteúdo do nosso drive, podemos ver que o arquivo `modelo_de_relatorio.pdf` está lá, pronto para ser usado.

Vamos carregá-lo e ver como essa biblioteca funciona na prática.

In [24]:
# verificando o conteúdo do drive
!ls '/content/gdrive/My Drive'

'Arquivos Colab'      'Colab Notebooks'     lista_de_clientes.txt
'Arquivos Colab (1)'   dartup_estoque.pdf   modelo_de_relatorio.pdf


### pdfplumber.open()

Para abrir um arquivo, vamos associá-lo a uma variável, para que ele possa ser facilmente acessado depois.

Utilizamos o comando `pdfplumber.open('caminho/do/meu/arquivo')` com o caminho do arquivo dentro dos parênteses, dentro de aspas, simples ou duplas.

In [25]:
# abrindo o documento
pdf = pdfplumber.open('/content/gdrive/My Drive/dartup_estoque.pdf')

### pages
Para acessar as páginas existentes no arquivo, utilizamos a função `pages`.

Ela retorna uma lista com as páginas do arquivo.

In [26]:
# ver o número de páginas do pdf:
pdf.pages

[<Page:1>, <Page:2>, <Page:3>, <Page:4>]

Ao fazer qualquer manipulação, precisamos sempre identificar a página em que isso está acontecendo, mesmo que o documento possua apenas uma página.

Para isso, utilizaremos a função `pages`, passando como argumento o número da página que desejamos manipular, lembrando sempre que começamos a contar a partir do 0.

In [27]:
# selecionando uma página
page = pdf.pages[0]
page

<Page:1>

### metadata
Metadados, de forma simples, são dados sobre outros dados. No nosso caso, são dados sobre o nosso arquivo, como o autor, data de criação, palavras chaves, título, etc.

É possível extrair esses dados sobre nossos arquivos com facilidade usando a função `metadata` do pdfplumber.

In [28]:
# coletando os metadados do arquivo
pdf.metadata

{'CreationDate': "D:20200906122751+00'00'",
 'Creator': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36',
 'ModDate': "D:20200906122751+00'00'",
 'Producer': 'Skia/PDF m85'}

### extract_text()

No fim das contas, estamos interessados mesmo é no conteúdo do nosso arquivo, e isso também pode ser facilmente extraído utilizando o pdfplumber, através da função `extract_text()` que funciona no nível da página.

Aqui, precisamos ter extraído a página que iremos trabalhar, e vamos associar a uma variável o resultado da execução da função `extract_text()` sobre a página. Depois, é só imprimir.

In [29]:
# extraindo o texto do arquivo
text = page.extract_text()
print(text)

Desmisti cando a Gestão de Estoque
Por hostnet / 2 minutos de leitura
A Gestão de Estoque é uma das diversas áreas inclusas na Ges
Gestor ou empreendedor, você está buscando
soluções para auxiliar a e ciência do
gerenciamento de estoque?
Será que é possível controlar, nesta época de crise

em que vivemos, o estoque de uma empresa em

uma planilha ou anotando em blocos?  Hoje


In [30]:
page.extract_text()

'Desmisti\x00cando a Gestão de Estoque\nPor hostnet / 2 minutos de leitura\nA Gestão de Estoque é uma das diversas áreas inclusas na Ges\nGestor ou empreendedor, você está buscando\nsoluções para auxiliar a e\x00ciência do\ngerenciamento de estoque?\nSerá que é possível controlar, nesta época de crise\n\ue900\nem que vivemos, o estoque de uma empresa em\n\ue900\numa planilha ou anotando em blocos? \xa0Hoje'