# Estudos da biblioteca PDF Plumber.

É muito comum precisarmos lidar com PDFs no trabalho, na faculdade e em outras áreas da vida. Porém, sabemos que em diversos momentos é UM SACO lidar com esses arquivos.


Ou pedem para você bater uma tabela inteira que está em um pdf porque alguém perdeu o editável, ou você precisa ficar abrindo milhões de arquivos para coletar informações e depois inserir em uma tabela...


Bom, esqueça essa trabalheira infinita. **O Python faz isso para você.**


Para saber como colocar [essa biblioteca](https://github.com/jsvine/pdfplumber) para trabalhar a nosso favor, vamos conhecer um pouco dela.

# 1. Começando pelo... começo.

Se você já tem alguma experiência com Python e suas bibliotecas, sabe exatamente o que faremos agora. Porém, escrevo esse notebook também para aqueles que NUNCA viram Python na vida. A primeira coisa que faremos, antes de utilizar os inúmeros recursos que as bibliotecas dessa linguagem nos oferecem, precisamos **instalá-las e importá-las** no nosso projeto.

Para isso, utilizaremos o `pip`, o instalador de pacotes do Python.


## IMPORTANTE:

Quando estamos usando ambientes como o Jupyter e o PyCharm, temos de usar o terminal para fazer essas instalações. Como estamos usando o ambiente do Google Colab aqui, não usaremos terminal. Faremos todo o procedimento aqui nas células de código mesmo.

Chega de papo. Vamos botar a mão na massa.

In [None]:
# Instalando a biblioteca pdfplumber:

!pip install pdfplumber



Como podemos ver acima, a biblioteca foi instalada. 


Obs.: Chamamos o gerenciador de pacotes exatamente da forma que faríamos no terminal. A única diferença é que aqui, no Colab, usamos uma exclamação antes dos comandos. **Fique tranquilo, ele rodará da mesma forma.**


Agora nós entraremos de fato no nosso código. Hora de importar o pacote.

In [None]:
# Importando o PDF Plumber.

import pdfplumber
import os
from google.colab import drive

## Atenção!

Sim, usaremos aqui outras duas bibliotecas aqui( `os` e `google.colab`, para manipular os arquivos. Porém, essas duas já estão instaladas aqui no Colab. **Caso você queira saber mais sobre elas, dê um Google.** Ele sabe tudo!

# 2. Importando arquivos do Google Drive.

Uma vez instaladas e importadas, podemos usar as bibliotecas no nosso projeto. Começaremos criando um "link de acesso" ao nosso drive, que é o que as empresas normalmente usam para compartilhar arquivos, relatórios e afins. 

Vamos "montar" o nosso drive aqui no Colab.

In [None]:
# Montando nosso drive:

drive.mount('/content/gdrive')

Mounted at /content/gdrive


Beleza! O drive está pronto para ser usado. 

Agora faremos o seguinte:



1.   Baixaremos e colocaremos [o arquivo](https://github.com/jsvine/pdfplumber/blob/b904dd6a7c5164c5e051fa9b4121f8af6a105ae9/examples/pdfs/ca-warn-report.pdf) que usaremos no nosso drive.

  OBS: Essa planilha está na documentação do PDF Plumber. Basta navegar até a pasta de exemplos disponibilizada no GitHub deles.

2.   Localizaremos a planilha clicando na pasta que está no menu do lado esquerdo da tela. (Logo abaixo do *{x}*, consegue ver?)


3.   Importaremos o arquivo para dentro do nosso código e o colocaremos dentro de uma variável chamada `pdf`.

In [None]:
# Importando o arquivo e colocando-o dentro da variável pdf.

pdf = pdfplumber.open('/content/gdrive/MyDrive/ca-warn-report.pdf')

# 3. Trabalhando com arquivos.

Vamos supor que, antes de começar, você quer saber quantas páginas o seu PDF tem. Conseguimos fazer isso sem precisar navegar até a pasta, abrir o arquivo, ver as páginas... podemos fazer isso com **UMA LINHA DE CÓDIGO**.

Para isso, basta usar a função `pages`. Fica desta maneira:

In [None]:
pdf.pages

[<Page:1>,
 <Page:2>,
 <Page:3>,
 <Page:4>,
 <Page:5>,
 <Page:6>,
 <Page:7>,
 <Page:8>,
 <Page:9>,
 <Page:10>,
 <Page:11>,
 <Page:12>,
 <Page:13>,
 <Page:14>,
 <Page:15>,
 <Page:16>]

É um arquivo um tanto extenso, não é? Temos 16 páginas de pura alegria em planilhas. 

Imagine só a seguinte situação: seu chefe chega para você em uma sexta-feira com esse PDF às 17 horas e pede para você passar esse troço INTEIRO para uma planilha porque algum zé-ruela perdeu o editável. 

Coisa linda, não é? Vai ficar 30 horas copiando célula a célula. Não mais! 

**O Python faz isso para você.**

Para que esse exemplo fique mais rápido e prático, trabalharemos só a primeira página. Sinta-se desafiado a trabalhar com o arquivo inteiro!

- A dica mais valiosa desse notebook pode ser esta: **Ponha a mão na massa. Você não vai aprender a fazer isso tudo aqui só lendo.**

In [None]:
# Selecionando a primeira página do PDF:

page0 = pdf.pages[0]

Lembrete: A contagem das páginas, como tudo em programação, começa em zero! Para acessar a página 1, colocaremos o [0]. Para acessar a página 2, colocaremos o [1], assim por diante.



# 3. Extraindo a tabela.

Hora da mágica! Importamos as bibliotecas, montamos o drive, colocamos a primeira página dentro de uma variável... agora é hora de extrair a tabela do PDF!

Para isso, usaremos a função `.extract_table()`.

In [None]:
# Extraindo a tabela e jogando dentro de uma variável.

tabela = page0.extract_table()

Acredite se quiser: **A tabela já está dentro dessa variável.**

Digite só o nome da variável na célula de código e veja a mágica acontecendo.

In [None]:
tabela

[['Notice Date',
  'Effective',
  'Received',
  'Company',
  'City',
  'No. Of',
  'Layoff/Closure'],
 ['06/22/2015',
  '0  3  / 2  5  / 2  0  16',
  '0  7  / 0  1  / 2  0  15',
  'Maxim Integrated Product',
  'San Jose',
  '150',
  'Closure Permanent'],
 ['06/30/2015',
  '0  8  / 2  9  / 2  0  15',
  '0  7  / 0  1  / 2  0  15',
  'McGraw-Hill Education',
  'Monterey',
  '137',
  'Layoff Unknown at this time'],
 ['06/30/2015',
  '0  8  / 3  0  / 2  0  15',
  '0  7  / 0  1  / 2  0  15',
  'Long Beach Memorial Medical Center',
  'Long Beach',
  '90',
  'Layoff Permanent'],
 ['07/01/2015',
  '0  9  / 0  2  / 2  0  15',
  '0  7  / 0  1  / 2  0  15',
  'Leidos',
  'El Segundo',
  '72',
  'Layoff Permanent'],
 ['07/01/2015',
  '0  9  / 3  0  / 2  0  16',
  '0  7  / 0  1  / 2  0  15',
  'Bosch Healthcare Systems, Inc.',
  'Palo Alto',
  '55',
  'Closure Permanent'],
 ['06/29/2015',
  '0  9  / 0  1  / 2  0  15',
  '0  7  / 0  2  / 2  0  15',
  'Encompass Digital Media, Inc.',
  'Los Angeles',


# "Beleza, tá feito... a tabela tá na variável. Mas pô, tá feião..."

Concordo com você. O formato fica horroroso mesmo. Para deixar mais interessante, usaremos uma outra biblioteca - que, por si só, é digna de uma sequência de estudos e notebooks - o Pandas.

Vamos instalar e importar para dar uma geral nessa tabela.

In [None]:
# Importando e instalando o Pandas:

!pip install pandas

import pandas as pd



Colocaremos a tabela em um Data Frame. Se não sabe o que é isso, procedimento padrão: dá um Google!

(Ou espera os próximos notebooks sobre o assunto, porque valerão a pena!)

In [None]:
# Jogando a tabela dentro de um Data Frame.

df = pd.DataFrame(tabela[1:], columns=tabela[0])
for column in ["Effective", "Received"]:
    df[column] = df[column].str.replace(" ", "")

Vejamos o resultado: Joga a variável `df` dentro de uma célula de código e **bota pra rodar!**

In [None]:
df

Unnamed: 0,Notice Date,Effective,Received,Company,City,No. Of,Layoff/Closure
0,06/22/2015,03/25/2016,07/01/2015,Maxim Integrated Product,San Jose,150,Closure Permanent
1,06/30/2015,08/29/2015,07/01/2015,McGraw-Hill Education,Monterey,137,Layoff Unknown at this time
2,06/30/2015,08/30/2015,07/01/2015,Long Beach Memorial Medical Center,Long Beach,90,Layoff Permanent
3,07/01/2015,09/02/2015,07/01/2015,Leidos,El Segundo,72,Layoff Permanent
4,07/01/2015,09/30/2016,07/01/2015,"Bosch Healthcare Systems, Inc.",Palo Alto,55,Closure Permanent
5,06/29/2015,09/01/2015,07/02/2015,"Encompass Digital Media, Inc.",Los Angeles,41,Closure Permanent
6,07/02/2015,07/06/2015,07/02/2015,Alphatec Spine,Carlsbad,99,Layoff Permanent
7,06/30/2015,08/07/2015,07/06/2015,Symantec Corporation,Mountain View,60,Layoff Permanent
8,06/30/2015,08/31/2015,07/06/2015,"Fusion Contacts Centers, LLC",Santa Maria,50,Closure Permanent
9,06/30/2015,09/15/2015,07/06/2015,KLA-Tencor Corporation,Milpitas,213,Layoff Permanent


Coisa linda, se for falar a verdade! Aí está a tabela inteira da página 1: formatada e limpa!


Mas ainda temos mais um problema para lidar por aqui... a tabela está no Google Colab. E eu suspeito - só suspeito! - que o seu chefe não quer um link do colab com a tabela dentro, não é?


A questão agora é só fazer o download da tabela em formato csv! Para isso, importaremos mais um módulo da biblioteca `google.colab` chamado `files`. 


O código ficará dessa maneira aqui:

In [None]:
# Importando o módulo files:

from google.colab import files

# Convertendo Data Frame para CSV:

df.to_csv('tabela.csv')

# Baixando tabela em formato CSV para a sua máquina:

files.download('tabela.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# A mágica foi feita, e a sexta-feira foi salva!

Em poucas linhas de Python você concluiu uma tarefa IMENSA que tomaria algumas boas horas! 

Você, em uma tacada só:

1. Salvou a sua sexta-feira;
2. Ganhou tempo para você e para seu chefe;
3. Otimizou o tempo dos processos na sua empresa;
4. Saiu como brabo(a) na história!

Agora é só sair para o abraço e [comemorar](https://www.youtube.com/watch?v=5aopMm7UGYA)!

# Obrigado por ter lido esse Notebook até o final!

Espero que o conteúdo seja útil de verdade para você, com aplicações práticas. Aproveite!

Até a próxima!

## Texto por: Gabriel da Costa Dórea

[Linkedin](https://www.linkedin.com/in/gabriel-dacostadorea/) - [Instagram](https://www.instagram.com/gabriel.dacostadorea/) - [Medium](https://medium.com/@gabriel-dacostadorea)