<a href="https://colab.research.google.com/github/EricoCoutoJr/PDF-Data-Scraping/blob/master/Data_Scraping_in_PDF_file.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



# ***Data-Scraping in PDF File***
*by [Erico Couto Jr.](https://www.linkedin.com/in/ericocoutojr/)*

---

## Usando a Biblioteca PDF Plumber

Por mais simples que possa parecer é raro entrarmos os dados devidamente formatados para nosso uso. Também não é raro recebermos estes dados em formulários em formato PDF.


<center><img width="50%" src="https://image.freepik.com/fotos-gratis/conta-de-pagamento-de-leitura-de-mulher_53876-41455.jpg"></center>

Com a biblioteca de Python [PDF Plumber](https://github.com/jsvine/pdfplumber) podemos processar o conteúdo de arquivos no fromato PDF.

Neste caso usarei o problema descrito por um colega. É recorrente em seu trabalho ter que fazer a leitura de faturas das contas de energia elétrica para calcular a demanda média e dar entrada em uma planilha de cáculo para dimensionamento do sistema fotovoltaico. Para tal ferei uso da biblioteca descrita acima. E usarei como documento modelo uma conta de luz da concessionária local (CELESC).

---
Inicialmente, vamos efetuar a instalação do pacotes `pdfplumber`, fazendo o uso do gerenciador de pacotes `pip`

In [67]:
# instalando a biblioteca
!pip install pdfplumber



Agora que a biblioteca foi instalada, basta fazer a importação, e usar.

Para este script, precisaremos importar também a biblioteca `os` para manipular os arquivos, e o `drive` para montar e acessar nosso Google Drive. Para este exemplo os arquivos utilizados estarão diponíveis no GitHub e você deverá trasferí-los para as pastas do seu Google Drive `/content/gdrive/My Drive/relatorios/`. Eles poderiam ficar disponíveis e serem acessados no GitHub mas resolvi utilizar o compartilhamento pelo Drive.

In [None]:
# importando os pacotes usados neste trabalho
import pdfplumber
import os
from google.colab import drive

Pronto! Agora é só montar nosso drive e buscar os arquivos.

In [None]:
# montando o drive
drive.mount('/content/gdrive')

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly&response_type=code

Enter your authorization code:
··········
Mounted at /content/gdrive


Verificando o conteúdo do nosso drive, podemos ver que o arquivo modelo `20200527.pdf` está lá, pronto para ser usado.

Vamos carregá-lo e ver como essa biblioteca funciona na prática.

In [None]:
# verificando o conteúdo do drive
!ls '/content/gdrive/My Drive/relatorios/'

20200527.pdf  20200627.pdf  20200727.pdf  20200827.pdf


### pdfplumber.open()

Para abrir um arquivo, vamos associá-lo a uma variável, para que ele possa ser facilmente acessado depois. Neste caso iremos associar ao objeto (variável) `dpf`.

Utilizamos o comando `pdfplumber.open('caminho/do/meu/arquivo')` com o caminho e nome do arquivo dentro dos parênteses, dentro de aspas, simples ou duplas.

In [None]:
# abrindo o documento 20200527.pdf
# podemos fazer uso de um input externo, mas para exemplificar estou usando diretamente na linha
# exemplo:
# arquivo = input('Defina a conta a ser lida: ')
# pdf = pdfplumber.open('/content/gdrive/My Drive/relatorios/' + arquivo)

pdf = pdfplumber.open('/content/gdrive/My Drive/relatorios/20200827.pdf')

### Atributo pages
Para acessar as páginas existentes do objeto `pdf`, utilizamos o atributo `pages`.

Ela retorna uma lista com as páginas do arquivo. No caso deste projeto, teremos apenas uma pagina pois ele se refere a uma fatura de luz.

In [None]:
# ver o número de páginas do pdf:
pdf.pages

[<Page:1>]

Ao fazer qualquer manipulação, precisamos sempre identificar a página em que isso está acontecendo, mesmo que o documento possua apenas uma página.

Para isso, utilizaremos a função `pages`, passando como argumento o número da página que desejamos manipular, lembrando sempre que começamos a contar a partir do 0. Afinal `pdf.pages` é uma lista de paginas.

In [68]:
# selecionando uma página, neste caso a primeira e única 
# página contida no objeto `pdf`.
# neste momento iremos atribuir a variável `page` o conteúdo
# da primeira página do documento atribuido a variável `pdf`.
page = pdf.pages[0]
page
type(page)

pdfplumber.page.Page

### Atributo metadata
Metadados, de forma simples, são dados sobre outros dados. No nosso caso, são dados sobre o nosso arquivo, como o autor, data de criação, palavras chaves, título, etc.

É possível extrair esses dados sobre nossos arquivos com facilidade usando a função `metadata` do pdfplumber.

Neste caso os `metadados` ou `metadata` contem apenas data e hora de criação do arquivo e origem ('Producer').

In [None]:
# coletando os metadados do arquivo
pdf.metadata

{'CreationDate': 'D:20200903165910', 'Producer': 'www.plpdf.com 2.3.1'}

### Função extract_text()

No fim das contas, estamos interessados mesmo é no conteúdo do nosso arquivo, e isso também pode ser facilmente extraído utilizando o pdfplumber, através da função `extract_text()` que funciona no nível da página.

Aqui, precisamos ter extraído a página que iremos trabalhar, e vamos associar a uma variável o resultado da execução da função `extract_text()` sobre a página. Depois, é só imprimir.

In [69]:
# extraindo o texto da página selecionada anteriormente (ver célula Atributo pages())
# perceba que há quebra de linha com '\n"
text = page.extract_text()
lista = text.split("\n")

# nesta linha abaixo procuramos e localizamos a linha que contém os dados
# lembramos que esta posição pode variar em função de linhas extras produzidas
# pelas concessionária. E sabendo que uma das linhas procuradas sempre vai conter "Dez/"
# e a linha seguinte é a seguinte ficou fácil.
for l in lista:
  if "Dez/" in l:
    print(l)
    pos = lista.index(l)
    print(pos)

Ago/2019 Set/2019 Out/2019 Nov/2019 Dez/2019 Jan/2020 Fev/2020 Mar/2020 Abr/2020 Mai/2020 Jun/2020 Jul/2020
32


Na célula abaixo criarei uma lista de linhas criada apartir da quebra do texto corrido contido na variável `text` do tipo `str`. E em seguida foi feita a identificação da linha que continhão os dados a serem lidos.
Como os documentos lidos são padronizados está celula só foi criada para determinar quais eram as posições na lista de linhas da `lista_text`.

In [None]:
# Pra eu não ter que contar as linhas que terei que colher os dados, uso o index para localizar as linhas.
# estou fazendo uso da função split('\n') para quebrar o texto corrido em linhas criando uma lista

# em seguida localizarei as linhas que contém as informações necessárias.

print("Na linha {}, do documento lido, estão localizados os meses que foram feitas as leituras descritas na linha seguinte".
      format(pos))

print("Na linha {}, do documento lido, estão localizados os valores consumidos em Kwh".
      format(pos+1))

# como este documento é pradronizado as linhas a serem lidas sempre estarão juntas ou seguidas uma da outra.

Na linha 32, do documento lido, estão localizados os meses que foram feitas as leituras descritas na linha seguinte
Na linha 33, do documento lido, estão localizados os valores consumidos em Kwh


In [None]:
# Foram criadas dias listas, a primeira com os meses de leitura
# a segunda com os respectivos valores lidos
# a função split() foi usada para separar os itens contidos nas 
# strings lista_text contida nas linhas 32 e 33 do documento extraido do PDF.
meses_lidos = lista[pos].split()    
consumo_lido = lista[pos+1].split()
print(meses_lidos)
print(consumo_lido)


['Ago/2019', 'Set/2019', 'Out/2019', 'Nov/2019', 'Dez/2019', 'Jan/2020', 'Fev/2020', 'Mar/2020', 'Abr/2020', 'Mai/2020', 'Jun/2020', 'Jul/2020']
['100', '145', '245', '200', '244', '468', '362', '181', '339', '233', '124', '175']


### Gravando o resultado da Leitura do PDF
Na célula abaixo, está sendo criado uma arquivo contendo os dados lidos na conta de luz

In [None]:
with open('/content/gdrive/My Drive/relatorios/leitura_12_meses.txt', 'a') as txt:
  for i in range(len(meses_lidos)):
    print(meses_lidos[i], consumo_lido[i])
    txt.write(meses_lidos[i] + ',' + consumo_lido[i] + "\n")

Ago/2019 100
Set/2019 145
Out/2019 245
Nov/2019 200
Dez/2019 244
Jan/2020 468
Fev/2020 362
Mar/2020 181
Abr/2020 339
Mai/2020 233
Jun/2020 124
Jul/2020 175


A seguir iramos apenas confirmar a criação do arquivo `.txt` e seu conteúdo.

In [None]:
with open('/content/gdrive/My Drive/relatorios/leitura_12_meses.txt', 'r') as txt:
  print(txt.read())

Ago/2019,100
Set/2019,145
Out/2019,245
Nov/2019,200
Dez/2019,244
Jan/2020,468
Fev/2020,362
Mar/2020,181
Abr/2020,339
Mai/2020,233
Jun/2020,124
Jul/2020,175



***Espero ter ajudado com este conteúdo.***