<a href="https://colab.research.google.com/github/victorcto/manipulando_PDF/blob/main/Manipulando_PDF.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1> Manipulando PDF </h1>
<h2 ><b> Como extrair, limpar e formatar dados de um PDF com Python </b></h2>  
<hr>


#<h3><font size=5><b>Introdução</b></h3>

<center><img src="https://img.icons8.com/ios-filled/200/000000/binary-file.png"/></center>

Diferentemente de documentos de textos simples, PDF's são arquivos binários, o que os torna mais difíceis de manipular. Além disso, PDF’s podem conter imagens, diferentes fontes, cores, etc. complicando ainda mais a tarefa de manipulação – extrair, limpar e reestruturar dados. Felizmente, conhecendo um pouco de Python e alguns de seus módulos é possível facilitar e automatizar essa tarefa em um PDF.

##<h4><b><img src="https://img.icons8.com/offices/24/000000/bookmark-ribbon.png"/> Conhecendo o projeto</b></h4>

É comum em nosso dia a dia nos depararmos com situações na qual PDF's possuem conteúdos confusos ou nada intuitivo de serem lidos. Como exemplo desse tipo de PDF: um edital emitido pela universidade de Brasília (UNB) que expõe o resultado final nos itens do tipo D e o resultado final na prova de redação em Língua Portuguesa, referentes à primeira etapa do Programa de Avaliação Seriada (PAS) Subprograma 2018 – Triênio 2018/2020. 

A imagem abaixo mostra um recorte do edital, no qual possuí 331 páginas de puro dados macivos.

<center><img src="https://i.ibb.co/1JwpCt8/recorte.png" width="50%" alt="recorte"></center>

<img src="https://img.icons8.com/color/24/000000/external-link.png"/> (você pode acessar o link do arquivo PDF completo clicando <a  href="http://bit.ly/PAS2018E1">aqui</a>)
<hr>

Para ser mais didático, sem sair da realidade e semelhante ao exemplo supracitado, fiz um PDF que mostra as informações dos funcionários de uma empresa fictícia.

<center><img src="https://i.ibb.co/6wkXQWp/recorte2.png" alt="recorte 2"></center>

<img src="https://img.icons8.com/color/24/000000/external-link.png"/> (você pode acessar o link do arquivo PDF completo clicando <a  href="https://drive.google.com/file/d/15h0u1ET5rsQCkpQ-qMLN9w3bUwgm-p8E/view?usp=sharing">aqui</a>)

# <h3><font size=5><b>Projeto</b><font/></h3>
<center><img src="https://img.icons8.com/ios-filled/200/000000/work.png"/></center>

Depois dessa "breve" introdução vamos de uma vez por a mão na massa.


<h4><b><img src="https://img.icons8.com/offices/24/000000/bookmark-ribbon.png"/> Instalando os pacotes necessários</b></h4>

A instalação dos pacotes(módulos) abaixo são fundamentais para o processo de extração e nova inserção dos ddaos. 

*   pdfplumber = Extração dos dados
*   FPDF = Inserção dos dados em um novo PDF

In [None]:
!pip install pdfplumber
!pip install FPDF

<h4><b><img src="https://img.icons8.com/offices/24/000000/bookmark-ribbon.png"/> Importação dos pacotes</b></h4>

*   pdfplumber = Extração dos dados
*   FPDF = Inserção dos dados em um novo PDF
*   pandas = Criação de um DataFrame e dados estatísticos
*   csv = Leitura de arquivo csv

In [68]:
import pdfplumber
from fpdf import FPDF
import pandas as pd
import csv

<h4><b><img src="https://img.icons8.com/offices/24/000000/bookmark-ribbon.png"/> Abrindo PDF</b></h4>

Vamos utlizar o pacote pdfplumber para abrir, assim vamos conseguir acessa-lo para efetuar a manipulação.

In [52]:
# Abrindo PDF
pdf = pdfplumber.open("/content/drive/MyDrive/Colab Notebooks/Projetos Data Science/Trabalhando com PDF/Relação de funcionários.pdf")

<h4><b><img src="https://img.icons8.com/offices/24/000000/bookmark-ribbon.png"/> Extração do texto</b></h4>

Precisamos coletar o texto do PDF. O PDF que estamos utilizando possuí apenas uma página, mesmo assim é necessário específicar o índice (0). Logo após acessamos a página que queremos, tilizamos a função extract_text() para extrair o texto e a função split(), passando como parâmetro o caractere "|", para quebrar o texto nesse caractere e retornar uma lista.

In [53]:
# Extração do texto geral
texto = pdf.pages[0].extract_text().split("|")

<h4><b><img src="https://img.icons8.com/offices/24/000000/bookmark-ribbon.png"/> Coleta e limpeza dos dados significativos</b></h4>

<center><img src="https://i.ibb.co/C2q7r8V/recorte3.png" alt="recorte 3"></center>

Está na hora de coletar e tratar os dados que nos interessa.
Primeiramente, vamos guardar a data que se encontra na última posição da lista. Logo em seguida, selecionamos apenas as informações de todos os funcionários: para isso vamos utilizar slice na lista - as informações estão entre o index 3 e -2. 

Continuando, como podemos ver na imagem acima, o primeiro item da nossa lista, destacado de vermelho, contém alguns caracteres e o CPF misturados. Precisamos tratar esse elemento deixando apenas o CPF do primeiro funcionário. Para isso selecionamos a posição 0 e fazemos uso da função replace() para substituir todos os caracteres indesejados por espaços em branco, e logo após removeremos esses espaços com a função strip().

Por fim, iremos percorrer todos os outros itens em busca de caracteres insignificantes e realizar a removação deles.

<img src="https://img.icons8.com/offices/24/000000/box-important.png"/> (Ao executar a célula abaixo, você verá como ficaram os nossos dados.)

In [None]:
data = texto[-1]
funcionario = texto[3:-1]
funcionario[0] = funcionario[0].replace(" salário. \n"," ").strip()
for i, e in enumerate(funcionario):
    if(e.find("\n")>=0 or e.find("R$")>=0 or e.find(".") or e.find(",")):
        funcionario[i] = funcionario[i].replace("\n","").replace("R$","").replace(",",".").strip()

funcionario

<h4><b><img src="https://img.icons8.com/offices/24/000000/bookmark-ribbon.png"/> Lista de listas</b></h4>

Eba! Já temos todos os nosso dados coletados e limpos, vamos partir para a etapa de reestruração desses dados e exportação.

Começaremos criando uma lista de listas ou matriz, como quiser chamar. É necessário essa implementação para que possamos construir um DataFrame com as informações dos funcionários.

In [69]:
k = 0
j = 4
funcionarios = []
while True:
  funcionarios.append(funcionario[k:j])
  k = j
  j+= 4
  if(len(funcionarios)==(len(funcionario)/4)):
    break

<h4><b><img src="https://img.icons8.com/offices/24/000000/bookmark-ribbon.png"/> Refinando dados</b></h4>

Só mais um pouquinho de tratamento de dados...

O nosso PDF possuí um dado a respeito dos salários dos funcionários, é interessante fazer a conversão desses valores de string para float a fim de podermos utilizar para por exemplo cálculos estatísticos.

In [70]:
for i in funcionarios:
  i[3] = float(i[3])

<h4><b><img src="https://img.icons8.com/offices/24/000000/bookmark-ribbon.png"/> Criando DataFrame</b></h4>

Chegou a hora de utilizarmos o módulo pandas para então criar nosso DataFrame. 

A segunda linha da célula abaixo faz com que nosso DateFrame comece com o valor 1.

<img src="https://img.icons8.com/offices/24/000000/box-important.png"/> (Ao executar a célula abaixo, você verá como ficaram os nossos dados.)

In [None]:
df = pd.DataFrame(funcionarios, columns=['CPF', 'Nome', 'Data de admissão', 'Salário'])
df.index +=1
df

<h4><b><img src="https://img.icons8.com/offices/24/000000/bookmark-ribbon.png"/> Alguns dados estatísticos</b></h4>

Aqui estão alguns exemplos de o que podemos fazer com os dados extraídos e devidamente tratados utilizando o pandas.

In [None]:
media = df['Salário'].mean()
soma = df['Salário'].sum()
print(f"Média salarial: R${media}\nSoma salarial: R${soma}")

<h4><b><img src="https://img.icons8.com/offices/24/000000/bookmark-ribbon.png"/> Exportando para um arquivo CSV</b></h4>

Ufa! Já estamos terminando. Vamos exportar nosso DataFrame para um arquivo do tipo CSV.

O que queremos no fim é transformar nosso arquivo PDF com dados nada bem apresentavél em outro arquivo PDF mais amigável de serem lidos e interpretados.

<img src="https://img.icons8.com/offices/24/000000/high-priority.png"/> Não conheço (ou não existe) uma maneira direta de converter nosso DataFrame em PDF. Então para isso converteremos primeiro em CSV e posteriormente em PDF.

In [61]:
df.to_csv("/content/drive/MyDrive/Colab Notebooks/Projetos Data Science/Trabalhando com PDF/DataFrame.csv", encoding="utf-8", index=False)

<h4><b><img src="https://img.icons8.com/offices/24/000000/bookmark-ribbon.png"/> Convertendo CSV em PDF</b></h4>

Nosso projeto já está quase quase finalizado, só mais um passo.

Esse é o último passo e o mais trabalhoso, porém é opcional. Se você não quiser transformar seu arquivo CSV em PDF pode pular para considerações finais. 

Para você que deseja fazer a conversão, fazeremos uso primeiramente do pacote csv. Esse pacote permite-nos abrir arquivos do tipo CSV. 

Em seguida, vamos utilizar o último módulo, FPDF. O pacote FPDF nos ajuda a criar e escrever arquivos PDF.

Não irei me alongar nesse último passo pois se trata de um passo optativo, mas para aos interessados, irei disponibilizar o link abaixo da documentação oficial do módulo.

<img src="https://img.icons8.com/color/24/000000/external-link.png"/> <a href="http://www.fpdf.org/">FPDF</a>

In [62]:
with open("/content/drive/MyDrive/Colab Notebooks/Projetos Data Science/Trabalhando com PDF/DataFrame.csv", newline="") as f:
  reader = csv.reader(f)
  new_pdf = FPDF()
  new_pdf.add_font('AnticSlab', '', '/content/drive/MyDrive/Colab Notebooks/Projetos Data Science/Trabalhando com PDF/Fonts/AnticSlab-Regular.ttf', uni=True)
  new_pdf.add_page()
  page_width = new_pdf.w - 2 * new_pdf.l_margin
      
  new_pdf.set_font('Times','B',16.0) 
  new_pdf.cell(page_width, 0.0, 'Relação de funcionários', align='C')
  new_pdf.ln(10)

  new_pdf.set_font('', '', 12)
    
  col_width = page_width/4
    
  new_pdf.ln(1)
    
  th = new_pdf.font_size
    
  for row in reader:
    new_pdf.cell(col_width, th, row[0], border=1)
    new_pdf.cell(col_width, th, row[1], border=1)
    new_pdf.cell(col_width, th, row[2], border=1)
    new_pdf.cell(col_width, th, row[3], border=1)
    new_pdf.ln(th)
      
  new_pdf.ln(10)
  new_pdf.cell(0, 0, 'Número total de funcionários: {}'.format(len(funcionarios)))
  new_pdf.ln(5)
  new_pdf.cell(0, 0, 'A média salarial foi de R${}'.format(media))
  new_pdf.ln(5)
  new_pdf.cell(0, 0, 'A soma salarial foi de R${}'.format(soma))
  new_pdf.ln(10)
  new_pdf.cell(0, 0, data, align='C')
    
  new_pdf.output('/content/drive/MyDrive/Colab Notebooks/Projetos Data Science/Trabalhando com PDF/DataSet funcionários.pdf', 'F')

# <h3><font size=5><b>Considerações finais</b><font/></h3>

<center><img src="https://img.icons8.com/ios-filled/200/000000/check-all--v1.png"/> </center>

Chegamos ao fim... 🥵 

O meu intuito com este artigo foi mostrar que um conhecimento básico em Python pode facilitar sua vida. Sabe aquelas tarefas maçantes, rotineiras ou até mesmo esse nosso PDF (imagine 100, 200 ou mais páginas), quanto tempo você levaria para cumpri-lás? Com um estudo básico em Python você consegue automatizar e acelerar esses trabalhos em poucas horas. E mais, é possivel ainda explorar e criar uma nova funcionalidade a essas tarefas, como no projeto que apresentei: com os dados extraidos de um PDF foi possivel informar o número de funcionários, a média salarial e a soma desses salários. Eu nem consigo imaginar o tanto de possibilidades, que alguém com um bom conhecimento na linguagem poderia dar a essas tarefas/projetos.

Enfim, espero que tenham gostado do que foi apresentado, tentei ser o mais explicativo possível, trazendo algumas funcionaliades e conceitos básicos da linguagem.

Aaaa, já ia me esquecendo 😁😁😁. Segue abaixo o resultado final:
<center><img src="https://i.ibb.co/G5cxS4h/recorte4.png" alt="recorte4" border="0"></center>

<img src="https://img.icons8.com/color/24/000000/external-link.png"/> <a href="https://drive.google.com/file/d/1aC-ByGPhArMD8dX3L0Ahq2IHxjR-hhnj/view?usp=sharing"> Link para o PDF</a>
