# Vamos aprender a trabalhar com PDF usando o Python

- Regra geral: PDF foi feito justamente para bloquear muita coisa, então não é fácil "brincar" com um pdf
- Mesmo assim, Python tem várias bibliotecas que vão nos ajudar, vamos focar em 2:
    - PyPDF2
    - Tabula
- Ler e extrair informações de um PDF a gente consegue fazer.
- Escrever e Editar, aí já é outra história

### Para os nossos exemplos, vamos avaliar o Release de Resultados do 3º e 4º Trimestre de 2020 da Magazine Luiza

#### 1º Objetivo: Queremos conseguir separar apenas o DRE do Release de Resultados (Página 14) para enviar para a Diretoria, como fazemos?
    - Separar as páginas de um pdf

In [9]:
from pathlib import Path
import PyPDF2 as pyf

CAMINHO_REFERENCIA = Path('./Python txt e PDF 10 - Dados')
for arquivo in CAMINHO_REFERENCIA.iterdir():
    if arquivo.is_file():
        arquivo_PDF = pyf.PdfReader(arquivo)
        for pos, page in enumerate(arquivo_PDF.pages, 1):
            novo_PDF = pyf.PdfWriter()
            novo_PDF.add_page(page)
            with open(CAMINHO_REFERENCIA.joinpath(f"paginas/{arquivo.name.removesuffix(arquivo.suffix)} - {pos}{arquivo.suffix}"), 'wb') as novo_arquivo:
                novo_PDF.write(novo_arquivo)


#### 2º Objetivo: Com o Release de Resultados já separado página por página, queremos incluir apenas as Páginas de Destaque (Página 1), DRE (Página 14) e Balanço (Página 16).
    - Juntar vários pdfs em 1

In [10]:
from pathlib import Path
import PyPDF2 as pyf

CAMINHO_REFERENCIA = Path('./Python txt e PDF 10 - Dados/paginas')
num_paginas = [1, 14, 16]
novo_PDF = pyf.PdfWriter()
nome_referencia = 'MGLU_ER_3T20_POR'
paginas = ''
for numero in num_paginas:
    arquivo_PDF = pyf.PdfReader(CAMINHO_REFERENCIA.joinpath(f'{nome_referencia} - {numero}.pdf'))
    novo_PDF.add_page(arquivo_PDF.pages[0])
    paginas += f'{numero}_'
if len(paginas) > 0:
    paginas = paginas[:-1]
with open(CAMINHO_REFERENCIA.joinpath(f"{nome_referencia} - {paginas}.pdf"), 'wb') as novo_arquivo:
                novo_PDF.write(novo_arquivo)

### Extra: Para adicionar todas as páginas de 2 pdfs

In [12]:
from pathlib import Path
import PyPDF2 as pyf

pdf_mesclado = pyf.PdfMerger()
CAMINHO_REFERENCIA = Path('./Python txt e PDF 10 - Dados')
for arquivo in CAMINHO_REFERENCIA.iterdir():
    if arquivo.is_file():
        pdf_mesclado.append(arquivo)
with open(CAMINHO_REFERENCIA.joinpath(f"Arquivo Mesclado.pdf"), 'wb') as novo_arquivo:
    pdf_mesclado.write(novo_arquivo)


# Funcionalidades que podem ser úteis:

- Inserir arquivo no meio do outro
- Quero colocar dentro do Resultado do 4T20 os destaques do 3T20 para poder comparar os 2 dentro do mesmo relatório

In [2]:
from pathlib import Path
import PyPDF2 as pyf

pdf_mesclado = pyf.PdfMerger()
CAMINHO_REFERENCIA = Path('./Python txt e PDF 10 - Dados')
pdf_mesclado.append(CAMINHO_REFERENCIA.joinpath('MGLU_ER_4T20_POR.pdf'))
pdf_mesclado.merge(1, CAMINHO_REFERENCIA.joinpath('paginas/MGLU_ER_3T20_POR - 1.pdf'))

with open(CAMINHO_REFERENCIA.joinpath(f"Relatorio 2 Trimestres.pdf"), 'wb') as novo_arquivo:
    pdf_mesclado.write(novo_arquivo)


- Rodar Página

In [2]:
from pathlib import Path
import PyPDF2 as pyf

CAMINHO_REFERENCIA = Path('./Python txt e PDF 10 - Dados')
arquivo_PDF = pyf.PdfReader(CAMINHO_REFERENCIA.joinpath(f"MGLU_ER_3T20_POR.pdf"))
novo_PDF = pyf.PdfWriter()
for page in arquivo_PDF.pages:
    page.rotate(90)
    novo_PDF.add_page(page)
with open(CAMINHO_REFERENCIA.joinpath(f"Paginas Rotacionadas.pdf"), 'wb') as novo_arquivo:
    novo_PDF.write(novo_arquivo)


# Trabalhando com Textos e Informações Dentro do PDF

#### 1º Objetivo: Quero identificar como foram as Despesas com Vendas da MGLU
    - Pegar texto da página e identificar onde está essa informação

In [24]:
from pathlib import Path
import PyPDF2 as pyf

texto_referencia = "| Despesas com Vendas"

CAMINHO_REFERENCIA = Path('./Python txt e PDF 10 - Dados')
arquivo_PDF = pyf.PdfReader(CAMINHO_REFERENCIA.joinpath(f"MGLU_ER_3T20_POR.pdf"))

for pos, pagina in enumerate(arquivo_PDF.pages, 1):
    texto_pagina = pagina.extract_text()
    if texto_referencia in texto_pagina:
        texto_analisar = texto_pagina

inicio_texto = texto_analisar.find(texto_referencia)
final_texto = texto_analisar.find("|", inicio_texto + 1)
texto_final = texto_analisar[inicio_texto:final_texto].replace("  ", "")
print(texto_final)




| Despesas com Vendas
 
No 3T20, as despesas com vendas totalizaram R$1.432,6 milhões, equivalentes a 17,2% da receita líquida, 1,1 p.p. menor que no 
3T19 , principalmente devido ao forte crescimento das vendas . Vale ressaltar que a Companhia conseguiu diluir as despesas com 
vendas m esmo investi ndo em maior nível de serviço,especialmente ematendimento e logística.
 
Nos 9M20, as despesas com vendas totalizaram R$3.487,2 milhões, equivalentes a 18,2% da receita líquida (+1,1 p.p. versusos 
9M19).
 



#### 2º Objetivo: Quero analisar o DRE (sem ajuste - Página 5)
    - Para ler tabelas em pdf, use o tabula (é ninja)
    
    - Cuidado 1: Instale o tabula-py (não instale o tabula). Se instalar o tabula errado, desinstale ele, instale o tabula-py, desinstale o tabula-py e instale novamente o tabula-py. Reinicie o kernel do Jupyter após isso
    
    - Cuidado 2: Tem que ter o java instalado no seu computador (depois de instalar, reinicie o computador)

In [26]:
from pathlib import Path
import PyPDF2 as pyf
import tabula
import pandas as pd


CAMINHO_REFERENCIA = Path('./Python txt e PDF 10 - Dados')
tabela = tabula.read_pdf(CAMINHO_REFERENCIA.joinpath(f"MGLU_ER_3T20_POR.pdf"), pages=5, encoding='ANSI')
tabela_limpa = tabela[0]
# Remover linahs vazias
tabela_limpa = tabela_limpa.dropna(how="all", axis=0)
# Remover colunas vazias
tabela_limpa = tabela_limpa.dropna(how="all", axis=1)
tabela_limpa.columns = tabela_limpa.iloc[0]
tabela_limpa = tabela_limpa.iloc[1:]
tabela_limpa = tabela_limpa.reset_index(drop=True)
display(tabela_limpa)

Unnamed: 0,R$ milhões (exceto quando indicado),3T2,3T1,Var(%,9M2,9M1,Var(%.1
0,Vendas Totais1 (incluindo marketplace),"12.355,5","6.817,6",812,"28.584,","18.282,6",563
1,Receita Bruta,"10.349,5","5.999,4",725,"23.652,","16.508,8",433
2,Receita Líquida,"8.308,3","4.864,2",708,"19.111,","13.501,3",416
3,Lucro Bruto,"2.178,7","1.424,9",529,"5.034,","3.728,6",350
4,Margem Bruta,262,293,"-3,1 p",263,276,"-1,3 p"
5,EBITDA,5461,5012,90,"1.022,","1.276,5",-199
6,Margem EBITDA,66,103,"-3,7 p",53,95,"-4,2 p"
7,Lucro Líquido,2060,2351,-124,172,7538,-772
8,Margem Líquida,25,48,"-2,3 p",09,56,"-4,7 p"
9,Lucro Bruto - Ajustado,"2.178,7","1.488,9",463,"5.034,","3.964,6",270


#### 3º Objetivo: Quero analisar o Capital de Giro e os Investimentos (ambas as tabelas na página 12)
    - Páginas com mais de 1 tabela

#### O que fazer quando o tabula não consegue ler alguma linha da tabela? Como o cabeçalho, no nosso caso?

# Outro método que pode ser útil algum dia: Captar Imagem em um pdf
    - biblioteca pikepdf

# Substituir texto no pdf tipo contrato

- Não recomendo fazer diretamente pelo Python. Realmente do que vi a melhor opção me parece o Word fazer isso
- Caso precise automatizar, automatize o processo fazendo ele pelo Word
- Quem quiser MUITO fazer isso pelo Python, tem um link aqui que vai te ajudar de uma solução que achei que funciona. Tem seus bugs/cuidados especiais, mas funciona: https://pdf.co/samples/pdf-co-web-api-replace-text-from-pdf-python-replace-text-from-url