# Vamos aprender a trabalhar com PDF usando o Python

- Regra geral: PDF foi feito justamente para bloquear muita coisa, então não é fácil "brincar" com um pdf
- Mesmo assim, Python tem várias bibliotecas que vão nos ajudar, vamos focar em 2:
    - PyPDF2
    - Tabula
- Ler e extrair informações de um PDF a gente consegue fazer.
- Escrever e Editar, aí já é outra história

### Para os nossos exemplos, vamos avaliar o Release de Resultados do 3º e 4º Trimestre de 2020 da Magazine Luiza

#### 1º Objetivo: Queremos conseguir separar apenas o DRE do Release de Resultados (Página 14) para enviar para a Diretoria, como fazemos?
    - Separar as páginas de um pdf

In [1]:
import PyPDF2 as pyf
from pathlib import Path

nome_arquivo = 'MGLU_ER_3T20_POR.pdf'
arquivo_pdf = pyf.PdfReader(nome_arquivo)

for i, pagina in enumerate(arquivo_pdf.pages):
    arquivo_novo = pyf.PdfWriter()
    arquivo_novo.add_page(pagina)

    # salvar o arquivo
    with open(f'paginas/Arquivo{i+1}.pdf', 'wb') as arquivo_final:
        arquivo_novo.write(arquivo_final)

#### 2º Objetivo: Com o Release de Resultados já separado página por página, queremos incluir apenas as Páginas de Destaque (Página 1), DRE (Página 14) e Balanço (Página 16).
    - Juntar vários pdfs em 1

In [2]:
paginas = [1, 14, 16]

# criar um novo_pdf
novo_pdf = pyf.PdfWriter()
for n_pagina in paginas:
    # pegar o Arquivo{n_pagina}
    nome_arquivo = f'paginas/Arquivo{n_pagina}.pdf'
    arquivo_pdf = pyf.PdfReader(nome_arquivo)
    
    # adicionar ele no novo_pdf
    pagina = arquivo_pdf.pages[0]
    novo_pdf.add_page(pagina)

    # salvar o novo_pdf
    with open('Consolidado.pdf', 'wb') as arquivo_final:
        novo_pdf.write(arquivo_final)

### Extra: Para adicionar todas as páginas de 2 pdfs

In [3]:
pdf_mesclado = pyf.PdfMerger()

arquivo1 = 'MGLU_ER_3T20_POR.pdf'
arquivo2 = 'MGLU_ER_4T20_POR.pdf'

pdf_mesclado.append(arquivo1)
pdf_mesclado.append(arquivo2)

with open('ConsolidadoAppend.pdf', 'wb') as arquivo_final:
    pdf_mesclado.write(arquivo_final)

# Funcionalidades que podem ser úteis:

- Inserir arquivo no meio do outro
- Quero colocar dentro do Resultado do 4T20 os destaques do 3T20 para poder comparar os 2 dentro do mesmo relatório

In [4]:
pdf_mesclado = pyf.PdfMerger()

pdf_mesclado.append(arquivo1)
pdf_mesclado.merge(1, arquivo2)

with open('ConsolidadoMerge.pdf', 'wb') as arquivo_final:
    pdf_mesclado.write(arquivo_final)

- Rodar Página

In [5]:
pdf_rodar = pyf.PdfReader(arquivo1)

pdf_final = pyf.PdfWriter()
for pagina in pdf_rodar.pages:
    pagina.rotate(90)
    pdf_final.add_page(pagina)

with open('Rodado.pdf', 'wb') as arquivo_final:
    pdf_final.write(arquivo_final)

# Trabalhando com Textos e Informações Dentro do PDF

#### 1º Objetivo: Quero identificar como foram as Despesas com Vendas da MGLU
    - Pegar texto da página e identificar onde está essa informação

In [10]:
def acha_despesas_com_vendas(path_arquivo: str):
    """Acha no pdf a seção 'Despesas com vendas'

    Args:
        path_arquivo (str): path do arquivo PDF

    Returns:
        num_final, texto_final (tuple[int, str]): numero e texto da página que tem a seção
    """
    texto_procurado = '| Despesas com Vendas'
    arquivo = pyf.PdfReader(path_arquivo)

    # percorrer todas as páginas
    for i, pagina in enumerate(arquivo.pages):
        # pegar o que está escrito na página
        texto_pagina = pagina.extract_text()
        # verificar se dentro do texto da página tem o texto_procurado
        if texto_procurado in texto_pagina:
            # se tiver, me diz qual o número da página
            num_final = i + 1
            texto_final = texto_pagina

    texto_final = texto_final.replace('  ', ' ')
    texto_final = texto_final.replace(' \n \n', '&&&&')
    texto_final = texto_final.replace('\n', '')
    texto_final = texto_final.replace('&&&&', '\n \n')
    return (num_final, texto_final)

In [11]:
# Terceiro trimestre
num_final, texto_final = acha_despesas_com_vendas('MGLU_ER_3T20_POR.pdf')

posicao = texto_final.find('| Despesas com Vendas')
posicao_final = texto_final.find('|', posicao+1)

texto_despesa = texto_final[posicao:posicao_final]
print(texto_despesa)

| Despesas com Vendas
 
No 3T20, as despesas com vendas totalizaram R$1.432,6 milhões, equivalentes a 17,2% da receita líquida, 1,1 p.p. menor que no 3T19 , principalmente devido ao forte crescimento das vendas . Vale ressaltar que a Companhia conseguiu diluir as despesas com vendas m esmo investi ndo em maior nível de serviço, especialmente em atendimento e logística.
 
Nos 9M20, as despesas com vendas totalizaram R$3.487,2 milhões, equivalentes a 18,2% da receita líquida (+1,1 p.p. versus os 9M19).
 



In [12]:
# Quarto trimestre
num_final, texto_final = acha_despesas_com_vendas('MGLU_ER_4T20_POR.pdf')

posicao = texto_final.find('| Despesas com Vendas')
posicao_final = texto_final.find('|', posicao+1)

texto_despesa = texto_final[posicao:posicao_final]
print(texto_despesa)

| Despesas com Vendas
 
No 4 T20, as despesas com vendas totalizaram R$1. 675,4 milhões, equivalentes a 16,6 % da receita líquida, 1, 2 p.p. menor que no 4T19, principalmente devido ao forte crescimento das vendas. Vale ressaltar que a Companhia conseguiu diluir as despesas com vendas mesmo investi ndo em maior nível de serviço, especia lmente em atendimento e logística.
 
Nos 12 M20, as despesas com vendas totalizaram R$ 5.162,6 milhões, equivalentes a 17,7 % da receita líquida (+ 0,4 p.p. versus os 12M19).
 



#### 2º Objetivo: Quero analisar o DRE (sem ajuste - Página 5)
    - Para ler tabelas em pdf, use o tabula (é ninja)

In [13]:
import tabula

df = tabula.read_pdf('MGLU_ER_3T20_POR.pdf', pages=5)
print(df)

JavaNotFoundError: `java` command is not found from this Python process.Please ensure Java is installed and PATH is set for `java`

#### 3º Objetivo: Quero analisar o Capital de Giro e os Investimentos (ambas as tabelas na página 12)
    - Páginas com mais de 1 tabela

#### O que fazer quando o tabula não consegue ler alguma linha da tabela? Como o cabeçalho, no nosso caso?

# Outro método que pode ser útil algum dia: Captar Imagem em um pdf
    - biblioteca pikepdf

In [9]:
from pikepdf import Pdf, PdfImage

filename = "MGLU_ER_3T20_POR.pdf"
example = Pdf.open(filename)

n_arquivo = 0
for i, pagina in enumerate(example.pages):
    for nome, imagem in pagina.images.items():
        imagem_salvar = PdfImage(imagem)
        imagem_salvar.extract_to(fileprefix=f'imgs/Pagina_{i:02}_{n_arquivo}')
        n_arquivo += 1

ModuleNotFoundError: No module named 'pikepdf'

# Substituir texto no pdf tipo contrato

- Não recomendo fazer diretamente pelo Python. Realmente do que vi a melhor opção me parece o Word fazer isso
- Caso precise automatizar, automatize o processo fazendo ele pelo Word
- Quem quiser MUITO fazer isso pelo Python, tem um link aqui que vai te ajudar de uma solução que achei que funciona. Tem seus bugs/cuidados especiais, mas funciona: https://pdf.co/samples/pdf-co-web-api-replace-text-from-pdf-python-replace-text-from-url