# Vamos aprender a trabalhar com PDF usando o Python

- Regra geral: PDF foi feito justamente para bloquear muita coisa, então não é fácil "brincar" com um pdf
- Mesmo assim, Python tem várias bibliotecas que vão nos ajudar, vamos focar em 2:
    - PyPDF2
    - Tabula
- Ler e extrair informações de um PDF a gente consegue fazer.
- Escrever e Editar, aí já é outra história

### Para os nossos exemplos, vamos avaliar o Release de Resultados do 3º e 4º Trimestre de 2020 da Magazine Luiza

#### 1º Objetivo: Queremos conseguir separar apenas o DRE do Release de Resultados (Página 14) para enviar para a Diretoria, como fazemos?
    - Separar as páginas de um pdf

In [3]:
import PyPDF2 as pyf 
from pathlib import Path

nome_arquivo = "MGLU_ER_3T20_POR.pdf"
arquivo_pdf = pyf.PdfFileReader(nome_arquivo)

i = 1
for pagina in arquivo_pdf.pages:
    arquivo_novo = pyf.PdfFileWriter()
    arquivo_novo.addPage(pagina)
    # salvar o arquivo
    with Path(f'paginas/Arquivo{i}.pdf').open(mode='wb') as arquivo_final:
        arquivo_novo.write(arquivo_final)
        i += 1

#### 2º Objetivo: Com o Release de Resultados já separado página por página, queremos incluir apenas as Páginas de Destaque (Página 1), DRE (Página 14) e Balanço (Página 16).
    - Juntar vários pdfs em 1

In [7]:
paginas = [1, 14, 16]

# criar um novo pdf
novo_pdf = pyf.PdfFileWriter()
for num_pagina in paginas:
    nome_arquivo = f"paginas/Arquivo{num_pagina}.pdf"
    arquivo_pdf = pyf.PdfFileReader(nome_arquivo)
    pagina = arquivo_pdf.pages[0]
    novo_pdf.addPage(pagina)
    # Pegar o Arquivo num_pagina
    # adicionar ele no nosso novo_pdf

# salvar o novo_pdf
with Path(f'Consolidado.pdf').open(mode='wb') as arquivo_final:
        novo_pdf.write(arquivo_final)

### Extra: Para adicionar todas as páginas de 2 pdfs

In [10]:
pdf_mesclado = pyf.PdfFileMerger()

arquivo1 = "MGLU_ER_3T20_POR.pdf"
arquivo2 = "MGLU_ER_4T20_POR.pdf"

pdf_mesclado.append(arquivo1)
pdf_mesclado.append(arquivo2)

with Path(f'ConsolidadoAppend.pdf').open(mode='wb') as arquivo_final:
        pdf_mesclado.write(arquivo_final)

# Funcionalidades que podem ser úteis:

- Inserir arquivo no meio do outro
- Quero colocar dentro do Resultado do 4T20 os destaques do 3T20 para poder comparar os 2 dentro do mesmo relatório

In [11]:
pdf_mesclado = pyf.PdfFileMerger()

pdf_mesclado.append(arquivo1)
pdf_mesclado.merge(1, arquivo2)

with Path(f'ConsolidadoMerge.pdf').open(mode='wb') as arquivo_final:
        pdf_mesclado.write(arquivo_final)

- Rodar Página

In [12]:
pdf_rodar = pyf.PdfFileReader(arquivo1)

pdf_final = pyf.PdfFileWriter()
for pagina in pdf_rodar.pages:
    pagina.rotateClockwise(90)
    pdf_final.addPage(pagina)
    
with Path(f'Rodado.pdf').open(mode='wb') as arquivo_final:
        pdf_final.write(arquivo_final)

# Trabalhando com Textos e Informações Dentro do PDF

#### 1º Objetivo: Quero identificar como foram as Despesas com Vendas da MGLU
    - Pegar texto da página e identificar onde está essa informação

In [31]:
nome_arquivo = "MGLU_ER_4T20_POR.pdf"
arquivo = pyf.PdfFileReader(nome_arquivo)

num_paginas = arquivo.numPages
print(num_paginas)

informacoes = arquivo.getDocumentInfo()
print(informacoes)

25
{'/Title': 'DESEMPENHO FINANCEIRO CONSOLIDADO', '/Author': 'an_rezende', '/Subject': 'Receita Bruta', '/Creator': 'Microsoft® Word 2010', '/CreationDate': "D:20210308210026-03'00'", '/ModDate': "D:20210308210026-03'00'", '/Producer': 'Microsoft® Word 2010'}


In [32]:
texto_procurado = """|
 
Despesas com Vendas"""

i = 1
# percorrendo todas as páginas
for pagina in arquivo.pages:
    # pegar o que está escrito na página
    texto_pagina = pagina.extractText()
    # verificar se o dentro do texto da página tem o texto_procurado
    if texto_procurado in texto_pagina:
        # se tiver, me diz qual é o número da página
        print(f'Está na Página {i}')
        num_pagina = i
        texto_final = texto_pagina
    i += 1

Está na Página 11


In [26]:
print(texto_final)

Divulgação de Resultados 
 
3
T
20
 
10
 
 
 
 
 
|
 
Despesas Operacionais
 
 
R$ milhões 
 
3T20 
 
Ajustado
 
 
% RL 
 
3T19
 
Ajustado
 
 
% RL 
 
 
Var(%) 
 
9M20
 
Ajustado
 
 
% RL 
 
9M19
 
Ajustado
 
 
% RL 
 
 
Var(%) 
 
  
Despesas com Vendas  
 
(1.432,6)
 
-
17,2%
 
(890,0)
 
-
18,3%
 
61,0%
 
(3.487,2)
 
-
18,2%
 
(2.309,1)
 
-
17,1%
 
51,0%
 
  
Despesas Gerais e Administrativas  
 
(240,7)
 
-
2,9%
 
(207,1)
 
-
4,3%
 
16,2%
 
(617,3)
 
-
3,2%
 
(498,2)
 
-
3,7%
 
23,9%
 
 
Subtotal 
 
    
(1.673,3)
 
-
20,1%
 
    
(1.097,1)
 
-
22,6%
 
52,5%
 
    
(4.104,5)
 
-
21,5%
 
    
(2.807,4)
 
-
20,8%
 
46,2%
 
  
Perdas em Liquidação Duvidosa  
 
(25,4)
 
-
0,3%
 
(20,2)
 
-
0,4%
 
25,4%
 
(84,5)
 
-
0,4%
 
(45,8)
 
-
0,3%
 
84,3%
 
  
Outras Receitas Operacionais, Líquidas  
 
15,2 
 
0,2%
 
15,3 
 
0,3%
 
-
0,6%
 
41,0 
 
0,2%
 
44,0 
 
0,3%
 
-
6,8%
 
  
Total de Despesas Operacionais  
 
    
(1.683,5)
 
-
20,3%
 
    
(1.102,0)
 
-
22,7%
 
52,8%
 
    
(4.148,0)
 
-
2

In [33]:
texto_final = texto_final.replace("  ", " ")
texto_final = texto_final.replace("\n \n ", "&&&&&&&")
texto_final = texto_final.replace("\n", "")
texto_final = texto_final.replace("&&&&&&&", "\n \n")
print(texto_final)

Divulgação de Resultados  4T20 11
 

 
| Despesas Operacionais
 
R$ milhões  4T20  Ajustado
 
% RL  4T19 Ajustado
 
% RL 
 
Var(%)  12M20 Ajustado
 
% RL  12M19 Ajustado
 
% RL 
 
Var(%) 
 
Despesas com Vendas  (1.675,4) -16,6% (1.135,0) -17,8% 47,6% (5.162,6) -17,7% (3.444,1) -17,3% 49,9%
 
Despesas Gerais e Administrativas  (289,5) -2,9% (203,4) -3,2% 42,4% (906,8) -3,1% (701,6) -3,5% 29,2%
 
Subtotal 
 
 (1.964,9) -19,5%
 
 (1.338,3) -21,0% 46,8%
 
 (6.069,4) -20,8%
 
 (4.145,7) -20,8% 46,4%
 
Perdas em Liquidação Duvidosa  (33,7) -0,3% (30,2) -0,5% 11,6% (118,1) -0,4% (76,0) -0,4% 55,4%
 
Outras Receitas Operacionais, Líquidas  12,7  0,1% 20,9  0,3% -39,2% 53,7  0,2% 64,8  0,3% -17,2%
 
Total de Despesas Operacionais 
 
 (1.985,9) -19,7%
 
 (1.347,6) -21,1% 47,4%
 
 (6.133,8) -21,0%
 
 (4.156,8) -20,9% 47,6%
 
| Despesas com Vendas 
 
No 4T20, as despesas com vendas totalizaram R$1.675,4 milhões, equivalentes a 16,6% da receita líquida, 1,2 p.p. menor que no 4T19, principalmente de

In [34]:
posicao = texto_final.find("| Despesas com Vendas")
posicao_final = texto_final.find("|", posicao + 1)
print(posicao)
print(posicao_final)
texto_despesa = texto_final[posicao:posicao_final]
print(texto_despesa)

826
1334
| Despesas com Vendas 
 
No 4T20, as despesas com vendas totalizaram R$1.675,4 milhões, equivalentes a 16,6% da receita líquida, 1,2 p.p. menor que no 4T19, principalmente devido ao forte crescimento das vendas. Vale ressaltar que a Companhia conseguiu diluir as despesas com vendas mesmo investindo em maior nível de serviço, especialmente em atendimento e logística. 
 
Nos 12M20, as despesas com vendas totalizaram R$5.162,6 milhões, equivalentes a 17,7% da receita líquida (+0,4 p.p. versus os 12M19).
 



#### 2º Objetivo: Quero analisar o DRE (sem ajuste - Página 5)
    - Para ler tabelas em pdf, use o tabula (é ninja)

In [39]:
import tabula

df = tabula.read_pdf("MGLU_ER_3T20_POR.pdf", pages=5)
tabela = df[0]
tabela = tabela.dropna(how='all')
tabela = tabela.dropna(how='all', axis=1)
tabela.columns = tabela.iloc[0]
tabela = tabela.drop(tabela.index[0])
tabela = tabela.reset_index(drop=True)
display(tabela)

# tabela.to_excel("Nome_do_Arquivo.xlsx")

Unnamed: 0,R$ milhões (exceto quando indicado),3T2,3T1,Var(%,9M2,9M1,Var(%.1
0,Vendas Totais1 (incluindo marketplace),"12.355,5","6.817,6",812,"28.584,","18.282,6",563
1,Receita Bruta,"10.349,5","5.999,4",725,"23.652,","16.508,8",433
2,Receita Líquida,"8.308,3","4.864,2",708,"19.111,","13.501,3",416
3,Lucro Bruto,"2.178,7","1.424,9",529,"5.034,","3.728,6",350
4,Margem Bruta,262,293,"-3,1 p",263,276,"-1,3 p"
5,EBITDA,5461,5012,90,"1.022,","1.276,5",-199
6,Margem EBITDA,66,103,"-3,7 p",53,95,"-4,2 p"
7,Lucro Líquido,2060,2351,-124,172,7538,-772
8,Margem Líquida,25,48,"-2,3 p",09,56,"-4,7 p"
9,Lucro Bruto - Ajustado,"2.178,7","1.488,9",463,"5.034,","3.964,6",270


#### 3º Objetivo: Quero analisar o Capital de Giro e os Investimentos (ambas as tabelas na página 12)
    - Páginas com mais de 1 tabela

In [41]:
df = tabula.read_pdf("MGLU_ER_3T20_POR.pdf", pages=12)
for tabela in df:
    tabela = tabela.dropna(how='all')
    tabela = tabela.dropna(how='all', axis=1)
    display(tabela)

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6
0,(+) Contas a Receber (sem Cartões de Crédito),"(26,7)",7063,6808,7813,7940,7330
1,(+) Estoques,"2.120,2","5.005,9","4.198,2","4.075,5","3.801,8","2.885,7"
2,(+) Partes Relacionadas (sem Cartão Luiza),"(10,5)",713,804,771,1006,818
3,(+) Impostos a Recuperar,1863,9320,7489,8774,8641,7457
4,(+) Outros Ativos,"(56,6)",885,1002,1435,1363,1451
5,(+) Ativos Circulantes Operacionais,"2.212,7","6.804,0","5.808,6","5.954,8","5.696,8","4.591,3"
7,(-) Fornecedores,"2.301,5","6.104,3","5.334,0","4.132,7","5.934,9","3.802,8"
8,(-) Repasses e outros depósitos,6273,6273,6393,2359,-,-
9,"(-) Salários, Férias e Encargos Sociais",950,4447,3290,2633,3547,3498
10,(-) Impostos a Recolher,907,2996,2064,1769,3520,2088


Unnamed: 0,R$ milhões,3T20,%,3T19,%.1,Var(%),9M20,%.2,9M20.1,%.3,Var(%).1
1,Lojas Novas,212,14%,946,51%,-78%,690,21%,1219,31%,-43%
2,Reformas,61,4%,82,4%,-26%,146,4%,382,10%,-62%
3,Tecnologia,691,45%,326,18%,112%,1476,45%,844,22%,75%
4,Logística,363,24%,328,18%,11%,621,19%,1074,27%,-42%
5,Outros,215,14%,177,10%,22%,357,11%,388,10%,-8%
6,Total,1542,100%,1860,100%,-17%,3291,100%,3907,100%,-16%


#### O que fazer quando o tabula não consegue ler alguma linha da tabela? Como o cabeçalho, no nosso caso?

In [49]:
capital_giro = df[0]
capital_giro = capital_giro.dropna(how='all')
capital_giro = capital_giro.dropna(how='all', axis=1)
#display(capital_giro)
df2 = tabula.read_pdf("MGLU_ER_3T20_POR.pdf", pages=12, lattice=True)
titulo_capital_giro = df2[0]
titulo_capital_giro = titulo_capital_giro.dropna(how='all')
titulo_capital_giro = titulo_capital_giro.dropna(how='all', axis=1)
titulo_capital_giro = titulo_capital_giro.iloc[0]
titulo_capital_giro = titulo_capital_giro.dropna()
capital_giro.columns = titulo_capital_giro
display(capital_giro)

1,R$ milhões,Dif 12U,set-2,jun-2,mar-2,dez-1,set-1
0,(+) Contas a Receber (sem Cartões de Crédito),"(26,7)",7063,6808,7813,7940,7330
1,(+) Estoques,"2.120,2","5.005,9","4.198,2","4.075,5","3.801,8","2.885,7"
2,(+) Partes Relacionadas (sem Cartão Luiza),"(10,5)",713,804,771,1006,818
3,(+) Impostos a Recuperar,1863,9320,7489,8774,8641,7457
4,(+) Outros Ativos,"(56,6)",885,1002,1435,1363,1451
5,(+) Ativos Circulantes Operacionais,"2.212,7","6.804,0","5.808,6","5.954,8","5.696,8","4.591,3"
7,(-) Fornecedores,"2.301,5","6.104,3","5.334,0","4.132,7","5.934,9","3.802,8"
8,(-) Repasses e outros depósitos,6273,6273,6393,2359,-,-
9,"(-) Salários, Férias e Encargos Sociais",950,4447,3290,2633,3547,3498
10,(-) Impostos a Recolher,907,2996,2064,1769,3520,2088


# Outro método que pode ser útil algum dia: Captar Imagem em um pdf
    - biblioteca pikepdf

In [None]:
from pikepdf import Pdf, PdfImage

filename = "MGLU_ER_3T20_POR.pdf"
example = Pdf.open(filename)

n_arquivo = 0
for i, pagina in enumerate(example.pages):
    for nome, imagem in pagina.images.items():
        imagem_salvar = PdfImage(imagem)
        imagem_salvar.extract_to(fileprefix=f'imgs/Pagina_{i:02}_{n_arquivo}')
        n_arquivo += 1

# Substituir texto no pdf tipo contrato

- Não recomendo fazer diretamente pelo Python. Realmente do que vi a melhor opção me parece o Word fazer isso
- Caso precise automatizar, automatize o processo fazendo ele pelo Word
- Quem quiser MUITO fazer isso pelo Python, tem um link aqui que vai te ajudar de uma solução que achei que funciona. Tem seus bugs/cuidados especiais, mas funciona: https://pdf.co/samples/pdf-co-web-api-replace-text-from-pdf-python-replace-text-from-url