# Vamos aprender a trabalhar com PDF usando o Python

- Regra geral: PDF foi feito justamente para bloquear muita coisa, então não é fácil "brincar" com um pdf
- Mesmo assim, Python tem várias bibliotecas que vão nos ajudar, vamos focar em 2:
    - PyPDF2
    - Tabula
- Ler e extrair informações de um PDF a gente consegue fazer.
- Escrever e Editar, aí já é outra história

### Para os nossos exemplos, vamos avaliar o Release de Resultados do 3º e 4º Trimestre de 2020 da Magazine Luiza

#### 1º Objetivo: Queremos conseguir separar apenas o DRE do Release de Resultados (Página 14) para enviar para a Diretoria, como fazemos?
    - Separar as páginas de um pdf

In [3]:
import PyPDF2 as pyf
import os
from pathlib import Path

# Nome do arquivo PDF
nome = 'MGLU_ER_3T20_POR.pdf'
# Abre o arquivo PDF
arquivo_pdf = pyf.PdfReader(nome)
print(arquivo_pdf)

# Itera por cada página do arquivo PDF
for i, pagina in enumerate(arquivo_pdf.pages):
    # Calcula o número da página (começa em 0, por isso adicionamos 1)
    num_pagina = i + 1  
    # Caminho de saída para o novo arquivo PDF
    output_path = Path(f'paginas/Arquivo Pagina {num_pagina}.pdf')

    # Verifica se o arquivo já existe
    if output_path.exists():
        # Se o arquivo existir, imprime uma mensagem e pula a criação
        print(f'Arquivo Pagina {num_pagina}.pdf já existe. Pulando a criação.')
    else:
        # Se o arquivo não existir, cria um novo PDF com a página atual
        novo_pdf = pyf.PdfWriter()
        novo_pdf.add_page(pagina)
        # Abre o caminho de saída em modo 'write binary' e escreve o novo PDF
        with output_path.open(mode='wb') as arquivo:
            novo_pdf.write(arquivo)
        # Imprime uma mensagem de confirmação após a criação do arquivo
        print(f'Arquivo Pagina {num_pagina}.pdf criado com sucesso.')




<PyPDF2._reader.PdfReader object at 0x0000022F191072C0>
Arquivo Pagina 1.pdf já existe. Pulando a criação.
Arquivo Pagina 2.pdf já existe. Pulando a criação.
Arquivo Pagina 3.pdf já existe. Pulando a criação.
Arquivo Pagina 4.pdf já existe. Pulando a criação.
Arquivo Pagina 5.pdf já existe. Pulando a criação.
Arquivo Pagina 6.pdf já existe. Pulando a criação.
Arquivo Pagina 7.pdf já existe. Pulando a criação.
Arquivo Pagina 8.pdf já existe. Pulando a criação.
Arquivo Pagina 9.pdf já existe. Pulando a criação.
Arquivo Pagina 10.pdf já existe. Pulando a criação.
Arquivo Pagina 11.pdf já existe. Pulando a criação.
Arquivo Pagina 12.pdf já existe. Pulando a criação.
Arquivo Pagina 13.pdf já existe. Pulando a criação.
Arquivo Pagina 14.pdf já existe. Pulando a criação.
Arquivo Pagina 15.pdf já existe. Pulando a criação.
Arquivo Pagina 16.pdf já existe. Pulando a criação.
Arquivo Pagina 17.pdf já existe. Pulando a criação.
Arquivo Pagina 18.pdf já existe. Pulando a criação.
Arquivo Pagina 19

In [4]:
import PyPDF2 as pyf
import os
from pathlib import Path

# Nome do arquivo PDF
nome = 'MGLU_ER_3T20_POR.pdf'
# Abre o arquivo PDF
arquivo_pdf = pyf.PdfReader(nome)
print(arquivo_pdf)

# Caminho da pasta de saída
pasta_saida = Path('paginas')
# Cria a pasta se ela não existir
pasta_saida.mkdir(parents=True, exist_ok=True)

# Itera por cada página do arquivo PDF
for i, pagina in enumerate(arquivo_pdf.pages):
    # Calcula o número da página (começa em 0, por isso adicionamos 1)
    num_pagina = i + 1  
    # Caminho de saída para o novo arquivo PDF
    output_path = pasta_saida / f'Arquivo Pagina {num_pagina}.pdf'

    # Verifica se o arquivo já existe
    if output_path.exists():
        # Se o arquivo existir, imprime uma mensagem e pula a criação
        print(f'Arquivo Pagina {num_pagina}.pdf já existe. Pulando a criação.')
    else:
        # Se o arquivo não existir, cria um novo PDF com a página atual
        novo_pdf = pyf.PdfWriter()
        novo_pdf.add_page(pagina)
        # Abre o caminho de saída em modo 'write binary' e escreve o novo PDF
        with output_path.open(mode='wb') as arquivo:
            novo_pdf.write(arquivo)
        # Imprime uma mensagem de confirmação após a criação do arquivo
        print(f'Arquivo Pagina {num_pagina}.pdf criado com sucesso.')


<PyPDF2._reader.PdfReader object at 0x0000022F19363BF0>
Arquivo Pagina 1.pdf já existe. Pulando a criação.
Arquivo Pagina 2.pdf já existe. Pulando a criação.
Arquivo Pagina 3.pdf já existe. Pulando a criação.
Arquivo Pagina 4.pdf já existe. Pulando a criação.
Arquivo Pagina 5.pdf já existe. Pulando a criação.
Arquivo Pagina 6.pdf já existe. Pulando a criação.
Arquivo Pagina 7.pdf já existe. Pulando a criação.
Arquivo Pagina 8.pdf já existe. Pulando a criação.
Arquivo Pagina 9.pdf já existe. Pulando a criação.
Arquivo Pagina 10.pdf já existe. Pulando a criação.
Arquivo Pagina 11.pdf já existe. Pulando a criação.
Arquivo Pagina 12.pdf já existe. Pulando a criação.
Arquivo Pagina 13.pdf já existe. Pulando a criação.
Arquivo Pagina 14.pdf já existe. Pulando a criação.
Arquivo Pagina 15.pdf já existe. Pulando a criação.
Arquivo Pagina 16.pdf já existe. Pulando a criação.
Arquivo Pagina 17.pdf já existe. Pulando a criação.
Arquivo Pagina 18.pdf já existe. Pulando a criação.
Arquivo Pagina 19

#### 2º Objetivo: Com o Release de Resultados já separado página por página, queremos incluir apenas as Páginas de Destaque (Página 1), DRE (Página 14) e Balanço (Página 16).
    - Juntar vários pdfs em 1

In [13]:
import PyPDF2 as pyf
import os
from pathlib import Path

# Números das páginas que você deseja consolidar
num_paginas = [1, 14, 16]

# Nome do novo arquivo consolidado
nome_consolidado = 'Consolidado.pdf'
output_path = Path(nome_consolidado)

# Verifica se o arquivo consolidado já existe
if output_path.exists():
    # Se o arquivo existir, imprime uma mensagem e não cria o arquivo novamente
    print(f'{nome_consolidado} já existe. Pulando a criação.')
else:
    # Se o arquivo não existir, cria um novo arquivo PDF consolidado
    novo_arquivo = pyf.PdfWriter()

    # Adiciona as páginas especificadas ao novo arquivo PDF
    for num in num_paginas:
        pagina_pdf = pyf.PdfReader(f'paginas/Arquivo Pagina {num}.pdf')
        novo_arquivo.add_page(pagina_pdf.pages[0])

    # Abre o caminho de saída em modo 'write binary' e escreve o novo PDF
    with output_path.open(mode='wb') as arquivo:
        novo_arquivo.write(arquivo)
    # Imprime uma mensagem de confirmação após a criação do arquivo
    print(f'{nome_consolidado} criado com sucesso.')
    



Consolidado.pdf já existe. Pulando a criação.


### Extra: Para adicionar todas as páginas de 2 pdfs

In [None]:
import PyPDF2 as pyf

# Cria um objeto PdfMerger
pdf_mesclado = pyf.PdfMerger()

# Adiciona os arquivos PDF que você deseja mesclar
pdf_mesclado.append('MGLU_ER_3T20_POR.pdf')
pdf_mesclado.append('MGLU_ER_4T20_POR.pdf')

# Nome do arquivo consolidado
nome_consolidado = 'Consolidado.pdf'
output_path = Path(nome_consolidado)

# Verifica se o arquivo consolidado já existe
if output_path.exists():
    # Se o arquivo existir, imprime uma mensagem e não cria o arquivo novamente
    print(f'{nome_consolidado} já existe. Pulando a criação.')
else:
    # Se o arquivo não existir, grava o arquivo consolidado
    with output_path.open(mode='wb') as arquivo:
        pdf_mesclado.write(arquivo)
    # Imprime uma mensagem de confirmação após a criação do arquivo
    print(f'{nome_consolidado} criado com sucesso.')

# Funcionalidades que podem ser úteis:

- Inserir arquivo no meio do outro
- Quero colocar dentro do Resultado do 4T20 os destaques do 3T20 para poder comparar os 2 dentro do mesmo relatório

In [2]:
import PyPDF2 as pyf
import os
from pathlib import Path

# Cria um objeto PdfMerger
pdf_mesclado = pyf.PdfMerger()

# Adiciona os arquivos PDF que você deseja mesclar

pdf_mesclado.append('MGLU_ER_4T20_POR.pdf')
pdf_mesclado.merge(1, 'paginas/Arquivo Pagina 1.pdf')

with Path(f'Relatório 2 Trimestres.pdf').open(mode='wb') as arquivo:
        pdf_mesclado.write(arquivo)


- Rodar Página

# Trabalhando com Textos e Informações Dentro do PDF

#### 1º Objetivo: Quero identificar como foram as Despesas com Vendas da MGLU
    - Pegar texto da página e identificar onde está essa informação

In [5]:
arquivo = pyf.PdfReader('MGLU_ER_3T20_POR.pdf')

qtde_paginas = len(arquivo.pages)
print(qtde_paginas)

metadados_arquivo = arquivo.metadata
print(metadados_arquivo)

24
{'/Title': 'DESEMPENHO FINANCEIRO CONSOLIDADO', '/Author': 'an_rezende', '/Subject': 'Receita Bruta', '/Creator': 'Microsoft® Office Word 2007', '/CreationDate': "D:20201109183121-03'00'", '/ModDate': "D:20201109183121-03'00'", '/Producer': 'Microsoft® Office Word 2007'}


In [39]:
import os
caminho_pdf = "MGLU_ER_3T20_POR.pdf"
print(os.path.abspath(caminho_pdf))


C:\Users\sival\OneDrive\Documentos\python_txt_pdf\MGLU_ER_3T20_POR.pdf


In [11]:
texto_referencia = '| Despesas com Vendas'

for i, pagina in enumerate(arquivo.pages):
    texto_pagina = pagina.extract_text()
    if texto_referencia in texto_pagina:
        print('Numero Pagina: ', i+1)
        texto_analisar = texto_pagina


Numero Pagina:  10


In [13]:
print(texto_analisar)

Divulgação de Resultados  
3T20 
10 
 
  
 
| Despesas Operacionais  
 
R$ milhões  3T20  
Ajustado   % RL  3T19  
Ajustado   % RL   Var(%)  9M20  
Ajustado   % RL  9M19  
Ajustado   % RL   Var(%)  
  Despesas com Vendas   (1.432,6)  -17,2%  (890,0)  -18,3%  61,0%  (3.487,2)  -18,2%  (2.309,1)  -17,1%  51,0%  
  Despesas Gerais e Administrativas   (240,7)  -2,9%  (207,1)  -4,3%  16,2%  (617,3)  -3,2%  (498,2)  -3,7%  23,9%  
 Subtotal      (1.673,3)  -20,1%      (1.097,1)  -22,6%  52,5%      (4.104,5)  -21,5%      (2.807,4)  -20,8%  46,2%  
  Perdas em Liquidação Duvidosa   (25,4)  -0,3%  (20,2)  -0,4%  25,4%  (84,5)  -0,4%  (45,8)  -0,3%  84,3%  
  Outras Receitas Operacionais, Líquidas   15,2  0,2%  15,3  0,3%  -0,6%  41,0  0,2%  44,0  0,3%  -6,8%  
  Total de Despesas Operacionais       (1.683,5)  -20,3%      (1.102,0)  -22,7%  52,8%      (4.148,0)  -21,7%      (2.809,2)  -20,8%  47,7%  
 
| Despesas com Vendas  
 
No 3T20, as despesas com vendas totalizaram R$1.432,6 milhões, equiv

In [16]:
posicao_inicial = texto_analisar.find(texto_referencia)
posicao_final =  texto_analisar.find('|', posicao_inicial+1)

texto_final = texto_analisar[posicao_inicial:posicao_final]
print(texto_final)

| Despesas com Vendas  
 
No 3T20, as despesas com vendas totalizaram R$1.432,6 milhões, equivalentes a 17,2% da receita líquida, 1,1 p.p. menor que no 
3T19 , principalmente devido ao forte crescimento das vendas . Vale ressaltar que a Companhia conseguiu diluir as despesas com 
vendas m esmo investi ndo em maior nível de serviço,  especialmente em  atendimento e logística.  
 
Nos 9M20, as despesas com vendas totalizaram R$3.487,2 milhões, equivalentes a 18,2% da receita líquida (+1,1 p.p. versus  os 
9M19).  
 



#### 2º Objetivo: Quero analisar o DRE (sem ajuste - Página 5)
    - Para ler tabelas em pdf, use o tabula (é ninja)
    
    - Cuidado 1: Instale o tabula-py (não instale o tabula). Se instalar o tabula errado, desinstale ele, instale o tabula-py, desinstale o tabula-py e instale novamente o tabula-py. Reinicie o kernel do Jupyter após isso
    
    - Cuidado 2: Tem que ter o java instalado no seu computador (depois de instalar, reinicie o computador)

In [7]:
import tabula

tabelas = tabula.read_pdf('MGLU_ER_3T20_POR.pdf', pages=5, encoding='latin1')
df_resultado = tabelas[0]
# excluir linhas totalmente vazias
df_resultado = df_resultado.dropna(how='all', axis=0)
# excluir colunas totalmente vazias
df_resultado = df_resultado.dropna(how='all', axis=1)
# tornar a primeira linha da tabela em cabeçalho
df_resultado.columns = df_resultado.iloc[0]
#exluir primeira linha tabela
df_resultado = df_resultado.iloc[1:]
# resetar o index, para iniciar em 0
df_resultado = df_resultado.reset_index(drop=True)

display(df_resultado)

Unnamed: 0,R$ milhões (exceto quando indicado),3T2,3T1,Var(%,9M2,9M1,Var(%.1
0,Vendas Totais1 (incluindo marketplace),"12.355,5","6.817,6",812,"28.584,","18.282,6",563
1,Receita Bruta,"10.349,5","5.999,4",725,"23.652,","16.508,8",433
2,Receita Líquida,"8.308,3","4.864,2",708,"19.111,","13.501,3",416
3,Lucro Bruto,"2.178,7","1.424,9",529,"5.034,","3.728,6",350
4,Margem Bruta,262,293,"-3,1 p",263,276,"-1,3 p"
5,EBITDA,5461,5012,90,"1.022,","1.276,5",-199
6,Margem EBITDA,66,103,"-3,7 p",53,95,"-4,2 p"
7,Lucro Líquido,2060,2351,-124,172,7538,-772
8,Margem Líquida,25,48,"-2,3 p",09,56,"-4,7 p"
9,Lucro Bruto - Ajustado,"2.178,7","1.488,9",463,"5.034,","3.964,6",270


#### 3º Objetivo: Quero analisar o Capital de Giro e os Investimentos (ambas as tabelas na página 12)
    - Páginas com mais de 1 tabela

In [12]:
import tabula
from IPython.display import display

tabelas = tabula.read_pdf('MGLU_ER_3T20_POR.pdf', pages=12, encoding='latin1')

for tabela in tabelas:
    # Excluir linhas totalmente vazias
    tabela = tabela.dropna(how='all', axis=0)
    # resetar o index, para iniciar em 0
    tabela = tabela.reset_index(drop=True)
    display(tabela)
    
# print(len(tabelas))


Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6
0,(+) Contas a Receber (sem Cartões de Crédito),"(26,7)",7063,6808,7813,7940,7330
1,(+) Estoques,"2.120,2","5.005,9","4.198,2","4.075,5","3.801,8","2.885,7"
2,(+) Partes Relacionadas (sem Cartão Luiza),"(10,5)",713,804,771,1006,818
3,(+) Impostos a Recuperar,1863,9320,7489,8774,8641,7457
4,(+) Outros Ativos,"(56,6)",885,1002,1435,1363,1451
5,(+) Ativos Circulantes Operacionais,"2.212,7","6.804,0","5.808,6","5.954,8","5.696,8","4.591,3"
6,(-) Fornecedores,"2.301,5","6.104,3","5.334,0","4.132,7","5.934,9","3.802,8"
7,(-) Repasses e outros depósitos,6273,6273,6393,2359,-,-
8,"(-) Salários, Férias e Encargos Sociais",950,4447,3290,2633,3547,3498
9,(-) Impostos a Recolher,907,2996,2064,1769,3520,2088


Unnamed: 0,R$ milhões,3T20,%,3T19,%.1,Var(%),9M20,%.2,9M20.1,%.3,Var(%).1
0,Lojas Novas,212,14%,946,51%,-78%,690,21%,1219,31%,-43%
1,Reformas,61,4%,82,4%,-26%,146,4%,382,10%,-62%
2,Tecnologia,691,45%,326,18%,112%,1476,45%,844,22%,75%
3,Logística,363,24%,328,18%,11%,621,19%,1074,27%,-42%
4,Outros,215,14%,177,10%,22%,357,11%,388,10%,-8%
5,Total,1542,100%,1860,100%,-17%,3291,100%,3907,100%,-16%


In [26]:
import tabula
from IPython.display import display

# Ler o PDF e excluir linhas totalmente vazias da primeira tabela
tabelas = tabula.read_pdf('MGLU_ER_3T20_POR.pdf', pages=12, encoding='latin1')
df_capitalgiro = tabelas[0]
df_capitalgiro = df_capitalgiro.dropna(how='all', axis=0)  # Excluir linhas totalmente vazias
df_capitalgiro = df_capitalgiro.reset_index(drop=True)  # Resetar o índice para iniciar em 0
# display(df_capitalgiro)  # Exibir a tabela (comentado)

# Ler o PDF novamente com o parâmetro 'lattice=True' e excluir linhas e colunas totalmente vazias da primeira tabela
tabelas2 = tabula.read_pdf('MGLU_ER_3T20_POR.pdf', pages=12, encoding='latin1', lattice=True)
df_capitalgiro2 = tabelas2[0]
df_capitalgiro2 = df_capitalgiro2.dropna(how='all', axis=0)  # Excluir linhas totalmente vazias
df_capitalgiro2 = df_capitalgiro2.dropna(how='all', axis=1)  # Excluir colunas totalmente vazias
df_capitalgiro2 = df_capitalgiro2.reset_index(drop=True)  # Resetar o índice para iniciar em 0
colunas = df_capitalgiro2.iloc[0]  # Obter a primeira linha como colunas
colunas = colunas.dropna()  # Excluir colunas vazias
df_capitalgiro.columns = colunas  # Definir os nomes das colunas na tabela original
display(df_capitalgiro)  # Exibir a tabela final


Unnamed: 0,R$ milhões,Dif 12U,set-2,jun-2,mar-2,dez-1,set-1
0,(+) Contas a Receber (sem Cartões de Crédito),"(26,7)",7063,6808,7813,7940,7330
1,(+) Estoques,"2.120,2","5.005,9","4.198,2","4.075,5","3.801,8","2.885,7"
2,(+) Partes Relacionadas (sem Cartão Luiza),"(10,5)",713,804,771,1006,818
3,(+) Impostos a Recuperar,1863,9320,7489,8774,8641,7457
4,(+) Outros Ativos,"(56,6)",885,1002,1435,1363,1451
5,(+) Ativos Circulantes Operacionais,"2.212,7","6.804,0","5.808,6","5.954,8","5.696,8","4.591,3"
6,(-) Fornecedores,"2.301,5","6.104,3","5.334,0","4.132,7","5.934,9","3.802,8"
7,(-) Repasses e outros depósitos,6273,6273,6393,2359,-,-
8,"(-) Salários, Férias e Encargos Sociais",950,4447,3290,2633,3547,3498
9,(-) Impostos a Recolher,907,2996,2064,1769,3520,2088


In [28]:
import tabula
import pandas as pd
from IPython.display import display

def process_table(file_path, pages, encoding='latin1', lattice=False):
    # Ler o PDF
    tabelas = tabula.read_pdf(file_path, pages=pages, encoding=encoding, lattice=lattice)
    
    if tabelas:
        df = tabelas[0]
        df = df.dropna(how='all', axis=0)  # Excluir linhas totalmente vazias
        df = df.dropna(how='all', axis=1)  # Excluir colunas totalmente vazias
        df = df.reset_index(drop=True)  # Resetar o índice para iniciar em 0
        return df
    else:
        return pd.DataFrame()  # Retornar um DataFrame vazio se nenhuma tabela for encontrada

# Processar a primeira tabela
df_capitalgiro = process_table('MGLU_ER_3T20_POR.pdf', pages=12)
# display(df_capitalgiro)

# Processar a tabela com lattice=True
df_capitalgiro2 = process_table('MGLU_ER_3T20_POR.pdf', pages=12, lattice=True)
if not df_capitalgiro2.empty:
    colunas = df_capitalgiro2.iloc[0].dropna()  # Obter a primeira linha como colunas e excluir colunas vazias
    df_capitalgiro.columns = colunas  # Definir os nomes das colunas na tabela original
    display(df_capitalgiro)  # Exibir a tabela final


Unnamed: 0,R$ milhões,Dif 12U,set-2,jun-2,mar-2,dez-1,set-1
0,(+) Contas a Receber (sem Cartões de Crédito),"(26,7)",7063,6808,7813,7940,7330
1,(+) Estoques,"2.120,2","5.005,9","4.198,2","4.075,5","3.801,8","2.885,7"
2,(+) Partes Relacionadas (sem Cartão Luiza),"(10,5)",713,804,771,1006,818
3,(+) Impostos a Recuperar,1863,9320,7489,8774,8641,7457
4,(+) Outros Ativos,"(56,6)",885,1002,1435,1363,1451
5,(+) Ativos Circulantes Operacionais,"2.212,7","6.804,0","5.808,6","5.954,8","5.696,8","4.591,3"
6,(-) Fornecedores,"2.301,5","6.104,3","5.334,0","4.132,7","5.934,9","3.802,8"
7,(-) Repasses e outros depósitos,6273,6273,6393,2359,-,-
8,"(-) Salários, Férias e Encargos Sociais",950,4447,3290,2633,3547,3498
9,(-) Impostos a Recolher,907,2996,2064,1769,3520,2088


In [None]:
#### O que fazer quando o tabula não consegue ler alguma linha da tabela? Como o cabeçalho, no nosso caso?

In [30]:
import tabula
import pandas as pd
from IPython.display import display

def process_table(file_path, pages, encoding='latin1', lattice=False):
    # Ler o PDF
    tabelas = tabula.read_pdf(file_path, pages=pages, encoding=encoding, lattice=lattice)
    
    if tabelas:
        df = tabelas[0]
        df = df.dropna(how='all', axis=0)  # Excluir linhas totalmente vazias
        df = df.dropna(how='all', axis=1)  # Excluir colunas totalmente vazias
        df = df.reset_index(drop=True)  # Resetar o índice para iniciar em 0
        return df
    else:
        return pd.DataFrame()  # Retornar um DataFrame vazio se nenhuma tabela for encontrada

# Processar a primeira tabela
df_capitalgiro = process_table('MGLU_ER_3T20_POR.pdf', pages=12)
# display(df_capitalgiro)

# Processar a tabela com lattice=True
df_capitalgiro2 = process_table('MGLU_ER_3T20_POR.pdf', pages=12, lattice=True)
if not df_capitalgiro2.empty:
    colunas = df_capitalgiro2.iloc[0].dropna()  # Obter a primeira linha como colunas e excluir colunas vazias
    df_capitalgiro.columns = colunas  # Definir os nomes das colunas na tabela original
    
    # Adicionar a coluna "Total"
    df_capitalgiro['Total'] = df_capitalgiro.iloc[:, 1:].apply(pd.to_numeric, errors='coerce').sum(axis=1)
    
    display(df_capitalgiro)  # Exibir a tabela final


Unnamed: 0,R$ milhões,Dif 12U,set-2,jun-2,mar-2,dez-1,set-1,Total
0,(+) Contas a Receber (sem Cartões de Crédito),"(26,7)",7063,6808,7813,7940,7330,0.0
1,(+) Estoques,"2.120,2","5.005,9","4.198,2","4.075,5","3.801,8","2.885,7",0.0
2,(+) Partes Relacionadas (sem Cartão Luiza),"(10,5)",713,804,771,1006,818,0.0
3,(+) Impostos a Recuperar,1863,9320,7489,8774,8641,7457,0.0
4,(+) Outros Ativos,"(56,6)",885,1002,1435,1363,1451,0.0
5,(+) Ativos Circulantes Operacionais,"2.212,7","6.804,0","5.808,6","5.954,8","5.696,8","4.591,3",0.0
6,(-) Fornecedores,"2.301,5","6.104,3","5.334,0","4.132,7","5.934,9","3.802,8",0.0
7,(-) Repasses e outros depósitos,6273,6273,6393,2359,-,-,0.0
8,"(-) Salários, Férias e Encargos Sociais",950,4447,3290,2633,3547,3498,0.0
9,(-) Impostos a Recolher,907,2996,2064,1769,3520,2088,0.0


In [41]:
import tabula
import pandas as pd
from IPython.display import display

def process_table(file_path, pages, encoding='latin1', lattice=False):
    # Ler o PDF
    tabelas = tabula.read_pdf(file_path, pages=pages, encoding=encoding, lattice=lattice)
    
    if tabelas:
        df = tabelas[0]
        df = df.dropna(how='all', axis=0)  # Excluir linhas totalmente vazias
        df = df.dropna(how='all', axis=1)  # Excluir colunas totalmente vazias
        df = df.reset_index(drop=True)  # Resetar o índice para iniciar em 0
        return df
    else:
        return pd.DataFrame()  # Retornar um DataFrame vazio se nenhuma tabela for encontrada

# Função para converter valores de texto em números
def convert_to_numeric(df):
    # Loop através de cada coluna, começando da segunda coluna até a última
    for col in df.columns[1:]:
        # Aplicar uma função lambda em cada elemento da coluna
        df[col] = df[col].apply(
            lambda x: 
            # Converter o valor para numérico após remover caracteres não numéricos
            pd.to_numeric(
                str(x)  # Converter o valor para string
                .replace('.', '')  # Remover separadores de milhar (pontos)
                .replace(',', '.')  # Substituir vírgulas decimais por pontos
                .replace('(', '')  # Remover parênteses de abertura
                .replace(')', '')  # Remover parênteses de fechamento
                .replace('%', '')  # Remover símbolo de porcentagem
                .replace('-', ''),  # Remover traços
                errors='coerce'  # Tratar erros de conversão, substituindo valores inválidos por NaN
            ) 
            if pd.notnull(x) else x  # Manter valores nulos (NaN) inalterados
        )
    return df  # Retornar o DataFrame atualizado

# Processar a primeira tabela
df_capitalgiro = process_table('MGLU_ER_3T20_POR.pdf', pages=12)
df_capitalgiro = convert_to_numeric(df_capitalgiro)
# display(df_capitalgiro)

# Processar a tabela com lattice=True
df_capitalgiro2 = process_table('MGLU_ER_3T20_POR.pdf', pages=12, lattice=True)
if not df_capitalgiro2.empty:
    colunas = df_capitalgiro2.iloc[0].dropna()  # Obter a primeira linha como colunas e excluir colunas vazias
    df_capitalgiro.columns = colunas  # Definir os nomes das colunas na tabela original
    
    # Adicionar a coluna "Total"
    df_capitalgiro['Total'] = df_capitalgiro.iloc[:, 1:].apply(pd.to_numeric, errors='coerce').sum(axis=1)
    
    display(df_capitalgiro)  # Exibir a tabela final





Unnamed: 0,R$ milhões,Dif 12U,set-2,jun-2,mar-2,dez-1,set-1,Total
0,(+) Contas a Receber (sem Cartões de Crédito),26.7,706.3,680.8,781.3,794.0,733.0,3722.1
1,(+) Estoques,2120.2,5005.9,4198.2,4075.5,3801.8,2885.7,22087.3
2,(+) Partes Relacionadas (sem Cartão Luiza),10.5,71.3,80.4,77.1,100.6,81.8,421.7
3,(+) Impostos a Recuperar,186.3,932.0,748.9,877.4,864.1,745.7,4354.4
4,(+) Outros Ativos,56.6,88.5,100.2,143.5,136.3,145.1,670.2
5,(+) Ativos Circulantes Operacionais,2212.7,6804.0,5808.6,5954.8,5696.8,4591.3,31068.2
6,(-) Fornecedores,2301.5,6104.3,5334.0,4132.7,5934.9,3802.8,27610.2
7,(-) Repasses e outros depósitos,627.3,627.3,639.3,235.9,,,2129.8
8,"(-) Salários, Férias e Encargos Sociais",95.0,444.7,329.0,263.3,354.7,349.8,1836.5
9,(-) Impostos a Recolher,90.7,299.6,206.4,176.9,352.0,208.8,1334.4


In [43]:
import tabula
import pandas as pd
from IPython.display import display

def process_table(file_path, pages, encoding='latin1', lattice=False):
    # Ler o PDF
    tabelas = tabula.read_pdf(file_path, pages=pages, encoding=encoding, lattice=lattice)
    
    if tabelas:
        df = tabelas[0]
        df = df.dropna(how='all', axis=0)  # Excluir linhas totalmente vazias
        df = df.dropna(how='all', axis=1)  # Excluir colunas totalmente vazias
        df = df.reset_index(drop=True)  # Resetar o índice para iniciar em 0
        return df
    else:
        return pd.DataFrame()  # Retornar um DataFrame vazio se nenhuma tabela for encontrada

# Função para converter valores de texto em números
def convert_to_numeric(df):
    # Loop através de cada coluna, começando da segunda coluna até a última
    for col in df.columns[1:]:
        # Aplicar uma função lambda em cada elemento da coluna
        df[col] = df[col].apply(
            lambda x: 
            # Converter o valor para numérico após remover caracteres não numéricos
            pd.to_numeric(
                str(x)  # Converter o valor para string
                .replace('.', '')  # Remover separadores de milhar (pontos)
                .replace(',', '.')  # Substituir vírgulas decimais por pontos
                .replace('(', '')  # Remover parênteses de abertura
                .replace(')', '')  # Remover parênteses de fechamento
                .replace('%', '')  # Remover símbolo de porcentagem
                .replace('-', ''),  # Remover traços
                errors='coerce'  # Tratar erros de conversão, substituindo valores inválidos por NaN
            ) 
            if pd.notnull(x) else x  # Manter valores nulos (NaN) inalterados
        )
    return df  # Retornar o DataFrame atualizado

def highlight_total(s):
    """Função para destacar a coluna 'Total'."""
    is_total = s.name == 'Total'
    return ['background-color: yellow' if is_total else '' for v in s]

# Processar a primeira tabela
df_capitalgiro = process_table('MGLU_ER_3T20_POR.pdf', pages=12)
df_capitalgiro = convert_to_numeric(df_capitalgiro)
display(df_capitalgiro)

# Processar a tabela com lattice=True
df_capitalgiro2 = process_table('MGLU_ER_3T20_POR.pdf', pages=12, lattice=True)
if not df_capitalgiro2.empty:
    colunas = df_capitalgiro2.iloc[0].dropna()  # Obter a primeira linha como colunas e excluir colunas vazias
    df_capitalgiro.columns = colunas  # Definir os nomes das colunas na tabela original
    
    # Adicionar a coluna "Total"
    df_capitalgiro['Total'] = df_capitalgiro.iloc[:, 1:].apply(pd.to_numeric, errors='coerce').sum(axis=1)
    
    # Aplicar a função de destaque para a coluna 'Total'
    styled_df = df_capitalgiro.style.apply(lambda x: ['background-color: red' if i == 'Total' else '' for i in x.index], axis=1)
    
    display(styled_df)  # Exibir a tabela final com a coluna 'Total' destacada


Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6
0,(+) Contas a Receber (sem Cartões de Crédito),26.7,706.3,680.8,781.3,794.0,733.0
1,(+) Estoques,2120.2,5005.9,4198.2,4075.5,3801.8,2885.7
2,(+) Partes Relacionadas (sem Cartão Luiza),10.5,71.3,80.4,77.1,100.6,81.8
3,(+) Impostos a Recuperar,186.3,932.0,748.9,877.4,864.1,745.7
4,(+) Outros Ativos,56.6,88.5,100.2,143.5,136.3,145.1
5,(+) Ativos Circulantes Operacionais,2212.7,6804.0,5808.6,5954.8,5696.8,4591.3
6,(-) Fornecedores,2301.5,6104.3,5334.0,4132.7,5934.9,3802.8
7,(-) Repasses e outros depósitos,627.3,627.3,639.3,235.9,,
8,"(-) Salários, Férias e Encargos Sociais",95.0,444.7,329.0,263.3,354.7,349.8
9,(-) Impostos a Recolher,90.7,299.6,206.4,176.9,352.0,208.8


0,R$ milhões,Dif 12U,set-2,jun-2,mar-2,dez-1,set-1,Total
0,(+) Contas a Receber (sem Cartões de Crédito),26.7,706.3,680.8,781.3,794.0,733.0,3722.1
1,(+) Estoques,2120.2,5005.9,4198.2,4075.5,3801.8,2885.7,22087.3
2,(+) Partes Relacionadas (sem Cartão Luiza),10.5,71.3,80.4,77.1,100.6,81.8,421.7
3,(+) Impostos a Recuperar,186.3,932.0,748.9,877.4,864.1,745.7,4354.4
4,(+) Outros Ativos,56.6,88.5,100.2,143.5,136.3,145.1,670.2
5,(+) Ativos Circulantes Operacionais,2212.7,6804.0,5808.6,5954.8,5696.8,4591.3,31068.2
6,(-) Fornecedores,2301.5,6104.3,5334.0,4132.7,5934.9,3802.8,27610.2
7,(-) Repasses e outros depósitos,627.3,627.3,639.3,235.9,,,2129.8
8,"(-) Salários, Férias e Encargos Sociais",95.0,444.7,329.0,263.3,354.7,349.8,1836.5
9,(-) Impostos a Recolher,90.7,299.6,206.4,176.9,352.0,208.8,1334.4


In [48]:
import tabula
import pandas as pd
from IPython.display import display

def process_table(file_path, pages, encoding='latin1', lattice=False):
    # Ler o PDF
    tabelas = tabula.read_pdf(file_path, pages=pages, encoding=encoding, lattice=lattice)
    
    if tabelas:
        df = tabelas[0]
        df = df.dropna(how='all', axis=0)  # Excluir linhas totalmente vazias
        df = df.dropna(how='all', axis=1)  # Excluir colunas totalmente vazias
        df = df.reset_index(drop=True)  # Resetar o índice para iniciar em 0
        return df
    else:
        return pd.DataFrame()  # Retornar um DataFrame vazio se nenhuma tabela for encontrada

# Função para converter valores de texto em números
def convert_to_numeric(df):
    # Loop através de cada coluna, começando da segunda coluna até a última
    for col in df.columns[1:]:
        # Aplicar uma função lambda em cada elemento da coluna
        df[col] = df[col].apply(
            lambda x: 
            # Converter o valor para numérico após remover caracteres não numéricos
            pd.to_numeric(
                str(x)  # Converter o valor para string
                .replace('.', '')  # Remover separadores de milhar (pontos)
                .replace(',', '.')  # Substituir vírgulas decimais por pontos
                .replace('(', '')  # Remover parênteses de abertura
                .replace(')', '')  # Remover parênteses de fechamento
                .replace('%', '')  # Remover símbolo de porcentagem
                .replace('-', ''),  # Remover traços
                errors='coerce'  # Tratar erros de conversão, substituindo valores inválidos por NaN
            ) 
            if pd.notnull(x) else x  # Manter valores nulos (NaN) inalterados
        )
    return df  # Retornar o DataFrame atualizado

# Função para formatar todas as colunas numéricas
def format_columns(df):
    for col in df.columns[1:]:
        df[col] = df[col].apply(lambda x: f'{x:,.2f}' if pd.notnull(x) else x)  # Formatar números com 2 casas decimais
    return df

# Processar a primeira tabela
file_path = 'MGLU_ER_3T20_POR.pdf'
pages = 12

df_capitalgiro = process_table(file_path, pages)
df_capitalgiro = convert_to_numeric(df_capitalgiro)

# Processar a tabela com lattice=True
df_capitalgiro2 = process_table(file_path, pages, lattice=True)
if not df_capitalgiro2.empty:
    colunas = df_capitalgiro2.iloc[0].dropna()  # Obter a primeira linha como colunas e excluir colunas vazias
    df_capitalgiro.columns = colunas  # Definir os nomes das colunas na tabela original
    
    # Adicionar a coluna "Total"
    df_capitalgiro['Total'] = df_capitalgiro.iloc[:, 1:].apply(pd.to_numeric, errors='coerce').sum(axis=1)
    
    # Formatar todas as colunas numéricas
    df_capitalgiro = format_columns(df_capitalgiro)

    # Aplicar a função de destaque para a coluna 'Total'
    styled_df = df_capitalgiro.style.apply(lambda x: ['background-color: red' if col == 'Total' else '' for col in x.index], axis=1)
    
    display(styled_df)  # Exibir a tabela final com a coluna 'Total' destacada



0,R$ milhões,Dif 12U,set-2,jun-2,mar-2,dez-1,set-1,Total
0,(+) Contas a Receber (sem Cartões de Crédito),26.7,706.3,680.8,781.3,794.0,733.0,3722.1
1,(+) Estoques,2120.2,5005.9,4198.2,4075.5,3801.8,2885.7,22087.3
2,(+) Partes Relacionadas (sem Cartão Luiza),10.5,71.3,80.4,77.1,100.6,81.8,421.7
3,(+) Impostos a Recuperar,186.3,932.0,748.9,877.4,864.1,745.7,4354.4
4,(+) Outros Ativos,56.6,88.5,100.2,143.5,136.3,145.1,670.2
5,(+) Ativos Circulantes Operacionais,2212.7,6804.0,5808.6,5954.8,5696.8,4591.3,31068.2
6,(-) Fornecedores,2301.5,6104.3,5334.0,4132.7,5934.9,3802.8,27610.2
7,(-) Repasses e outros depósitos,627.3,627.3,639.3,235.9,,,2129.8
8,"(-) Salários, Férias e Encargos Sociais",95.0,444.7,329.0,263.3,354.7,349.8,1836.5
9,(-) Impostos a Recolher,90.7,299.6,206.4,176.9,352.0,208.8,1334.4


# Outro método que pode ser útil algum dia: Captar Imagem em um pdf
    - biblioteca pikepdf

In [52]:
from pikepdf import Pdf, PdfImage

arquivo = Pdf.open('MGLU_ER_3T20_POR.pdf')

for pagina in arquivo.pages:
    for nome, imagem in pagina.images.items():
        imagem_salvar = PdfImage(imagem)
        imagem_salvar.extract_to(fileprefix=f'imagens/{nome}')
        # print(imagens)

# Substituir texto no pdf tipo contrato

- Não recomendo fazer diretamente pelo Python. Realmente do que vi a melhor opção me parece o Word fazer isso
- Caso precise automatizar, automatize o processo fazendo ele pelo Word
- Quem quiser MUITO fazer isso pelo Python, tem um link aqui que vai te ajudar de uma solução que achei que funciona. Tem seus bugs/cuidados especiais, mas funciona: https://pdf.co/samples/pdf-co-web-api-replace-text-from-pdf-python-replace-text-from-url