# Integração do Python com Arquivos `.txt`  e `.pdf`

## Integração do Python com Arquivos `.txt`
Como quase tudo no Python, existem várias formas de ler um arquivo de texto.
No módulo de Pandas, aprendemos a abrir os arquivo `.csv` e `.xlsx` usando a função `read_csv()` e `read_excel()`, respectivamente, o qual era a melhor forma realmente, de ler estes tipos de arquivos supracitados, pois o Pandas é um módulo especializado para manipulação de dados tabulares.
Agora, para ler arquivos simples como `.txt`, o Pandas não é a melhor opção. Para ler um arquivo `.txt`, você pode usar a função `open()` para abrir o arquivo, e usar `read()` para ler o conteúdo do mesmo.

Trabalhar com arquivos .txt em Python envolve uma série de operações que podem ser realizadas utilizando as funções embutidas na linguagem. Aqui estão as principais operações detalhadas:

### 1. Abrindo um Arquivo
Para manipular um arquivo .txt, o primeiro passo é abri-lo. Isso pode ser feito usando a função open(). Essa função retorna um objeto de arquivo, que você pode usar para ler ou escrever no arquivo.

    arquivo = open('caminho/do/arquivo.txt', 'modo')

#### Modos de Abertura:
* **'r'**: Leitura (padrão). O arquivo deve existir.
* **'w'**: Escrita. Cria um novo arquivo ou sobrescreve o existente.
* **'a'**: Append. Adiciona conteúdo ao final do arquivo.
* **'x'**: Criação. Cria um novo arquivo, mas falha se o arquivo já existir.
* **'b'**: Modo binário. Usado para arquivos binários, como imagens.
* **'t'**: Modo texto (padrão). Usado para arquivos de texto.
* **'+'**: Leitura e escrita.

### 2. Lendo de um Arquivo
Uma vez que o arquivo está aberto em modo de leitura ('r' ou 'r+'), existem várias maneiras de ler o conteúdo.

* Ler o arquivo inteiro:

        conteudo = arquivo.read()
        print(conteudo)

* Ler linha por linha:

        linha = arquivo.readline()
        while linha:
            print(linha, end='')  # `end=''` evita adicionar uma nova linha ao print
            linha = arquivo.readline()

* Ler todas as linhas de uma vez como uma lista:

        linhas = arquivo.readlines()
        for linha in linhas:
            print(linha, end='')


### 3. Escrevendo em um Arquivo
Se você abrir um arquivo em modo de escrita ('w', 'a', 'w+' ou 'a+'), você pode escrever texto no arquivo.

* Escrever uma string:

          arquivo.write('Esta é uma nova linha.\n')

* Escrever várias linhas:

          linhas = ['Primeira linha.\n', 'Segunda linha.\n']
          arquivo.writelines(linhas)

### 4. Fechando um arquivo
É importante fechar o arquivo após terminar de manipulá-lo para liberar recursos do sistema. Isso pode ser feito usando o método `close()`.

          arquivo.close()

Alternativamente, você pode usar a contrução `with`, que garante que o arquivo será fechado automaticamente após sair do bloco de código. 

          with open('caminho/do/arquivo.txt', 'modo') as arquivo:
              conteudo = arquivo.read()

### 5.Tratamento de Erros
AO trabalhar com arquivos, é uma boa prática usar o bloco `try-except` para capturar e tratar possíveis erros, como tentar abrir um arquivo que não exista. 

            try:
                with open('caminho/do/arquivo.txt', 'r') as arquivo:
                    conteudo = arquivo.read()
            except FileNotFoundError:
                print('Arquivo não encontrado.')
            except IOError:
                print('Erro de IO ao acessar o arquivo.')

### 6. Exemplos Práticos
#### Exemplo 1: Criar e escrever em um arquivo:

            with open('exemplo.txt', 'w') as arquivo:
                arquivo.write('Esta é uma linha.\n')
                arquivo.write('Esta é outra linha.\n')

#### Exemplo 2: Ler um arquivo e processar as linhas:

            with open('exemplo.txt', 'r') as arquivo:
                for linha in arquivo:
                    print(linha.strip())  # `strip()` remove espaços em branco e quebras de linha

#### Exemplo 3: Adicionar conteúdo a um arquivo existente:

            with open('exemplo.txt', 'a') as arquivo:
                arquivo.write('Adicionando uma nova linha ao arquivo.\n')


Essas operações cobrem a maioria dos casos de uso ao trabalhar com arquivos .txt em Python. Se precisar de operações mais avançadas, como manipular grandes volumes de dados ou processar arquivos em paralelo, Python também oferece bibliotecas como pandas e multiprocessing para essas situações.

## Estrutura
1. Método para abrir um arquivo `.txt` - Médoto `,open()`: Abre um arquivo `.txt`

        arquivo = open('nome_do_arquivo.txt', 'r')

   * Usamos 'r' para abrir o arquivo para ler (read mode) e 'w' para abrir o arquivo para escrever (write mode) ou 'a' para abrir o arquivo para adicionar (append mode) uma informação ao arquivo.
   * Com o arquivo, podemos ler o conteúdo do arquivo efetivamente.

2. Método para ler o conteúdo do arquivo - 
   1. Método `.read()`: Le o conteúdo do arquivo e o retorna como uma string.

            texto_arquivo = arquivo.read()

      * Retorna um string com todo o conteúdo do arquivo.
      * Você pode usar esse método para ler o conteúdo do arquivo, mas você não pode escrever nele.

   2. Método `.readlines()`: Le o conteúdo do arquivo e o retorna como uma lista de strings.

            linhas_arquivo = arquivo.readlines()

      * Retorna uma lista de strings, onde cada string é uma linha do arquivo.
      * Você pode usar esse método para ler o conteúdo do arquivo, mas você não pode escrever nele.

3. Método para escrever no arquivo - Método `.write()`: Escreve uma string no arquivo.

            arquivo.write('linha_de_novo_conteudo')

      * É necessário usar 'w' para abrir o arquivo para escrever (write mode) ou 'a' para abrir o arquivo para adicionar (append mode) uma informação ao arquivo.
      * Escreve uma string no arquivo.
      * Você pode usar esse método para escrever no arquivo, mas não pode ler nele.

- **Obs**: Quando você abre um arquivo, enquanto o programa estiver executando o arquivo, ele abrirá para o usuário na interface gráfica, mas como o python está usando-o em segundo plano, não conseguirá ver o conteúdo do arquivo até fechá-lo (ao menos não o conteúdo que o Python está inserindo ou tratando). Existem 2 formas de fazer isso:

4. Método para fechar o arqivo txt para uso - Método `close()`: Fecha o arquivo.

            arquivo.close()

      * Fecha o arquivo para uso. O Python não conseguirá ver o conteúdo do arquivo até fechá-lo.
      * Você pode usar esse método para fechar o arquivo, mas não pode ler nele.

5. Estrutura `with` - Usando a estrutura `with`: -> ao final do `with`, a própria estrutura `with` fecha automaticamente o arquivo

            with open('NomeArquivo.txt', 'w') as arquivo:
            arquivo.write()
            ...

      * O `with` é uma estrutura de Python que é usada para abrir um arquivo e executar o código dentro do bloco `with` depois de executar o código, se completar com sucesso, fecha o arquivo.


In [23]:
# ---------------------------------------------------------------------------- #
#                              Lendo o arquivo TXT                             #
# ---------------------------------------------------------------------------- #

arquivo = open("Alunos.txt", "r")
linhas_arquivo = arquivo.readlines()
conteudo_arquivo = arquivo.read()

print("= =" * 30)
print((" " * 75) + "Separador")
print("= =" * 30)
print(linhas_arquivo)
print(conteudo_arquivo)

= == == == == == == == == == == == == == == == == == == == == == == == == == == == == == =
                                                                           Separador
= == == == == == == == == == == == == == == == == == == == == == == == == == == == == == =
['Lista de Clientes Hashtag\t\n', 'Clientes Totais\t500\n', '\t\n', 'Email,*origemurl\t\n', '"fulano1151@gmail.com,origemurl:nan;109574838689;hashtag_yt_org_planilha_zUVEC13ySaA;nan;hashtag_yt_org_miniform_k4W3KH_pzSI;106528969372;nan"\t\n', 'fulano1173@gmail.com,origemurl:nan\t\n', '"fulano1169@gmail.com,origemurl:hashtag_yt_org_planilha_f3lg7JxrzB0;hashtag_yt_org_planilha_m5q0KjgVCgY;hashtag_email_webinarvba;hashtag_yt_org_planilha_f3lg7JxrzB0;hashtag_site_org;hashtag_yt_org_saibamaisvba_5PjGxx0wj0o;hashtag_yt_org_seriecompilacaoplan_5PjGxx0wj0o;hashtag_yt_org_miniform_Cw1_4jWIlMw"\t\n', 'fulano1565@gmail.com,origemurl:nan\t\n', 'fulano1197@gmail.com,origemurl:nan\t\n', 'fulano1202@gmail.com,origemurl:nan\t\n', '"fulano11

In [24]:
# ---------------------------------------------------------------------------- #
#            Escrevendo no arquivo TXT e fechando ele (com .close())           #
# ---------------------------------------------------------------------------- #

novo_arquivo = open("Resumo.txt", "w")
novo_arquivo.write("Resumo dos Alunos\n")
novo_arquivo.write("=" * 30 + "\n")

novo_arquivo.close()

In [25]:
# ---------------------------------------------------------------------------- #
#           Abrindo o arquivo, escrevendo nele e fechando-o com with           #
# ---------------------------------------------------------------------------- #

with open("Resumo2.txt", "w") as novo_arquivo_with:
    novo_arquivo_with.write("Resumo dos Alunos Novamente\n")
    novo_arquivo_with.write("=" * 30 + "\n")
    novo_arquivo_with.write("Loucura" * 12)

print("Fim do código")

Fim do código


---

### Desafio onde vamos aprender:

- Na Hashtag, sempre analisamos o nosso "Funil de Vendas". Para isso, rastreamos de onde veio os alunos por meio de um código, do tipo:
    - hashtag_site_org -> Pessoas que vieram pelo site da Hashtag
    - hashtag_yt_org -> Pessoas que vieram pelo Youtube da Hashtag
    - hashtag_ig_org -> Pessoas que vieram pelo Instagram da Hashtag
    - hashtag_igfb_org -> Pessoas que vieram pelo Instagram ou Facebook da Hashtag

Os códigos diferentes disso, são códigos de anúncio da Hashtag.

- Queremos analisar quantos alunos vieram de anúncio e quantos vieram "orgânico".
- Qual a melhor fonte "orgânica" de alunos

Obs: orgânico é tudo aquilo que não veio de anúncios.

No nosso sistema, conseguimos exportar um txt com as informações dos alunos, conforme o arquivo Alunos.txt<br>
(Os dados foram gerados aleatoriamente para simular uma situação real, já que não podemos fornecer os dados reais dos alunos por questões de segurança)

- No final, para treinar, vamos escrever todas essas respostas em um novo arquivo txt

In [32]:
# ---------------------------------------------------------------------------- #
#                               Minha resolução:                               #
# ---------------------------------------------------------------------------- #

arquivo = open("Alunos.txt", "r")
linhas = arquivo.readlines()
del linhas[:4]

qtde_anuncio = 0
qtde_organico = 0
qtde_hashtag_site_org = 0
qtde_hashtag_yt_org = 0
qtde_hashtag_igfb_org = 0
maior_qtde = 0
origem_maior_qtde = ""

for i, linha in enumerate(linhas):
    email, origem = linha.strip().split(",")
    if "_org" in origem:
        qtde_organico += 1
        if "hashtag_site_org" in origem:
            qtde_hashtag_site_org += 1
            maior_qtde = (
                qtde_hashtag_site_org
                if maior_qtde < qtde_hashtag_site_org
                else maior_qtde
            )
            origem_maior_qtde = (
                f"O Site com {qtde_hashtag_site_org} cadastros"
                if maior_qtde == qtde_hashtag_site_org
                else None
            )
        if "hashtag_yt_org" in origem:
            qtde_hashtag_yt_org += 1
            maior_qtde = (
                qtde_hashtag_yt_org if maior_qtde < qtde_hashtag_yt_org else maior_qtde
            )
            origem_maior_qtde = (
                f"O Youtube com {qtde_hashtag_yt_org} cadastros"
                if maior_qtde == qtde_hashtag_yt_org
                else None
            )
        if "hashtag_ig_org" in origem or "hashtag_igfb_org" in origem:
            qtde_hashtag_igfb_org += 1
            maior_qtde = (
                qtde_hashtag_igfb_org
                if maior_qtde < qtde_hashtag_igfb_org
                else maior_qtde
            )
            origem_maior_qtde = (
                f"O Instagram ou o Facebook com {qtde_hashtag_igfb_org} cadastros"
                if maior_qtde == qtde_hashtag_igfb_org
                else None
            )
    else:
        qtde_anuncio += 1


with open("indicadores.txt", "w") as indicadores:
    indicadores.write(
        f"Quantidade de alunos que vieram pelo site: {qtde_hashtag_site_org}\n"
    )
    indicadores.write(
        f"Quantidade de alunos que vieram pelo youtube: {qtde_hashtag_yt_org}\n"
    )
    indicadores.write(
        f"Quantidade de alunos que vieram pelo facebook ou instagram: {qtde_hashtag_igfb_org}\n"
    )
    indicadores.write(
        f"Quantidade de alunos que vieram pelos anúncios: {qtde_anuncio}\n"
    )
    indicadores.write(
        f"Quantidade de alunos totais que vieram pelos organicos: {qtde_organico}\n"
    )
    indicadores.write(f"A origem que teve mais retorno foi: {origem_maior_qtde}\n")

---

## Trabalhar com PDFs em Python

Trabalhar com arquivos PDF em Python envolve várias operações possíveis, como leitura, extração de texto, manipulação de páginas, fusão, divisão e criação de novos PDFs. Existem diversas bibliotecas disponíveis que facilitam essas tarefas. Aqui estão algumas das mais populares:

* PyPDF2: Uma das bibliotecas mais usadas para manipulação básica de PDFs, como extração de texto, fusão, divisão e rotação de páginas.

* PDFMiner: Focada na extração de texto e informações detalhadas dos PDFs. É mais poderosa que o PyPDF2 nesse aspecto, mas pode ser mais complexa de usar.

* ReportLab: Ideal para criar PDFs do zero. Você pode gerar documentos com formatação complexa, gráficos, tabelas e outros elementos visuais.

* pdfplumber: Excelente para extração de texto e tabelas de PDFs, mantendo o layout original.

### Operações Comuns com PDFs
#### 1. Leitura e Extração de Texto com PyPDF2


        from PyPDF2 import PdfReader

        # Abrindo um arquivo PDF
        with open("exemplo.pdf", "rb") as file:
            reader = PdfReader(file)
            num_pages = len(reader.pages)
            for i in range(num_pages):
                page = reader.pages[i]
                text = page.extract_text()
                print(f"Texto da página {i+1}:\n{text}")


#### 2. Dividir PDFs em Páginas Separadas


        from PyPDF2 import PdfReader, PdfWriter

        reader = PdfReader("exemplo.pdf")

        for i in range(len(reader.pages)):
            writer = PdfWriter()
            writer.add_page(reader.pages[i])
            with open(f"pagina_{i+1}.pdf", "wb") as output_pdf:
                writer.write(output_pdf)


#### 3. Mesclar Vários PDFs em um Único Documento


        from PyPDF2 import PdfWriter

        pdfs = ["file1.pdf", "file2.pdf", "file3.pdf"]
        merger = PdfWriter()

        for pdf in pdfs:
            merger.append(pdf)

        with open("documento_unificado.pdf", "wb") as output_pdf:
            merger.write(output_pdf)


#### 4. Rotacionar Páginas


        from PyPDF2 import PdfReader, PdfWriter

        reader = PdfReader("exemplo.pdf")
        writer = PdfWriter()

        # Rotaciona a primeira página 90 graus
        page = reader.pages[0]
        page.rotate(90)
        writer.add_page(page)

        with open("rotacionado.pdf", "wb") as output_pdf:
            writer.write(output_pdf)


#### 5. Extração de Texto e Tabelas com pdfplumber


        import pdfplumber

        with pdfplumber.open("exemplo.pdf") as pdf:
            for i, page in enumerate(pdf.pages):
                text = page.extract_text()
                print(f"Texto da página {i+1}:\n{text}")

                tables = page.extract_tables()
                for table in tables:
                    print(f"Tabela da página {i+1}:")
                    for row in able:
                        print(row)

#### 6. Criando PDFs com ReportLab


        from reportlab.lib.pagesizes import letter
        from reportlab.pdfgen import canvas

        # Criando um novo PDF
        c = canvas.Canvas("novo_documento.pdf", pagesize=letter)
        c.drawString(100, 750, "Hello, World!")  # Escrevendo texto
        c.showPage()
        c.save()


### Considerações e Dicas
* Segurança: Sempre verifique os PDFs recebidos de fontes externas, pois podem conter scripts maliciosos.

* Codificação de Texto: A extração de texto nem sempre é precisa devido a variações na codificação e formatação dos PDFs.

* Estrutura de Documentos: Se precisar manter a estrutura do documento ao extrair conteúdo (como formatação de texto, imagens, etc.), considere usar bibliotecas mais avançadas como pdfplumber ou PDFMiner.

* Desempenho: Manipular PDFs pode ser intensivo em termos de processamento, especialmente para PDFs grandes ou com muitas imagens.

Essas são as operações mais comuns ao trabalhar com PDFs em Python. Dependendo do que você precisa fazer, pode escolher a biblioteca mais adequada ou até mesmo combinar várias delas.

## Vamos aprender a trabalhar com PDF usando o Python:


* Regra geral: PDF foi feito justamente para bloquear muita coisa, então não é fácil "brincar" com um pdf.
  * Mesmo assim, Python tem várias bibliotecas que vão nos ajudar, vamos focar em 2:
    * PyPDF2: Para ler e escrever PDFs.
    * Tabula: Para trabalhar com tabelas em PDF's.
  * Ler e extrair informações de um PDF a gente consegue fazer. 
  * Escrever e editar, aí já é outra história.

### **Para os nossos exemplos, vamos avaliar o Release de Resultados do 3º e 4º Trimestre de 2020 da Magazine Luiza.**

#### 1º Objetivo: Queremos conseguir separar apenas o DRE do Release de Resultados (Página 14) para enviar para a Diretoria, como fazemos?
* Separar as páginas de um pdf

In [1]:
import PyPDF2 as pyf
from pathlib import Path

nome_pdf = "MGLU_ER_3T20_POR.pdf"
arquivo_pdf = pyf.PdfReader(nome_pdf)

print(len(arquivo_pdf.pages))
for i, page in enumerate(arquivo_pdf.pages):
    num_pagina = i + 1
    novo_pdf = pyf.PdfWriter()
    novo_pdf.add_page(page)
    with Path(rf"Paginas\Arquivo Página {num_pagina}.pdf").open("wb") as arquivo:
        novo_pdf.write(arquivo)

24


#### 2º Objetivo: Com o Release de Resultados já separado página por página, queremos incluir apenas as Páginas de Destaque (Página 1), DRE (Página 14) e Balanço (Página 16).
* Juntar vários pdfs em 1

In [2]:
num_paginas = [1, 14, 16]
novo_arquivo = pyf.PdfWriter()


for page in num_paginas:
    pagina_pdf = pyf.PdfReader(rf"Paginas/Arquivo Página {page}.pdf")
    novo_arquivo.add_page(pagina_pdf.pages[0])

with Path(rf"Paginas\Pdf Junto.pdf").open("wb") as arquivo:
    novo_arquivo.write(arquivo)

### Extra: Para adicionar todas as páginas de 2 pdfs

In [3]:
pdf_mesclado = pyf.PdfMerger()

pdf_mesclado.append("MGLU_ER_3T20_POR.pdf")
pdf_mesclado.append("MGLU_ER_4T20_POR.pdf")

with Path(rf"Paginas\Mesclado.pdf").open("wb") as arquivo:
    pdf_mesclado.write(arquivo)

# Funcionalidades que podem ser úteis:

- Inserir arquivo no meio do outro
- Quero colocar dentro do Resultado do 4T20 os destaques do 3T20 para poder comparar os 2 dentro do mesmo relatório

In [5]:
import PyPDF2 as pyf
from pathlib import Path

pdf_mesclado = pyf.PdfMerger()

pdf_mesclado.append("MGLU_ER_4T20_POR.pdf")
pdf_mesclado.merge(1, rf"Paginas\Arquivo Página 1.pdf")

with Path(f"Relatório.pdf").open("wb") as arquivo:
    pdf_mesclado.write(arquivo)

- Rodar Página

In [6]:
arquivo_pdf_original = pyf.PdfReader("MGLU_ER_3T20_POR.pdf")
novo_arquivo_pdf = pyf.PdfWriter()

for i, page in enumerate(arquivo_pdf_original.pages):
    page.rotate(90)
    novo_arquivo_pdf.add_page(page)

with Path(rf"Rotacionadas.pdf").open("wb") as arquivo:
    novo_arquivo_pdf.write(arquivo)

## Trabalhando com Textos e Informações Dentro do PDF

#### 1º Objetivo: Quero identificar como foram as Despesas com Vendas da MGLU
* Pegar texto da página e identificar onde está essa informação

In [8]:
import PyPDF2 as pyf
from pathlib import Path

arquivo = pyf.PdfReader('MGLU_ER_3T20_POR.pdf')

qtde_paginas = len(arquivo.pages)
print(f"Quantidade de páginas: {qtde_paginas}")

metadados_arquivo = arquivo.metadata
print(f"Metadados do arquivo: {metadados_arquivo}")

Quantidade de páginas: 24
Metadados do arquivo: {'/Title': 'DESEMPENHO FINANCEIRO CONSOLIDADO', '/Author': 'an_rezende', '/Subject': 'Receita Bruta', '/Creator': 'Microsoft® Office Word 2007', '/CreationDate': "D:20201109183121-03'00'", '/ModDate': "D:20201109183121-03'00'", '/Producer': 'Microsoft® Office Word 2007'}


In [13]:
texto_referencia = "| Despesas com Vendas"

for i,page in enumerate(arquivo.pages):
    texto_pagina = page.extract_text()
    if texto_referencia in texto_pagina:
        print("Numero da página: ", i+1)
        texto_analisar = texto_pagina

Numero da página:  10


In [26]:
posicao_inicial = texto_analisar.find(texto_referencia)
posicao_final = texto_analisar.find('|', posicao_inicial+1)

texto_final = texto_analisar[posicao_inicial:posicao_final].strip().replace('|', '').replace('\n\n', '\n')
print(f'Texto de Despesas com Vendas:\n {texto_final}')

Texto de Despesas com Vendas:
  Despesas com Vendas  
 
No 3T20, as despesas com vendas totalizaram R$1.432,6 milhões, equivalentes a 17,2% da receita líquida, 1,1 p.p. menor que no 
3T19 , principalmente devido ao forte crescimento das vendas . Vale ressaltar que a Companhia conseguiu diluir as despesas com 
vendas m esmo investi ndo em maior nível de serviço,  especialmente em  atendimento e logística.  
 
Nos 9M20, as despesas com vendas totalizaram R$3.487,2 milhões, equivalentes a 18,2% da receita líquida (+1,1 p.p. versus  os 
9M19).


#### 2º Objetivo: Quero analisar o DRE (sem ajuste - Página 5)
- Para ler tabelas em pdf, use o tabula (é ninja)

- Cuidado 1: Instale o tabula-py (não instale o tabula). Se instalar o tabula errado, desinstale ele, instale o tabula-py, desinstale o tabula-py e instale novamente o tabula-py. Reinicie o kernel do Jupyter após isso

- Cuidado 2: Tem que ter o java instalado no seu computador (depois de instalar, reinicie o computador)

In [35]:
import tabula

tabela = tabula.read_pdf('MGLU_ER_3T20_POR.pdf', pages=5)
df_resultado = tabela[0]
df_resultado = df_resultado.dropna(how='all', axis=0)
df_resultado = df_resultado.dropna(how='all', axis=1)
df_resultado.columns = df_resultado.iloc[0]
df_resultado = df_resultado.drop(df_resultado.index[0]) # ou 
# df_resultado = df_resultado.iloc[1:]
df_resultado = df_resultado.reset_index(drop=True)
display(df_resultado)

Unnamed: 0,R$ milhões (exceto quando indicado),3T2,3T1,Var(%,9M2,9M1,Var(%.1
0,Vendas Totais1 (incluindo marketplace),"12.355,5","6.817,6",812,"28.584,","18.282,6",563
1,Receita Bruta,"10.349,5","5.999,4",725,"23.652,","16.508,8",433
2,Receita Líquida,"8.308,3","4.864,2",708,"19.111,","13.501,3",416
3,Lucro Bruto,"2.178,7","1.424,9",529,"5.034,","3.728,6",350
4,Margem Bruta,262,293,"-3,1 p",263,276,"-1,3 p"
5,EBITDA,5461,5012,90,"1.022,","1.276,5",-199
6,Margem EBITDA,66,103,"-3,7 p",53,95,"-4,2 p"
7,Lucro Líquido,2060,2351,-124,172,7538,-772
8,Margem Líquida,25,48,"-2,3 p",09,56,"-4,7 p"
9,Lucro Bruto - Ajustado,"2.178,7","1.488,9",463,"5.034,","3.964,6",270


#### 3º Objetivo: Quero analisar o Capital de Giro e os Investimentos (ambas as tabelas na página 12)
- Páginas com mais de 1 tabela

In [40]:
tabelas = tabula.read_pdf('MGLU_ER_3T20_POR.pdf', pages=12)

for i, table in enumerate(tabelas):
    table = table.dropna(how='all', axis=0)
    table = table.dropna(how='all', axis=1)
    table.columns = table.iloc[0]
    table = table.drop(table.index[0])
    table = table.reset_index(drop=True)
    print('\n')
    display(table)





Unnamed: 0,(+) Contas a Receber (sem Cartões de Crédito),"(26,7)","706,3","680,8","781,3","794,0","733,0"
0,(+) Estoques,"2.120,2","5.005,9","4.198,2","4.075,5","3.801,8","2.885,7"
1,(+) Partes Relacionadas (sem Cartão Luiza),"(10,5)",713,804,771,1006,818
2,(+) Impostos a Recuperar,1863,9320,7489,8774,8641,7457
3,(+) Outros Ativos,"(56,6)",885,1002,1435,1363,1451
4,(+) Ativos Circulantes Operacionais,"2.212,7","6.804,0","5.808,6","5.954,8","5.696,8","4.591,3"
5,(-) Fornecedores,"2.301,5","6.104,3","5.334,0","4.132,7","5.934,9","3.802,8"
6,(-) Repasses e outros depósitos,6273,6273,6393,2359,-,-
7,"(-) Salários, Férias e Encargos Sociais",950,4447,3290,2633,3547,3498
8,(-) Impostos a Recolher,907,2996,2064,1769,3520,2088
9,(-) Partes Relacionadas,"(15,8)",1098,1034,528,1521,1256






1,Lojas Novas,"21,2",14%,"94,6",51%,-78%,"69,0",21%,"121,9",31%,-43%
0,Reformas,61,4%,82,4%,-26%,146,4%,382,10%,-62%
1,Tecnologia,691,45%,326,18%,112%,1476,45%,844,22%,75%
2,Logística,363,24%,328,18%,11%,621,19%,1074,27%,-42%
3,Outros,215,14%,177,10%,22%,357,11%,388,10%,-8%
4,Total,1542,100%,1860,100%,-17%,3291,100%,3907,100%,-16%


#### O que fazer quando o tabula não consegue ler alguma linha da tabela? Como o cabeçalho, no nosso caso?


In [56]:
df_capital_giro = tabelas[0]
df_capital_giro = df_capital_giro.dropna(how='all', axis=0)
df_capital_giro = df_capital_giro.reset_index(drop=True)
df_capital_giro = df_capital_giro.drop(table.index[0])

# display(df_capital_giro)

tabelas_2 = tabula.read_pdf('MGLU_ER_3T20_POR.pdf', pages=12, lattice=True)
df_capital_giro2 = tabelas_2[0]
df_capital_giro2 = df_capital_giro2.dropna(how='all', axis=0)
df_capital_giro2 = df_capital_giro2.dropna(how='all', axis=1)
df_capital_giro2 = df_capital_giro2.reset_index(drop=True)
colunas = df_capital_giro2.iloc[0]
colunas = colunas.dropna()
df_capital_giro.columns = colunas


display(df_capital_giro)

Unnamed: 0,R$ milhões,Dif 12U,set-2,jun-2,mar-2,dez-1,set-1
1,(+) Estoques,"2.120,2","5.005,9","4.198,2","4.075,5","3.801,8","2.885,7"
2,(+) Partes Relacionadas (sem Cartão Luiza),"(10,5)",713,804,771,1006,818
3,(+) Impostos a Recuperar,1863,9320,7489,8774,8641,7457
4,(+) Outros Ativos,"(56,6)",885,1002,1435,1363,1451
5,(+) Ativos Circulantes Operacionais,"2.212,7","6.804,0","5.808,6","5.954,8","5.696,8","4.591,3"
6,(-) Fornecedores,"2.301,5","6.104,3","5.334,0","4.132,7","5.934,9","3.802,8"
7,(-) Repasses e outros depósitos,6273,6273,6393,2359,-,-
8,"(-) Salários, Férias e Encargos Sociais",950,4447,3290,2633,3547,3498
9,(-) Impostos a Recolher,907,2996,2064,1769,3520,2088
10,(-) Partes Relacionadas,"(15,8)",1098,1034,528,1521,1256


## Outro método que pode ser útil algum dia: Captar Imagem em um pdf
- biblioteca ``pikepdf``

In [64]:
from pikepdf import Pdf, PdfImage

arquivo = Pdf.open('MGLU_ER_3T20_POR.pdf')

for page in arquivo.pages:
    for nome,imagem in page.images.items():
        imagem_salvar = PdfImage(imagem)
        imagem_salvar.extract_to(fileprefix=rf'Imagens/{nome}')

## Substituir texto no pdf tipo contrato

- Não recomendo fazer diretamente pelo Python. Realmente do que vi a melhor opção me parece o Word fazer isso
- Caso precise automatizar, automatize o processo fazendo ele pelo Word
- Quem quiser MUITO fazer isso pelo Python, tem um link aqui que vai te ajudar de uma solução que achei que funciona. Tem seus bugs/cuidados especiais, mas funciona: https://pdf.co/samples/pdf-co-web-api-replace-text-from-pdf-python-replace-text-from-url