In [6]:
# Célula 1
import pdfplumber
import pandas as pd
import re
import os

print("Bibliotecas importadas com sucesso! ✔️")

Bibliotecas importadas com sucesso! ✔️


In [7]:
# Célula 2 (Versão Final - Lógica Reescrita)

def processar_rundown_pdf(caminho_pdf):
    """
    Função reescrita para extrair dados do rundown de forma robusta,
    processando os blocos em uma única passagem.
    """
    if not os.path.exists(caminho_pdf):
        print(f"Erro: O arquivo não foi encontrado em '{caminho_pdf}'")
        return None

    dados_finais = []
    bloco_numero = 1

    with pdfplumber.open(caminho_pdf) as pdf:
        for pagina in pdf.pages:
            tabelas = pagina.extract_tables()
            for tabela in tabelas:
                for linha in tabela:
                    # Checagem nº 1: É uma linha de Break?
                    # Procuramos por 'Break' no primeiro elemento da linha.
                    if linha and linha[0] and isinstance(linha[0], str) and 'Break' in linha[0]:
                        bloco_numero += 1
                        continue  # Pula para a próxima linha, não adiciona o Break aos dados

                    # Checagem nº 2: É uma linha de dados válida?
                    # A condição principal: a última coluna DEVE ser um número (a Ordem).
                    if len(linha) >= 10 and linha[-1] and isinstance(linha[-1], str) and linha[-1].isdigit():
                        dados_finais.append({
                            'Bloco': f"Bloco {bloco_numero:02d}",
                            'Tipo': linha[1],
                            'Retranca': linha[2],
                            'Início (Lauda)': linha[6],
                            'Fim (Lauda)': linha[7],
                            'Ordem': int(linha[9]) # Já converte para inteiro aqui
                        })

    if not dados_finais:
        print("Atenção: Nenhum dado de lauda válido foi extraído.")
        return None

    # Cria o DataFrame diretamente da lista de dicionários
    df = pd.DataFrame(dados_finais)

    # Apenas ordena, pois os tipos e nomes de coluna já estão corretos
    df = df.sort_values(by='Ordem').reset_index(drop=True)

    print("Função 'processar_rundown_pdf' (Versão Final) pronta para ser usada! 🔥")
    return df

In [8]:
# Célula 3
# IMPORTANTE: Coloque o caminho para o seu PDF aqui.
# Se o notebook e o PDF estão na mesma pasta, só o nome do arquivo basta.
caminho_do_pdf = "rundown-display.pdf"

# Chama a função que criamos na célula anterior
df_rundown = processar_rundown_pdf(caminho_do_pdf)

# Se o DataFrame foi criado, exibe ele na tela
if df_rundown is not None:
    df_rundown

Função 'processar_rundown_pdf' (Versão Final) pronta para ser usada! 🔥


In [9]:
# Célula 4
if df_rundown is not None:
    caminho_saida_csv = "rundown_processado.csv"
    df_rundown.to_csv(caminho_saida_csv, index=False, encoding='utf-8-sig')
    print(f"Arquivo salvo com sucesso em '{caminho_saida_csv}'! 💾")

Arquivo salvo com sucesso em 'rundown_processado.csv'! 💾
