In [None]:
import pdfplumber
import pandas as pd
import re

def extrair_dados_pdf(pdf_path):
    """
    Extrai dados de um arquivo PDF com várias páginas seguindo um padrão específico.

    Args:
        pdf_path: O caminho para o arquivo PDF.

    Returns:
        Um DataFrame pandas com os dados extraídos.
    """

    with pdfplumber.open(pdf_path) as pdf:
        all_text = ""
        for page in pdf.pages:
            all_text += page.extract_text() + "\n"

    # Expressão regular para extrair os dados
    padrao = r"(\d+), ([A-Za-z\s]+), ([\d\.]+), ([\d\.]+), ([\d\.]+), ([\d\.]+), ([\d\.]+), ([\d\.]+), ([\d\.]+)"
    linhas = re.findall(padrao, all_text)

    # Criar um DataFrame pandas
    df = pd.DataFrame(linhas, columns=["ID", "Nome", "Nota1", "Nota2", "Nota3", "Nota4", "Nota5", "Nota6", "Total"])

    # Converter colunas numéricas para o tipo float
    colunas_numericas = ["Nota1", "Nota2", "Nota3", "Nota4", "Nota5", "Nota6", "Total"]
    df[colunas_numericas] = df[colunas_numericas].apply(pd.to_numeric, errors='coerce')

    return df

# Substitua 'seu_arquivo.pdf' pelo caminho real do seu arquivo
pdf_path = '/content/notas_listagem_discursivas.pdf'
df_dados = extrair_dados_pdf(pdf_path)

# Exibir o DataFrame
print(df_dados)

# Salvar o DataFrame em um arquivo Excel (opcional)
df_dados.to_excel("dados_extraidos.xlsx", index=False)