In [2]:
from google.colab import drive
import os

print("Conectando ao Google Drive...")
drive.mount('/content/drive')

# Define o caminho para a pasta que contém os seus arquivos PDF
drive_folder_path = "//content/drive/MyDrive/MBABIGDATAIA/DATASET"

# Verifica se a pasta existe para evitar erros
if os.path.exists(drive_folder_path):
    print(f"Pasta encontrada com sucesso: {drive_folder_path}")
else:
    print(f"ERRO: A pasta não foi encontrada em: {drive_folder_path}")
    print("Por favor, verifique se o caminho está correto e se a pasta existe no seu Google Drive.")

Conectando ao Google Drive...
Mounted at /content/drive
Pasta encontrada com sucesso: //content/drive/MyDrive/MBABIGDATAIA/DATASET


In [3]:
import pandas as pd
import os
from pathlib import Path

# --- FASE 1: Carregamento para um DataFrame ---

# Caminho para a pasta com os arquivos .txt gerados pelo PymuPDF
input_dir_path = Path("/content/drive/MyDrive/MBABIGDATAIA/DATASET")

# Lista para armazenar os dados dos arquivos
document_data = []

# Loop para ler cada arquivo na pasta
print(f"Carregando arquivos para o DataFrame da pasta: {input_dir_path}")
for file_path in input_dir_path.glob("*.txt"):
    with open(file_path, 'r', encoding='utf-8') as f:
        # Lê o conteúdo completo de cada arquivo
        full_text = f.read()
        document_data.append({'nome_arquivo': file_path.name, 'texto_ata': full_text})

# Cria o DataFrame inicial onde cada linha é um documento
df = pd.DataFrame(document_data)
print("DataFrame inicial criado:")
print(df)

# Add a check to see if the DataFrame is empty
if df.empty:
    print(f"\nATENÇÃO: Nenhum arquivo .txt encontrado na pasta: {input_dir_path}")
    print("Por favor, verifique o caminho e se os arquivos estão presentes.")
else:
    print("\n" + "="*50 + "\n")

Carregando arquivos para o DataFrame da pasta: /content/drive/MyDrive/MBABIGDATAIA/DATASET
DataFrame inicial criado:
             nome_arquivo                                          texto_ata
0       reh20223050ti.txt  AGÊNCIA NACIONAL DE ENERGIA ELÉTRICA - ANEEL \...
1         dsp20221669.txt   \n  \nAGÊNCIA NACIONAL DE ENERGIA ELÉTRICA – ...
2         dsp20221624.txt  AGÊNCIA NACIONAL DE ENERGIA ELÉTRICA – ANEEL \...
3         dsp20221621.txt  AGÊNCIA NACIONAL DE ENERGIA ELÉTRICA – ANEEL \...
4         dsp20221637.txt  AGÊNCIA NACIONAL DE ENERGIA ELÉTRICA – ANEEL \...
...                   ...                                                ...
10259  rea202212800ti.txt   \n \nAGÊNCIA NACIONAL DE ENERGIA ELÉTRICA - A...
10260  rea202212801ti.txt  AGÊNCIA NACIONAL DE ENERGIA ELÉTRICA – ANEEL \...
10261  rea202212802ti.txt  AGÊNCIA NACIONAL DE ENERGIA ELÉTRICA – ANEEL \...
10262  rea202212803ti.txt  AGÊNCIA NACIONAL DE ENERGIA ELÉTRICA – ANEEL  ...
10263  rea202212804ti.txt  AGÊNCIA N

In [4]:
# prompt: gerar um csv com esse dataframe

# --- FASE 2: Geração do CSV ---

# Define o nome do arquivo CSV de saída
output_csv_filename = "DATASET-5YTD.csv"
output_csv_path = Path(drive_folder_path) / output_csv_filename

# Salva o DataFrame em um arquivo CSV no Google Drive
print(f"Salvando o DataFrame para CSV: {output_csv_path}")
df.to_csv(output_csv_path, index=False, encoding='utf-8')

print(f"Arquivo CSV '{output_csv_filename}' gerado com sucesso em: {output_csv_path}")

# Você pode verificar se o arquivo foi criado listando o conteúdo da pasta (opcional)
# !ls /content/drive/MyDrive/MBABIGDATAIA/DATASET


Salvando o DataFrame para CSV: //content/drive/MyDrive/MBABIGDATAIA/DATASET/DATASET-5YTD.csv
Arquivo CSV 'DATASET-5YTD.csv' gerado com sucesso em: //content/drive/MyDrive/MBABIGDATAIA/DATASET/DATASET-5YTD.csv
