In [None]:
import json
from openai import OpenAI
import pandas as pd
import os
import time
from rich.progress import track, Progress, TextColumn, BarColumn, SpinnerColumn, TimeElapsedColumn
from rich.console import Console

# Criar uma instância de console para exibição formatada
console = Console()

# Configuração da OpenAI
client = OpenAI(api_key="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")

# Definir caminhos e arquivos
BASE_PATH = "C:\\Users\\Haroldo Duraes\\Desktop\\GOvGO\\v0\\#DATA\\PNCP\\"
CAT_PATH = BASE_PATH + "CAT\\"
CATMAT_FILE = CAT_PATH + "catmat_datasets_nv1.xlsx"  # Atualizado para versão nv1
CATSER_FILE = CAT_PATH + "catser_datasets_nv1.xlsx"  # Atualizado para versão nv1
TRAINING_SHEET = "training"
VALIDATION_SHEET = "validation"

# Arquivos de saída para fine-tuning
TRAINING_FILE = CAT_PATH + "cat_training_nv1.jsonl"
VALIDATION_FILE = CAT_PATH + "cat_validation_nv1.jsonl"

In [2]:

# Carregar os dados
console.print("[bold yellow]Carregando dados do CATMAT nível 1...[/bold yellow]")
try:
    catmat_training = pd.read_excel(CATMAT_FILE, sheet_name=TRAINING_SHEET)
    catmat_validation = pd.read_excel(CATMAT_FILE, sheet_name=VALIDATION_SHEET)
    console.print(f"[green]CATMAT carregado: {catmat_training.shape[0]} itens de treinamento, {catmat_validation.shape[0]} itens de validação[/green]")
except Exception as e:
    console.print(f"[bold red]Erro ao carregar CATMAT: {str(e)}[/bold red]")
    raise

console.print("[bold yellow]Carregando dados do CATSER nível 1...[/bold yellow]")
try:
    catser_training = pd.read_excel(CATSER_FILE, sheet_name=TRAINING_SHEET)
    catser_validation = pd.read_excel(CATSER_FILE, sheet_name=VALIDATION_SHEET)
    console.print(f"[green]CATSER carregado: {catser_training.shape[0]} itens de treinamento, {catser_validation.shape[0]} itens de validação[/green]")
except Exception as e:
    console.print(f"[bold red]Erro ao carregar CATSER: {str(e)}[/bold red]")
    raise

# Juntar os DataFrames
console.print("[bold yellow]Combinando dados de CATMAT e CATSER...[/bold yellow]")
training_df = pd.concat([catmat_training, catser_training], ignore_index=True)
validation_df = pd.concat([catmat_validation, catser_validation], ignore_index=True)

# Estatísticas sobre os conjuntos combinados
console.print(f"[green]Conjunto de treinamento combinado: {training_df.shape[0]} itens[/green]")
console.print(f"[green]Conjunto de validação combinado: {validation_df.shape[0]} itens[/green]")

# Verificar a distribuição dos tipos
material_train = training_df['CATEGORIA'].str.startswith('MATERIAL;').sum()
service_train = training_df['CATEGORIA'].str.startswith('SERVIÇO;').sum()
material_valid = validation_df['CATEGORIA'].str.startswith('MATERIAL;').sum()
service_valid = validation_df['CATEGORIA'].str.startswith('SERVIÇO;').sum()

console.print(f"[green]Treinamento: {material_train} materiais e {service_train} serviços[/green]")
console.print(f"[green]Validação: {material_valid} materiais e {service_valid} serviços[/green]")

# Verificar número de categorias únicas
console.print(f"[green]Número de categorias únicas em treinamento: {training_df['CATEGORIA'].nunique()}[/green]")
console.print(f"[green]Número de categorias únicas em validação: {validation_df['CATEGORIA'].nunique()}[/green]")

In [3]:

# Definir a mensagem do sistema
system_message = """Classifique o ITEM na CATEGORIA apropriada. Materiais começam com 'MATERIAL' e serviços com 'SERVIÇO'. Responda apenas com a categoria."""

def prepare_example_conversation(row):
    """Prepara um exemplo de conversa com base na linha do dataframe."""
    messages = []
    
    # Adiciona a mensagem do sistema
    messages.append({"role": "system", "content": system_message})
    
    # Adiciona a mensagem do usuário contendo apenas o ITEM
    user_message = f"Classifique: {row['ITEM']}"
    messages.append({"role": "user", "content": user_message})
    
    # Adiciona a resposta esperada (a CATEGORIA)
    assistant_message = f"{row['CATEGORIA']}"
    messages.append({"role": "assistant", "content": assistant_message})

    return {"messages": messages}

# Aplicar a função a cada linha dos dataframes de treinamento e validação
console.print("[bold yellow]Preparando conversas de treinamento...[/bold yellow]")
training_conversations = [prepare_example_conversation(row) for row in track(training_df.to_dict('records'), description="Processando")]

console.print("[bold yellow]Preparando conversas de validação...[/bold yellow]")
validation_conversations = [prepare_example_conversation(row) for row in track(validation_df.to_dict('records'), description="Processando")]

# Mostrar alguns exemplos de conversas preparadas
console.print("\n[bold green]Exemplos de conversas de treinamento:[/bold green]")
for i, conv in enumerate(training_conversations[:3]):
    console.print(f"[bold cyan]Exemplo {i+1}:[/bold cyan]")
    for msg in conv["messages"]:
        console.print(f"[bold]{msg['role']}:[/bold] {msg['content']}")
    console.print("")

# Função para salvar dados em formato JSONL
def write_jsonl(data_list, filename):
    """Salva a lista de dicionários em um arquivo .jsonl."""
    with open(filename, "w", encoding="utf-8") as out:
        for ddict in data_list:
            jout = json.dumps(ddict, ensure_ascii=False) + "\n"
            out.write(jout)

# Salvar os conjuntos de treinamento e validação em .jsonl
console.print("[bold yellow]Salvando arquivos JSONL...[/bold yellow]")
write_jsonl(training_conversations, TRAINING_FILE)
write_jsonl(validation_conversations, VALIDATION_FILE)

console.print(f"[green]Arquivos salvos em:[/green]")
console.print(f"- Treinamento: {TRAINING_FILE}")
console.print(f"- Validação: {VALIDATION_FILE}")


Output()

Output()

In [4]:
# Função para realizar upload com feedback visual
def upload_file_with_progress(filepath, purpose):
    file_size = os.path.getsize(filepath)
    file_name = os.path.basename(filepath)
    
    with Progress(
        SpinnerColumn(),
        TextColumn("[bold cyan]{task.description}"),
        BarColumn(),
        TextColumn("[bold yellow]{task.fields[status]}"),
        TimeElapsedColumn()
    ) as progress:
        # Criar a tarefa de upload
        task = progress.add_task(f"Enviando {file_name}", total=3, status="Inicializando...")
        
        # Etapa 1: Preparando arquivo
        progress.update(task, advance=1, status="Preparando arquivo...")
        time.sleep(0.5)  # Pequena pausa para visualização
        
        # Etapa 2: Enviando arquivo
        progress.update(task, advance=1, status=f"Enviando {file_size/1024/1024:.2f} MB...")
        
        # Realizar o upload de fato
        try:
            response = client.files.create(file=open(filepath, "rb"), purpose=purpose)
            
            # Etapa 3: Concluído
            progress.update(task, advance=1, status="Concluído!")
            return response
        except Exception as e:
            progress.update(task, status=f"Erro: {str(e)}")
            raise e

# Fazer upload dos arquivos para a OpenAI
console.print("[bold magenta]Enviando arquivos para a OpenAI...[/bold magenta]")

try:
    console.print("\n[bold]Arquivo de treinamento:[/bold]")
    training_response = upload_file_with_progress(TRAINING_FILE, "fine-tune")
    
    console.print("\n[bold]Arquivo de validação:[/bold]")
    validation_response = upload_file_with_progress(VALIDATION_FILE, "fine-tune")
    
    console.print(f"\n[green]Upload concluído com sucesso![/green]")
    console.print(f"- ID do arquivo de treinamento: {training_response.id}")
    console.print(f"- ID do arquivo de validação: {validation_response.id}")
    
    # Salvar os IDs em variáveis para uso posterior
    training_file_id = training_response.id
    validation_file_id = validation_response.id
    
except Exception as e:
    console.print(f"\n[bold red]Erro ao fazer upload: {str(e)}[/bold red]")

Output()

Output()

In [5]:
# Iniciando o job de fine-tuning
console.print("[bold magenta]Iniciando o job de fine-tuning...[/bold magenta]")

try:
    # Verificar se temos os IDs dos arquivos
    if 'training_file_id' in locals() and 'validation_file_id' in locals():
        #ft_job = client.fine_tuning.jobs.create(
        #    training_file=training_file_id,
        #    validation_file=validation_file_id,
        #    model="gpt-4o-mini-2024-07-18",
        #    suffix="cat_nv1"
        #)

        ft_job = client.fine_tuning.jobs.create(
            training_file=training_file_id,
            validation_file=validation_file_id,
            model="gpt-4o-mini-2024-07-18",
            suffix="cat_nv1",
            hyperparameters={
                "n_epochs": 3,
                "batch_size": "auto",       # deixar auto para o serviço definir otimamente, ou especifique um int
                "learning_rate_multiplier": 1.0  # por exemplo, 1.0 (pode ajustar conforme necessidade)
            }
        )
        
        console.print(f"[green]Job de fine-tuning iniciado com sucesso![/green]")
        console.print(f"- ID do job: {ft_job.id}")
        console.print(f"- Status: {ft_job.status}")
        console.print("[bold]Você pode monitorar o progresso do fine-tuning através da API ou do dashboard da OpenAI.[/bold]")
    else:
        console.print("[bold red]Erro: IDs dos arquivos não encontrados. Execute primeiro o upload dos arquivos.[/bold red]")
        
except Exception as e:
    console.print(f"\n[bold red]Erro ao iniciar fine-tuning: {str(e)}[/bold red]")

In [33]:
response_v2 = client.fine_tuning.jobs.list_events(ft_job.id, limit=1000)

events = [event for event in response_v2]
events.reverse()

for event in events:
    print(event.message)

Created fine-tuning job: ftjob-CUv9Yg0E7F39LYzE3FVztzgg
Validating training file: file-L4BTGoxcQmSDoftkCUpLmx and validation file: file-HM7ve34U6rKSg8uNZZFgR2
Files validated, moving job to queued state
Fine-tuning job started
Step 1/1566: training loss=3.68
Step 2/1566: training loss=3.72
Step 3/1566: training loss=4.08
Step 4/1566: training loss=3.59
Step 5/1566: training loss=3.64
Step 6/1566: training loss=3.56
Step 7/1566: training loss=3.71
Step 8/1566: training loss=3.32
Step 9/1566: training loss=3.36
Step 10/1566: training loss=3.33
Step 11/1566: training loss=3.25
Step 12/1566: training loss=3.08
Step 13/1566: training loss=3.33
Step 14/1566: training loss=3.09
Step 15/1566: training loss=2.84
Step 16/1566: training loss=3.06
Step 17/1566: training loss=2.66
Step 18/1566: training loss=2.64
Step 19/1566: training loss=2.77
Step 20/1566: training loss=2.85
Step 21/1566: training loss=2.66
Step 22/1566: training loss=2.34
Step 23/1566: training loss=2.37
Step 24/1566: training 

In [32]:


def analyze_fine_tuning(job_id, client):
    """Função para analisar o job de fine-tuning após a conclusão."""
    console.print("[bold magenta]Recuperando detalhes do job de fine-tuning...[/bold magenta]")
    job_details = client.fine_tuning.jobs.retrieve(job_id)
    console.print(f"[green]Job ID:[/green] {job_details.id}")
    console.print(f"[green]Status:[/green] {job_details.status}")
    
    if hasattr(job_details, "fine_tuned_model") and job_details.fine_tuned_model:
        console.print(f"[green]Modelo Fine-Tuned:[/green] {job_details.fine_tuned_model}")
    else:
        console.print("[yellow]O modelo fine-tuned ainda não está disponível.[/yellow]")
    
    console.print("\n[bold magenta]Listando eventos do job...[/bold magenta]")
    events = client.fine_tuning.jobs.list_events(fine_tuning_job_id=job_id, limit=10)
    for event in events:
        console.print(f"{event.created_at} - {event.message}")
    
    if hasattr(job_details, "result_files") and job_details.result_files:
        console.print("\n[bold magenta]Arquivos de resultado do job:[/bold magenta]")
        for file_info in job_details.result_files:
            console.print(f"Arquivo: {file_info.filename} (ID: {file_info.id})")
            # Opcional: se quiser analisar o conteúdo, descomente as linhas abaixo:
            # content = client.files.retrieve_contents(file_info.id)
            # console.print(content)
    else:
        console.print("[yellow]Nenhum arquivo de resultado disponível.[/yellow]")

# Executar a análise (assegure que 'job_id' e 'client' já estejam definidos)
analyze_fine_tuning(ft_job.id, client)


KeyboardInterrupt: 