In [None]:
import os
import pandas as pd
from dotenv import load_dotenv
from langchain import LLMChain, PromptTemplate

from langchain_openai import ChatOpenAI

In [None]:
load_dotenv()
assert os.getenv("OPENAI_API_KEY"), "Defina OPENAI_API_KEY em .env"

In [None]:
PATH = "cleaned_list.xlsx"  # ou "cleaned_list.xlsx" se estiver na mesma pasta
df = pd.read_excel(PATH, dtype=str)

df = df.head(1000)
print(f"Linhas carregadas: {len(df)}")

In [None]:
prompt = PromptTemplate(
    input_variables=["descricao"],
    template=(
        "Dado o nome de um produto, responda com o NOME DA MARCA associada.\n"
        "Se não houver marca, responda exatamente: Nenhuma.\n\n"
        "Exemplos:\n"
        "- Neutrogena Sun Fresh FPS 70 200 ML → Neutrogena\n"
        "- Nescau Achocolatado em pó 400g → Nescau\n"
        "- Papel A4 200x300 UND → Nenhuma\n\n"
        "Produto: {descricao}\n"
        "Marca:"
    ),
)

In [None]:
llm = ChatOpenAI(model="gpt-4o", temperature=0)
chain = LLMChain(llm=llm, prompt=prompt)

In [None]:
import pandas as pd
import time
from datetime import datetime

def classify_brands(df: pd.DataFrame, desc_col: str, feedback_interval: int = 10) -> pd.Series:
    """
    Para cada descrição em df[desc_col], executa o LLMChain e retorna uma Series de marcas.
    
    Args:
        df: DataFrame com os dados
        desc_col: Nome da coluna com as descrições
        feedback_interval: Intervalo para mostrar feedback (padrão: a cada 10 itens)
    """
    marcas = []
    total = len(df)
    start_time = time.time()
    
    print(f"🚀 Iniciando classificação de {total} produtos...")
    print(f"⏰ Início: {datetime.now().strftime('%H:%M:%S')}")
    print("-" * 60)
    
    for i, txt in enumerate(df[desc_col].fillna("").astype(str)):
        if not txt.strip():
            marca = "Nenhuma"
        else:
            try:
                resp = chain.run(descricao=txt).strip()
                marca = resp
            except Exception as e:
                print(f"❌ Erro no item {i+1}: {e}")
                marca = "Erro"
        
        marcas.append(marca)
        
        # Feedback detalhado a cada X itens
        if (i + 1) % feedback_interval == 0 or (i + 1) == total:
            elapsed = time.time() - start_time
            progress = (i + 1) / total * 100
            avg_time = elapsed / (i + 1)
            remaining_time = avg_time * (total - i - 1)
            
            print(f"📊 Progresso: {i+1}/{total} ({progress:.1f}%)")
            print(f"⏱️  Tempo decorrido: {elapsed:.1f}s | Tempo restante estimado: {remaining_time:.1f}s")
            print(f"🏷️  Última marca encontrada: '{marca}'")
            print(f"📝 Produto: {txt[:50]}{'...' if len(txt) > 50 else ''}")
            
            # Mostrar estatísticas parciais
            marcas_parciais = pd.Series(marcas)
            marcas_unicas = marcas_parciais[marcas_parciais.str.lower() != "nenhuma"]
            print(f"📈 Marcas identificadas até agora: {len(marcas_unicas)} de {len(marcas_parciais)}")
            
            if len(marcas_unicas) > 0:
                top_marcas = marcas_unicas.value_counts().head(3)
                print(f"🔝 Top 3 marcas: {', '.join([f'{m} ({c})' for m, c in top_marcas.items()])}")
            
            print("-" * 60)
    
    total_time = time.time() - start_time
    print(f"✅ Classificação concluída!")
    print(f"⏰ Tempo total: {total_time:.1f}s")
    print(f"📊 Velocidade média: {total/total_time:.1f} produtos/segundo")
    
    return pd.Series(marcas, index=df.index)

In [8]:
print("Rodando o script")

COL_DESC = "Produto/Serviço"
df = df.head(300).copy()
df["Marca"] = classify_brands(df, COL_DESC)
df_com_marca = df[df["Marca"].str.lower() != "nenhuma"]
print(f"Encontrados {len(df_com_marca)} produtos com marca.")

# Extrair lista de todas as marcas únicas (excluindo "nenhuma")
lista_marcas = df_com_marca["Marca"].unique().tolist()
print(f"Total de marcas únicas encontradas: {len(lista_marcas)}")
print("Marcas encontradas:")
for marca in sorted(lista_marcas):
    print(f"- {marca}")

# Salvar o DataFrame com a nova coluna "Marca"
# Opção 1: Salvar como CSV
df.to_csv("produtos_com_marcas.csv", index=False, encoding="utf-8")
print("\nDataFrame salvo como 'produtos_com_marcas.csv'")

# Opção 2: Salvar como Excel (descomente se preferir)
# df.to_excel("produtos_com_marcas.xlsx", index=False)
# print("DataFrame salvo como 'produtos_com_marcas.xlsx'")

# Opção 3: Salvar como Parquet (mais eficiente para grandes datasets)
# df.to_parquet("produtos_com_marcas.parquet", index=False)
# print("DataFrame salvo como 'produtos_com_marcas.parquet'")

# Mostrar algumas estatísticas
print(f"\nResumo:")
print(f"Total de produtos: {len(df)}")
print(f"Produtos com marca identificada: {len(df_com_marca)}")
print(f"Produtos sem marca: {len(df) - len(df_com_marca)}")
print(f"Marcas únicas: {len(lista_marcas)}")

# Visualizar as primeiras linhas do DataFrame com a nova coluna
print(f"\nPrimeiras 5 linhas do DataFrame com a coluna Marca:")
print(df[["Produto/Serviço", "Marca"]].head())

Rodando o script


KeyboardInterrupt: 