In [None]:
# --- C√âLULA 1: INSTALA√á√ÉO SEGURA ---
# Instala apenas o SDK do Gemini, sem quebrar o Colab
!pip install -q -U google-generativeai
print("‚úÖ Instala√ß√£o conclu√≠da. Pode rodar a pr√≥xima c√©lula.")

# --- C√âLULA 2: CONEX√ÉO (LIMPA) ---
import google.generativeai as genai
from google.colab import userdata
import sys

# 1. Configura Chave
try:
    GEMINI_API_KEY = userdata.get("GEMINI_API_KEY")
except Exception:
    GEMINI_API_KEY = None

if not GEMINI_API_KEY:
    GEMINI_API_KEY = input("Insira aqui sua chave")

genai.configure(api_key=GEMINI_API_KEY)

# 2. Seleciona o modelo que sabemos que funcionou (2.5-flash)
# O script anterior j√° nos confirmou que voc√™ tem acesso a ele.
MODEL_NAME = "models/gemini-2.5-flash"

print(f"‚öôÔ∏è Configurando modelo: {MODEL_NAME}")
model = genai.GenerativeModel(MODEL_NAME)

try:
    resp = model.generate_content("Responda apenas: Conectado")
    print(f"‚úÖ Status: {resp.text.strip()}")
except Exception as e:
    print(f"‚ùå Erro: {e}")

# --- C√âLULA 3: UPLOAD DE ARQUIVO LOCAL ---
from google.colab import files
import pandas as pd
import io

print("üìÇ Clique no bot√£o abaixo para fazer upload do 'olist_products_dataset.csv'")
uploaded = files.upload()

# Verifica se o upload funcionou
if uploaded:
    # Pega o nome do primeiro arquivo enviado
    filename = list(uploaded.keys())[0]
    print(f"\n‚úÖ Arquivo recebido: {filename}")

    # L√™ o CSV direto da mem√≥ria
    try:
        df = pd.read_csv(io.BytesIO(uploaded[filename]))
        print(f"üìä Dataset carregado: {len(df)} linhas.")

        # --- PREPARA√á√ÉO DOS DADOS (ETL) ---
        print("‚öôÔ∏è Preparando descri√ß√µes para o Gemini...")

        def criar_descricao(row):
            partes = []
            if pd.notna(row.get("product_category_name")):
                partes.append(f"Categoria: {row['product_category_name']}")
            if pd.notna(row.get("product_weight_g")):
                partes.append(f"Peso: {row['product_weight_g']}g")

            # Se n√£o tiver nada, retorna vazio
            if not partes:
                return ""
            return " | ".join(partes)

        df["descricao_sintetica"] = df.apply(criar_descricao, axis=1)

        # Filtra produtos sem descri√ß√£o ou muito curtos
        df_proc = df[df["descricao_sintetica"].str.len() > 5].copy()

        print("-" * 30)
        print(
            f"üöÄ Tudo pronto! {len(df_proc)} produtos qualificados para enriquecimento."
        )

    except Exception as e:
        print(f"‚ùå Erro ao ler o CSV: {e}")
        print("Verifique se o arquivo √© realmente um CSV separado por v√≠rgulas.")
else:
    print("‚ö†Ô∏è Nenhum arquivo foi enviado. Rode a c√©lula novamente.")

# C√©lula 4 ‚Äî Engenharia de Prompt e Descri√ß√£o Sint√©tica


# 1. Prepara√ß√£o dos dados (Criando input para o LLM)
def criar_descricao_sintetica(row):
    partes = []
    # Tratamento b√°sico de nulos e formata√ß√£o
    if pd.notna(row.get("product_category_name")):
        partes.append(f"Categoria Original: {row['product_category_name']}")
    if pd.notna(row.get("product_weight_g")):
        partes.append(f"Peso: {row['product_weight_g']}g")
    if pd.notna(row.get("product_length_cm")):
        dims = f"{row['product_length_cm']}x{row['product_width_cm']}x{row['product_height_cm']}"
        partes.append(f"Dimens√µes (CxLxA): {dims} cm")

    return " | ".join(partes)


df["descricao_sintetica"] = df.apply(criar_descricao_sintetica, axis=1)
# Filtra apenas quem tem alguma informa√ß√£o
df_proc = df[df["descricao_sintetica"].str.len() > 10].copy()

# 2. Defini√ß√£o do Prompt do Sistema
# Dica de Data Engineer: Definir o schema esperado ajuda na valida√ß√£o posterior
SYSTEM_PROMPT = """
Voc√™ √© um especialista em categoriza√ß√£o de produtos e Master Data Management.
Analise os dados t√©cnicos do produto e enrique√ßa as informa√ß√µes.

REGRAS DE SA√çDA:
1. Retorne APENAS um objeto JSON v√°lido.
2. N√£o use blocos de c√≥digo Markdown (```json).
3. Se n√£o conseguir identificar, use null.

SCHEMA JSON ESPERADO:
{
  "categoria_normalizada": "string (ex: Eletr√¥nicos, Casa e Decora√ß√£o)",
  "subcategoria": "string",
  "tags": ["string", "string"],
  "perfil_logistico": "string (ex: Leve, Pesado, Sobredimensionado)",
  "publico_alvo": "string",
  "sugestao_nome_produto": "string (um nome comercial atrativo baseado nos dados)"
}
"""

print(f"Dados preparados. Linhas para processamento: {len(df_proc)}")

# --- C√âLULA 5: FUN√á√ÉO DE EXTRA√á√ÉO ROBUSTA (ANTI-429) ---
import time
import json
import google.generativeai as genai


def limpar_json(text):
    """Remove caracteres indesejados do Markdown."""
    text = text.strip()
    if text.startswith("```json"):
        text = text[7:]
    if text.startswith("```"):
        text = text[3:]
    if text.endswith("```"):
        text = text[:-3]
    return text


def extrair_features(descricao, tentativas_max=3):
    prompt = f"DADOS DO PRODUTO:\n{descricao}\n\nRetorne o JSON."

    # SYSTEM PROMPT (Recapitulando para garantir o contexto na fun√ß√£o)
    sys_prompt = """
    Voc√™ √© um especialista em e-commerce. Retorne APENAS um JSON v√°lido.
    Campos: categoria_normalizada, subcategoria, tags (lista), perfil_logistico, publico_alvo, sugestao_nome_produto.
    Use null se n√£o souber.
    """

    for i in range(tentativas_max):
        try:
            response = model.generate_content(
                [sys_prompt, prompt],
                generation_config={
                    "temperature": 0.1,
                    "response_mime_type": "application/json",
                },
            )
            return json.loads(limpar_json(response.text))

        except Exception as e:
            erro_str = str(e)

            # Se o erro for de COTA (429), precisamos esperar mais tempo
            if "429" in erro_str or "quota" in erro_str.lower():
                wait_time = 30  # Espera 30 segundos (Tier gratuito √© restrito)
                print(
                    f"‚è≥ Cota atingida. Esperando {wait_time}s para tentar novamente..."
                )
                time.sleep(wait_time)
            else:
                # Outros erros (ex: JSON inv√°lido), espera pouco
                print(f"‚ö†Ô∏è Erro na tentativa {i + 1}: {e}")
                time.sleep(2)

    return None  # Desiste ap√≥s as tentativas


# --- C√âLULA 6: PROCESSAMENTO SEGURO (ANTI-429) ---
import time
import json
from tqdm import tqdm

# Limite pequeno para garantir sucesso no teste
SAMPLE_SIZE = 10
df_sample = df_proc.sample(n=min(SAMPLE_SIZE, len(df_proc)), random_state=42)
resultados = []

print(f"üöÄ Processando {len(df_sample)} itens com Gemini 2.5...")


def extrair_features_safe(texto):
    prompt = f"Analise: {texto}. Retorne JSON com campos: categoria_normalizada, tags, publico_alvo."
    try:
        # Tenta chamar a API
        resp = model.generate_content(
            prompt, generation_config={"response_mime_type": "application/json"}
        )
        return json.loads(resp.text)
    except Exception as e:
        # Se der erro (provavelmente cota), retorna None mas n√£o quebra o loop
        return None


for idx, row in tqdm(df_sample.iterrows(), total=len(df_sample)):
    dados = extrair_features_safe(row["descricao_sintetica"])

    if dados:
        resultados.append({**row.to_dict(), **dados})

    # PAUSA OBRIGAT√ìRIA PARA O GEMINI 2.5 (PLANO FREE)
    # Ele permite poucas chamadas por minuto. 10s √© seguro.
    time.sleep(10)

print(f"\n‚úÖ Sucesso! {len(resultados)} itens gerados.")
df_final = pd.DataFrame(resultados)
display(df_final.head())

# --- C√âLULA 7: EXPORTA√á√ÉO E DOWNLOAD ---
from google.colab import files
import json

# Define nomes dos arquivos
csv_filename = "olist_enriched_sample.csv"
json_filename = "olist_enriched_sample.json"

# Verifica qual dataframe est√° ativo (caso tenha rodado c√≥digos diferentes)
if "df_final" in locals():
    df_export = df_final
elif "df_enriquecido" in locals():
    df_export = df_enriquecido
else:
    # Fallback para o √∫ltimo df usado
    df_export = pd.DataFrame(resultados)

# Salva em CSV
df_export.to_csv(csv_filename, index=False)
print(f"‚úÖ CSV salvo: {csv_filename}")

# Salva em JSON (Formato orientado a registros, bom para NoSQL/MongoDB)
df_export.to_json(json_filename, orient="records", indent=2, force_ascii=False)
print(f"‚úÖ JSON salvo: {json_filename}")

# Dispara o download no navegador
print("\n‚¨áÔ∏è Baixando arquivos para seu computador...")
files.download(csv_filename)
files.download(json_filename)