In [None]:
import json
import random
import os
import numpy as np
from pathlib import Path
from typing import List, Dict, Any, Tuple
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import time

# ==============================================================================
# CONFIGURA√á√ïES
# ==============================================================================

# Diret√≥rio onde est√£o os JSONs de TREINO (Excluindo o holdout set)
TREINO_DIR = Path('data/json/llm_ready')

# Arquivo para salvar o √≠ndice de embeddings (Numpy array e a lista de fatores)
INDICE_PATH = Path('data/fewshot_index.json')

# ==============================================================================
# FUN√á√ïES DE PROCESSAMENTO
# ==============================================================================

def criar_indice_tfidf(treino_dir: Path) -> Tuple[Any, List[Dict[str, Any]]]:
    """
    Cria um √≠ndice baseado em TF-IDF (simula√ß√£o do Embedding) e coleta dados.
    """
    documentos = []
    metadata = []
    arquivos_json = list(treino_dir.glob("*.json"))

    print(f"üìÅ Preparando para indexar {len(arquivos_json)} documentos de treino...")

    for arquivo_path in arquivos_json:
        try:
            with open(arquivo_path, 'r', encoding='utf-8') as f:
                data = json.load(f)

            # Concatena Historico e Analise para criar o documento (contexto)
            historico = data.get('conteudo', {}).get('historico_voo', '')
            analise = data.get('conteudo', {}).get('analise', '')
            texto_contexto = historico + " " + analise

            fatores = data.get('conteudo', {}).get('fatores_contribuintes', [])

            if len(fatores) > 0 and len(texto_contexto) > 50:
                documentos.append(texto_contexto)
                # Armazena o JSON original, o texto de contexto e a lista de fatores
                metadata.append({
                    'arquivo': arquivo_path.name,
                    'contexto': texto_contexto,
                    'fatores': fatores
                })

        except Exception as e:
            print(f"  ‚ùå Erro ao ler ou analisar {arquivo_path.name}: {e}")

    if not documentos:
        print("üõë Nenhum documento v√°lido para indexa√ß√£o. Verifique a pasta.")
        return None, []

    # Inicializa e treina o TF-IDF Vectorizer
    # O TF-IDF serve como um substituto simples para embeddings, capturando import√¢ncia das palavras
    # Use stop_words='portuguese' para remover preposi√ß√µes comuns, pois aqui queremos o "conte√∫do"
    # Lembre-se: idealmente, este passo usaria Sentence-Transformers, mas TF-IDF √© Zero-Dependency

    vectorizer = TfidfVectorizer(
        ngram_range=(1, 2),
        min_df=5, # M√≠nimo de 5 documentos para uma palavra ser relevante
        max_features=10000,
        stop_words=None # MANTEM AS STOPWORDS para a busca sem√¢ntica do LLM.
    )

    # Cria o √≠ndice (matriz esparsa de vetores)
    tfidf_matrix = vectorizer.fit_transform(documentos)

    print(f"‚úÖ Indexa√ß√£o TF-IDF conclu√≠da. Total de vetores: {tfidf_matrix.shape[0]}")

    return vectorizer, tfidf_matrix, metadata

def salvar_indice(vectorizer, tfidf_matrix, metadata: List[Dict[str, Any]], indice_path: Path):
    """
    Salva os componentes do √≠ndice em um arquivo JSON para facilitar o uso no Few-Shot.
    Nota: Salvar o vetorizador e a matriz TF-IDF completa √© complexo em JSON,
    ent√£o vamos salvar apenas a metadata e a fun√ß√£o de sele√ß√£o ser√° implementada em tempo real
    no script Few-Shot.
    """
    # Simplifica√ß√£o: Apenas salvar o metadata.
    # O Few-Shot script ter√° que refazer o TFIDF, ou o usu√°rio deve salvar os objetos
    # Python serializados (pickle), o que n√£o √© recomendado em produ√ß√£o.

    # Para fins de demonstra√ß√£o, vamos apenas salvar a metadata para o pr√≥ximo script carregar.
    # Em um ambiente real, o Vectorizer e a Matriz seriam serializados (com pickle/joblib)
    # ou persistidos em um banco de dados vetorial.

    # Aqui, apenas salvamos os documentos de contexto e seus fatores (os 'r√≥tulos')
    with open(indice_path, 'w', encoding='utf-8') as f:
        json.dump(metadata, f, ensure_ascii=False, indent=4)

    print(f"üíæ Metadata de treino salva em: {indice_path}")


# ==============================================================================
# EXECU√á√ÉO PRINCIPAL
# ==============================================================================

def main_indexador():
    if not TREINO_DIR.exists():
        print(f"Diret√≥rio de treino n√£o encontrado: {TREINO_DIR}")
        return

    # 1. Criar o √≠ndice (matriz TFIDF e metadados)
    vectorizer, tfidf_matrix, metadata = criar_indice_tfidf(TREINO_DIR)

    if metadata:
        # 2. Salvar os resultados (apenas metadata para evitar depend√™ncias complexas)
        # O pr√≥ximo script (fewshot_generator.py) ir√° refazer a matriz TFIDF,
        # o que √© aceit√°vel para um pequeno conjunto de treino.
        salvar_indice(vectorizer, tfidf_matrix, metadata, INDICE_PATH)

if __name__ == "__main__":
    main_indexador()