# Obtencion de Resultados Finales de la Investigacion

## Importaciones

In [1]:
# Importacion de preguntas y de respuestas
from data.questions import biologia, finanzas, fisica, ia, leyes, matematicas, medicina, quimica, redes, sistemas_operativos 
from data.biologia import respuestas_biologia
from data.finanzas import respuestas_finanzas
from data.fisica import respuestas_fisica
from data.ia import respuestas_ia
from data.leyes import respuestas_leyes
from data.matematicas import respuestas_matematicas
from data.medicina import respuestas_medicina
from data.quimica import respuestas_quimica
from data.redes import redes_respuestas
from data.sistemas_operativos import respuestas_sistemas_operativos

# Importar del sistema original
from src.researcher.graph import build_graph  
from src.researcher.router import Router
from src.researcher.retrieval import Retrieval
from src.researcher.judge_graph import crear_sistema_refinamiento

# Importacion de Librerias
import ollama
import time
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
from sentence_transformers import SentenceTransformer
from langchain_core.messages import HumanMessage

['¬øCu√°l es la diferencia entre una direcci√≥n IP p√∫blica y una privada?', '¬øQu√© es el modelo OSI y cu√°les son sus 7 capas?', '¬øC√≥mo funciona el protocolo TCP y en qu√© se diferencia de UDP?', '¬øQu√© es una m√°scara de subred y para qu√© sirve?', '¬øQu√© es el protocolo ARP y c√≥mo se utiliza en una red local?', '¬øQu√© diferencia hay entre una red LAN, MAN y WAN?', '¬øQu√© es el DNS y c√≥mo resuelve nombres de dominio?', '¬øC√≥mo se detectan y previenen ataques de tipo spoofing en redes?', '¬øC√≥mo se implementa NAT y cu√°l es su funci√≥n en una red dom√©stica?', '¬øCu√°l es la diferencia entre HTTP y HTTPS?', '¬øQu√© es la inteligencia artificial?', '¬øCu√°l es la diferencia entre IA d√©bil y IA fuerte?', '¬øQu√© es un algoritmo de aprendizaje autom√°tico?', '¬øQu√© es una red neuronal artificial?', '¬øQu√© es el procesamiento del lenguaje natural (NLP)?', '¬øQu√© es el aprendizaje por refuerzo?', '¬øQu√© es la visi√≥n por computadora?', '¬øQu√© es el sesgo en los algoritmos 

  from .autonotebook import tqdm as notebook_tqdm


## Configuraciones

In [None]:
model = SentenceTransformer('all-mpnet-base-v2')
models_names = ['mistral', 'llama', 'gemma']
temas = ['biologia', 'finanzas', 'fisica', 'ia', 'leyes', 'matematicas', 'medicina', 'quimica', 'redes', 'sistemas_operativos']
listas_preguntas = {
    "biologia": list(zip(biologia, respuestas_biologia)),
    "finanzas": list(zip(finanzas, respuestas_finanzas)),
    "fisica": list(zip(fisica, respuestas_fisica)),
    "ia": list(zip(ia, respuestas_ia)),
    "leyes": list(zip(leyes, respuestas_leyes)),
    "matematicas": list(zip(matematicas, respuestas_matematicas)),
    "medicina": list(zip(medicina, respuestas_medicina)),
    "quimica": list(zip(quimica, respuestas_quimica)),
    "redes": list(zip(redes, redes_respuestas)),
    "sistemas_operativos": list(zip(sistemas_operativos, respuestas_sistemas_operativos))
}

model_mapping = {
    'mistral': 'mistral:7b',
    'llama': 'llama3.1:8b', 
    'gemma': 'gemma3:4b'
}

models = {
    'mistral': lambda prompt: ollama.generate(model='mistral:7b', prompt=prompt)['response'],
    'llama': lambda prompt: ollama.generate(model='llama3.1:8b', prompt=prompt)['response'], 
    'gemma': lambda prompt: ollama.generate(model='gemma3:4b', prompt=prompt)['response']
    
}

print(f"Configuraci√≥n cargada:")
print(f"   - Modelos: {models_names}")
print(f"   - Temas: {len(temas)}")
print(f"   - Total preguntas: {sum(len(listas_preguntas[tema]) for tema in temas)}")

2025-09-19 09:47:09 - INFO - Use pytorch device_name: cuda:0
2025-09-19 09:47:09 - INFO - Load pretrained SentenceTransformer: all-mpnet-base-v2


Configuraci√≥n cargada:
   - Modelos: ['mistral', 'llama', 'gemma']
   - Temas: 10
   - Total preguntas: 100


## Funcion para el calculo de similitud

In [3]:
def calcular_similitud(respuesta_modelo, respuesta_referencia):
    embeddings = model.encode([respuesta_modelo, respuesta_referencia])
    similitud_matrix = cosine_similarity(embeddings)
    return similitud_matrix[0, 1]

## Funcion para probar los modelos

In [4]:
def test_models():
    """Test r√°pido para verificar que los modelos funcionan"""
    test_prompt = "¬øQu√© es el agua?"
    print("Probando modelos...")
    
    for name, model_func in models.items():
        try:
            response = model_func(test_prompt)
            print(f"‚úÖ {name}: {response[:80]}...")
        except Exception as e:
            print(f"‚ùå {name}: Error - {e}")

# Ejecutar test
test_models()

2025-09-19 09:47:28 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/generate "HTTP/1.1 404 Not Found"
2025-09-19 09:47:28 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/generate "HTTP/1.1 404 Not Found"
2025-09-19 09:47:28 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/generate "HTTP/1.1 404 Not Found"


Probando modelos...
‚ùå mistral: Error - model 'mistral:7b' not found (status code: 404)
‚ùå llama: Error - model 'llama3.1:8b' not found (status code: 404)
‚ùå gemma: Error - model 'gemma2:4b' not found (status code: 404)


## Sistema de Graphs

In [None]:
async def get_sistema_completo_response(query, model_name):
    """
    Llama al sistema completo (con grafo) para obtener una respuesta.
    
    Args:
        query (str): La pregunta a procesar
        model_name (str): Nombre del modelo a usar
        
    Returns:
        str: La respuesta del sistema
    """
    try:
        # Construir el grafo
        graph = build_graph()
        mapped_model = model_mapping.get(model_name, model_name)
        judge_graph = crear_sistema_refinamiento(model_name=mapped_model)

        # Estado inicial
        state = {
            "messages": [],
            "investigation": True,
            "current_query": "",
            "research_plan": [],
            "retrieval_queries": [],
            "query_category": "",
            "research_collections": [],
            "current_step": "",
            "needs_research": False,
            "retrieval_results": {},
            "context_for_generation": "",
            "research_completed": False,
            "retrieval_obj": Retrieval(persist_directory="./chroma_db"),
            "router_obj": Router(model_name=mapped_model),
            "judge_obj": judge_graph,
            "response_model": mapped_model
        }

        state["router_obj"].retriever = state["retrieval_obj"]

        # Agregar mensaje y ejecutar
        state["messages"].append(HumanMessage(content=query))
        state["current_query"] = query

        # Ejecutar el grafo
        final_state = await graph.ainvoke(state)
        
        # Extraer la respuesta
        if final_state["messages"] and len(final_state["messages"]) > 1:
            ai_response = final_state["messages"][-1]
            return ai_response.content
        else:
            return "No se obtuvo respuesta del sistema completo"
            
    except Exception as e:
        return f"ERROR en sistema completo: {str(e)}"

## Estructura de DataFrames

In [None]:
todas_columnas = []
for tema in temas:
    for i, (pregunta, _) in enumerate(listas_preguntas[tema], 1):
        todas_columnas.append(f"{tema}_p{i}_sim")
        todas_columnas.append(f"{tema}_p{i}_time")

columnas_respuestas = []
for tema in temas:
    for i, (pregunta, _) in enumerate(listas_preguntas[tema], 1):
        columnas_respuestas.append(f"{tema}_p{i}")

# Crear √≠ndices para ambos tipos de modelo
indices_ollama = [f"ollama_{model}" for model in models_names]
indices_sistema = [f"sistema_{model}" for model in models_names]
todos_indices = indices_ollama + indices_sistema

# Crear DataFrames
df_distancias = pd.DataFrame(index=todos_indices, columns=todas_columnas, dtype=float)
df_respuestas = pd.DataFrame(index=todos_indices, columns=columnas_respuestas, dtype=object)

print(f"DataFrames creados:")
print(f"   - Distancias: {len(todos_indices)} modelos x {len(todas_columnas)} columnas")
print(f"   - Respuestas: {len(todos_indices)} modelos x {len(columnas_respuestas)} preguntas")
print(f"   - Total experimentos: {len(todos_indices) * len(columnas_respuestas)}")

## Pruebas Comparacion y Obtencion de Resultados

In [None]:
async def run_evaluation():
    """Funci√≥n principal de evaluaci√≥n"""
    
    # Iniciar evaluaci√≥n
    start_time = time.time()
    total_experimentos = len(todos_indices) * sum(len(listas_preguntas[tema]) for tema in temas)
    experimento_actual = 0

    for tema in temas:
        print(f"\nProcesando tema: {tema.upper()}")
             
        for i, (pregunta, respuesta_ref) in enumerate(listas_preguntas[tema], 1):
            col_name = f"{tema}_p{i}"
            col_sim = f"{tema}_p{i}_sim"
            col_time = f"{tema}_p{i}_time"
            print(f"  ‚ùì P{i}: {pregunta[:60]}...")
                     
            # EVALUAR MODELOS OLLAMA DIRECTOS
            for modelo_name, model_func in models.items():
                experimento_actual += 1
                progreso = (experimento_actual / total_experimentos) * 100
                index_ollama = f"ollama_{modelo_name}"
                         
                try:
                    print(f"Ollama-{modelo_name}... ")
                    tiempo_inicio = time.time()
                    
                    respuesta_modelo = model_func(pregunta)
                    tiempo_respuesta = time.time() - tiempo_inicio
                    
                    # Guardar resultados
                    df_respuestas.loc[index_ollama, col_name] = respuesta_modelo
                    similitud = calcular_similitud(respuesta_modelo, respuesta_ref)
                    df_distancias.loc[index_ollama, col_sim] = similitud
                    df_distancias.loc[index_ollama, col_time] = tiempo_respuesta
                    
                    print(f"Sim: {similitud:.3f}, T: {tiempo_respuesta:.2f}s ({progreso:.1f}%)")
                             
                except Exception as e:
                    print(f"Error: {str(e)[:50]}...")
                    df_respuestas.loc[index_ollama, col_name] = f"ERROR: {e}"
                    df_distancias.loc[index_ollama, col_sim] = None
                    df_distancias.loc[index_ollama, col_time] = None

            # EVALUAR SISTEMA COMPLETO
            for modelo_name in models_names:
                experimento_actual += 1
                progreso = (experimento_actual / total_experimentos) * 100
                index_sistema = f"sistema_{modelo_name}"
                         
                try:
                    print(f"Sistema-{modelo_name}... ")
                    tiempo_inicio = time.time()
                    
                    respuesta_modelo = await get_sistema_completo_response(pregunta, modelo_name)
                    tiempo_respuesta = time.time() - tiempo_inicio
                    
                    # Guardar resultados
                    df_respuestas.loc[index_sistema, col_name] = respuesta_modelo
                    similitud = calcular_similitud(respuesta_modelo, respuesta_ref)
                    df_distancias.loc[index_sistema, col_sim] = similitud
                    df_distancias.loc[index_sistema, col_time] = tiempo_respuesta
                    
                    print(f"Sim: {similitud:.3f}, T: {tiempo_respuesta:.2f}s ({progreso:.1f}%)")
                             
                except Exception as e:
                    print(f"Error: {str(e)[:50]}...")
                    df_respuestas.loc[index_sistema, col_name] = f"ERROR: {e}"
                    df_distancias.loc[index_sistema, col_sim] = None
                    df_distancias.loc[index_sistema, col_time] = None

    elapsed_time = time.time() - start_time
    print(f"\nTiempo total: {elapsed_time/60:.2f} minutos")

    return df_distancias, df_respuestas


## Ejecutar Evaluacion

In [None]:
resultado_distancias, resultado_respuestas = await run_evaluation()

# Actualizar las variables globales
df_distancias = resultado_distancias
df_respuestas = resultado_respuestas

# ===== CELDA 9: GUARDAR RESULTADOS Y ESTAD√çSTICAS =====
# Guardar archivos CSV
df_distancias.to_csv('resultados_distancia_dual.csv', encoding='utf-8')
df_respuestas.to_csv('resultados_respuestas_dual.csv', encoding='utf-8')

print("Archivos guardados:")
print("   - resultados_distancia_dual.csv")
print("   - resultados_respuestas_dual.csv")

# Estad√≠sticas finales
print(f"\nResumen de resultados:")
print(f"   - Distancias shape: {df_distancias.shape}")
print(f"   - Respuestas shape: {df_respuestas.shape}")

cols_sim = [col for col in df_distancias.columns if col.endswith('_sim')]
cols_time = [col for col in df_distancias.columns if col.endswith('_time')]

# An√°lisis por tipo de sistema
ollama_rows = [idx for idx in df_distancias.index if idx.startswith('ollama_')]
sistema_rows = [idx for idx in df_distancias.index if idx.startswith('sistema_')]

ollama_similitudes = df_distancias.loc[ollama_rows, cols_sim].notna().sum().sum()
sistema_similitudes = df_distancias.loc[sistema_rows, cols_sim].notna().sum().sum()

print(f"\nComparaci√≥n de sistemas:")
print(f"   - Ollama directo: {ollama_similitudes} respuestas v√°lidas")
print(f"   - Sistema completo: {sistema_similitudes} respuestas v√°lidas")

if ollama_similitudes > 0:
    avg_sim_ollama = df_distancias.loc[ollama_rows, cols_sim].mean().mean()
    avg_time_ollama = df_distancias.loc[ollama_rows, cols_time].mean().mean()
    print(f"   - Ollama promedio - Sim: {avg_sim_ollama:.3f}, Tiempo: {avg_time_ollama:.2f}s")

if sistema_similitudes > 0:
    avg_sim_sistema = df_distancias.loc[sistema_rows, cols_sim].mean().mean()
    avg_time_sistema = df_distancias.loc[sistema_rows, cols_time].mean().mean()
    print(f"   - Sistema promedio - Sim: {avg_sim_sistema:.3f}, Tiempo: {avg_time_sistema:.2f}s")

# Mostrar muestra de resultados
print(f"\nüî¨ Muestra de primeros resultados:")
print("Primeras 6 columnas de distancias:")
if len(df_distancias.columns) >= 6:
    print(df_distancias.iloc[:, :6])
else:
    print(df_distancias)

print("\nüéâ Evaluaci√≥n completada!")

## Analisis Adicional

In [None]:
print("\nAN√ÅLISIS COMPARATIVO DETALLADO")
print("="*50)

for tema in temas[:3]:  # Primeros 3 temas como muestra
    print(f"\nTema: {tema.upper()}")
    
    # Obtener columnas de similitud para este tema
    cols_tema = [col for col in cols_sim if col.startswith(f"{tema}_")]
    
    if cols_tema:
        # Promedios por modelo y sistema
        for modelo in models_names:
            ollama_idx = f"ollama_{modelo}"
            sistema_idx = f"sistema_{modelo}"
            
            sim_ollama = df_distancias.loc[ollama_idx, cols_tema].mean()
            sim_sistema = df_distancias.loc[sistema_idx, cols_tema].mean()
            
            time_ollama = df_distancias.loc[ollama_idx, [col.replace('_sim', '_time') for col in cols_tema]].mean()
            time_sistema = df_distancias.loc[sistema_idx, [col.replace('_sim', '_time') for col in cols_tema]].mean()
            
            print(f"  ü§ñ {modelo}:")
            print(f"     Ollama:  Sim={sim_ollama:.3f}, Tiempo={time_ollama:.2f}s")
            print(f"     Sistema: Sim={sim_sistema:.3f}, Tiempo={time_sistema:.2f}s")
            
            if not pd.isna(sim_ollama) and not pd.isna(sim_sistema):
                diff_sim = sim_sistema - sim_ollama
                diff_time = time_sistema - time_ollama
                print(f"     Diferencia: Sim={diff_sim:+.3f}, Tiempo={diff_time:+.2f}s")