# Dependencias

In [12]:
!pip install faiss-cpu google-generativeai rouge-score nltk pandas scikit-learn sentence-transformers



# Basic RAG con Gemini + Métricas de Evaluación

In [17]:
import os
import pandas as pd
import numpy as np
import nltk
from nltk.tokenize import word_tokenize
from sklearn.metrics.pairwise import cosine_similarity
from rouge_score import rouge_scorer

import google.generativeai as genai
from langchain.vectorstores import FAISS
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.embeddings import HuggingFaceEmbeddings

nltk.download('punkt')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [18]:
# ====================================================
# 0. CONFIGURACIÓN DE GEMINI (usando API Key local)
# ====================================================
os.environ["GOOGLE_API_KEY"] = "AIzaSyChRX7mKWTRSMI3dO0vVup-Rw9k-jL0Uks"
genai.configure(api_key=os.environ["GOOGLE_API_KEY"])

# Inicializar modelo Gemini oficial
gemini_model = genai.GenerativeModel("models/gemini-2.0-flash-001")

In [19]:
# ====================================================
# 1. Basic RAG (Gemini + FAISS + HuggingFaceEmbeddings)
# ====================================================

# Documentos de ejemplo
documents = [
    "La Universidad ICESI está ubicada en Cali, Colombia, y es reconocida por su enfoque en innovación educativa. Ofrece programas de pregrado, posgrado y educación continua en áreas como ingeniería, ciencias económicas y derecho.",
    "El sistema de transporte masivo MIO conecta diferentes zonas de Cali, incluyendo el norte, sur y oriente de la ciudad. Se compone de buses articulados y alimentadores que buscan mejorar la movilidad urbana.",
    "LangChain es un framework para construir aplicaciones con LLMs. Fue diseñado para facilitar el uso de modelos de lenguaje en casos como chatbots, recuperación aumentada con generación (RAG) y agentes inteligentes. También permite integrar múltiples fuentes de datos."
]

# Split en chunks
splitter = RecursiveCharacterTextSplitter(chunk_size=200, chunk_overlap=20)
texts = splitter.create_documents(documents)

# Embeddings locales (HuggingFace, no consumen cuota de Gemini)
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
vectorstore = FAISS.from_documents(texts, embeddings)

# Función de RAG manual
def rag_answer(query, k=3):
    # Recuperar documentos relevantes
    retriever = vectorstore.as_retriever(search_kwargs={"k": k})
    docs = retriever.get_relevant_documents(query)

    context = "\n".join([d.page_content for d in docs])
    prompt = f"Usa el siguiente contexto para responder la pregunta.\n\nContexto:\n{context}\n\nPregunta: {query}\nRespuesta:"

    response = gemini_model.generate_content(prompt)
    return response.text, docs

In [20]:

# ====================================================
# 2. Métricas de Evaluación
# ====================================================


examples = [
    {
        "query": "¿Dónde queda la Universidad ICESI?",
        "reference": "La Universidad ICESI está ubicada en Cali, Colombia."
    },
    {
        "query": "¿Qué es LangChain?",
        "reference": "LangChain es un framework para construir aplicaciones con LLMs."
    }
]

# ---- Funciones métricas ----
def exact_match(pred: str, ref: str) -> int:
    return int(pred.strip().lower() == ref.strip().lower())

def f1_score_tokens(pred: str, ref: str) -> float:
    p_tokens = word_tokenize(pred.lower())
    r_tokens = word_tokenize(ref.lower())
    if not p_tokens and not r_tokens:
        return 1.0
    common = set(p_tokens) & set(r_tokens)
    if not common:
        return 0.0
    prec = len(common) / len(p_tokens)
    rec = len(common) / len(r_tokens)
    if prec + rec == 0:
        return 0.0
    return 2 * (prec * rec) / (prec + rec)

def rouge_l(pred: str, ref: str) -> dict:
    scorer = rouge_scorer.RougeScorer(['rougeL'], use_stemmer=True)
    sc = scorer.score(ref, pred)
    return sc['rougeL']

def context_recall(retrieved: str, reference: str) -> float:
    r_tokens = set(word_tokenize(reference.lower()))
    if not r_tokens:
        return 1.0
    retrieved_tokens = set(word_tokenize(retrieved.lower()))
    common = r_tokens & retrieved_tokens
    return len(common) / len(r_tokens)



In [21]:
# ---- Calcular métricas ----
results = []
for ex in examples:
    query = ex["query"]
    reference = ex["reference"]

    answer, docs = rag_answer(query)
    retrieved_text = "\n".join([d.page_content for d in docs])

    em = exact_match(answer, reference)
    f1 = f1_score_tokens(answer, reference)
    rouge = rouge_l(answer, reference)

    # Similaridad coseno entre embeddings locales
    emb_answer = embeddings.embed_query(answer)
    emb_ref = embeddings.embed_query(reference)
    cos_sim = float(cosine_similarity([emb_answer], [emb_ref])[0][0])

    crecall = context_recall(retrieved_text, reference)

    results.append({
        "query": query,
        "answer": answer,
        "reference": reference,
        "f1": f1,
        "rougeL_precision": rouge.precision,
        "rougeL_recall": rouge.recall,
        "rougeL_fmeasure": rouge.fmeasure,
        "cosine_sim": cos_sim,
        "context_recall": crecall
    })

# ---- DataFrame con resultados ----
df = pd.DataFrame(results)
print("\nResultados de métricas:")
print(df)

print("\nResumen:")
print(df.mean(numeric_only=True))



Resultados de métricas:
                                query  \
0  ¿Dónde queda la Universidad ICESI?   
1                  ¿Qué es LangChain?   

                                              answer  \
0                                  Cali, Colombia.\n   
1  La respuesta a la pregunta "¿Qué es LangChain?...   

                                           reference        f1  \
0  La Universidad ICESI está ubicada en Cali, Col...  0.571429   
1  LangChain es un framework para construir aplic...  0.109091   

   rougeL_precision  rougeL_recall  rougeL_fmeasure  cosine_sim  \
0          1.000000       0.250000         0.400000    0.574212   
1          0.047619       0.222222         0.078431    0.587389   

   context_recall  
0             1.0  
1             0.2  

Resumen:
f1                  0.340260
rougeL_precision    0.523810
rougeL_recall       0.236111
rougeL_fmeasure     0.239216
cosine_sim          0.580801
context_recall      0.600000
dtype: float64
