<a href="https://colab.research.google.com/github/nicole-d-ai/ChatBotRAG/blob/main/TP5_chatbot_con_RAG_Nicole_Ferreyra.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Motor de b√∫squeda

* B√∫squeda por palabras clave: Extrae palabras clave de la pregunta del usuario y busca coincidencias en las preguntas almacenadas.

* Similitud del coseno: Si has representado las preguntas como vectores (por ejemplo, usando TF-IDF o word embeddings), puedes usar la similitud del coseno para medir la distancia entre las preguntas.

* Word embeddings: Utiliza modelos de word embeddings como Word2Vec o BERT para obtener representaciones sem√°nticas de las preguntas y las consultas del usuario.

### B√∫squeda por palabras claves

In [None]:
tu_diccionario = {
   "hola": "¬°Hola! ¬øEn qu√© puedo ayudarte?",
   "adi√≥s": "Hasta luego. ¬°Que tengas un buen d√≠a!",
   "informaci√≥n": "¬øQu√© tipo de informaci√≥n est√°s buscando?",
   # Agrega m√°s entradas de diccionario seg√∫n tus necesidades
}


In [None]:
def responder_pregunta(pregunta):
    pregunta_procesada = nlp(pregunta.lower())  # Procesa la pregunta y convierte a min√∫sculas
    respuesta = "Lo siento, no entiendo tu pregunta."

    # Busca una coincidencia en el diccionario
    for palabra in pregunta_procesada:
        # regresa la primer coincidencia que encuentra
        if palabra.text in tu_diccionario:
            respuesta = tu_diccionario[palabra.text]
            break

    return respuesta


In [None]:
#while True:
#    entrada_usuario = input("T√∫: ")
#    if entrada_usuario.lower() == "salir":
#        print("Chatbot: Hasta luego.")
#        break
#    respuesta = responder_pregunta(entrada_usuario)
#    print("Chatbot:", respuesta)


Puede modificar la implementaci√≥n anterior para evitar el bucle while True y usar un dataset de prueba de preguntas y respuestas.

## B√∫squeda por similitud

Para los chatbots basados ‚Äã‚Äãen recuperaci√≥n, es com√∫n utilizar bolsas de palabras (bag of words) o tf-idf para calcular la similitud de intenciones.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Datos de ejemplo
preguntas = ["¬øQu√© es el aprendizaje autom√°tico?",
             "¬øC√≥mo funciona la regresi√≥n lineal?"]
respuestas = ["El aprendizaje autom√°tico es una rama de la inteligencia artificial...",
              "La regresi√≥n lineal es un m√©todo de modelado..."]

# Vectorizaci√≥n con TF-IDF
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(preguntas)

# Funci√≥n para encontrar la mejor coincidencia
def responder_pregunta(consulta_usuario):
    consulta_vec = vectorizer.transform([consulta_usuario])
    similitudes = cosine_similarity(consulta_vec, tfidf_matrix).flatten()
    print(similitudes)
    indice_mejor_coincidencia = similitudes.argmax()
    print(indice_mejor_coincidencia)
    return respuestas[indice_mejor_coincidencia]


In [None]:

# Ejemplo de consulta
consulta = "¬øQu√© es la regresi√≥n lineal?"
print(responder_pregunta(consulta))


## B√∫squeda por similitud en embeddings

Puedes vectorizar el texto usando embeddings, de spacy por ejemplo, como vimos en clases.


In [None]:
#!pip install spacy --quiet
#!python -m spacy download es_core_news_sm --quiet


## Actividades



### 1) Elaborar un dataset de preguntas y respuestas para crear un Chatbot para un aplicaci√≥n particular. ( 3 puntos )

1.1 Debe definir la aplicaci√≥n (atenci√≥n al cliente bancario, atenci√≥n a estudiantes universitarios, etc).

1.2 El listado de preguntas y respuestas debe tener como m√≠nimo 20 elementos pregunta - respuesta.

###  2) Crear el chatbot utilizando TFIDF y similitud del coseno. (1 punto)

### 3) Crear otro chatbot utilizando embeddings. Indique cu√°l embedding (1 punto) pre-entrenado eligi√≥.

### 4) Muestra ambos chatbots funcionando (1 punto)

Adjuntar la lista de preguntas y respuestas utilizadas para probar el funcionamiento.

Releve o indique cu√°les respondi√≥ correctamente y cu√°les no.

### 5) A√±ade tus conclusiones de todo lo realizado (2 punto)

* Resalte e indique en cu√°les respuestas falla o tiene problemas.
* Cu√°les preguntas confunde.
* Compare los resultados de los chatbots.



### No olvides:

* Explicar tus decisiones y configuraciones. A√±adir tus conclusiones.
* Anunciar en el foro cu√°l ser√° tu aplicaci√≥n y postear tu entrega y tus avances.
* Debes subir tu notebook a un repo GitHub p√∫blico de tu propiedad compartido + enlace colab.
* Documentar todo el proceso.
* Citar tus fuentes





**DEADLINE ENTREGA HASTA PUNTO 5 PARA REGULARIZAR O PROMOCI√ìN** DOMINGO 09/11

#Dataset de preguntas y respuestas ‚ùì

-La app se basa en ofrecer "Servicios de oficios" consta de dos tipos de usuarios, cliente y prestador de servicios. como por ejemplo (plomeros, electricistas, alba√±iles, carpinteros, etc)

### üß© Justificaci√≥n del campo `rol`

El campo **rol** se incluy√≥ en el dataset para diferenciar el tipo de usuario al que va dirigida cada pregunta:
- **Cliente:** quien busca contratar un servicio.
- **Profesional:** quien ofrece su servicio.
- **General:** consultas que pueden hacer ambos.

Aunque en este TP no se utiliz√≥ directamente para filtrar respuestas, se pens√≥ para una futura expansi√≥n del chatbot, donde las respuestas se adapten seg√∫n el tipo de usuario.  
Por ejemplo, si el usuario se identifica como *profesional*, el chatbot solo buscar√≠a coincidencias dentro de las preguntas etiquetadas con ese rol, mejorando la precisi√≥n y personalizaci√≥n de las respuestas.

In [None]:
qa = [
    {"rol":"general","pregunta":"¬øQu√© tipo de servicio busc√°s?",
     "respuesta":"Ofrecemos: Plomer√≠a, Electricidad, Gasista, Alba√±iler√≠a, Pintura, Carpinter√≠a, Cerrajer√≠a, Jardiner√≠a, Limpieza y Dise√±o de interiores. Decime tu zona."},

    {"rol":"general","pregunta":"¬øC√≥mo funciona la app?",
     "respuesta":"Eleg√≠s categor√≠a y ubicaci√≥n; ves profesionales cercanos con precio, rese√±as y certificaciones. Pod√©s chatear, reservar y pagar seguro."},

    {"rol":"cliente","pregunta":"Necesito un electricista urgente",
     "respuesta":"¬øQu√© ocurri√≥ (corte, disyuntor, enchufe quemado, chisporroteo) y en qu√© barrio est√°s? Te muestro opciones con disponibilidad hoy."},

    {"rol":"cliente","pregunta":"Busco gasista matriculado",
     "respuesta":"Tenemos gasistas con matr√≠cula. ¬øInstalaci√≥n, mantenimiento o reparaci√≥n? Indic√° tu zona para cotizaciones."},

    {"rol":"cliente","pregunta":"¬øC√≥mo veo si tiene certificaci√≥n?",
     "respuesta":"Entrando al perfil: ver√°s matr√≠cula/certificados, fotos de trabajos, ratings y precio por hora/proyecto."},

    {"rol":"cliente","pregunta":"¬øPuedo pedir presupuesto sin cargo?",
     "respuesta":"S√≠, pod√©s enviar tu pedido a varios profesionales y recibir presupuestos estimados sin costo."},

    {"rol":"profesional","pregunta":"Quiero ofrecer mis servicios",
     "respuesta":"Cre√° tu perfil: foto, rubros, zona, disponibilidad, precio y matr√≠cula/certificados si aplica. Luego verificamos tu identidad."},

    {"rol":"profesional","pregunta":"¬øC√≥mo fijo mi precio?",
     "respuesta":"Eleg√≠ precio por hora o por proyecto. Sugerimos valores seg√∫n rubro y zona basados en el mercado local."},

    {"rol":"general","pregunta":"¬øC√≥mo cancelo una reserva?",
     "respuesta":"Desde Mis Reservas > Detalle > Cancelar. Si faltan menos de 12 h puede aplicarse un cargo seg√∫n pol√≠tica del profesional."},

    {"rol":"general","pregunta":"¬øEs seguro contratar por ac√°?",
     "respuesta":"Verificamos identidad y certificaciones. Los pagos est√°n protegidos y hay seguro de responsabilidad seg√∫n el rubro."},

    {"rol": "cliente", "pregunta": "¬øC√≥mo pago el servicio?",
     "respuesta": "Pod√©s pagar con tarjeta, transferencia o efectivo al finalizar. Si contrat√°s desde la app, el pago queda protegido hasta que confirmes el trabajo."},

    {"rol":"cliente","pregunta":"¬øQu√© pasa si el profesional no viene?",
     "respuesta":"Pod√©s cancelar sin costo y dejar una rese√±a. Nuestro equipo de soporte puede ayudarte a reprogramar o asignarte otro profesional."},

    {"rol":"cliente","pregunta":"¬øPuedo hablar con el profesional antes de contratar?",
     "respuesta":"S√≠, pod√©s usar el chat interno para consultar dudas, precios y disponibilidad antes de confirmar la reserva."},

    {"rol":"cliente","pregunta":"¬øQu√© garant√≠a tengo si el trabajo sale mal?",
     "respuesta":"Ten√©s 7 d√≠as de garant√≠a por mano de obra. Si algo no qued√≥ bien, pod√©s abrir un reclamo desde la app y lo resolvemos contigo."},

    {"rol":"profesional","pregunta":"¬øC√≥mo mejoro mi perfil?",
     "respuesta":"Complet√° todos tus datos, agreg√° fotos de tus trabajos, respond√© r√°pido los mensajes y manten√© buenas calificaciones para subir en el ranking."},

    {"rol":"profesional","pregunta":"¬øC√≥mo recibo el pago?",
     "respuesta":"Si es una reserva online, el dinero se acredita en tu billetera virtual y pod√©s transferirlo a tu cuenta bancaria."},

    {"rol":"profesional","pregunta":"¬øPuedo pausar mis servicios?",
     "respuesta":"S√≠, desde Configuraci√≥n pod√©s poner tu perfil en pausa temporal sin perder tus datos ni calificaciones."},

    {"rol":"profesional","pregunta":"¬øC√≥mo verifican mi identidad?",
     "respuesta":"Te pedimos foto del DNI y una selfie. Tambi√©n pod√©s subir tu matr√≠cula o certificaciones si tu rubro lo requiere."},

    {"rol":"general","pregunta":"¬øC√≥mo contacto al soporte?",
     "respuesta":"Pod√©s escribirnos desde la secci√≥n 'Ayuda' en la app o por email a soporte@miapp.com. Atendemos todos los d√≠as de 9 a 21 hs."},

    {"rol":"general","pregunta":"¬øPuedo dejar una rese√±a del profesional?",
     "respuesta":"S√≠, despu√©s de que el trabajo finaliza, pod√©s calificar con estrellas y dejar un comentario sobre tu experiencia."},
]


#ü§ñ Crear el chatbot utilizando TF-IDF y similitud del coseno





In [None]:
# Paso 0: importar librer√≠as
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# Paso 1: listas desde el diccionario 'qa'
preguntas  = [x["pregunta"]  for x in qa]
respuestas = [x["respuesta"] for x in qa]

# Paso 2: modelo TF-IDF (representaci√≥n de texto)
tfidf = TfidfVectorizer(lowercase=True, ngram_range=(1,2))
X = tfidf.fit_transform(preguntas)

# Paso 3: funci√≥n del chatbot TF-IDF
def responder_tfidf(consulta):
    vector = tfidf.transform([consulta])             # Convertimos consulta a n√∫meros
    sims   = cosine_similarity(vector, X).ravel()    # Comparaci√≥n con TODAS las preguntas
    idx    = int(np.argmax(sims))                    # √çndice de la mejor coincidencia

    return {
        "pregunta": preguntas[idx],
        "respuesta": respuestas[idx],
        "score": float(sims[idx])
    }

# Prueba r√°pida
responder_tfidf("Busco un gasista con matr√≠cula")


# ü§ñ Chatbot con Embeddings con spaCy (pre-entrenado en espa√±ol)

In [None]:
!pip install -U "numpy<2.0" spacy==3.7.4
!python -m spacy download es_core_news_md --direct -q

In [None]:
#Instalamos y cargamos el embedding
#!pip -q install "spacy==3.7.4"
#!python -m spacy download es_core_news_md --direct -q


In [None]:
#Paso 1: importar y cargar el modelo
import spacy
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

nlp = spacy.load("es_core_news_md")

In [None]:
#Convertir las preguntas en vectores
Q = np.vstack([nlp(q).vector for q in preguntas])
Q.shape

Funci√≥n para responder con embeddings

In [None]:
def responder_embed(consulta, top_k=1, devolver_scores=False):
    v = nlp(consulta).vector.reshape(1, -1)       # vector de la consulta
    sims = cosine_similarity(v, Q).ravel()        # similitud con todas las preguntas
    idxs = sims.argsort()[::-1][:top_k]           # top-k m√°s parecidas

    resultados = []
    for i in idxs:
        resultados.append({
            "pregunta_match": preguntas[i],
            "respuesta": respuestas[i],
            "score": float(sims[i])
        })
    return resultados if devolver_scores else resultados[0]

#Probamos con una consulta
responder_embed("certificado")

In [None]:
#Dataset de prueba (preguntas nuevas)
preguntas_prueba = [
    "¬øC√≥mo puedo registrarme como profesional?",
    "¬øPuedo cancelar una reserva sin pagar multa?",
    "¬øD√≥nde veo las rese√±as de un trabajador?",
    "¬øQu√© formas de pago tienen disponibles?",
    "¬øC√≥mo se calcula el precio del servicio?",
    "¬øQu√© pasa si el profesional no se presenta?",
    "¬øC√≥mo modifico mi zona de trabajo?",
    "¬øEs seguro contratar por la app?",
    "¬øPuedo hablar con el profesional antes de contratar?",
    "¬øC√≥mo califico un servicio?"
]

In [None]:
resultados = []

for p in preguntas_prueba:
    r_tfidf = responder_tfidf(p)
    r_embed = responder_embed(p)

    resultados.append({
        "Pregunta de prueba": p,
        "Respuesta TF-IDF": r_tfidf["respuesta"],
        "Score TF-IDF": round(r_tfidf["score"], 3),
        "Respuesta Embeddings": r_embed["respuesta"],
        "Score Embeddings": round(r_embed["score"], 3)
    })

In [None]:
import pandas as pd
df_resultados = pd.DataFrame(resultados)
df_resultados


### üß≠ Conclusiones

Durante las pruebas, ambos chatbots respondieron correctamente la mayor√≠a de las preguntas, pero con diferencias claras:

- **TF-IDF:** respondi√≥ bien cuando la consulta del usuario ten√≠a palabras id√©nticas a las del dataset.  
  Fall√≥ en frases m√°s cortas o con sin√≥nimos (ej: ‚Äúgasista certificado‚Äù no coincid√≠a con ‚Äúgasista con matr√≠cula‚Äù).  
  Los scores fueron m√°s variables, entre 0.3 y 0.9.

- **Embeddings (spaCy):** entendi√≥ mejor el significado general, incluso cuando las palabras no coincid√≠an exactamente.  
  En general, tuvo **scores de similitud m√°s altos** y respuestas m√°s coherentes en consultas con sin√≥nimos o frases largas.  
  Fall√≥ en casos donde dos preguntas ten√≠an sentidos parecidos (‚Äúcancelar‚Äù vs ‚Äúreprogramar‚Äù), lo que llev√≥ a confusi√≥n.

**Comparaci√≥n general:**
- TF-IDF ‚Üí m√°s literal, depende del texto exacto.  
- Embeddings ‚Üí m√°s sem√°ntico, entiende mejor el sentido.

**Conclusi√≥n final:**  
El modelo basado en embeddings logra una interacci√≥n m√°s natural y flexible, mientras que el modelo TF-IDF es m√°s sencillo pero limitado a coincidencias exactas.  
Ambos modelos son v√°lidos para diferentes objetivos: TF-IDF es ideal para un FAQ fijo y r√°pido, mientras que Embeddings es m√°s apropiado para chatbots que deben entender lenguaje variado.

### üìö Referencias

- Documentaci√≥n oficial de spaCy: https://spacy.io  
- Scikit-Learn TF-IDF Vectorizer: https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html  
- Curso Procesamiento del Habla ‚Äì Instituto Superior Santo Domingo (2025)  
- Conversaci√≥n y gu√≠a de implementaci√≥n con ChatGPT (OpenAI, 2025)


# TP-5 ChatBot RAG

# Dataset de prueba o evaluaci√≥n

In [None]:
qa_soluciones_cliente = [
    {
        "id": 0,
        "pregunta": "¬øQu√© datos tengo que completar para crear mi cuenta en la app",
        "respuesta": "Solo necesit√°s tu nombre, email o tel√©fono, una contrase√±a y tu ubicaci√≥n"
    },
    {
        "id":1,
        "pregunta": "¬øPara que debo activar mi ubicaci√≥n?",
        "respuesta": "Necesitamos tu ubicaci√≥n para encontrar tus profesionales mas cercanos."
    },
    {
        "id":2,
        "pregunta": "¬øPuedo pedir m√°s de un presupuesto al mismo tiempo?",
        "respuesta": "S√≠, pod√©s enviar tu solicitud a varios profesionales y comparar sus precios y tiempos de respuesta."
    },
    {
        "id":3,
        "pregunta": "¬øLa app avisa cuando el profesional est√° llegando?",
        "respuesta": "S√≠, te notificamos por la app cuando el profesional acepta, sale hacia tu domicilio y cuando est√° a pocos minutos."
    },
    {
        "id":4,
        "pregunta": "¬øC√≥mo s√© si un profesional est√° disponible hoy?",
        "respuesta": "En el perfil de cada profesional veras su disponibilidad diaria, incluso podes acordar horario y dia en el chat."
    },
    {
        "id":5,
        "pregunta" : "¬øQu√© hago si tuve un problema con el servicio?",
        "respuesta": "Pod√©s abrir un reclamo desde la secci√≥n de Ayuda. Nuestro equipo te acompa√±a para resolverlo con el profesional."
    },
   {
        "id":6,
        "pregunta": "¬øC√≥mo elijo al profesional m√°s confiable?",
        "respuesta": "Pod√©s guiarte por las calificaciones, la cantidad de trabajos realizados y los comentarios de otros usuarios."
    },
    {
        "id":7,
        "pregunta": "¬øPuedo cambiar la fecha del servicio despu√©s de reservar?",
        "respuesta": "S√≠, desde Mis Reservas pod√©s cambiar d√≠a y horario. El profesional debe aceptar la nueva fecha."
    },
    {
        "id":8,
        "pregunta": "¬øQu√© pasa si el precio final no coincide con el presupuesto?",
        "respuesta": "Si el precio difiere, pod√©s hablarlo por chat. Si no lleg√°s a un acuerdo, abr√≠ un reclamo desde Ayuda."
    },
    {
        "id":9,
        "pregunta": "¬øPuedo guardar profesionales como favoritos?",
        "respuesta": "S√≠, en cada perfil ten√©s la opci√≥n 'Guardar'. Podr√°s encontrarlos luego en tu lista de favoritos."
    },
    {
        "id":10,
        "pregunta": "¬øC√≥mo veo trabajos anteriores del profesional?",
        "respuesta": "En su perfil pod√©s ver fotos de trabajos, recomendaciones y su experiencia por rubro."
    },
    {
        "id":11,
        "pregunta": "¬øQu√© significa cuando un profesional tiene 'Alta demanda'?",
        "respuesta": "Quiere decir que tiene muchas reservas recientes. Puede tener menos disponibilidad, pero suele ser muy recomendado."
    },
    {
        "id":12,
        "pregunta": "¬øC√≥mo env√≠o fotos del problema para pedir un presupuesto?",
        "respuesta": "Pod√©s adjuntar fotos desde el chat o al crear la solicitud, as√≠ el profesional puede cotizar mejor."
    },
    {
        "id":13,
        "pregunta": "¬øPuedo pedir un servicio para otra persona?",
        "respuesta": "S√≠, solo asegurate de poner la direcci√≥n correcta y avisar al profesional por chat."
    },
    {
        "id":14,
        "pregunta": "¬øC√≥mo s√© cu√°nto tardar√° en responder un profesional?",
        "respuesta": "En el perfil ten√©s el tiempo promedio de respuesta basado en sus √∫ltimas conversaciones."
    },
    {
        "id":15,
        "pregunta": "¬øQu√© hago si el presupuesto me parece muy alto?",
        "respuesta": "Pod√©s pedir m√°s cotizaciones a otros profesionales y comparar opciones antes de decidir."
    },
    {
        "id":16,
        "pregunta": "¬øPuedo modificar mi direcci√≥n despu√©s de crear la cuenta?",
        "respuesta": "S√≠, desde Perfil > Direcci√≥n pod√©s actualizar tu domicilio cuando quieras."
    },
    {
        "id":17,
        "pregunta": "¬øLa app me avisa cuando el profesional termina el trabajo?",
        "respuesta": "S√≠, te llega una notificaci√≥n y pod√©s confirmar el servicio para habilitar el pago."
    },
    {
        "id":18,
        "pregunta": "¬øC√≥mo veo si un profesional trabaja fines de semana?",
        "respuesta": "En su perfil pod√©s ver su disponibilidad por d√≠as y horarios, incluyendo feriados o fines de semana."
    },
    {
        "id":19,
        "pregunta": "¬øPuedo pedir un servicio recurrente, como limpieza semanal?",
        "respuesta": "S√≠, pod√©s coordinar servicios recurrentes directamente con el profesional desde el chat."
    },
    {
        "id":20,
        "pregunta": "¬øQu√© hago si el profesional me quiere cobrar por fuera de la app?",
        "respuesta": "Por seguridad no recomendamos pagos por fuera. Si pasa, avis√° en Ayuda para que podamos asistirte."
    }
]

# ‚úî Modelo LLM de HuggingFace + Embeddings

‚≠ê LLM ELEGIDO: mistralai/Mistral-7B-Instruct-v0.2

**Mistral-7B-Instruct y el tono ‚Äúb√°sico‚Äù**

Lo elegi  porque:

‚úî Entiende bien el espa√±ol informal

‚úî Soporta preguntas cortas ("como se hace para..?", "que es esto..?" etc.)

‚úî  Puede responder simple, sin que sea tecnico

‚úî Compatible con HuggingFace y Transformers

‚úî Ideal para sistemas RAG

# ‚≠ê Embeddings elegidos

**üîπ 1. sentence-transformers/all-MiniLM-L6-v2**

* Es un de los modelos mas usados para b√∫squeda sem√°ntica, ideal para sistemas RAG

* Funciona bien con preguntas informales

* Es un modelo que maneja frases en espa√±ol aunque esten mal escritas o incomplentas

**üîπ 2. jinaai/jina-embeddings-v2-base-es**

* Interpreta mejor expresiones y variaciones informales por ejemplo ("pa arreglar", "la canilla pierde", "viene hoy")

* Me permite evaluar si un embedding en espa√±ol recupera mejor el contexto, cumpliendo el objetivo comparativo

* Robusto a preguntas cortas, ambiguas

* Es f√°cil de interpretar con ChromaDB y sistemas RAG

üì¶ 1) Instalar librer√≠as

In [None]:
#Librer√≠a para usar la base de datos vectorial
#donde voy a guardar los embeddings de mis preguntas y respuestas

!pip install chromadb --quiet

In [None]:
#instalaci√≥n que me permite cargar los modelos de embeddings

!pip install sentence-transformers --quiet

In [None]:
#Instalo transformers, libreria de HuggingFace para cargar el modelo LLM

!pip install transformers --quiet

In [None]:
#Me ayuda a que los modelos grandes se carguen bien en la GPU/CPU de colab y manejar los recursos sin errores

!pip install accelerate --quiet

Primero convierto mi base de conocimiento en vectores usando sentence-transformers.
Esos vectores los guardo en una base de datos vectorial con chromadb.
Cuando el usuario hace una pregunta, busco los vectores m√°s similares en Chroma y con ese contexto le paso todo al modelo de lenguaje Mistral-7B-Instruct, que cargo con transformers.
accelerate me ayuda a que todo esto corra bien en la GPU de Colab.‚Äù

# üß© MiniLM + Chroma

In [None]:
from sentence_transformers import SentenceTransformer
import chromadb

#Cargamos el modelo de embeddings MiniLM
embedding_model_minilm = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

#Creamos el cliente de ChromaDB
chroma_client = chromadb.Client()

#Creamos la colleccion
collection_minilm = chroma_client.create_collection(name="oficios_minilm")

#Documentos + ids + metadatos
documents = []
ids = []
metadata = []

for i, item in enumerate(qa):
  texto = f"Pregunta: {item['pregunta']}\nRespuesta: {item['respuesta']}"
  documents.append(texto)
  ids.append(f"doc_{i}")
  metadata.append({"rol": item["rol"]})

#Calcular embeddings
embedding_minilm = embedding_model_minilm.encode(documents).tolist()

#Guardar la collecion en chromaDB
collection_minilm.add(
    documents=documents,
    ids=ids,
    metadatas=metadata,
    embeddings=embedding_minilm
)

len(documents), "documentos indexados en oficios_minilm"

# Cargar el modelo Jina-es

In [None]:
embedding_model_jina = SentenceTransformer("jinaai/jina-embeddings-v2-base-es")


collection_jina = chroma_client.create_collection(name="oficios_jina")

# 3. Vectorizar (usando los mismos documents)
embedding_jina = embedding_model_jina.encode(documents).tolist()

# 4. Guardar en Chroma
collection_jina.add(
    documents=documents,
    ids=ids,
    metadatas=metadata,
    embeddings=embedding_jina
)

len(documents), "documentos indexados en oficios_jina"

Importo AutoTokenizer y AutoModelForCausalLM de la librer√≠a transformers para poder cargar el modelo LLM y su tokenizer desde HuggingFace. El tokenizer convierte texto en tokens y el modelo CausalLM genera texto. Tambi√©n importo torch porque los modelos de lenguaje se ejecutan sobre PyTorch, que maneja los tensores y el dispositivo (CPU/GPU)

In [None]:
#Esto permite cargar el LLM
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

Cargar el modelo y el tokenizer del LLM

Esto:

‚úî descarga el modelo

‚úî prepara el tokenizer

‚úî lo sube a GPU/CPU autom√°ticamente

‚úî lo deja listo para generar texto

In [None]:
llm_name = "mistralai/Mistral-7B-Instruct-v0.2"

tokenizer = AutoTokenizer.from_pretrained(llm_name)
llm_model  = AutoModelForCausalLM.from_pretrained(
    llm_name,
    torch_dtype=torch.float16,
    device_map="auto"
)

Crear la clase del chatbot

In [None]:
class ChatBotRAG:
    def __init__(self, collection, embedder, tokenizer, llm):
        self.collection = collection
        self.embedder = embedder
        self.tokenizer = tokenizer
        self.llm = llm

    def retrieve(self, pregunta, k=3):
        # 1. vectorizar la pregunta del usuario
        query_emb = self.embedder.encode([pregunta]).tolist()

        # 2. buscar en la colecci√≥n los k m√°s similares
        results = self.collection.query(
            query_embeddings=query_emb,
            n_results=k
        )

        return results["documents"][0]   # devuelve lista de documentos

    def generate(self, pregunta, contexto):
        # Preparo el prompt estilo instruct
        prompt = f"""Us√° el siguiente contexto para responder de forma clara y corta:

Contexto:
{contexto}

Pregunta del usuario: {pregunta}

Respuesta:"""

        inputs = self.tokenizer(prompt, return_tensors="pt") #.to(self.llm.device)

        output = self.llm.generate(
            **inputs,
            max_new_tokens=50,
            #temperature=0.2
            do_sample=False,    # respuesta m√°s estable
            pad_token_id=self.tokenizer.eos_token_id,
            eos_token_id=self.tokenizer.eos_token_id,
        )

        respuesta = self.tokenizer.decode(output[0], skip_special_tokens=True)
        return respuesta

    def answer(self, pregunta):

        contexto = self.retrieve(pregunta)

        respuesta = self.generate(pregunta, contexto)

        return respuesta


Crear instancias del chatbot usando cada embedding

‚û°Ô∏è Chatbot con MiniLM

In [None]:
chatbot_minilm = ChatBotRAG(
    collection=collection_minilm,
    embedder=embedding_model_minilm,
    tokenizer=tokenizer,
    llm=llm_model
)


‚û°Ô∏è Chatbot con Jina-es

In [None]:
chatbot_jina = ChatBotRAG(
    collection=collection_jina,
    embedder=embedding_model_jina,
    tokenizer=tokenizer,
    llm=llm_model
)

Probarlos

In [None]:
pregunta = "¬øC√≥mo me registro como profesional?"

print("MiniLM:")
print(chatbot_minilm.answer(pregunta))

print("Jina:")
print(chatbot_jina.answer(pregunta))

# ‚úÖ 1. Funci√≥n para evaluar MiniLM o Jina con tu dataset

In [None]:
def contexto_contiene_palabras_clave(respuesta_esperada, contexto_str, min_match=3):

    #pasamos todo a minuscula
    resp_words = set(respuesta_esperada.lower().split())
    contexto_words = set(contexto_str.lower().split())

    #interseccion-->palabras que estan en ambos lados
    matches = resp_words.intersection(contexto_words)

    #al menos min_match es decir 3 en comun
    return len(matches) >= min_match

In [None]:
def evaluar_chatbot(chatbot, eval_set, k=3, nombre_modelo="MiniLM"):
    resultados = []
    total = len(eval_set)

    sum_precision = 0.0
    sum_recall = 0.0

    for item in eval_set:
        pregunta = item["pregunta"]
        respuesta_esperada = item["respuesta"]

        # Recuperar contexto con k chunks
        contexto = chatbot.retrieve(pregunta, k=k)

        # Convertir contexto a string para buscar dentro
        if isinstance(contexto, list):
            contexto_str = " ".join(contexto)
        else:
            contexto_str = contexto

        # Determinar si el contexto contiene la respuesta esperada
        contexto_relevante = contexto_contiene_palabras_clave(respuesta_esperada, contexto_str, min_match=3)

        # M√©tricas simples de context precision y recall
        if contexto_relevante:
            precision_i = 1.0 / k
            recall_i = 1.0
        else:
            precision_i = 0.0
            recall_i = 0.0

        sum_precision += precision_i
        sum_recall += recall_i

        # Generar respuesta del chatbot
        respuesta_generada = chatbot.generate(pregunta, contexto)

        resultados.append({
            "pregunta": pregunta,
            "respuesta_esperada": respuesta_esperada,
            "respuesta_generada": respuesta_generada,
            "contexto": contexto,
            "contexto_relevante": contexto_relevante,
            "context_precision_i": precision_i,
            "context_recall_i": recall_i
        })

    # M√©tricas promedio
    context_precision_prom = sum_precision / total
    context_recall_prom = sum_recall / total

    print(f"\n=== Resultados {nombre_modelo} (k={k}) ===")
    print(f"Context precision promedio: {context_precision_prom:.3f}")
    print(f"Context recall promedio:    {context_recall_prom:.3f}")

    return resultados, context_precision_prom, context_recall_prom


‚úÖ 2. Evaluar MiniLM y Jina

In [None]:
k = 3

resultados_minilm, prec_minilm, rec_minilm = evaluar_chatbot(
    chatbot_minilm,
    qa_soluciones_cliente,
    k=k,
    nombre_modelo="MiniLM"
)

resultados_jina, prec_jina, rec_jina = evaluar_chatbot(
    chatbot_jina,
    qa_soluciones_cliente,
    k=k,
    nombre_modelo="Jina"
)


‚úîÔ∏è Context Precision = 0.286

Esto significa que:

En promedio, 1 de cada 3.5 chunks recuperados por el RAG fue relevante.

Con k=3, el valor ‚Äúperfecto‚Äù ser√≠a 0.333
As√≠ que 0.286 es excelente:
‚Üí quiere decir que casi siempre, al menos un chunk era √∫til.

‚úîÔ∏è Context Recall = 0.857

Esto significa que:

En el 85.7% de las preguntas del dataset de evaluaci√≥n, el RAG recuper√≥ al menos un fragmento relevante.

üü¢ MINILM responde mejor cuando el LLM genera

üü£ Jina recupera similarmente pero falla m√°s en respuestas

Los resultados fueron id√©nticos para MiniLM y Jina (precision = 0.286, recall = 0.857).

Esto se debe a que ambas colecciones contienen los mismos documentos y mi m√©trica eval√∫a literalidad dentro del contexto recuperado. Por lo tanto, ambos modelos identifican fragmentos relevantes con la misma frecuencia.

Sin embargo, en la prueba cualitativa observ√© una clara diferencia: MiniLM genera respuestas m√°s completas y naturales, mientras que Jina tiende a ser m√°s r√≠gido y a veces responde que no tiene la informaci√≥n, incluso cuando los chunks recuperados eran adecuados.

Por este motivo, aunque las m√©tricas cuantitativas sean iguales, elijo MiniLM como embedding principal para mi chatbot en un entorno real de usuarios.

In [None]:
for r in resultados_minilm[:3]:
    print("PREGUNTA:", r["pregunta"])
    print("ESPERADA:", r["respuesta_esperada"])
    print("GENERADA:", r["respuesta_generada"])
    print("CONTEXT RELEVANTE:", r["contexto_relevante"])
    print("-" * 80)



In [None]:
for r in resultados_jina[:3]:
    print("PREGUNTA:", r["pregunta"])
    print("ESPERADA:", r["respuesta_esperada"])
    print("GENERADA:", r["respuesta_generada"])
    print("CONTEXT RELEVANTE:", r["contexto_relevante"])
    print("-" * 80)


‚≠ê Conclusi√≥n Final del Trabajo

En este trabajo implement√© un chatbot basado en arquitectura RAG (Retrieval-Augmented Generation) utilizando mi propio conjunto de conocimientos sobre una aplicaci√≥n de oficios. Para construirlo, arm√© una base de datos de preguntas y respuestas reales de clientes y profesionales, y luego prob√© distintos modelos de embeddings y un modelo LLM para generar respuestas contextualizadas.

Primero constru√≠ dos bases vectoriales utilizando MiniLM-L6-v2 y Jina Embeddings v2, ambos modelos de embeddings adecuados para espa√±ol y para preguntas cortas e informales, t√≠picas de usuarios reales. Luego integr√© estas colecciones con el modelo LLM Mistral-7B-Instruct, implementando las funciones de recuperaci√≥n y generaci√≥n dentro de una clase ChatBotRAG.

Para evaluar el rendimiento, gener√© un dataset de evaluaci√≥n independiente, con preguntas nuevas que no estaban en la base original. Esto permiti√≥ medir c√≥mo se comportaban los embeddings frente a informaci√≥n que no coincid√≠a literalmente con los textos de la base, simulando dudas reales de usuarios.

Utilic√© las m√©tricas Context Precision y Context Recall para medir la calidad de la recuperaci√≥n. Con k=3, ambos modelos lograron un context recall de 0.857, indicando que recuperaron al menos un fragmento relevante en el 86 % de los casos. El context precision (0.286) mostr√≥ que, en promedio, 1 de cada 3 chunks recuperados result√≥ √∫til. Como la m√©trica era estrictamente literal, ambos modelos obtuvieron resultados cuantitativos muy similares, ya que operaban sobre los mismos documentos.

Sin embargo, el an√°lisis cualitativo mostr√≥ diferencias importantes:

MiniLM gener√≥ respuestas m√°s claras, completas y naturales cuando el LLM combinaba el contexto recuperado con su propio conocimiento.

Jina fue m√°s r√≠gido, m√°s sensible a variaciones de contexto y, en ocasiones, respondi√≥ que no pod√≠a contestar incluso con informaci√≥n suficiente recuperada.

Esto demuestra que, aunque las m√©tricas autom√°ticas muestren igualdad, la experiencia real del usuario y la calidad de las respuestas generadas dependen de algo m√°s que la recuperaci√≥n literal: dependen del balance entre embeddings, LLM y dise√±o del prompt.

En conclusi√≥n, aunque ambos modelos funcionaron correctamente, MiniLM result√≥ el embedding m√°s adecuado para mi caso, ya que permite respuestas m√°s √∫tiles, naturales y consistentes dentro del flujo de la aplicaci√≥n. La integraci√≥n final con Mistral-7B-Instruct logr√≥ un chatbot capaz de contestar preguntas reales usando mi propia base de conocimiento, cumpliendo con el objetivo del trabajo pr√°ctico y dejando preparado un sistema escalable para futuras mejoras y expansi√≥n de datos.

# Referencias

üëâ Link oficial del modelo:
https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2

‚≠êEmbeddings‚≠ê

**sentence-transformers/all-MiniLM-L6-v2**

üìå Link: https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2

**jinaai/jina-embeddings-v2-base-es**

üìå Link: https://huggingface.co/jinaai/jina-embeddings-v2-base-es

ChatGPT (2025). Asistencia conversacional utilizada como apoyo t√©cnico durante el desarrollo del trabajo pr√°ctico. No se adjunta la conversaci√≥n completa por contener elementos personales y no relevantes para la evaluaci√≥n del contenido acad√©mico.
