# TP4 Chatbots

# Chatbots basados en recuperación

En inglés information retrieval chatbots

# Esteban Matias Cancino

# Motor de búsqueda

* Búsqueda por palabras clave: Extrae palabras clave de la pregunta del usuario y busca coincidencias en las preguntas almacenadas.

* Similitud del coseno: Si has representado las preguntas como vectores (por ejemplo, usando TF-IDF o word embeddings), puedes usar la similitud del coseno para medir la distancia entre las preguntas.

* Word embeddings: Utiliza modelos de word embeddings como Word2Vec o BERT para obtener representaciones semánticas de las preguntas y las consultas del usuario.

### Búsqueda por palabras claves

In [17]:
tu_diccionario = {
   "hola": "¡Hola! ¿En qué puedo ayudarte?",
   "adiós": "Hasta luego. ¡Que tengas un buen día!",
   "información": "¿Qué tipo de información estás buscando?",
   # Agrega más entradas de diccionario según tus necesidades
}


In [18]:
import spacy
nlp = spacy.load("es_core_web_sm")
def responder_pregunta(pregunta):
    pregunta_procesada = nlp(pregunta.lower())  # Procesa la pregunta y convierte a minúsculas
    respuesta = "Lo siento, no entiendo tu pregunta."

    # Busca una coincidencia en el diccionario
    for palabra in pregunta_procesada:
        # regresa la primer coincidencia que encuentra
        if palabra.text in tu_diccionario:
            respuesta = tu_diccionario[palabra.text]
            break

    return respuesta


OSError: [E050] Can't find model 'es_core_web_sm'. It doesn't seem to be a Python package or a valid path to a data directory.

In [None]:
while True:
    entrada_usuario = input("Tú: ")
    if entrada_usuario.lower() == "salir":
        print("Chatbot: Hasta luego.")
        break
    respuesta = responder_pregunta(entrada_usuario)
    print("Chatbot:", respuesta)


Puede modificar la implementación anterior para evitar el bucle while True y usar un dataset de prueba de preguntas y respuestas.

## Búsqueda por similitud

Para los chatbots basados ​​en recuperación, es común utilizar bolsas de palabras (bag of words) o tf-idf para calcular la similitud de intenciones.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Datos de ejemplo
preguntas = ["¿Qué es el aprendizaje automático?",
             "¿Cómo funciona la regresión lineal?"]
respuestas = ["El aprendizaje automático es una rama de la inteligencia artificial...",
              "La regresión lineal es un método de modelado..."]

# Vectorización con TF-IDF
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(preguntas)

# Función para encontrar la mejor coincidencia
def responder_pregunta(consulta_usuario):
    consulta_vec = vectorizer.transform([consulta_usuario])
    similitudes = cosine_similarity(consulta_vec, tfidf_matrix).flatten()
    print(similitudes)
    indice_mejor_coincidencia = similitudes.argmax()
    print(indice_mejor_coincidencia)
    return respuestas[indice_mejor_coincidencia]


In [None]:

# Ejemplo de consulta
consulta = "¿Qué es la regresión lineal?"
print(responder_pregunta(consulta))


## Búsqueda por similitud en embeddings

Puedes vectorizar el texto usando embeddings, de spacy por ejemplo, como vimos en clases.


In [None]:
!pip install spacy --quiet
!python -m spacy download es_core_news_sm --quiet


## Actividades



### 1) Elaborar un dataset de preguntas y respuestas para crear un Chatbot para un aplicación particular. ( 3 puntos )

1.1 Debe definir la aplicación (atención al cliente bancario, atención a estudiantes universitarios, etc).

1.2 El listado de preguntas y respuestas debe tener como mínimo 20 elementos pregunta - respuesta.

###  2) Crear el chatbot utilizando TFIDF y similitud del coseno. (1 punto)

### 3) Crear otro chatbot utilizando embeddings. Indique cuál embedding (1 punto) pre-entrenado eligió.

### 4) Muestra ambos chatbots funcionando (1 punto)

Adjuntar la lista de preguntas y respuestas utilizadas para probar el funcionamiento.

Releve o indique cuáles respondió correctamente y cuáles no.

### 5) Añade tus conclusiones de todo lo realizado (2 punto)

* Resalte e indique en cuáles respuestas falla o tiene problemas.
* Cuáles preguntas confunde.
* Compare los resultados de los chatbots.



### No olvides:

* Explicar tus decisiones y configuraciones. Añadir tus conclusiones.
* Anunciar en el foro cuál será tu aplicación y postear tu entrega y tus avances.
* Debes subir tu notebook a un repo GitHub público de tu propiedad compartido + enlace colab.
* Documentar todo el proceso.
* Citar tus fuentes





**DEADLINE ENTREGA HASTA PUNTO 5 PARA REGULARIZAR O PROMOCIÓN** DOMINGO 09/11

## Elaborar un dataset de preguntas y respuestas para crear un Chatbot para un aplicación particular

### Definición de la aplicación

Elegí como aplicación la atención a estudiantes universitarios

### Listado de preguntas y respuestas

In [1]:
preguntas_respuestas = {
  "preguntas" : [
    "hola", "adiós",
    "¿Cuáles son los requisitos para la admisión?",
    "¿Cómo me inscribo en la universidad?",
    "¿Qué carreras ofrece la Universidad Tech?",
    "¿Cuánto cuesta la matrícula por semestre?",
    "¿Hay becas disponibles para estudiantes?",
    "¿Cómo solicito una beca?",
    "¿Cuáles son los horarios de clases?",
    "¿Dónde encuentro el calendario académico?",
    "¿Cómo cambio mi contraseña del portal estudiantil?",
    "¿Qué servicios de salud ofrece la universidad?",
    "¿Hay residencias universitarias?",
    "¿Cómo me uno a un club estudiantil?",
    "¿Cuándo son los exámenes finales?",
    "¿Cómo preparo mi tesis?",
    "¿Qué es el sistema de créditos?",
    "¿Puedo convalidar materias de otra universidad?",
    "¿Cómo contacto al decano?",
    "¿Hay programas de intercambio internacional?",
    "¿Qué hago si pierdo mi carnet estudiantil?",
    "¿Cuáles son las fechas de inscripción a materias?",
    "¿Cómo accedo a la biblioteca virtual?",
    "¿Hay tutorías disponibles?",
    "¿Qué deportes se practican en la universidad?",
    "¿Cómo reporto un problema en el campus?",
    "¿Cuáles son las normas de convivencia?",
    "¿Cómo me inscribo a las materias?",
    "¿Dónde puedo ver mi horario de clases?",
    "¿Cómo solicito un certificado de alumno regular?",
    "¿Dónde está la biblioteca?",
    "¿Cuál es el horario de atención de secretaría?",
    "¿Cómo consulto mis notas?",
    "¿Qué requisitos necesito para inscribirme a una materia?",
    "¿Cuándo empiezan las clases?",
    "¿Cómo puedo cambiar mi contraseña del campus virtual?",
    "¿Dónde pago la matrícula?",
    "¿Hay becas disponibles?",
    "¿Cómo solicito una beca estudiantil?",
    "¿Cuál es el plan de estudios de mi carrera?",
    "¿Puedo cursar materias de otras carreras?",
    "¿Cómo justifico una inasistencia?",
    "¿Cuántas faltas puedo tener?",
    "¿Dónde está el comedor universitario?",
    "¿Hay estacionamiento para estudiantes?",
    "¿Cómo contacto a mi profesor?",
    "¿Qué hago si pierdo mi credencial estudiantil?",
    "¿Cuándo es el período de inscripción?",
    "¿Puedo cursar materias en contraturno?",
    "¿Cómo tramito mi título universitario?",
    "¿Cómo presento un reclamo o queja formal?",
    "¿Hay apoyo para estudiantes con discapacidad?"],

  "respuestas" : [
    "¡Hola! ¿En qué puedo ayudarte?", "Hasta luego. ¡Que tengas un excelente día!",
    "Los requisitos incluyen título secundario, examen de ingreso y documentos personales. Visita el sitio web para detalles.",
    "La inscripción se hace online a través del portal de admisiones. Necesitas crear una cuenta y subir documentos.",
    "Ofrecemos carreras en Ingeniería, Ciencias, Humanidades, Negocios y Artes. Consulta el catálogo completo en el sitio.",
    "La matrícula varía por carrera, pero promedia $5000 por semestre. Hay descuentos para becarios.",
    "Sí, hay becas por mérito, necesidad económica y deportivas. Aplican restricciones.",
    "Solicita becas en la oficina de ayuda financiera con formulario y documentos probatorios.",
    "Los horarios dependen de la carrera, pero clases son de 8am a 8pm. Revisa tu horario personal en el portal.",
    "El calendario académico está disponible en el portal estudiantil, con fechas de inicio, fin y feriados.",
    "Ve al portal, selecciona 'Olvidé contraseña' y sigue las instrucciones por email.",
    "Ofrecemos consultas médicas, psicológicas y dentales gratuitas en el centro de salud del campus.",
    "Sí, hay residencias con habitaciones compartidas. Aplica en la oficina de vivienda.",
    "Visita la feria de clubs al inicio del semestre o contacta a la asociación estudiantil.",
    "Los exámenes finales son en junio y diciembre, según el calendario académico.",
    "Para la tesis, elige un tema, un tutor y sigue las guías del departamento. Hay talleres disponibles.",
    "El sistema de créditos asigna puntos por materia aprobada. Necesitas 180 créditos para graduarte.",
    "Sí, presenta certificados y solicita convalidación en la secretaría académica.",
    "Envía un email a decano@utech.edu o agenda una cita en su oficina.",
    "Sí, programas con universidades en Europa y América. Aplica en la oficina de internacionalización.",
    "Reporta la pérdida en seguridad y solicita un duplicado con foto y pago.",
    "Las inscripciones a materias son del 1 al 15 de cada mes previo al semestre.",
    "Accede a la biblioteca virtual con tu usuario y contraseña del portal estudiantil.",
    "Sí, hay tutorías gratuitas en matemáticas, idiomas y más. Inscríbete en el centro de apoyo.",
    "Practicamos fútbol, básquet, natación y más. Únete a los equipos en el departamento de deportes.",
    "Reporta problemas como mantenimiento o seguridad a través de la app del campus o al teléfono 1234.",
    "Las normas incluyen respeto, no discriminación y cuidado del ambiente. Lee el código de conducta.",
    "Para inscribirte a las materias debes ingresar al campus virtual con tu usuario y contraseña, ir a la sección 'Inscripciones' y seleccionar las materias disponibles según tu plan de estudios. El período de inscripción es del 1 al 15 de cada cuatrimestre.",
    "Puedes ver tu horario de clases en el campus virtual, sección 'Mi Horario', o descargarlo en formato PDF desde 'Descargas'. También lo encontrarás en las carteleras de tu facultad.",
    "Para solicitar un certificado de alumno regular debes ingresar a 'Trámites' en el campus virtual, seleccionar 'Certificado de Alumno Regular' y completar el formulario. El certificado estará disponible en 48 horas hábiles.",
    "La biblioteca central está ubicada en el edificio B, planta baja. El horario de atención es de lunes a viernes de 8:00 a 20:00 hs y sábados de 9:00 a 13:00 hs.",
    "El horario de atención de secretaría académica es de lunes a viernes de 9:00 a 17:00 hs. Los trámites administrativos también pueden realizarse a través del campus virtual las 24 horas.",
    "Puedes consultar tus notas ingresando al campus virtual, sección 'Calificaciones'. Las notas son publicadas por los profesores dentro de los 10 días posteriores al examen o evaluación.",
    "Para inscribirte a una materia necesitas: 1) Tener aprobadas las materias correlativas, 2) Estar al día con los pagos administrativos, 3) No tener sanciones disciplinarias vigentes. Consulta las correlatividades en tu plan de estudios.",
    "Las clases del primer cuatrimestre comienzan la primera semana de marzo, y las del segundo cuatrimestre la primera semana de agosto. Las fechas exactas se publican en el calendario académico anual.",
    "Para cambiar tu contraseña del campus virtual, haz clic en 'Olvidé mi contraseña' en la pantalla de inicio de sesión. Te enviaremos un enlace a tu correo electrónico institucional para restablecer la contraseña.",
    "Puedes pagar la matrícula en: 1) Cajeros automáticos usando el código de pago electrónico, 2) Plataformas de pago online (Mercado Pago, Rapipago, Pago Fácil), 3) Tesorería de la universidad de lunes a viernes de 9:00 a 15:00 hs.",
    "Sí, la universidad ofrece diferentes tipos de becas: becas de mérito académico, becas socioeconómicas, becas deportivas y becas de investigación. Consulta los requisitos y convocatorias en la sección 'Becas y Ayuda Económica' del sitio web.",
    "Para solicitar una beca debes: 1) Completar el formulario online en 'Becas', 2) Adjuntar la documentación requerida (certificado de ingresos, analítico académico), 3) Esperar la evaluación del comité. El proceso demora aproximadamente 30 días hábiles.",
    "El plan de estudios de tu carrera está disponible en el sitio web de la facultad, en la sección 'Carreras'. También puedes consultarlo en secretaría académica o descargarlo desde el campus virtual en formato PDF.",
    "Sí, puedes cursar hasta 2 materias electivas de otras carreras si hay cupos disponibles y cumplen con tu plan de estudios. Debes solicitar autorización en secretaría académica presentando una nota fundamentando tu pedido.",
    "Para justificar una inasistencia debes presentar el certificado médico o documentación correspondiente en secretaría dentro de las 48 horas. Las inasistencias por razones de fuerza mayor se evalúan caso por caso.",
    "El régimen de asistencia establece que puedes tener hasta un 25% de inasistencias (equivale a 3-4 clases según la materia). Superado ese límite, pierdes la regularidad de la materia y debes cursarla nuevamente.",
    "El comedor universitario está ubicado en el edificio C, primer piso. Ofrece menú estudiantil a precio subsidiado. Horarios: desayuno 7:30-9:00, almuerzo 12:00-15:00, merienda 16:00-18:00. Debes presentar tu credencial estudiantil.",
    "Sí, hay estacionamiento para estudiantes en el predio universitario. Es necesario tramitar el permiso de estacionamiento en la oficina de seguridad (edificio A). El costo es de $2000 mensuales y debes presentar cédula verde del vehículo y credencial.",
    "Puedes contactar a tu profesor a través del campus virtual usando la mensajería interna, o por correo electrónico institucional. Los profesores tienen horarios de consulta publicados en sus cátedras, generalmente 1 hora antes o después de cada clase.",
    "Si pierdes tu credencial estudiantil debes: 1) Hacer la denuncia en 'Reportes' del campus virtual, 2) Solicitar el duplicado en oficina de alumnos presentando DNI y pagando la tasa administrativa ($500), 3) Retirar la nueva credencial en 5 días hábiles.",
    "El período de inscripción a materias es: Primer cuatrimestre: del 1 al 15 de febrero. Segundo cuatrimestre: del 15 al 30 de julio. Existe un período extraordinario de inscripción en los primeros 5 días de cada cuatrimestre con recargo.",
    "Sí, puedes cursar materias en contraturno si existen comisiones disponibles y no se superponen con tus otras materias. Debes solicitarlo durante el período de inscripción indicando los motivos (laborales, etc) en el formulario correspondiente.",
    "Para tramitar tu título universitario debes: 1) Haber aprobado todas las materias del plan de estudios, 2) Completar el formulario de solicitud de título, 3) Presentar documentación (DNI, partida de nacimiento, certificado analítico), 4) Pagar la tasa de título. El trámite demora 90-120 días.",
    "Puedes presentar un reclamo o queja formal en 'Atención al Estudiante' completando el formulario online en la sección 'Reclamos' del campus virtual, o personalmente en la oficina de atención al público. Guarda el comprobante y los números de expediente para seguimiento.",
    "Sí, el Centro de Inclusión y Atención a la Diversidad ofrece apoyos para estudiantes con discapacidad: adaptaciones curriculares, tutorías especializadas, intérpretes y asesoramiento. Solicita una evaluación y el plan de apoyos en la oficina correspondiente."]}

print(f"cantidad de preguntas {len(preguntas_respuestas["preguntas"])}, cantidad de respuestas {len(preguntas_respuestas["respuestas"])}")

cantidad de preguntas 52, cantidad de respuestas 52


In [2]:
# Instalo la librería spaCy
!pip install spacy
# Descargo e instalo el modelo de idioma español 'es_core_news_md' (modelo mediano: buena relación entre tamaño y calidad).
!python -m spacy download es_core_news_md

Collecting es-core-news-md==3.8.0
  Using cached https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.8.0/es_core_news_md-3.8.0-py3-none-any.whl (42.3 MB)
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_md')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


### cargo las librerias que utilizaré

In [3]:
# NumPy para operaciones numéricas eficientes y manejo de arreglos
import numpy as np
# pandas para manipulación y análisis de datos mediante DataFrames
import pandas as pd
# Importo el módulo 're' para trabajar con expresiones regulares como búsqueda, reemplazo y limpieza de texto
import re
# Importo unicodedata para normalizar cadenas Unicode y facilitar la remoción de acentos
import unicodedata
# spaCy para procesamiento de lenguaje natural y uso de modelos lingüísticos
import spacy
# TfidfVectorizer para transformar colecciones de documentos en matrices TF-IDF.
from sklearn.feature_extraction.text import TfidfVectorizer
# cosine_similarity para calcular la similitud coseno entre vectores
from sklearn.metrics.pairwise import cosine_similarity

## Crear el chatbot utilizando TFIDF y similitud del coseno

In [4]:
# Crear DataFrame
df = pd.DataFrame(preguntas_respuestas)
df.head()

Unnamed: 0,preguntas,respuestas
0,hola,¡Hola! ¿En qué puedo ayudarte?
1,adiós,Hasta luego. ¡Que tengas un excelente día!
2,¿Cuáles son los requisitos para la admisión?,"Los requisitos incluyen título secundario, exa..."
3,¿Cómo me inscribo en la universidad?,La inscripción se hace online a través del por...
4,¿Qué carreras ofrece la Universidad Tech?,"Ofrecemos carreras en Ingeniería, Ciencias, Hu..."


In [5]:
# Defino una función para limpiar y normalizar texto (quita nulos, mayúsculas, acentos, puntuación y espacios extra)
def limpiar_texto(texto):
    # Si el valor es NaN lo convierto a cadena vacía para evitar errores posteriores
    if pd.isna(texto): return ""
    # Convierto todo a minúsculas para homogeneizar comparaciones y búsquedas
    texto = texto.lower()
    # quito los acentos:
    # - Normalizo la cadena a forma NFD (descompone caracteres compuestos en base + marcas)
    # - Elimino los caracteres cuya categoría Unicode es 'Mn' (marca, como tilde o acento)
    texto = ''.join(c for c in unicodedata.normalize('NFD', texto) if unicodedata.category(c) != 'Mn')
    # elimino cualquier carácter que no sea una letra a-z, un dígito o un espacio
    # Esto quita puntuación, signos de interrogación/exclamación invertidos, símbolos, etc
    texto = re.sub(r'[^a-z0-9\s]', '', texto)
    # Remuevo espacios repetidos y espacios al inicio/fin dejando una sola separación entre palabras
    texto = ' '.join(texto.split())
    # Devuelvo el texto limpio
    return texto

# Aplico la función de limpieza a la columna 'preguntas' del DataFrame
df['preguntas'] = df['preguntas'].apply(limpiar_texto)

# Muestro las primeras filas del DataFrame
df.head()

Unnamed: 0,preguntas,respuestas
0,hola,¡Hola! ¿En qué puedo ayudarte?
1,adios,Hasta luego. ¡Que tengas un excelente día!
2,cuales son los requisitos para la admision,"Los requisitos incluyen título secundario, exa..."
3,como me inscribo en la universidad,La inscripción se hace online a través del por...
4,que carreras ofrece la universidad tech,"Ofrecemos carreras en Ingeniería, Ciencias, Hu..."


In [6]:
# inicializo el vectorizador TF-IDF
vectorizer = TfidfVectorizer()

# ajusto el vectorizador con todas las preguntas del DataFrame y transformo ese texto en una matriz TF-IDF
tfidf_matrix = vectorizer.fit_transform(df['preguntas'])

In [7]:
# defino la función del chatbot que recibe una consulta y devuelve la respuesta más similar junto con la similitud
def chatbot_tfidf(consulta):
    # limpio y normalizo la consulta con la función de preprocesamiento definida anteriormente
    consulta_limpia = limpiar_texto(consulta)
    # transformo la consulta limpia a un vector TF-IDF usando el vectorizador ya ajustado
    consulta_vec = vectorizer.transform([consulta_limpia])
    # calculo la similitud coseno entre la consulta y todas las preguntas del corpus
    similitudes = cosine_similarity(consulta_vec, tfidf_matrix).flatten()
    # extraigo la similitud máxima para evaluar si existe una coincidencia suficientemente buena
    max_sim = max(similitudes)
    # si la similitud máxima está por debajo del umbral, devuelvo un mensaje de no comprensión y la puntuación
    if max_sim < 0.5: return "Lo siento, no entiendo tu pregunta. ¿Puedes reformularla?", max_sim
    # obtengo el índice de la pregunta con mayor similitud
    indice = np.argmax(similitudes)
    # devuelvo la respuesta asociada a ese índice y la similitud máxima
    return df["respuestas"][indice], max_sim

In [8]:
# hago una prueba para ver que tal funcina
respuesta_tfidf, similitud_tfidf = chatbot_tfidf("hola")
print(f"Chatbot TF-IDF: {respuesta_tfidf} (Similitud: {similitud_tfidf:.4f})")

Chatbot TF-IDF: ¡Hola! ¿En qué puedo ayudarte? (Similitud: 1.0000)


### Crear otro chatbot utilizando embeddings

elegí spaCy porque es ligero y soporta español

In [9]:
# cargo el modelo de spaCy en español.
nlp = spacy.load("es_core_news_md")

In [10]:
# genero los embeddings para cada pregunta del DataFrame usando el modelo de spaCy.
# recorro cada pregunta ya limpiada y obtengo su vector semántico
embeddings_preguntas = [nlp(p).vector for p in df["preguntas"]]

In [11]:
# defino la función del chatbot basado en embeddings, que calcula similitud semántica entre la consulta y las preguntas
def chatbot_embeddings(consulta):
    # limpio la consulta para asegurar consistencia con el preprocesamiento aplicado a las preguntas
    consulta_limpia = limpiar_texto(consulta)
    # obtengo el embedding (vector semántico) de la consulta usando el modelo spaCy
    consulta_emb = nlp(consulta_limpia).vector
    # calculo la similitud coseno entre el vector de la consulta y cada embedding de las preguntas almacenadas
    # para cada embedding, genero una matriz 1x1 con el valor de similitud
    similitudes = [cosine_similarity([consulta_emb], [emb])[0][0] for emb in embeddings_preguntas]
    # obtengo la mayor similitud para evaluar si alguna pregunta coincide suficientemente bien
    max_sim = max(similitudes)
    # si la similitud máxima es menor al umbral definido (0.5), devuelvo un mensaje indicando que no hay coincidencias claras
    if max_sim < 0.5: return "Lo siento, no entiendo tu pregunta. ¿Puedes reformularla?", max_sim
    # identifico el índice de la pregunta con mayor similitud
    indice = np.argmax(similitudes)
    # devuelvo la respuesta correspondiente a esa pregunta junto con la similitud máxima
    return df["respuestas"][indice], max_sim

In [12]:
# pruebo tambien para ver su funcionamiento
respuesta_embedding, similitud_embedding = chatbot_embeddings("hola como estas")
print(f"Chatbot embedding: {respuesta_embedding} (Similitud: {similitud_embedding:.4f})")

Chatbot embedding: Las clases del primer cuatrimestre comienzan la primera semana de marzo, y las del segundo cuatrimestre la primera semana de agosto. Las fechas exactas se publican en el calendario académico anual. (Similitud: 0.5865)


### Muestra ambos chatbots funcionando

In [13]:
# defino las preguntas para testear los modelos
preguntas_test = [
    "¿Cuáles son los requisitos para la admisión?",
    "¿Cómo inscribirme en la uni?",
    "¿Becas para alumnos?",
    "¿Horarios de exámenes?",
    "¿Qué es el cambio climático?",
    "¿Cómo cambio contraseña?",
    "¿Programas de intercambio?",
    "¿Normas de la universidad?",
    "¿Dónde está la biblioteca?",
    "¿Fechas para inscribir materias?"]

# defino una función para comparar las respuestas de los dos chatbots (TF-IDF y Embeddings) sobre un conjunto de preguntas
def comparar_bots_df(preguntas_usuario):
    # inicializo una lista donde guardaré los resultados generados por cada pregunta evaluada
    resultados = []
    # recorro cada pregunta de la lista
    for pregunta in preguntas_usuario:
        # limpio la pregunta para mantener coherencia con el preprocesamiento de ambos chatbots
        pregunta_limpia = limpiar_texto(pregunta)
        # obtengo la respuesta del chatbot basado en TF-IDF
        resp_tfidf = chatbot_tfidf(pregunta_limpia)
        # obtengo la respuesta del chatbot basado en embeddings semánticos
        resp_emb = chatbot_embeddings(pregunta_limpia)
        # agrego los resultados en forma de diccionario para construir el DataFrame
        resultados.append({
            "Pregunta": pregunta,
            "Respuesta TF-IDF": resp_tfidf,
            "Respuesta Embeddings": resp_emb})

    # convierto la lista de resultados en un DataFrame para visualizar y analizar comparativamente ambas respuestas
    df_resultados = pd.DataFrame(resultados)
    # configuro pandas para mostrar el contenido completo de las columnas sin recortes
    pd.set_option('display.max_colwidth', None)
    # devuelvo el DataFrame con el resumen comparativo
    return df_resultados

In [14]:
# ejecuto la función de comparación usando el conjunto de preguntas de prueba y guardo el resultado en un DataFrame
df_comparacion = comparar_bots_df(preguntas_test)

# muestro el DataFrame resultante con las respuestas generadas por ambos chatbots
display(df_comparacion)

Unnamed: 0,Pregunta,Respuesta TF-IDF,Respuesta Embeddings
0,¿Cuáles son los requisitos para la admisión?,"(Los requisitos incluyen título secundario, examen de ingreso y documentos personales. Visita el sitio web para detalles., 1.0000000000000002)","(Los requisitos incluyen título secundario, examen de ingreso y documentos personales. Visita el sitio web para detalles., 1.0000001)"
1,¿Cómo inscribirme en la uni?,"(Lo siento, no entiendo tu pregunta. ¿Puedes reformularla?, 0.45570445354578404)","(La biblioteca central está ubicada en el edificio B, planta baja. El horario de atención es de lunes a viernes de 8:00 a 20:00 hs y sábados de 9:00 a 13:00 hs., 0.78550094)"
2,¿Becas para alumnos?,"(Sí, hay becas por mérito, necesidad económica y deportivas. Aplican restricciones., 0.6513810968317382)","(Sí, hay becas por mérito, necesidad económica y deportivas. Aplican restricciones., 0.79707915)"
3,¿Horarios de exámenes?,"(Lo siento, no entiendo tu pregunta. ¿Puedes reformularla?, 0.4349727213710096)","(Sí, programas con universidades en Europa y América. Aplica en la oficina de internacionalización., 0.7589258)"
4,¿Qué es el cambio climático?,"(Lo siento, no entiendo tu pregunta. ¿Puedes reformularla?, 0.4918685654111643)","(El sistema de créditos asigna puntos por materia aprobada. Necesitas 180 créditos para graduarte., 0.86249655)"
5,¿Cómo cambio contraseña?,"(Ve al portal, selecciona 'Olvidé contraseña' y sigue las instrucciones por email., 0.6533260769819372)","(Para justificar una inasistencia debes presentar el certificado médico o documentación correspondiente en secretaría dentro de las 48 horas. Las inasistencias por razones de fuerza mayor se evalúan caso por caso., 0.72352445)"
6,¿Programas de intercambio?,"(Sí, programas con universidades en Europa y América. Aplica en la oficina de internacionalización., 0.7822518230130686)","(Sí, programas con universidades en Europa y América. Aplica en la oficina de internacionalización., 0.8820045)"
7,¿Normas de la universidad?,"(Lo siento, no entiendo tu pregunta. ¿Puedes reformularla?, 0.42898936486579425)","(Ofrecemos consultas médicas, psicológicas y dentales gratuitas en el centro de salud del campus., 0.8648595)"
8,¿Dónde está la biblioteca?,"(La biblioteca central está ubicada en el edificio B, planta baja. El horario de atención es de lunes a viernes de 8:00 a 20:00 hs y sábados de 9:00 a 13:00 hs., 1.0)","(La biblioteca central está ubicada en el edificio B, planta baja. El horario de atención es de lunes a viernes de 8:00 a 20:00 hs y sábados de 9:00 a 13:00 hs., 0.9999998)"
9,¿Fechas para inscribir materias?,"(Las inscripciones a materias son del 1 al 15 de cada mes previo al semestre., 0.5069001019618596)","(Sí, puedes cursar hasta 2 materias electivas de otras carreras si hay cupos disponibles y cumplen con tu plan de estudios. Debes solicitar autorización en secretaría académica presentando una nota fundamentando tu pedido., 0.6997907)"


Los resultados de similitud de respuesta para cada chatbot fueron:

0. TF-IDF = 1.00 │ Embeddings = 1.00

1. TF-IDF = 0.46 │ Embeddings = 0.78

2. TF-IDF = 0.65 │ Embeddings = 0.80

3. TF-IDF = 0.43 │ Embeddings = 0.76

4. TF-IDF = 0.49 │ Embeddings = 0.86

5. TF-IDF = 0.65 │ Embeddings = 0.72

6. TF-IDF = 0.78 │ Embeddings = 0.88

7. TF-IDF = 0.43 │ Embeddings = 0.86

8. TF-IDF = 1.00 │ Embeddings = 1.00

9. TF-IDF = 0.51 │ Embeddings = 0.70




TF-IDF respondió correctamente en los índices: 0, 2, 5, 6, 8, 9.
(Correctas: requisitos de admisión; información sobre becas; cambio de contraseña; programas de intercambio; ubicación de la biblioteca; fechas de inscripción.)

Embeddings tomando encuenta la coherencia de la respuesta y no el umbral, el modelo respondió correctamente en los índices: 0, 2, 6, 8.
(Correctas: requisitos de admisión; becas; programas de intercambio; ubicación de la biblioteca.)

### Añade tus conclusiones de todo lo realizado

#### Análisis de Fallos

**TF-IDF:**
- Falló en preguntas 1, 3, 4, 7 por falta de palabras clave exactas
- Ejemplo: "¿Cómo inscribirme en la uni?" → la palabra "uni" no existe en el corpus
- Es muy sensible a variaciones léxicas y abreviaturas

**Embeddings:**
- Fallos más graves: dio respuestas incorrectas con alta confianza
- Pregunta 1 (Cómo inscribirme en la uni): respondió sobre la biblioteca central (0.78)
- Pregunta 3 (horarios exámenes): respondió sobre intercambio (0.76)
  → Confusión por contexto universitario general
- Pregunta 4 (cambio climático): respondió sobre créditos académicos (0.86)
  → Esto indica que el modelo encuentra similitud semántica superficial
- Pregunta 5 (¿Cómo cambio contraseña?): respondió sobre justificación de inasistencias y certificados médicos (0.72).
  → Respuesta fuera de contexto, confusión por términos administrativos/portal.
- Pregunta 7 (¿Normas de la universidad?): respondió sobre servicios médicos/psicológicos del campus (0.86).
→ Confusión por vocabulario compartido de servicios del campus.
- Pregunta 9 (Fechas para inscribir materias): respondió sobre cursada de materias (0.70)
  → Confusión por el uso de la palabra materias?
#### Confusiones Identificadas

**TF-IDF confunde:**
- Sinónimos y abreviaturas ("uni" vs "universidad")
- Reformulaciones de preguntas

**Embeddings confunde:**
- Temas relacionados pero diferentes
- "Cambio climático" con "sistema de créditos" (quizas tienen una similitud matematica?)

**problema que note en ambos modelos**
algo que note haciendo pruebas con ambos modelos es que no logran obtener una buena similitud con palabras con y sin acentos

#### Comparación Final

| Métrica | TF-IDF | Embeddings | Ganador |
|---------|--------|------------|---------|
| Precisión | 6/10 (60%) | 4/10 (40%) | TF-IDF |
| Falsos positivos | Bajo | Alto | TF-IDF |


**CONCLUSIÓN PRINCIPAL:**
Para este chatbot universitario, TF-IDF funciona mejor porque:
1. el Dataset es pequeño (52 preguntas) y funciona mejor con datasets pequeños, el modelo de embeddings quizas necesitaria un dataset mas amplio
2. Mayor precisión (menos errores graves)

Embeddings sería mejor con:
1. quizas con un Dataset más grande
2. Ajustar del umbral subirlo a 0.85-0.90 para obtener las respuestas mas precisas y ver si se evita la correlacion de respuestas con preguntas que no tienen relacion

### Fuentes
Apuntes de clase proporcionados por el docente de la materia.

Asistencia de ChatGPT (modelo de lenguaje de OpenAI) para la generacion de la base de datos.