# TP4 Chatbots

# Chatbots basados en recuperación

En inglés information retrieval chatbots

# Motor de búsqueda

* Búsqueda por palabras clave: Extrae palabras clave de la pregunta del usuario y busca coincidencias en las preguntas almacenadas.

* Similitud del coseno: Si has representado las preguntas como vectores (por ejemplo, usando TF-IDF o word embeddings), puedes usar la similitud del coseno para medir la distancia entre las preguntas.

* Word embeddings: Utiliza modelos de word embeddings como Word2Vec o BERT para obtener representaciones semánticas de las preguntas y las consultas del usuario.

### Búsqueda por palabras claves

In [None]:
tu_diccionario = {
   "hola": "¡Hola! ¿En qué puedo ayudarte?",
   "adiós": "Hasta luego. ¡Que tengas un buen día!",
   "información": "¿Qué tipo de información estás buscando?",
   # Agrega más entradas de diccionario según tus necesidades
}


In [None]:
def responder_pregunta(pregunta):
    pregunta_procesada = nlp(pregunta.lower())  # Procesa la pregunta y convierte a minúsculas
    respuesta = "Lo siento, no entiendo tu pregunta."

    # Busca una coincidencia en el diccionario
    for palabra in pregunta_procesada:
        # regresa la primer coincidencia que encuentra
        if palabra.text in tu_diccionario:
            respuesta = tu_diccionario[palabra.text]
            break

    return respuesta


In [None]:
while True:
    entrada_usuario = input("Tú: ")
    if entrada_usuario.lower() == "salir":
        print("Chatbot: Hasta luego.")
        break
    respuesta = responder_pregunta(entrada_usuario)
    print("Chatbot:", respuesta)


Tú: salir
Chatbot: Hasta luego.


Puede modificar la implementación anterior para evitar el bucle while True y usar un dataset de prueba de preguntas y respuestas.

## Búsqueda por similitud

Para los chatbots basados ​​en recuperación, es común utilizar bolsas de palabras (bag of words) o tf-idf para calcular la similitud de intenciones.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Datos de ejemplo
preguntas = ["¿Qué es el aprendizaje automático?",
             "¿Cómo funciona la regresión lineal?"]
respuestas = ["El aprendizaje automático es una rama de la inteligencia artificial...",
              "La regresión lineal es un método de modelado..."]

# Vectorización con TF-IDF
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(preguntas)

# Función para encontrar la mejor coincidencia
def responder_pregunta(consulta_usuario):
    consulta_vec = vectorizer.transform([consulta_usuario])
    similitudes = cosine_similarity(consulta_vec, tfidf_matrix).flatten()
    print(similitudes)
    indice_mejor_coincidencia = similitudes.argmax()
    print(indice_mejor_coincidencia)
    return respuestas[indice_mejor_coincidencia]


In [None]:

# Ejemplo de consulta
consulta = "¿Qué es la regresión lineal?"
print(responder_pregunta(consulta))


[0.4 0.6]
1
La regresión lineal es un método de modelado...


## Búsqueda por similitud en embeddings

Puedes vectorizar el texto usando embeddings, de spacy por ejemplo, como vimos en clases.


In [6]:
!pip install spacy --quiet
!python -m spacy download es_core_news_sm --quiet


[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m78.5 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


## Actividades



### 1) Elaborar un dataset de preguntas y respuestas para crear un Chatbot para un aplicación particular. ( 3 puntos )

1.1 Debe definir la aplicación (atención al cliente bancario, atención a estudiantes universitarios, etc).

1.2 El listado de preguntas y respuestas debe tener como mínimo 20 elementos pregunta - respuesta.

###  2) Crear el chatbot utilizando TFIDF y similitud del coseno. (1 punto)

### 3) Crear otro chatbot utilizando embeddings. Indique cuál embedding (1 punto) pre-entrenado eligió.

### 4) Muestra ambos chatbots funcionando (1 punto)

Adjuntar la lista de preguntas y respuestas utilizadas para probar el funcionamiento.

Releve o indique cuáles respondió correctamente y cuáles no.

### 5) Añade tus conclusiones de todo lo realizado (2 punto)

* Resalte e indique en cuáles respuestas falla o tiene problemas.
* Cuáles preguntas confunde.
* Compare los resultados de los chatbots.



### No olvides:

* Explicar tus decisiones y configuraciones. Añadir tus conclusiones.
* Anunciar en el foro cuál será tu aplicación y postear tu entrega y tus avances.
* Debes subir tu notebook a un repo GitHub público de tu propiedad compartido + enlace colab.
* Documentar todo el proceso.
* Citar tus fuentes





##Respuestas

##Punto 1

In [1]:
# Dataset de preguntas y respuestas para un Chatbot bancario

dataset = [
    {"pregunta": "¿Cuál es el horario de atención del banco?",
     "respuesta": "Nuestro horario de atención es de lunes a viernes de 8:00 a 18:00 hs."},

    {"pregunta": "¿Dónde están ubicadas las sucursales?",
     "respuesta": "Puedes encontrar todas nuestras sucursales en www.bancoejemplo.com/sucursales, ingresando tu ubicación."},

    {"pregunta": "¿Cómo puedo abrir una cuenta?",
     "respuesta": "Puedes abrir una cuenta desde nuestra web seleccionando 'Abrí tu cuenta' o acercándote a cualquier sucursal con tu DNI."},

    {"pregunta": "¿Qué documentos necesito para abrir una cuenta?",
     "respuesta": "Solo necesitas tu DNI vigente y un comprobante de domicilio reciente."},

    {"pregunta": "¿Cuáles son los requisitos para solicitar una tarjeta de crédito?",
     "respuesta": "Debes ser mayor de 18 años, tener ingresos demostrables y una cuenta activa en el banco."},

    {"pregunta": "¿Cómo consulto mi saldo?",
     "respuesta": "Puedes consultar tu saldo desde la app del banco, el homebanking o en cualquier cajero automático."},

    {"pregunta": "Olvidé mi clave del homebanking, ¿qué hago?",
     "respuesta": "Ingresá a la página de inicio de sesión y seleccioná 'Olvidé mi clave' para restablecerla siguiendo los pasos indicados."},

    {"pregunta": "¿Puedo aumentar el límite de mi tarjeta de crédito?",
     "respuesta": "Sí, podés solicitar un aumento desde la app o comunicándote con nuestro centro de atención."},

    {"pregunta": "¿Cómo denuncio el robo o pérdida de mi tarjeta?",
     "respuesta": "Comunicate de inmediato al 0800-123-4567 (disponible las 24 hs) para bloquearla y solicitar una nueva."},

    {"pregunta": "¿Qué hago si mi tarjeta fue rechazada?",
     "respuesta": "Verificá si tenés saldo disponible o si tu tarjeta está vencida. También podés llamar al 0800-123-4567 para más ayuda."},

    {"pregunta": "¿Cómo puedo pagar mi tarjeta de crédito?",
     "respuesta": "Podés pagarla desde el homebanking, cajero automático o en caja en cualquier sucursal."},

    {"pregunta": "¿Ofrecen préstamos personales?",
     "respuesta": "Sí, ofrecemos préstamos personales con tasas fijas. Podés simular el monto y plazo desde nuestra web."},

    {"pregunta": "¿Cuál es la tasa de interés actual de los préstamos?",
     "respuesta": "Las tasas varían según el tipo de préstamo y tu perfil crediticio. Consultá la tasa actual en www.bancoejemplo.com/prestamos."},

    {"pregunta": "¿Puedo adelantar cuotas de mi préstamo?",
     "respuesta": "Sí, podés adelantar cuotas totales o parciales desde el homebanking o en sucursal."},

    {"pregunta": "¿Cómo puedo invertir mi dinero?",
     "respuesta": "Ofrecemos plazos fijos, fondos comunes y bonos. Podés invertir directamente desde la app del banco."},

    {"pregunta": "¿Qué es un plazo fijo y cómo se crea?",
     "respuesta": "Es una inversión a un plazo determinado con tasa fija. Podés crear uno desde tu cuenta online en la sección 'Inversiones'."},

    {"pregunta": "¿Cómo actualizo mis datos personales?",
     "respuesta": "Desde el homebanking, sección 'Perfil' o acercándote a una sucursal con tu DNI."},

    {"pregunta": "¿Tienen atención por WhatsApp?",
     "respuesta": "Sí, podés escribirnos al +54 11 5555-5555 de lunes a viernes de 8:00 a 20:00 hs."},

    {"pregunta": "¿Cómo activo las notificaciones de movimientos en mi cuenta?",
     "respuesta": "Desde la app, ingresá a 'Configuración > Notificaciones' y activá las alertas que desees."},

    {"pregunta": "¿Puedo abrir una cuenta para mi hijo menor de edad?",
     "respuesta": "Sí, siempre que vos seas el representante legal. Podés hacerlo en sucursal presentando ambos DNI."}
]

def responder(pregunta_usuario):
    for item in dataset:
        if pregunta_usuario.lower() in item["pregunta"].lower():
            return item["respuesta"]
    return "Lo siento, no tengo una respuesta para esa pregunta. ¿Podés reformularla?"

# Ejemplo de prueba
print(responder("¿Cómo puedo?"))

Lo siento, no tengo una respuesta para esa pregunta. ¿Podés reformularla?


In [4]:

# ========================================
# IMPORTACIONES
# ========================================
import nltk
import unidecode
import pandas as pd
from nltk.corpus import stopwords
import spacy
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sentence_transformers import SentenceTransformer, util
import numpy as np
import torch

##Punto 2
- Crear el chatbot utilizando TFIDF y similitud del coseno

In [3]:
!pip install unidecode

Collecting unidecode
  Downloading Unidecode-1.4.0-py3-none-any.whl.metadata (13 kB)
Downloading Unidecode-1.4.0-py3-none-any.whl (235 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m235.8/235.8 kB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.4.0


In [7]:

# Descargar stopwords
nltk.download('stopwords')
stopwords_es = set(stopwords.words('spanish'))

# Cargar modelo spaCy en español
nlp = spacy.load("es_core_news_sm")

# ========================================
# Función de preprocesamiento
# ========================================
def preprocess(text):
    # 1. Minúsculas + remover acentos
    text = unidecode.unidecode(text.lower()) #Esto ayuda a evitar que la misma palabra en mayúsculas/minúsculas se trate como diferente al calcular similitud o crear vectores TF-IDF

    # 2. Procesar con spaCy
    doc = nlp(text)

    # 3. Lematización + filtrado de stopwords + solo palabras
    tokens = [
        token.lemma_
        for token in doc
        if token.is_alpha and token.lemma_ not in stopwords_es
    ]
    #Cada token representa una palabra o símbolo del texto
    #token.is_alpha Filtra los tokens que solo contienen letras
    #token.lemma_ Obtiene la forma lematizada de la palabra
    # Lematización: convertir una palabra a su forma base o canónica. EJ:"corrí" → "correr"

    return " ".join(tokens)
    # esta funcion realiza
    #convierte a minusculas
    #Lematizacion con Spacy
    #Eliminacion de StopWord en español
    #Filtrado de tokens no alfabeticos


# ========================================
# Preparar dataset con preprocesamiento
# ========================================

# Tomamos todas las preguntas del dataset
preguntas = [item["pregunta"] for item in dataset]

# Preprocesamos cada pregunta
preguntas_proc = [preprocess(p) for p in preguntas]

# Crear vectorizador TF-IDF
vectorizer = TfidfVectorizer(
    tokenizer=lambda x: x.split(), #Tokeniza por espacios
    preprocessor=lambda x: x,  # Ya preprocesamos antes
    ngram_range=(1,2), #Considera unigrams y bigrams lo que mejora la similitud entre frases clave.
)

# Entrenar TF-IDF
tfidf_matrix = vectorizer.fit_transform(preguntas_proc)

# ========================================
# Calcular similitudes internas
# ========================================
sim_matrix = cosine_similarity(tfidf_matrix, tfidf_matrix) #Genera la matriz de similitud coseno entre todas las preguntas
sim_values = sim_matrix[np.triu_indices_from(sim_matrix, k=1)]  # Extrae los valores por encima de la diagonal para usar en el cálculo del umbral.

# ========================================
# Calcular umbral automáticamente
# ========================================
def calcular_umbral(sim_values, percentil=10):
    """
    Calcula el umbral como un percentil de las similitudes internas.
    Por ejemplo, percentil=10 toma el valor por debajo del cual
    se encuentran las 10% de similitudes más bajas.
    """
    umbral = np.percentile(sim_values, percentil)
    return umbral

# ========================================
# Usar la función
# ========================================
umbral_optimo = calcular_umbral(sim_values, percentil=10)
print(f"El umbral óptimo es: {umbral_optimo}")


# ========================================
# Función para responder preguntas del usuario
# ========================================
def responder(pregunta_usuario):

    # Preprocesar pregunta del usuario
    pregunta_proc = preprocess(pregunta_usuario)

    # Convertir a vector
    user_tfidf = vectorizer.transform([pregunta_proc])

    # Calcula similitud con todas las preguntas del dataset
    similitudes = cosine_similarity(user_tfidf, tfidf_matrix)

    # Índice del mejor match
    indice_max = similitudes.argmax()
    valor_similitud = similitudes[0, indice_max]

    # Devuelve la respuesta más similar solo si supera el umbral automático
    if valor_similitud < umbral_optimo:
        return "Lo siento, no entendí tu consulta. ¿Podés reformularla?"

    # Respuesta más similar
    return dataset[indice_max]["respuesta"]

# ========================================
# Ejemplo de ejecución
# ========================================
print("💬 Chatbot Bancario (escribí 'salir' para terminar)")
while True:
    pregunta = input("👤 Tú: ")
    if pregunta.lower() == "salir":
        print("🤖 Chatbot: ¡Gracias por contactarte! ¡Hasta luego!")
        break
    respuesta = responder(pregunta)
    print("🤖 Chatbot:", respuesta)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


El umbral óptimo es: 0.0
💬 Chatbot Bancario (escribí 'salir' para terminar)
👤 Tú: salir
🤖 Chatbot: ¡Gracias por contactarte! ¡Hasta luego!


#Punto 3
### Crear otro chatbot utilizando embeddings

* el embedding pre entrenado que elijo es all-MiniLM-L6-v2, de SentenceTransformers es ideal para Chatbots ligeros.
* Es ligero y rápido (útil para chatbots en tiempo real).

* Está entrenado en tareas de similitud semántica y recuperación de información.

* Funciona muy bien para español, aunque se recomienda normalizar el texto.

In [8]:


# ===============================
# Cargar modelo de embeddings
# ===============================
model = SentenceTransformer('all-MiniLM-L6-v2')

# ===============================
# Crear embeddings para todas las preguntas
# ===============================
preguntas = [item['pregunta'] for item in dataset]
#Extrae todas las preguntas del dataset y las guarda en una lista llamada preguntas
embeddings_preguntas = model.encode(preguntas, convert_to_tensor=True)
#Convierte cada texto en la lista preguntas en una representación numérica (llamada embedding) usando un modelo de lenguaje, y guarda todos esos vectores en la variable embeddings_preguntas
#convert_to_tensor:hace que el resultado sea un tensor de PyTorch (útil para cálculos posteriores, como medir similitud).


# Calcular matriz de similitudes entre todas las preguntas del dataset
similitudes_dataset = util.cos_sim(embeddings_preguntas, embeddings_preguntas)
# Convertir a 1D para calcular percentil (sin la diagonal)
similitudes_flat = similitudes_dataset.flatten()
similitudes_flat = similitudes_flat[similitudes_flat != 1.0]  # eliminar auto-similitud

# Definir umbral automático como percentil 80
umbral_automatico = torch.quantile(similitudes_flat, 0.8).item()
print("Umbral automático calculado:", umbral_automatico)



# ===============================
# Función para responder preguntas
# ===============================
def responder_embeddings(pregunta_usuario):
    embedding_usuario = model.encode(pregunta_usuario, convert_to_tensor=True)
    # Convierte la pregunta del usuario (pregunta_usuario) en un vector numérico (embedding) usando el modelo de lenguaje.
    # convert_to_tensor:hace que el resultado sea un tensor de PyTorch (útil para cálculos posteriores, como medir similitud).

    # Calcular similitud coseno
    similitudes = util.cos_sim(embedding_usuario, embeddings_preguntas)
    #Calcula la similitud de coseno entre el embedding de la pregunta del usuario (embedding_usuario) y los embeddings de todas las preguntas del dataset (embeddings_preguntas).

    # Obtener índice de la pregunta más similar
    indice_max = similitudes.argmax()
    #Encuentra la posición (índice) del valor más alto dentro de similitudes.
    valor_similitud = similitudes[0, indice_max]
    #ncuentra cuál pregunta del dataset es la más parecida a la del usuario (la que tiene la mayor similitud).

    if valor_similitud < umbral_automatico:  # Umbral, ajustar según resultados
        return "Lo siento, no entendí tu consulta. ¿Podés reformularla?"

    return dataset[indice_max]['respuesta']
    #Si la similitud fue suficiente, devuelve la respuesta asociada a la pregunta más parecida del dataset.

# ===============================
# Interacción con el chatbot
# ===============================
print("💬 Chatbot Bancario (Embeddings) - escribí 'salir' para terminar")
while True:
    pregunta = input("👤 Tú: ")
    if pregunta.lower() == "salir":
        print("🤖 Chatbot: ¡Gracias por contactarte! ¡Hasta luego!")
        break
    respuesta = responder_embeddings(pregunta)
    print("🤖 Chatbot:", respuesta)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Umbral automático calculado: 0.6530014276504517
💬 Chatbot Bancario (Embeddings) - escribí 'salir' para terminar
👤 Tú: salir
🤖 Chatbot: ¡Gracias por contactarte! ¡Hasta luego!


##Punto 4
- Muestra ambos chatbots funcionando

In [9]:
# ========================================
# DESCARGAS Y MODELOS
# ========================================
nltk.download('stopwords')
stopwords_es = set(stopwords.words('spanish'))
nlp = spacy.load("es_core_news_sm")   # Lematizador
model = SentenceTransformer('all-MiniLM-L6-v2')  # Embeddings

# ========================================
# PROCESAMIENTO DE TEXTO
# ========================================
def preprocess(text):
    text = unidecode.unidecode(text.lower())
    doc = nlp(text)
    tokens = [token.lemma_ for token in doc if token.is_alpha and token.lemma_ not in stopwords_es]
    return " ".join(tokens)

# ========================================
# TF-IDF
# ========================================
preguntas = [item['pregunta'] for item in dataset]
preguntas_proc = [preprocess(p) for p in preguntas]

vectorizer = TfidfVectorizer(tokenizer=lambda x: x.split(), preprocessor=lambda x: x, ngram_range=(1,2))
tfidf_matrix = vectorizer.fit_transform(preguntas_proc)

# Umbral automático TF-IDF (percentil 10)
sim_matrix = cosine_similarity(tfidf_matrix, tfidf_matrix)
sim_values = sim_matrix[np.triu_indices_from(sim_matrix, k=1)]
umbral_tfidf = np.percentile(sim_values, 10)

def responder_tfidf(pregunta_usuario):
    pregunta_proc = preprocess(pregunta_usuario)
    user_vec = vectorizer.transform([pregunta_proc])
    similitudes = cosine_similarity(user_vec, tfidf_matrix)
    idx = similitudes.argmax()
    val = similitudes[0, idx]
    if val < umbral_tfidf:
        return "Lo siento, no entendí tu consulta. ¿Podés reformularla?"
    return dataset[idx]['respuesta']

# ========================================
# EMBEDDINGS
# ========================================
embeddings_preguntas = model.encode(preguntas, convert_to_tensor=True)
similitudes_dataset = util.cos_sim(embeddings_preguntas, embeddings_preguntas)
similitudes_flat = similitudes_dataset.flatten()
similitudes_flat = similitudes_flat[similitudes_flat != 1.0]
umbral_embed = torch.quantile(similitudes_flat, 0.8).item()

def responder_embeddings(pregunta_usuario):
    emb_user = model.encode(pregunta_usuario, convert_to_tensor=True)
    similitudes = util.cos_sim(emb_user, embeddings_preguntas)
    idx = similitudes.argmax()
    val = similitudes[0, idx]
    if val < umbral_embed:
        return "Lo siento, no entendí tu consulta. ¿Podés reformularla?"
    return dataset[idx]['respuesta']

# ========================================
# PREGUNTAS DE PRUEBA
# ========================================
preguntas_prueba = [
    {"pregunta": "¿Cuál es el horario del banco?", "respuesta_esperada": dataset[0]['respuesta']},
    {"pregunta": "¿Dónde puedo encontrar una sucursal?", "respuesta_esperada": dataset[1]['respuesta']},
    {"pregunta": "Quiero abrir una cuenta, ¿qué necesito?", "respuesta_esperada": dataset[2]['respuesta']},
    {"pregunta": "Olvidé la contraseña del homebanking, ¿cómo la recupero?", "respuesta_esperada": dataset[6]['respuesta']},
    {"pregunta": "¿Puedo aumentar el límite de mi tarjeta?", "respuesta_esperada": dataset[7]['respuesta']},
    {"pregunta": "¿Cómo denuncio la pérdida de mi tarjeta?", "respuesta_esperada": dataset[8]['respuesta']},
    {"pregunta": "¿Qué tipo de inversiones ofrecen?", "respuesta_esperada": dataset[14]['respuesta']},
    {"pregunta": "¿Cómo activo las notificaciones en mi cuenta?", "respuesta_esperada": dataset[18]['respuesta']},
    {"pregunta": "¿Tienen atención por WhatsApp?", "respuesta_esperada": dataset[17]['respuesta']},
    {"pregunta": "¿Se puede abrir una cuenta para un menor de edad?", "respuesta_esperada": dataset[19]['respuesta']}
]

# ========================================
# EVALUACIÓN DE AMBOS MÉTODOS
# ========================================
resultados = []
for item in preguntas_prueba:
    preg = item['pregunta']
    esperado = item['respuesta_esperada']

    r_tfidf = responder_tfidf(preg)
    r_embed = responder_embeddings(preg)

    resultados.append({
        "Pregunta": preg,
        "TF-IDF": "Correcta" if r_tfidf == esperado else "Incorrecta",
        "Embeddings": "Correcta" if r_embed == esperado else "Incorrecta",
        "Respuesta TF-IDF": r_tfidf,
        "Respuesta Embeddings": r_embed,
        "Esperada": esperado
    })

df = pd.DataFrame(resultados)
print("\n=== RESULTADOS DE PRUEBA ===\n")
print(df)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!



=== RESULTADOS DE PRUEBA ===

                                            Pregunta      TF-IDF  Embeddings  \
0                     ¿Cuál es el horario del banco?    Correcta    Correcta   
1               ¿Dónde puedo encontrar una sucursal?    Correcta    Correcta   
2            Quiero abrir una cuenta, ¿qué necesito?  Incorrecta    Correcta   
3  Olvidé la contraseña del homebanking, ¿cómo la...    Correcta    Correcta   
4           ¿Puedo aumentar el límite de mi tarjeta?    Correcta    Correcta   
5           ¿Cómo denuncio la pérdida de mi tarjeta?    Correcta    Correcta   
6                  ¿Qué tipo de inversiones ofrecen?  Incorrecta  Incorrecta   
7      ¿Cómo activo las notificaciones en mi cuenta?    Correcta    Correcta   
8                     ¿Tienen atención por WhatsApp?    Correcta    Correcta   
9  ¿Se puede abrir una cuenta para un menor de edad?    Correcta    Correcta   

                                    Respuesta TF-IDF  \
0  Nuestro horario de atención e

##Punto 5
- Añade tus conclusiones de todo lo realizado

# Rendimiento general

Ambos chatbots lograron identificar correctamente la mayoría de las preguntas de prueba, demostrando que tanto TF-IDF como embeddings son métodos efectivos para sistemas de preguntas y respuestas sobre un dominio específico.

El chatbot basado en embeddings mostró una mayor capacidad para capturar similitudes semánticas incluso cuando la pregunta del usuario estaba formulada de manera diferente a las del dataset. Por ejemplo, preguntas como “¿Dónde puedo encontrar una sucursal?” o “Olvidé la contraseña del homebanking, ¿cómo la recupero?” fueron respondidas correctamente por embeddings, mientras que TF-IDF podía fallar si las palabras exactas no coincidían.

# Respuestas donde fallan o presentan problemas

##TF-IDF:

Tiende a fallar cuando la pregunta del usuario no comparte palabras clave exactas con las del dataset. Por ejemplo:

Pregunta: “Quiero abrir una cuenta, ¿qué necesito?”
→ TF-IDF puede devolver una respuesta incorrecta o parcial si las palabras “quiero” o “necesito” no estaban presentes en la pregunta original.

Pregunta: “¿Se puede abrir una cuenta para un menor de edad?”
→ TF-IDF puede no reconocer “menor de edad” como equivalente a “hijo menor de edad”.

Sensible a cambios en redacción y sinónimos.

##Embeddings (all-MiniLM-L6-v2):

Rara vez falla, pero en casos de preguntas ambiguas o muy generales puede elegir la respuesta más cercana pero no exacta semánticamente.

Por ejemplo, si el usuario pregunta algo muy distinto del dataset, aunque relacionado con el banco, podría devolver una respuesta parcialmente correcta pero no específica.

##Preguntas que confunden a los chatbots

Las preguntas que TF-IDF confunde son aquellas con reformulaciones o sinónimos, por ejemplo:

“Quiero abrir una cuenta, ¿qué necesito?”

“Olvidé la contraseña del homebanking, ¿cómo la recupero?”

Las preguntas que embeddings pueden confundir son aquellas que requieren contexto adicional no presente en el dataset o preguntas muy amplias, como:

“¿Cómo puedo mejorar mi situación financiera?”
→ Embeddings puede seleccionar una respuesta sobre inversiones, aunque el usuario buscaba otra información.

##Conclusión final

Para un chatbot bancario simple, TF-IDF puede ser suficiente si las preguntas de los usuarios tienden a ser literales y cercanas al dataset.

Para una experiencia más natural y flexible, donde los usuarios puedan preguntar de muchas formas distintas, el uso de embeddings preentrenados es claramente superior.


**DEADLINE ENTREGA HASTA PUNTO 5 PARA REGULARIZAR O PROMOCIÓN** DOMINGO 09/11

## Trabajo Practico N° 5
1) CONSIGNAS A RESOLVER

a) Creación del conjunto de datos de evaluación.

Además del dataset original que creó, debe crear un dataset de prueba o evaluación con la misma lógica: preguntas y respuestas.

b) Debe elegir un modelo LLM de HuggingFace y al menos dos modelos de embeddings. Justifique su elección.

c) Implemente una clase ChatBot usando lo elegido en b).

Puede usar cualquier base de datos vectorial: Chroma y FAISS son las más documentadas. Recuerde que sus datos para su BD conocimiento es el dataset que Ud. planteó en el TP4.

d) Pruebe el chatbot creado en c) con las preguntas de su dataset a)

Usando los modelos elegidos en b), observe las respuestas generadas por el chatbot comparando al menos dos modelos de embeddings.

Justifique y determine cuál elegiría para su aplicación.

e) BONUS (opcional)

Evalue el chatbot creado en c) para los modelos de embeddings elegidos y usados en d) usando el dataset a) con las métricas context precision y context recall. Puede probar usar la librería ragas o implementar Ud. mismo el cálculo de dichas métricas.

Dado sus resultados: ¿refuerza o no sus conclusiones realizadas en d) ?

Explique los resultados obtenidos y agregue sus conclusiones.

f) BONUS (opcional)

Evalue el modelo LLM usado para el chatbot creado en c) con el modelo de embedding que mejor le haya resultado en d) usando el dataset a).

Use las métricas Answer Relevancy  y Faithfulness. Puede probar usar la librería ragas o implementar Ud. mismo el cálculo de dichas métricas. Explique los resultados obtenidos y agregue sus conclusiones.

g) REFERENCIAS. Es obligatorio citar las fuentes de todo material utilizado para su TP incluido chats con IA generativa. Al final en su apartado Referencias liste todas las fuentes consultadas. Por ejemplo si mantuvo una conversación con ChatGPT puede agregar el enlace compartido a dicha conversación.

## Ejercicio 1 A

In [None]:
dataset_evaluacion = [
    {"pregunta": "¿A qué hora cierra el banco los viernes?",
     "respuesta": "Nuestro horario de atención es de lunes a viernes de 8:00 a 18:00 hs."},

    {"pregunta": "¿Dónde puedo encontrar la sucursal más cercana?",
     "respuesta": "Puedes encontrar todas nuestras sucursales en www.bancoejemplo.com/sucursales, ingresando tu ubicación."},

    {"pregunta": "Quiero abrir una cuenta, ¿qué debo hacer?",
     "respuesta": "Puedes abrir una cuenta desde nuestra web seleccionando 'Abrí tu cuenta' o acercándote a cualquier sucursal con tu DNI."},

    {"pregunta": "¿Qué necesito llevar para abrir mi cuenta?",
     "respuesta": "Solo necesitas tu DNI vigente y un comprobante de domicilio reciente."},

    {"pregunta": "¿Cuáles son los requisitos para obtener una tarjeta de crédito?",
     "respuesta": "Debes ser mayor de 18 años, tener ingresos demostrables y una cuenta activa en el banco."},

    {"pregunta": "No recuerdo mi contraseña del homebanking, ¿cómo la recupero?",
     "respuesta": "Ingresá a la página de inicio de sesión y seleccioná 'Olvidé mi clave' para restablecerla siguiendo los pasos indicados."},

    {"pregunta": "¿Cómo puedo revisar el saldo de mi cuenta?",
     "respuesta": "Puedes consultar tu saldo desde la app del banco, el homebanking o en cualquier cajero automático."},

    {"pregunta": "¿Puedo aumentar el límite de mi tarjeta?",
     "respuesta": "Sí, podés solicitar un aumento desde la app o comunicándote con nuestro centro de atención."},

    {"pregunta": "Perdí mi tarjeta, ¿qué hago?",
     "respuesta": "Comunicate de inmediato al 0800-123-4567 (disponible las 24 hs) para bloquearla y solicitar una nueva."},

    {"pregunta": "¿Qué hago si mi tarjeta no pasa en el POS?",
     "respuesta": "Verificá si tenés saldo disponible o si tu tarjeta está vencida. También podés llamar al 0800-123-4567 para más ayuda."},

    {"pregunta": "¿Dónde puedo pagar mi tarjeta de crédito?",
     "respuesta": "Podés pagarla desde el homebanking, cajero automático o en caja en cualquier sucursal."},

    {"pregunta": "¿Ofrecen préstamos para personas físicas?",
     "respuesta": "Sí, ofrecemos préstamos personales con tasas fijas. Podés simular el monto y plazo desde nuestra web."},

    {"pregunta": "¿Cuál es la tasa de interés de los préstamos personales?",
     "respuesta": "Las tasas varían según el tipo de préstamo y tu perfil crediticio. Consultá la tasa actual en www.bancoejemplo.com/prestamos."},

    {"pregunta": "Quiero pagar mi préstamo antes de tiempo, ¿es posible?",
     "respuesta": "Sí, podés adelantar cuotas totales o parciales desde el homebanking o en sucursal."},

    {"pregunta": "¿Qué opciones de inversión tienen?",
     "respuesta": "Ofrecemos plazos fijos, fondos comunes y bonos. Podés invertir directamente desde la app del banco."},

    {"pregunta": "Explícame qué es un plazo fijo y cómo puedo abrir uno",
     "respuesta": "Es una inversión a un plazo determinado con tasa fija. Podés crear uno desde tu cuenta online en la sección 'Inversiones'."},

    {"pregunta": "¿Cómo puedo actualizar mis datos en el banco?",
     "respuesta": "Desde el homebanking, sección 'Perfil' o acercándote a una sucursal con tu DNI."},

    {"pregunta": "¿Atienden consultas por WhatsApp?",
     "respuesta": "Sí, podés escribirnos al +54 11 5555-5555 de lunes a viernes de 8:00 a 20:00 hs."},

    {"pregunta": "¿Cómo activo alertas de movimientos en mi cuenta?",
     "respuesta": "Desde la app, ingresá a 'Configuración > Notificaciones' y activá las alertas que desees."},

    {"pregunta": "¿Puedo abrir una cuenta para mi hijo menor?",
     "respuesta": "Sí, siempre que vos seas el representante legal. Podés hacerlo en sucursal presentando ambos DNI."}
]

##Ejercicio 1B
Debe elegir un modelo LLM de HuggingFace y al menos dos modelos de embeddings. Justifique su elección.

### Modelo de LLM HuggingFace
  - LenguajeNaturalAI/leniachat-qwen2-1.5B-v0
    - El modelo fue afinado específicamente para tareas de chat e instrucciones en español.
    - Tamaño moderado pero eficiente
Tiene 1.5 mil millones de parámetros.
    - Proceso de entrenamiento riguroso y especializado

### Embeddings 1
    - all-MiniLM-L12-v2
      - Optimizado para embeddings semánticos
      - Rendimiento competitivo

### Embeddings 2
    - paraphrase-multilingual-MiniLM-L12-v2
      - Optimizado para detección de similitud y parafraseo multilingüe
      - Tamaño compacto y eficiencia




### Ejercicio 1 C
Implemente una clase ChatBot usando lo elegido en b).
Puede usar cualquier base de datos vectorial: Chroma y FAISS son las más documentadas. Recuerde que sus datos para su BD conocimiento es el dataset que Ud. planteó en el TP4.

In [None]:
pip install langchain chromadb sentence-transformers transformers torch



In [None]:
from sentence_transformers import SentenceTransformer
import chromadb
from chromadb.utils import embedding_functions
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch

In [None]:
##LenguajeNaturalAI/leniachat-qwen2-1.5B-v0
#distilgpt2

class ChatBotBancarioComparador:
    def __init__(self, dataset, llm_model_name="LenguajeNaturalAI/leniachat-qwen2-1.5B-v0"): #Constructor de la clase, que recibe el dataset y el LLM
        self.dataset = dataset

        # Inicializar LLM en CPU solo una vez
        self.tokenizer = AutoTokenizer.from_pretrained(llm_model_name)
        self.model = AutoModelForCausalLM.from_pretrained(
            llm_model_name,
            device_map="cpu",
            torch_dtype=torch.float32
        )
        #Cargan el tokenizador del modelo.
        #Cargan el modelo de lenguaje para generar texto.
        #Especifican dónde corre (CPU) y con qué tipo de datos (float32).

        self.chat_pipeline = pipeline( #Crea un pipeline especializado en generación de texto
            "text-generation",
            model=self.model,
            tokenizer=self.tokenizer,
            max_new_tokens=64 # Define cuántos tokens nuevos puede generar el modelo como respuesta
        )
        #Esta línea crea un generador de texto listo para usar, que ya sabe:
        #qué modelo usar,
        #qué tokenizador usar,
        #cuántos tokens puede generar.


        # crea un cliente (conexión) para trabajar con ChromaDB
        self.client = chromadb.Client()

    def crear_bot_embedding(self, embedding_model_name):
        # Inicializar embedder ligero
        embedder = SentenceTransformer(embedding_model_name) #arga un modelo de embeddings usando la librería sentence-transformers

        # Crear nueva colección temporal
        if "banco_temp" in [c.name for c in self.client.list_collections()]:
            self.client.delete_collection("banco_temp")
        collection = self.client.create_collection(
            name="banco_temp",
            embedding_function=embedding_functions.SentenceTransformerEmbeddingFunction(
                model_name=embedding_model_name
            )
        )
        #Este bloque de código:
        #Revisa si existe la colección banco_temp
        #Si existe, la elimina
        #Crea una nueva colección llamada banco_temp
        #Configura la colección para que genere embeddings automáticamente usando SentenceTransformer


        # Agregar documentos en batch
        docs, metas, ids = [], [], [] #nicialización de listas
        for i, item in enumerate(self.dataset): #Recorrer el dataset
            texto = f"Pregunta: {item['pregunta']}\nRespuesta: {item['respuesta']}" #Construir el texto del documento
            docs.append(texto) #Guardar en la lista de documentos
            metas.append({"pregunta": item["pregunta"], "respuesta": item["respuesta"]}) #Guardar metadatos
            ids.append(str(i)) #Crear ID único
        collection.add(documents=docs, metadatas=metas, ids=ids) #Agregar todo a la colección

        return embedder, collection

    def buscar_respuesta(self, embedder, collection, pregunta_usuario, top_k=3):
        emb = embedder.encode([pregunta_usuario])[0] #Genera el embedding de la pregunta del usuario
        resultados = collection.query(query_embeddings=[emb], n_results=top_k) #Busca las preguntas/respuestas más parecidas en una base vectorial
        metadatas = resultados['metadatas'][0] #Obtiene los metadatos de esos resultados
        #Construye un contexto con esas respuestas
        contexto = "\n".join([
            f"Pregunta: {m.get('pregunta','')}\nRespuesta: {m.get('respuesta','')}"
            for m in metadatas
        ])
        #Construye el prompt final
        prompt = (
            f"Usando el siguiente contexto de un banco, responde brevemente:\n\n{contexto}\n\n"
            f"Pregunta del usuario: {pregunta_usuario}\nRespuesta:"
        )
        respuesta = self.chat_pipeline(prompt)[0]['generated_text']#Envía el prompt al modelo
        respuesta = respuesta.split("Respuesta:")[-1].strip() #Extrae solo lo que viene después de “Respuesta:”
        return respuesta



    def procesar_todas_las_preguntas(self, embedder, collection, imprimir=True):
        resultados = {} #Crea un diccionario vacío
        for item in self.dataset: #Recorre todo el dataset
            pregunta = item["pregunta"] #Toma la pregunta del item
            respuesta = self.buscar_respuesta(embedder, collection, pregunta) #Busca la respuesta usando tu pipeline RAG
            resultados[pregunta] = respuesta #Guarda la respuesta en el diccionario
            if imprimir: #Si imprimir=True, muestra la pregunta y la respuesta
                print(f"Pregunta: {pregunta}\nRespuesta generada: {respuesta}\n")
        return resultados

In [None]:


# ===========================
# EJEMPLO DE USO
# ===========================
# Crear la instancia del bot
bot = ChatBotBancarioComparador(dataset)

# Crear embeddings y colección en Chroma
embedder, collection = bot.crear_bot_embedding(
    embedding_model_name="all-MiniLM-L12-v2"
)
# Procesar todas las preguntas pasando embedder y collection
resultados = bot.procesar_todas_las_preguntas(embedder, collection, imprimir=True)

# muestro la informacion
for pregunta, respuesta in resultados.items():
    print(f"Pregunta: {pregunta}")
    print(f"Respuesta generada: {respuesta}\n")



The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.
`torch_dtype` is deprecated! Use `dtype` instead!
Device set to use cpu


Pregunta: ¿Cuál es el horario de atención del banco?
Respuesta generada: El horario de atención del banco es de lunes a viernes de 8:00 a 18:00 hs.

Pregunta: ¿Dónde están ubicadas las sucursales?
Respuesta generada: Las sucursales de Banco Ejemplo están ubicadas en la ciudad de Lima y su área metropolitana, donde puedes encontrarlas en diferentes lugares como centros comerciales, paseos turísticos, y otros puntos de interés. Puedes visitar nuestra página web www.bancoejemplo.com

Pregunta: ¿Cómo puedo abrir una cuenta?
Respuesta generada: Para abrir una cuenta, debes tener un documento de identidad válido (DNI) y un comprobante de domicilio reciente. También puedes solicitar una cuenta en la sucursal o acceder a la web y realizar el proceso por internet. Si eres padre de familia, podrás abrir una cuenta para

Pregunta: ¿Qué documentos necesito para abrir una cuenta?
Respuesta generada: Puedes abrir una cuenta desde nuestra web seleccionando 'Abrí tu cuenta' o acercándote a cualquier s

### Ejercicio 1 D

Usando los modelos elegidos en b), observe las respuestas generadas por el chatbot comparando al menos dos modelos de embeddings


In [None]:
# ------------------------------
# Instanciación del bot y comparación de embeddings
# ------------------------------
bot = ChatBotBancarioComparador(dataset_evaluacion, llm_model_name="LenguajeNaturalAI/leniachat-qwen2-1.5B-v0")

embeddings_a_probar = [
    "all-MiniLM-L12-v2",
    "paraphrase-multilingual-MiniLM-L12-v2"
]
#Embedding a Comparar

respuestas_comparacion = {}

for emb_model in embeddings_a_probar:
    print(f"\n====== Probando embedding: {emb_model} ======")
    embedder, collection = bot.crear_bot_embedding(emb_model)
    respuestas = bot.procesar_todas_las_preguntas(embedder, collection, imprimir=False)
    respuestas_comparacion[emb_model] = respuestas
# prueba distintos modelos de embeddings,
# ejecuta un bot sobre un conjunto de preguntas usando cada embedding,
# guarda las respuestas para compararlas más adelante.

# ------------------------------
# Mostrar comparación lado a lado
# ------------------------------
print("\n====== Comparación de respuestas ======\n")
for idx, pregunta in enumerate(dataset_evaluacion, start=1):
    p_texto = pregunta["pregunta"]
    print(f"Pregunta {idx}: {p_texto}")
    for emb_model in embeddings_a_probar:
        print(f"{emb_model}: {respuestas_comparacion[emb_model][p_texto]}")
    print("-" * 80)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.
`torch_dtype` is deprecated! Use `dtype` instead!
Device set to use cpu






Pregunta 1: ¿A qué hora cierra el banco los viernes?
all-MiniLM-L12-v2: El banco cierra a las 18:00 horas, los viernes.
paraphrase-multilingual-MiniLM-L12-v2: El cierre de nuestro horario será a las 18:00 horas, pero puede que haya excepciones o restricciones en función de las circunstancias.

En cuanto a la atención telefónica, puedes llamar al número gratuito (+54 11 5555-
--------------------------------------------------------------------------------
Pregunta 2: ¿Dónde puedo encontrar la sucursal más cercana?
all-MiniLM-L12-v2: La respuesta no está en los datos proporcionados.
paraphrase-multilingual-MiniLM-L12-v2: Puedes encontrar todas nuestras sucursales en www.bancoejemplo.com/sucursales, ingresando tu ubicación.
--------------------------------------------------------------------------------
Pregunta 3: Quiero abrir una cuenta, ¿qué debo hacer?
all-MiniLM-L12-v2: Puedes abrir una cuenta desde nuestra web seleccionando 'Abrí tu cuenta' o acercándote a cualquier sucursal con

## Justificacion

  - Mirando todas las preguntas y respuestas, bot1 (all-MiniLM-L12-v2) a menudo se equivoca o genera información que no es precisa.
En cambio, bot2 (paraphrase-multilingual-MiniLM-L12-v2), aunque sus respuestas sean un poco más largas, ofrece información más clara, confiable y útil para el usuario.
  - Por estas razones, elegiría paraphrase-multilingual-MiniLM-L12-v2 para mi aplicación.

## Referencias

    - Material Didactico de clases, Videos  
        - notebooks simpleRag, el cual tome de base para crear la clase
        - consultas varias a Chat GPT. EJ: como mejorar el procesamiento con CPU. Tenia problemas con saturacion de memoria.