In [None]:
!pip install spacy --quiet
!python -m spacy download es_core_news_sm --quiet

In [None]:
import spacy
nlp = spacy.load("es_core_news_sm")

import es_core_news_sm
nlp = es_core_news_sm.load()

doc = nlp("Esto es una frase.")
print([(w.text, w.pos_) for w in doc])

# Chatbots basados en recuperación

En inglés: Information Retrieval Chatbots

# Motor de búsqueda

* Búsqueda por palabras clave: Extrae palabras clave de la pregunta del usuario y busca coincidencias en las preguntas almacenadas.

* Similitud del coseno: Si has representado las preguntas como vectores (por ejemplo, usando TF-IDF o word embeddings), puedes usar la similitud del coseno para medir la distancia entre las preguntas.

* Word embeddings: Utiliza modelos de word embeddings como Word2Vec o BERT para obtener representaciones semánticas de las preguntas y las consultas del usuario.

## 1. Búsqueda por **Palabras Clave**

In [None]:
tu_diccionario = {
  "hola": "¡Hola! ¿En qué puedo ayudarte?",
  "adiós": "Hasta luego. ¡Que tengas un buen día!",
  "información": "¿Qué tipo de información estás buscando?",
  # agrega más entradas de diccionario según tus necesidades
}

In [None]:
def responder_pregunta(pregunta):
  respuesta = "Lo siento, no entiendo tu pregunta."

  # procesa la pregunta y convierte a minúsculas
  pregunta_procesada = nlp(pregunta.lower())
  # print(f"pregunta_procesada: { pregunta_procesada }")

  # busca una coincidencia en el diccionario
  for palabra in pregunta_procesada:

    # regresa la primer coincidencia que encuentra
    if palabra.text in tu_diccionario:
      respuesta = tu_diccionario[palabra.text]
      break

  return respuesta

In [None]:
while True:
  entrada_usuario = input("Tú:       ")

  if entrada_usuario.lower() == "salir":
    print("Chatbot: Hasta luego.")
    break

  respuesta = responder_pregunta(entrada_usuario)
  print("Chatbot: ", respuesta)

## 2. Búsqueda por **Similitud**

Para los chatbots basados ​​en recuperación, es común utilizar bolsas de palabras (Bag of Words) o TF-IDF para calcular la similitud de intenciones.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# datos de ejemplo
preguntas =   ["¿Qué es el aprendizaje automático?",
               "¿Cómo funciona la regresión lineal?",
               "¿Qué es una bazofia?"]

respuestas =  ["El aprendizaje automático es una rama de la inteligencia artificial...",
               "La regresión lineal es un método de modelado...",
               "La bazofia es bazofia"]

# vectorización con TF-IDF
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(preguntas)

In [None]:
# función para encontrar la mejor coincidencia
def responder_pregunta(consulta_usuario):

  consulta_vec = vectorizer.transform([consulta_usuario])

  similitudes = cosine_similarity(consulta_vec, tfidf_matrix).flatten()
  print(f"Similitudes: { similitudes }")

  idx_best_match = similitudes.argmax()
  print(f"Respuesta:   #{ idx_best_match }")

  return respuestas[idx_best_match]

In [None]:
# consulta = "¿Qué es la regresión lineal?"
# consulta = "bazofia"
consulta = "es"

respuesta = responder_pregunta(consulta)
print("Respuesta:  ", respuesta)

## 3. Búsqueda por **similitud en Embeddings**

En el paso anterior el texto fue vectorizado usando TF-IDF.

Puedes vectorizar el texto usando word embeddings, como vimos en una clase anterior. Puedes mirar el notebook sobre Embeddings.
