# Chatbot informativo implementado al 100% en Python

### Es un ejemplo sencillo de chatbot que implementa el corpus en un archivo '.txt' y que emplea las librerías nltk y scikitlearn

#### El chatbot informa a los usuarios acerca de las normas de un crucero. Es un ejemplo básico, pero que bien sirve de ejemplo de uso de lematización y búsqueda de coincidencias entre las preguntas de usuario y las diferentes respuestas posibles mediante el modelo "cosine_similarity"

#### Resumen técnico.

##### 1.- En una variable de texto se almacena el corpus (diferentes respuestas posibles al usuario).
##### 2.- Cuando el usuario plantea una pregunta, se agrega -temporalmente- al final de la lista de respuestas. A todo este contenido se le eliminan signos de puntuación, se tokeniza, lematiza y se extraen sus caracterísaticas -mediante TfidfVectorizer de sklearn-. A partir de ellas y empleando un modelo del tipo "cosine_similarity" se buscan las respuestas más coincidentes con la pregunta del usuario, se elige la que mayor grado de coincidentcia muestra y se responde con ella.
##### 3.- Adicionalmente se ha incluido un pequeño módulo de saludo inicial, que aleatoriamente elige una respuesta entre varias posibles.


#### Próximamente subiré un sistema similar pero del tipo "voice bot", empleando para ello librerías de reconocimiento y síntesis de voz

In [24]:
# Importación de librerías
import nltk
import numpy as np
import random
import string
import json

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from nltk.corpus import stopwords
from spellchecker import SpellChecker

#nltk.download('punkt') # Instalar módulo punkt si no está ya instalado (solo ejecutar la primera vez)
#nltk.download('wordnet') # Instalar módulo wordnet si no está ya instalado (solo ejecutar la primera vez)



#### 1 Carga del corpus

In [25]:
# Cargar el corpus estructurado
with open('/home/mauricio/repos/source/chatbot/data.json', 'r') as f:
    corpus = json.load(f)

# Inicializar la variable 'raw' con el contenido del corpus
raw = " ".join([item['question'] + " " + item['answer'] for item in corpus['faq']])

#### 2 Definición de funciones y variables de apoyo

In [26]:
raw=raw.lower() # Convertimos todo el texto a minúsculas, para evitar deficiencias en la extracción de características

sent_tokens = nltk.sent_tokenize(raw) # Convierte el corpus a una lista de sentencias
word_tokens = nltk.word_tokenize(raw) # Convierte el corpus a una lista de palabras

lemmer = nltk.stem.WordNetLemmatizer() # Instanciamos el lematizador, con el que convertir las palabras  a sus raíces contextuales

#LemTokens es una función que lematiza todos los tokens que se le pasan como parámetro
def LemTokens(tokens):
    return [lemmer.lemmatize(token) for token in tokens]

# remove_punct es un diccionario del tipo (0signo de puntuación', None), que se emplea en la función
# LemNormalize para sustituir los signos de puntuación por "nada" es decir, eliminarlos.
remove_punct_dict = dict((ord(punct), None) for punct in string.punctuation)

# Dado un texto como parámetro, elimina los signos de puntuación, lo convierte a minúsculas,
# lo tokeniza -por palabras- y finalmente lo lematiza
def LemNormalize(text):
    return LemTokens(nltk.word_tokenize(text.lower().translate(remove_punct_dict)))

# Inicializar el corrector ortográfico
spell = SpellChecker(language='es')

def corregir_entrada(entrada):
    """
    Corrige faltas ortográficas en una entrada de texto.
    Si no se encuentra una corrección, se mantiene la palabra original.
    """
    palabras = entrada.split()
    palabras_corregidas = [spell.correction(palabra) or palabra for palabra in palabras]  # Usar 'or' para manejar None
    return ' '.join(palabras_corregidas)

# Crear una lista de preguntas del corpus
preguntas_corpus = [item['question'] for item in corpus['faq']]

# Función para buscar la respuesta más relevante usando similitud semántica
def buscar_respuesta_semantica(user_question):
    """
    Encuentra la respuesta más relevante en el corpus usando similitud semántica.
    """
    # Preprocesar la pregunta del usuario para mejorar la similitud
    user_question = LemNormalize(user_question)
    user_question = ' '.join(user_question)  # Convertir lista de palabras a texto

    # Combinar la pregunta del usuario con las preguntas del corpus
    preguntas = preguntas_corpus + [user_question]

    # Vectorizar las preguntas
    vectorizador = TfidfVectorizer()
    vectores = vectorizador.fit_transform(preguntas)

    # Calcular la similitud coseno entre la pregunta del usuario y las preguntas del corpus
    similitudes = cosine_similarity(vectores[-1], vectores[:-1])

    # Encontrar el índice de la pregunta más similar
    indice_max = similitudes.argsort()[0][-1]

    # Si la similitud es baja, devolver un mensaje predeterminado
    if similitudes[0][indice_max] < 0.3:  # Ajustar el umbral de similitud
        return "Lo siento, no tengo una respuesta para esa pregunta. Por favor, intenta con otra consulta."

    # Devolver la respuesta correspondiente
    return corpus['faq'][indice_max]['answer']

#### 3 Preprocesamiento del texto y evaluación de la similitud entre el mensaje de usuario y las respuestas definidas en el corpus

In [27]:
# Función para determinar la similitud del texto insertado y el corpus
def response(user_response):
    robo_response = ''
    sent_tokens.append(user_response)
    TfidfVec = TfidfVectorizer(tokenizer=LemNormalize, stop_words=stopwords.words('spanish'))
    caract_textos = TfidfVec.fit_transform(sent_tokens)
    vals = cosine_similarity(caract_textos[-1], caract_textos)
    idx = vals.argsort()[0][-2]
    flat = vals.flatten()
    flat.sort()
    nivel_coincidencia = flat[-2]
    if nivel_coincidencia == 0:
        robo_response = "Lo siento, no te he entendido. Si necesitas ayuda, escribe 'ayuda'."
    else:
        respuesta = sent_tokens[idx]
        if len(respuesta) > 200:  # Limitar la longitud de la respuesta
            respuesta = respuesta[:200] + '...'  # Agregar puntos suspensivos si es muy larga
        robo_response = respuesta
    sent_tokens.remove(user_response)
    return robo_response

#### 4 Definición de funcionalidades de saludo y despedida

In [28]:
saludo_inputs = ("hola", "buenas", "saludos", "qué tal", "hey", "buenos días", "ayuda")
saludo_outputs = [
    "Hola, ¿cómo puedo ayudarte?",
    "Hola, ¿en qué puedo asistirte?",
    "Hola, dime cómo puedo ayudarte."
]

despedidas = [
    "Nos vemos, espero haberte ayudado.",
    "Hasta pronto, ¡cuídate!",
    "Chao, que tengas un buen día."
]

def saludos(sentence):
    for word in sentence.split():
        if word.lower() in saludo_inputs:
            return random.choice(saludo_outputs)

def despedida():
    return random.choice(despedidas)

#### 5 Bucle conversacional

In [None]:
flag = True
print("CHATBOT: Mi nombre es CHATBOT. Contestaré a tus preguntas acerca del proyecto. Si necesitas ayuda, escribe 'ayuda'. Para salir, escribe 'salir'.")
while flag:
    user_response = input().lower()
    user_response = corregir_entrada(user_response)  # Corregir la entrada del usuario
    if user_response != 'salir':
        if user_response in ['gracias', 'muchas gracias']:
            print("CHATBOT: No hay de qué.")
        elif user_response == 'ayuda':
            print("CHATBOT: Puedes preguntarme sobre los participantes, objetivos, conclusiones, modelos, etc. Si quieres salir, escribe 'salir'.")
        elif saludos(user_response) is not None:
            print("CHATBOT: " + saludos(user_response))
        else:
            print("CHATBOT: " + buscar_respuesta_semantica(user_response))
    else:
        flag = False
        print("CHATBOT: " + despedida())

CHATBOT: Mi nombre es CHATBOT. Contestaré a tus preguntas acerca del proyecto. Si necesitas ayuda, escribe 'ayuda'. Para salir, escribe 'salir'.
CHATBOT: Hola, dime cómo puedo ayudarte.
CHATBOT: Hola, dime cómo puedo ayudarte.
CHATBOT: Lo siento, no tengo una respuesta para esa pregunta. Por favor, intenta con otra consulta.
CHATBOT: Lo siento, no tengo una respuesta para esa pregunta. Por favor, intenta con otra consulta.
CHATBOT: Predicción de niveles de exposición electromagnética en Colombia utilizando técnicas de Machine Learning.
CHATBOT: Predicción de niveles de exposición electromagnética en Colombia utilizando técnicas de Machine Learning.
CHATBOT: Lo siento, no tengo una respuesta para esa pregunta. Por favor, intenta con otra consulta.
CHATBOT: Lo siento, no tengo una respuesta para esa pregunta. Por favor, intenta con otra consulta.
