# ü§ñ Chatbot Educativo con Naive Bayes y TF-IDF
Este notebook implementa un chatbot en espa√±ol utilizando t√©cnicas de PLN, Naive Bayes, y TF-IDF. Incluye limpieza de texto, correcci√≥n ortogr√°fica, evaluaci√≥n del modelo y un chatbot interactivo.

## üì¶ Importaci√≥n de librer√≠as necesarias

In [2]:
import unicodedata
import nltk
from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer
from nltk.tokenize import word_tokenize
from spellchecker import SpellChecker
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import random
from collections import Counter

## üì• Descarga de recursos de NLTK

In [3]:
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\darly\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\darly\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\darly\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\darly\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

## ‚öôÔ∏è Configuraci√≥n de herramientas de lenguaje

In [52]:
#stopwords_es = set(stopwords.words('spanish'))
stopwords_es = set(stopwords.words('spanish')) - {"no", "c√≥mo", "d√≥nde", "cu√°ndo"}

stemmer = SnowballStemmer("spanish")
spell = SpellChecker(language='es')

## üóÇÔ∏è Dataset
El dataset contiene frases clasificadas en 12 categor√≠as.

In [165]:
dataset = [
    # SALUDO
    ("Hola", "saludo"), ("Buenos d√≠as", "saludo"), ("¬øQu√© tal?", "saludo"), ("¬øC√≥mo est√°s?", "saludo"),
    ("Saludos", "saludo"), ("Buenas tardes", "saludo"), ("Buenas noches", "saludo"),
    ("¬øQu√© hay de nuevo?", "saludo"), ("¬°Hola, qu√© gusto!", "saludo"), ("¬øC√≥mo te va?", "saludo"),

    # QUEJA
    ("Estoy molesto por el servicio", "queja"), ("No me gusta el trato que recib√≠", "queja"),
    ("La atenci√≥n fue muy lenta", "queja"), ("El producto lleg√≥ da√±ado", "queja"),
    ("No contestan mis llamadas", "queja"), ("No estoy conforme con la calidad", "queja"),
    ("Tuve un problema con la compra", "queja"), ("El env√≠o se retras√≥", "queja"),
    ("No funciona como esperaba", "queja"), ("El empaque estaba roto", "queja"),

    # RECLAMO
    ("Quiero hacer un reclamo formal", "reclamo"), ("Deseo que me reembolsen", "reclamo"),
    ("Voy a presentar una queja oficial", "reclamo"), ("Estoy haciendo un reclamo de garant√≠a", "reclamo"),
    ("Reclamo por la mala atenci√≥n recibida", "reclamo"), ("No recib√≠ lo que compr√©", "reclamo"),
    ("Reclamo por doble cobro", "reclamo"), ("Quiero un cambio del producto", "reclamo"),
    ("No me lleg√≥ la factura", "reclamo"), ("El reclamo fue ignorado", "reclamo"),

    # PETICI√ìN
    ("Necesito saber m√°s sobre el servicio", "petici√≥n"), ("Quiero m√°s informaci√≥n", "petici√≥n"),
    ("¬øTienen cat√°logo en l√≠nea?", "petici√≥n"), ("Env√≠enme m√°s detalles por correo", "petici√≥n"),
    ("¬øD√≥nde puedo ver los productos?", "petici√≥n"), ("¬øC√≥mo puedo comprar?", "petici√≥n"),
    ("Solicito asesor√≠a", "petici√≥n"), ("Me pueden orientar con el proceso", "petici√≥n"),
    ("¬øHay m√°s opciones disponibles?", "petici√≥n"), ("¬øTienen promociones?", "petici√≥n"),

    # DESPEDIDA
    ("Hasta luego", "despedida"), ("Nos vemos", "despedida"), ("Gracias, adi√≥s", "despedida"),
    ("Chao", "despedida"), ("Gracias por todo", "despedida"), ("Fue un gusto, adi√≥s", "despedida"),
    ("Nos vemos pronto", "despedida"), ("Hasta la pr√≥xima", "despedida"), ("Cu√≠date", "despedida"),
    ("Buen d√≠a, adi√≥s", "despedida"),

    # CONTACTO
    ("¬øD√≥nde los puedo contactar?", "contacto"), ("¬øCu√°l es su n√∫mero de atenci√≥n?", "contacto"),
    ("¬øTienen WhatsApp?", "contacto"), ("¬øHay un correo para escribirles?", "contacto"),
    ("¬øTienen redes sociales?", "contacto"), ("¬øD√≥nde puedo encontrarlos?", "contacto"),
    ("¬øAtienden por tel√©fono?", "contacto"), ("¬øTienen l√≠nea de atenci√≥n?", "contacto"),
    ("¬øD√≥nde est√° la oficina?", "contacto"), ("¬øC√≥mo puedo hablar con un asesor?", "contacto"),

    # HORARIO
    ("¬øCu√°l es el horario de atenci√≥n?", "horario"), ("¬øTrabajan los fines de semana?", "horario"),
    ("¬øA qu√© hora abren?", "horario"), ("¬øHasta qu√© hora est√°n disponibles?", "horario"),
    ("¬øTienen atenci√≥n 24/7?", "horario"), ("¬øQu√© d√≠as trabajan?", "horario"),
    ("¬øEst√°n abiertos hoy?", "horario"), ("¬øPuedo llamarlos en la noche?", "horario"),
    ("¬øTienen horario continuo?", "horario"), ("¬øHay atenci√≥n los festivos?", "horario"),

    # PRECIO
    ("¬øCu√°nto cuesta el producto?", "precio"), ("¬øCu√°l es el precio del servicio?", "precio"),
    ("¬øTienen precios especiales?", "precio"), ("¬øHay descuentos?", "precio"),
    ("¬øCu√°nto vale el env√≠o?", "precio"), ("¬øTienen ofertas?", "precio"),
    ("¬øEs muy caro?", "precio"), ("¬øCu√°l es el precio por unidad?", "precio"),
    ("¬øPuedo pagar a cuotas?", "precio"), ("¬øAceptan pagos con tarjeta?", "precio"),

    # DEVOLUCI√ìN
    ("¬øPuedo devolver el producto?", "devoluci√≥n"), ("¬øCu√°l es la pol√≠tica de devoluciones?", "devoluci√≥n"),
    ("¬øAceptan cambios?", "devoluci√≥n"), ("¬øPuedo cambiar por otro modelo?", "devoluci√≥n"),
    ("¬øCu√°nto tiempo tengo para devolver?", "devoluci√≥n"), ("¬øPuedo pedir reembolso?", "devoluci√≥n"),
    ("¬øMe devuelven el dinero?", "devoluci√≥n"), ("¬øD√≥nde hago la devoluci√≥n?", "devoluci√≥n"),
    ("¬øTengo que pagar por devolver?", "devoluci√≥n"), ("¬øC√≥mo gestiono una devoluci√≥n?", "devoluci√≥n"),

    # SOPORTE
    ("Tengo un problema t√©cnico", "soporte"), ("¬øC√≥mo puedo solucionar un error?", "soporte"),
    ("¬øHay soporte en l√≠nea?", "soporte"), ("¬øTienen ayuda t√©cnica?", "soporte"),
    ("Mi sistema no responde", "soporte"), ("No puedo entrar a la plataforma", "soporte"),
    ("Me aparece un error en pantalla", "soporte"), ("¬øD√≥nde reporto un fallo?", "soporte"),
    ("Necesito asistencia t√©cnica", "soporte"), ("Tengo un problema con la app", "soporte"),

    # AGRADECIMIENTO
    ("Muchas gracias", "agradecimiento"), ("Gracias por su ayuda", "agradecimiento"),
    ("Agradezco mucho su atenci√≥n", "agradecimiento"), ("Muy amables, gracias", "agradecimiento"),
    ("Gracias por responder", "agradecimiento"), ("Qu√© buen servicio, gracias", "agradecimiento"),
    ("Gracias por su tiempo", "agradecimiento"), ("Estoy agradecido", "agradecimiento"),
    ("Gracias por todo", "agradecimiento"), ("Muy agradecido", "agradecimiento"),

    # FELICITACI√ìN
    ("Excelente atenci√≥n", "felicitaci√≥n"), ("Muy buen servicio", "felicitaci√≥n"),
    ("Estoy muy satisfecho", "felicitaci√≥n"), ("Felicitaciones por su trabajo", "felicitaci√≥n"),
    ("Gracias, todo sali√≥ perfecto", "felicitaci√≥n"), ("Muy bien hecho", "felicitaci√≥n"),
    ("Quiero felicitar al equipo", "felicitaci√≥n"), ("Todo funcion√≥ excelente", "felicitaci√≥n"),
    ("Estoy feliz con el resultado", "felicitaci√≥n"), ("Buen trabajo", "felicitaci√≥n")
]  


In [140]:
len(dataset)

120

## üßπ Funci√≥n de limpieza de frases

In [145]:
def limpiar_frase(frase):
    frase = unicodedata.normalize("NFD", frase)
    frase = frase.encode("ascii", "ignore").decode("utf-8")
    frase = frase.lower()
    tokens = word_tokenize(frase, language='spanish')
   # tokens_corregidos = [spell.correction(palabra) for palabra in tokens if palabra is not None]
  #  tokens_corregidos = [spell.correction(palabra) or palabra for palabra in tokens]
    palabras_clave = {"como", "estas", "hola", "gracias", "no", "si"}
    tokens_corregidos = [
        palabra if palabra in palabras_clave else spell.correction(palabra) or palabra for palabra in tokens ]

    palabras_limpias = [
    stemmer.stem(p) for p in tokens_corregidos
    if p and p.isalpha() and (p not in stopwords_es or p in palabras_clave) and len(p) > 2
]

   
    print(" ".join(palabras_limpias))
    return " ".join(palabras_limpias)

In [152]:
def limpiar_frase(frase):
    # Normaliza caracteres Unicode y convierte a min√∫sculas
    frase = unicodedata.normalize("NFD", frase)
    frase = frase.encode("ascii", "ignore").decode("utf-8")
    frase = frase.lower()

    # Tokeniza en espa√±ol
    tokens = word_tokenize(frase, language='spanish')

    # Palabras que no deben ser corregidas (claves para la intenci√≥n)
    palabras_clave = {"como", "estas", "hola", "gracias", "no", "si"}

    # Corrige solo si no es palabra clave. Si la correcci√≥n da None, conserva la original
    tokens_corregidos = [
        palabra if palabra in palabras_clave else spell.correction(palabra) or palabra
        for palabra in tokens
    ]

    # Filtrado + stemmin
    palabras_limpias = [
       stemmer.stem(p) for p in tokens #va cooregido
        if p and p.isalpha() and (p not in stopwords_es) and len(p) > 2
    ]
    print(" ".join(palabras_limpias))

    return " ".join(palabras_limpias)


In [167]:
def limpiar_frase(frase):
    # Normaliza caracteres Unicode y convierte a min√∫sculas
    frase = unicodedata.normalize("NFD", frase)
    frase = frase.encode("ascii", "ignore").decode("utf-8")
    frase = frase.lower()

    # Tokeniza en espa√±ol
    tokens = word_tokenize(frase, language='spanish')

    # Palabras que no deben ser corregidas (claves para la intenci√≥n)
    palabras_clave = {"como", "estas", "hola", "gracias", "no", "si"}

    # Corrige solo si no es palabra clave. Si la correcci√≥n da None, conserva la original
    tokens_corregidos = [
        palabra if palabra in palabras_clave else spell.correction(palabra) or palabra
        for palabra in tokens
    ]

    # Filtrado + stemmin
   
    palabras_limpias = [
        stemmer.stem(p) for p in tokens
        if p and p.strip() != "" and p.isalpha() and (p not in stopwords_es) and len(p) > 2
]

    print(" ".join(palabras_limpias))

    return " ".join(palabras_limpias)

## üìä Preparaci√≥n de datos y revisi√≥n del balance de clases

In [168]:
frases = [limpiar_frase(texto) for texto, etiqueta in dataset]
etiquetas = [etiqueta for texto, etiqueta in dataset]
conteo_clases = Counter(etiquetas)
for etiqueta, cantidad in conteo_clases.items():
    print(f"{etiqueta}: {cantidad} frases")

hol
buen dias
tal

salud
buen tard
buen noch
nuev
hol gust

molest servici
gust trat recibi
atencion lent
product lleg dan
contest llam
conform calid
problem compr
envi retras
funcion esper
empaqu rot
quier hac reclam formal
dese reembols
voy present quej oficial
hac reclam garanti
reclam mal atencion recib
recibi compr
reclam dobl cobr
quier cambi product
lleg factur
reclam ignor
necesit sab mas servici
quier mas inform
catalog line
envienm mas detall corre
pued ver product
pued compr
solicit asesori
pued orient proces
mas opcion dispon
promocion
lueg
vem
graci adi
cha
graci
gust adi
vem pront
proxim
cuidat
buen dia adi
pued contact
numer atencion
whatsapp
corre escrib
red social
pued encontr
atiend telefon
line atencion
oficin
pued habl asesor
horari atencion
trabaj fin seman
hor abren
hor estan dispon
atencion
dias trabaj
estan abiert hoy
pued llam noch
horari continu
atencion festiv
cuant cuest product
preci servici
preci especial
descuent
cuant val envi
ofert
car
preci unid
pued p

## ‚úÇÔ∏è Divisi√≥n train/test y vectorizaci√≥n con TF-IDF

In [169]:
X_train, X_test, y_train, y_test = train_test_split(frases, etiquetas, test_size=0.2, stratify=etiquetas, random_state=42)
#vectorizador = TfidfVectorizer() #sin n-gramas (de a uno)
vectorizador = TfidfVectorizer(ngram_range=(1, 2), min_df=1) #con bigramas

X_train_vec = vectorizador.fit_transform(X_train)
X_test_vec = vectorizador.transform(X_test)

## üìà Entrenamiento del modelo y evaluaci√≥n

In [170]:
modelo = MultinomialNB()
modelo.fit(X_train_vec, y_train)
y_pred = modelo.predict(X_test_vec)
print("Accuracy:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))

Accuracy: 0.9166666666666666
                precision    recall  f1-score   support

agradecimiento       0.67      1.00      0.80         6
      contacto       1.00      1.00      1.00         6
     despedida       1.00      0.83      0.91         6
    devoluci√≥n       0.67      1.00      0.80         6
  felicitaci√≥n       1.00      1.00      1.00         6
       horario       1.00      1.00      1.00         6
      petici√≥n       1.00      1.00      1.00         6
        precio       1.00      1.00      1.00         6
         queja       1.00      1.00      1.00         6
       reclamo       1.00      0.50      0.67         6
        saludo       1.00      0.67      0.80         6
       soporte       1.00      1.00      1.00         6

      accuracy                           0.92        72
     macro avg       0.94      0.92      0.91        72
  weighted avg       0.94      0.92      0.91        72



## ü§ñ Clasificador interactivo

In [171]:
def clasificar_interactivo(frase):
    frase_limpia = limpiar_frase(frase)
    vector = vectorizador.transform([frase_limpia])
    print("____", modelo.predict(vector)[0])
    return modelo.predict(vector)[0]

## üí¨ Diccionario de respuestas m√∫ltiples por categor√≠a

In [172]:
respuestas = {
    "saludo": ["¬°Hola! ¬øC√≥mo puedo ayudarte hoy?", "¬°Hola! Bienvenido, dime en qu√© te puedo ayudar.", "Saludos, ¬øen qu√© te puedo colaborar?"],
    "queja": ["Lamentamos los inconvenientes.", "Entendemos tu malestar.", "Gracias por reportarlo."],
    "reclamo": ["Vamos a revisar tu reclamo.", "Tu reclamo ha sido registrado.", "Estamos gestionando tu reclamo."],
    "petici√≥n": ["Procesando tu solicitud.", "Te enviaremos informaci√≥n.", "Recibir√°s respuesta pronto."],
    "despedida": ["Gracias por contactarnos.", "Fue un gusto ayudarte.", "Chao, vuelve pronto."],
    "contacto": ["Puedes contactarnos al 123.", "Correo: contacto@empresa.com", "WhatsApp: 3210000000"],
    "horario": ["Horario: Lun-Vie 9-18", "Tambi√©n s√°bados.", "No atendemos festivos."],
    "precio": ["Precio base: $99.99", "Consulta promociones online.", "Mira el cat√°logo."],
    "devoluci√≥n": ["30 d√≠as para devolver.", "Pol√≠tica flexible.", "Desde tu cuenta web."],
    "soporte": ["Centro de ayuda online.", "Describe el error.", "Estamos aqu√≠ para ayudarte."],
    "agradecimiento": ["¬°Gracias por tu confianza!", "Nos alegra ayudarte.", "Siempre es un placer."],
    "felicitaci√≥n": ["¬°Nos alegra tu satisfacci√≥n!", "Gracias por tus palabras.", "Seguiremos mejorando."]
}

## üß† Chatbot en consola

In [173]:
def iniciar_chatbot():
    print("Chatbot Educativo (escribe 'salir' para terminar)")
    while True:
        entrada = input("T√∫: ")
        if entrada.lower() == "salir":
            print("Chatbot: ¬°Hasta luego!")
            break
        categoria = clasificar_interactivo(entrada)
        print(f"Chatbot: {random.choice(respuestas.get(categoria, ['Lo siento, no entend√≠ tu solicitud.']))}")

In [174]:
iniciar_chatbot()

Chatbot Educativo (escribe 'salir' para terminar)


T√∫:  hola


hol
____ saludo
Chatbot: ¬°Hola! ¬øC√≥mo puedo ayudarte hoy?


T√∫:  quiero despejar una duda


quier despej dud
____ felicitaci√≥n
Chatbot: Gracias por tus palabras.


T√∫:  donde me comunico


comun
____ agradecimiento
Chatbot: Nos alegra ayudarte.


T√∫:  tengo una peticion


peticion
____ agradecimiento
Chatbot: ¬°Gracias por tu confianza!


T√∫:  donde estan ubicados


estan ubic
____ horario
Chatbot: No atendemos festivos.


T√∫:  salir


Chatbot: ¬°Hasta luego!
