# Bibliotecas iniciales

WordNetLemmatizer permite ubicar palabras clave sin necesidad de buscar las palabras tal cual dentro de un texto. Por ejemplo, "work", "working", "worked" se reconocen como una misma palabras (siendo todas variaciones de una sola raíz).

In [1]:
import random # Selección de respuesta aleatoria.
import json # Corpus.
import pickle # Serialización.
import numpy as np


import nltk # Natural Language Toolkit.
from nltk.stem import WordNetLemmatizer # Lematización.
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('omw-1.4')

from tensorflow.keras.models import Sequential # Modelo de red neuronal.
from tensorflow.keras.layers import Dense, Activation, Dropout # Capas de la red.
from tensorflow.keras.optimizers import SGD # Descenso de gradiente estocástico como optimizador de función de costo.

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Jorge\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Jorge\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\Jorge\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


# Iniciación del Lemmatizer

In [2]:
lemmatizer = WordNetLemmatizer()

intents = json.loads(open('intents.json').read()) # Carga del corpus.

words = [] # Lista de palabras.
classes = [] # Lista de clases.
documents = [] # Lista de documentos.
ignore_words = ['?', '!', '¡', '.', ',', ';','', ' '] # Palabras ignoradas.

# Consideramos el .json como un diccionario de Python y accedemos a sus claves y valores por medio de un ciclo for.
# El diccionario como tal es "intents", y en cada clave del diccionario se encuentra un subdiccionario que engloba cada tipo de respuesta del chatbot.
# Cada subdiccionario se engloba con la llave "patterns" y su valor es una lista de patrones de respuesta "responses"

for intent in intents['intents']:
    for pattern in intent['patterns']:
        word_list = nltk.word_tokenize(pattern) # Tokenización de patrones de respuesta. Ejemplo: ['hi', 'how', 'are', 'you'] es una tokenización de "hi how are you".
        words.extend(word_list) # Toma las palabras y las añade a lista.
        documents.append((word_list, intent['tag'])) # Añadimos las palabras a la lista de documentos categorizados por su tag correspondiente.
        if intent['tag'] not in classes:
            classes.append(intent['tag'])
            
print(documents)


[(['hola'], 'greetings'), (['buenos', 'dias'], 'greetings'), (['buenas', 'tardes'], 'greetings'), (['que', 'tal'], 'greetings'), (['mucho', 'gusto'], 'greetings'), (['hey'], 'greetings'), (['gracias'], 'goodbye'), (['hasta', 'luego'], 'goodbye'), (['saludos'], 'goodbye'), (['muchas', 'gracias'], 'goodbye'), (['adios'], 'goodbye'), (['le', 'agradezco'], 'goodbye'), (['nos', 'vemos'], 'goodbye'), (['nos', 'vemos', 'pronto'], 'goodbye'), (['chao'], 'goodbye'), (['bye'], 'goodbye'), (['ubicacion'], 'shop'), (['donde', 'estan', 'ubicados'], 'shop'), (['local'], 'shop'), (['donde', 'los', 'puedo', 'encontrar'], 'shop'), (['establecimiento'], 'shop'), (['contacto'], 'shop'), (['direccion'], 'shop'), (['donde', 'se', 'encuentran'], 'shop'), (['tienda'], 'shop'), (['a', 'que', 'hora', 'abren'], 'hours'), (['horario'], 'hours'), (['hora'], 'hours'), (['horas', 'de', 'apertura'], 'hours'), (['abierto'], 'hours'), (['atencion'], 'hours'), (['servicio'], 'hours'), (['cerrado'], 'hours'), (['a', 'qu

In [3]:
words = [lemmatizer.lemmatize(word.lower()) for word in words if word not in ignore_words] # Lematización de palabras.
words = sorted(set(words)) # Elimina duplicados en las palabras.

classes = sorted(set(classes))
pickle.dump(words, open('words.pkl', 'wb'))
pickle.dump(classes, open('classes.pkl', 'wb'))

print(words) # Imprimimos todas las palabras presentes en el json.
print(classes)

['120mm', '140mm', '200mm', '80mm', '8gb', '90mm', 'a', 'abierto', 'abren', 'acrilico', 'adios', 'agradezco', 'aguanta', 'aire', 'airflow', 'alimentar', 'alto', 'amd', 'apertura', 'argb', 'aro', 'atencion', 'atx', 'barra', 'blender', 'buenas', 'buenos', 'bye', 'categorias', 'cerrado', 'cfm', 'chao', 'cierran', 'colores', 'computo', 'contacto', 'cpu', 'cristal', 'cuales', 'ddr3', 'ddr4', 'ddr5', 'de', 'deep', 'dia', 'direccion', 'donde', 'edicion', 'efectos', 'encontrar', 'encuentran', 'energia', 'establecimiento', 'estacion', 'estan', 'estatica', 'expansion', 'fan', 'flujo', 'fsr', 'fuente', 'gabinete', 'gabinetes', 'gaming', 'gpu', 'gracias', 'grafica', 'graficas', 'gtx', 'gusto', 'hasta', 'hey', 'highend', 'hola', 'hora', 'horario', 'horarios', 'horas', 'ia', 'inventario', 'itx', 'juegos', 'le', 'learning', 'led', 'levanta', 'local', 'los', 'luce', 'lucesitas', 'luego', 'madre', 'maya', 'memoria', 'micro', 'mini', 'mother', 'motherboard', 'muchas', 'mucho', 'no', 'nvidia', 'oferta', 

# Modelo neuronal

Una red neuronal no trabaja con valores alfanuméricos, únicamente numéricos. Se requiere representar los números como valores numéricos con una técnica conocida como "bag of words". Esta técnica se representa con un arreglo donde, cuando se encuentra una ocurrencia de una palabra, su valor es 1 en el arreglo y en el resto de posiciones los valores son 0.

In [4]:
training = [] # Dataset de entrenamiento.
output_empty = [0] * len(classes) # Lista de ceros de longitud igual a la cantidad de clases.

for document in documents:
    bag = [] #bag of words
    word_patterns = document[0]
    word_patterns = [lemmatizer.lemmatize(word.lower()) for word in word_patterns]
    for word in words:
        bag.append(1) if word in word_patterns else bag.append(0)
        print(bag)
        print(word)
        
    output_row = list(output_empty) 
    output_row[classes.index(document[1])] = 1 # Añadimos un 1 en la posición de la clase correspondiente.
    training.append([bag, output_row]) # Añadimos el bag of words y las clases a la lista de entrenamiento.
    
random.shuffle(training)
training = np.array(training)
print(training)

train_x = list(training[:, 0])  # [ first_row:last_row , column_0 ] Bag of words.
train_y = list(training[:, 1]) # [ first_row:last_row , column_1 ] output_row.

model = Sequential()
model.add(Dense(128, input_shape=(len(train_x[0]),), activation='relu'))
model.add(Dropout(0.5)) # Dropout de 50% de la neurona para prevenir overfitting.
model.add(Dense(64, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(len(train_y[0]), activation='softmax')) # Tantas neuronas como clases. Softmax para que la salida sea una distribución probabilística entre 0 y 1.
sgd = SGD(lr=0.01, decay=1e-6, momentum=0.9, nesterov=True) # Optimizador de función de costo.
model.compile(loss='categorical_crossentropy', optimizer=sgd, metrics=['accuracy']) # Función de costo y métrica de evaluación.

hist = model.fit(np.array(train_x), np.array(train_y), epochs=200, batch_size=5, verbose=1) # Entrenamiento del modelo.
model.save('chatbot_tienda.h5', hist) # Guardamos el modelo.
print("Modelo entrenado.")

[0]
120mm
[0, 0]
140mm
[0, 0, 0]
200mm
[0, 0, 0, 0]
80mm
[0, 0, 0, 0, 0]
8gb
[0, 0, 0, 0, 0, 0]
90mm
[0, 0, 0, 0, 0, 0, 0]
a
[0, 0, 0, 0, 0, 0, 0, 0]
abierto
[0, 0, 0, 0, 0, 0, 0, 0, 0]
abren
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
acrilico
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
adios
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
agradezco
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
aguanta
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
aire
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
airflow
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
alimentar
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
alto
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
amd
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
apertura
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
argb
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
aro
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
atencion
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
atx
[0, 0

  training = np.array(training)


Epoch 1/200


  super(SGD, self).__init__(name, **kwargs)


Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78/200
Epoch 7