In [1]:
import json
import string
import random
import nltk
import numpy as np
from nltk.stem import WordNetLemmatizer
import tensorflow as tf
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense, Dropout
nltk.download("punkt")
nltk.download("wordnet")

[nltk_data] Downloading package punkt to /Users/valter/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /Users/valter/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [2]:
data = {"intents": [
             {"tag": "greeting",
              "patterns": ["Oi", "Como vai você?", "E aí?", "Olá", "Você está bem?"],
              "responses": ["Olá!!", "Bem, e você?", "Tudo maravilha!", "Oi", "Muito melhor agora"],
             },
             {"tag": "age",
              "patterns": ["Você tem quantos anos?", "Quantos anos você tem?", "Quando é o seu aniversário?", "Quando você nasceu?"],
              "responses": ["Eu tenho 37 anos", "Eu nasci em 1983", "Meu aniversário é em dezembro", "05/12/1983"]
             },
             {"tag": "date",
              "patterns": ["Tem planos para o fim de semana?",
"O que você faz no tempo livre?", "Quais seus planos para este fim de semana?", "Vamos ao parque no fim de semana?"],
              "responses": ["Eu não tenho nada para fazer...", "Eu estou ocupado", "Pretendo dormir o tempo todo"]
             },
             {"tag": "name",
              "patterns": ["Qual o seu nome?", "Você tem apelido?", "Quem é você?", "Como você se chama?", "Quero saber seu nome"],
              "responses": ["Meu nome é Boop", "Sim, sou o Boop", "Boop."]
             },
             {"tag": "goodbye",
              "patterns": [ "Boa tarde", "Bom dia", "Boa noite", "tchau", "até mais", "obrigado", "adeus", "até"],
              "responses": ["Foi ótimo falar com você hoje", "Nos vemos depois", "Nos vemos em breve!"]
             }
]}

In [3]:
lemmatizer = WordNetLemmatizer()

In [4]:
words = []
classes = []
doc_X = []
doc_y = []

for intent in data["intents"]:
    for pattern in intent["patterns"]:
        tokens = nltk.word_tokenize(pattern)
        words.extend(tokens)
        doc_X.append(pattern)
        doc_y.append(intent["tag"])

    # adicione a tag às classes se ainda não estiver lá
    if intent["tag"] not in classes:
        classes.append(intent["tag"])

# Lematizar todas as palavras do vocabulário e convertê-las em minúsculas
# se as palavras não aparecem na pontuação
words = [lemmatizer.lemmatize(word.lower()) for word in words if word not in string.punctuation]

# classificando o vocabulário e as classes em ordem alfabética e tomando o
# conjunto para garantir que não ocorram duplicatas
words = sorted(set(words))
classes = sorted(set(classes))

In [5]:
print('words..:', words)
print('classes..:', classes)
print('doc_X..:', doc_X)
print('doc_y..:', doc_y)

words..: ['adeus', 'aniversário', 'ano', 'ao', 'apelido', 'até', 'aí', 'bem', 'boa', 'bom', 'chama', 'como', 'de', 'dia', 'e', 'este', 'está', 'faz', 'fim', 'livre', 'mais', 'nasceu', 'no', 'noite', 'nome', 'o', 'obrigado', 'oi', 'olá', 'para', 'parque', 'plano', 'quais', 'qual', 'quando', 'quantos', 'que', 'quem', 'quero', 'saber', 'se', 'semana', 'seu', 'seus', 'tarde', 'tchau', 'tem', 'tempo', 'vai', 'vamos', 'você', 'é']
classes..: ['age', 'date', 'goodbye', 'greeting', 'name']
doc_X..: ['Oi', 'Como vai você?', 'E aí?', 'Olá', 'Você está bem?', 'Você tem quantos anos?', 'Quantos anos você tem?', 'Quando é o seu aniversário?', 'Quando você nasceu?', 'Tem planos para o fim de semana?', 'O que você faz no tempo livre?', 'Quais seus planos para este fim de semana?', 'Vamos ao parque no fim de semana?', 'Qual o seu nome?', 'Você tem apelido?', 'Quem é você?', 'Como você se chama?', 'Quero saber seu nome', 'Boa tarde', 'Bom dia', 'Boa noite', 'tchau', 'até mais', 'obrigado', 'adeus', 'at

In [6]:
# lista de dados de treinamento
training = []
out_empty = [0] * len(classes)

# criando o modelo do saco de palavras
for idx, doc in enumerate(doc_X):
    bow = []
    text = lemmatizer.lemmatize(doc.lower())
    for word in words:
        bow.append(1) if word in text else bow.append(0)

    # marca o índice da classe que o padrão atual está associado
    output_row = list(out_empty)
    output_row[classes.index(doc_y[idx])] = 1

    # adicionar um BoW codificado a quente e classes associadas ao treinamento
    training.append([bow, output_row])

# embaralhar os dados e convertê-los em um array
random.shuffle(training)
training = np.array(training, dtype=object)

# divide os recursos e rótulos de destino
train_X = np.array(list(training[:, 0]))
train_y = np.array(list(training[:, 1]))

In [8]:
print('train_X..:', train_X)
print('train_y..:', train_y)

train_X..: [[0 0 0 ... 0 1 0]
 [0 0 0 ... 0 1 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 1]
 [0 0 1 ... 0 1 0]
 [0 0 0 ... 0 0 0]]
train_y..: [[1 0 0 0 0]
 [0 0 0 0 1]
 [0 0 0 0 1]
 [0 1 0 0 0]
 [0 0 1 0 0]
 [0 0 0 0 1]
 [0 1 0 0 0]
 [0 0 1 0 0]
 [0 0 1 0 0]
 [0 0 1 0 0]
 [0 0 0 1 0]
 [0 0 0 1 0]
 [0 1 0 0 0]
 [0 0 1 0 0]
 [0 0 0 0 1]
 [1 0 0 0 0]
 [0 0 0 0 1]
 [0 1 0 0 0]
 [0 0 1 0 0]
 [0 0 0 1 0]
 [0 0 0 1 0]
 [1 0 0 0 0]
 [0 0 0 1 0]
 [0 0 1 0 0]
 [1 0 0 0 0]
 [0 0 1 0 0]]


In [10]:
# Definindo alguns parâmetros
input_shape = (len(train_X[0]),)
output_shape = len(train_y[0])
epochs = 200

# O modelo de aprendizado profundo
model = Sequential()
model.add(Dense(128, input_shape=input_shape, activation="relu"))
model.add(Dropout(0.5))
model.add(Dense(64, activation="relu"))
model.add(Dropout(0.3))
model.add(Dense(output_shape, activation="softmax"))

# Otimizador Adam
adam = tf.keras.optimizers.Adam(learning_rate=0.01, decay=1e-6)

# Compilação do modelo
model.compile(loss='categorical_crossentropy',
              optimizer=adam,
              metrics=["accuracy"])  # Corrigido "metrixs" para "metrics"

# Resumo do modelo
print(model.summary())

# Treinamento do modelo
model.fit(x=train_X, y=train_y, epochs=epochs, verbose=1)

None
Epoch 1/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 568ms/step - accuracy: 0.3462 - loss: 1.6034
Epoch 2/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - accuracy: 0.4231 - loss: 1.5069
Epoch 3/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - accuracy: 0.6154 - loss: 1.3435
Epoch 4/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 8ms/step - accuracy: 0.6923 - loss: 1.2638
Epoch 5/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - accuracy: 0.5769 - loss: 1.1966
Epoch 6/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 8ms/step - accuracy: 0.8077 - loss: 0.9678
Epoch 7/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - accuracy: 0.8077 - loss: 0.9044
Epoch 8/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - accuracy: 0.7692 - loss: 0.8796
Epoch 9/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37

<keras.src.callbacks.history.History at 0x177b142c0>

In [13]:
def clean_text(text):
    tokens = nltk.word_tokenize(text)
    tokens = [lemmatizer.lemmatize(word) for word in tokens]
    return tokens

def bag_of_words(text, vocab):
    tokens = clean_text(text)
    bow = [0] * len(vocab)
    for w in tokens:
        for idx, word in enumerate(vocab):
            if word == w:
                bow[idx] = 1
    return np.array(bow)

def pred_class(text, vocab, labels):
    bow = bag_of_words(text, vocab)
    result = model.predict(np.array([bow]))[0]
    thresh = 0.2
    y_pred = [[idx, res] for idx, res in enumerate(result) if res > thresh]

    y_pred.sort(key=lambda x : x[1], reverse = True)
    return_list = []
    for r in y_pred:
        return_list.append(labels[r[0]])
    return return_list

def get_response(intents_list, intents_json):
    tag = intents_list[0]
    list_of_intents = intents_json["intents"]
    for i in list_of_intents:
        if i["tag"] == tag:
            result = random.choice(i["responses"])
            break
    return result



In [None]:
# executando o chatbot
while True:
    message = input("")
    intents = pred_class(message, words, classes)
    result = get_response(intents, data)
    print(result)