In [1]:
import tensorflow as tf
import numpy as np
import random
from sklearn.preprocessing import LabelEncoder

from unidecode import unidecode 

import colorama
from colorama import Fore, Style



## Base de conhecimento

In [2]:
base_conhecimento = {
    'base' : [
        {
            'label' : 'INIT',
            'X'     : ['Olá', 'Oi', 'bom dia', 'boa tarde', 'boa noite', 'como vai?', 'tem alguem ai?'],
            'Y'     : ['olá', 'como vai?', 'como posso ajudar?']
        },
        {
            'label' : 'END',
            'X'     : ['tchau', 'até logo', 'obrigado pela ajuda'],
            'Y'     : ['Sem problemas!', 'Meu prazer!']
        },
        {
            'label' : 'BOT_INFO',
            'X'     : ['qual e o seu nome?', 'como posso te chamar?', 'com quem falo?'],
            'Y'     : ['Você pode me chamar de rose!', 'Meu nome e rose!', 'Me chamo rose!']
        },
        {
            'label' : 'BOT_SOBRE',
            'X'     : ['quem e voce?', 'fale sobre você', 'pode se apresentar?'],
            'Y'     : ['Siri é passado! sou a Rose, seu robo assistente!', 'Meu nome é Rose, sou um chatbot!']
        },
        {
            'label' : 'BOT_AGRADECIMENTO',
            'X'     : ['obrigado', 'muito obrigado'],
            'Y'     : ['Foi um prazer ajudar!', 'Obrigado!']
        },
        {
            'label' : 'BOT_AGENDAMENTO',
            'X'     : ['quero agendar um exame', 'gostaria de saber sobre a disponibilidade de agenda para um exame', 'posso agendar um exame?', 'preciso realizar um agendamento de exame'],
            'Y'     : ['Ok, qual exame precisa agendar?', 'Certo! Preciso de mais informações. Qual exame gostaria de agendar?']
        }
    ]
}

## Trabalhando o dado

In [3]:
x_train = list()
y_train = list()
labels = list()
target = dict()

for item in base_conhecimento['base']:
    for x in item['X']:
        x_train.append(unidecode(x.lower()))
        y_train.append(item[ 'label'])
    
    if item['label'] not in labels:
        labels.append(item['label'])
        
    target[item['label']] = item['Y']
    
n_classes = len(labels)

In [4]:
x_train[:5]

['ola', 'oi', 'bom dia', 'boa tarde', 'boa noite']

In [5]:
y_train[:5]

['INIT', 'INIT', 'INIT', 'INIT', 'INIT']

In [6]:
labels[:5]

['INIT', 'END', 'BOT_INFO', 'BOT_SOBRE', 'BOT_AGRADECIMENTO']

In [7]:
target

{'INIT': ['olá', 'como vai?', 'como posso ajudar?'],
 'END': ['Sem problemas!', 'Meu prazer!'],
 'BOT_INFO': ['Você pode me chamar de rose!',
  'Meu nome e rose!',
  'Me chamo rose!'],
 'BOT_SOBRE': ['Siri é passado! sou a Rose, seu robo assistente!',
  'Meu nome é Rose, sou um chatbot!'],
 'BOT_AGRADECIMENTO': ['Foi um prazer ajudar!', 'Obrigado!'],
 'BOT_AGENDAMENTO': ['Ok, qual exame precisa agendar?',
  'Certo! Preciso de mais informações. Qual exame gostaria de agendar?']}

### Criando rótulos para cada classe

In [8]:
encoder = LabelEncoder()
y_train = encoder.fit_transform(y_train)

In [9]:
y_train[:5]

array([5, 5, 5, 5, 5], dtype=int64)

In [10]:
encoder.classes_

array(['BOT_AGENDAMENTO', 'BOT_AGRADECIMENTO', 'BOT_INFO', 'BOT_SOBRE',
       'END', 'INIT'], dtype='<U17')

### Criando uma nova estrutura

In [11]:
vocab_size = 25
embedding_dim = 32
max_len = 50
unk_token = '<UNK>'

tokenizer = tf.keras.preprocessing.text.Tokenizer(num_words=vocab_size, oov_token=unk_token)
tokenizer.fit_on_texts(x_train)
sequences = tokenizer.texts_to_sequences(x_train)
pad_sequences = tf.keras.preprocessing.sequence.pad_sequences(sequences, truncating='post', maxlen=max_len)

words_idx = tokenizer.word_index

In [12]:
sequences[:5]

[[14], [15], [16, 17], [6, 18], [6, 19]]

In [13]:
pad_sequences[:5]

array([[ 0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
         0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
         0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
         0, 14],
       [ 0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
         0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
         0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
         0, 15],
       [ 0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
         0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
         0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
        16, 17],
       [ 0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
         0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
         0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,
         6, 18],
       [ 0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0, 

## Modelo

In [14]:
def build_model():
    model = tf.keras.Sequential()
    model.add(tf.keras.layers.Embedding(vocab_size, embedding_dim, input_length=max_len))
    model.add(tf.keras.layers.GlobalAveragePooling1D())
    model.add(tf.keras.layers.Dense(32, activation='relu'))
    model.add(tf.keras.layers.Dense(32, activation='relu'))
    model.add(tf.keras.layers.Dense(16, activation='relu'))
    model.add(tf.keras.layers.Dense(n_classes, activation='softmax'))
    
    model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
    
    return model

In [26]:
model = build_model()
model.summary()

Model: "sequential_4"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_4 (Embedding)      (None, 50, 32)            800       
_________________________________________________________________
global_average_pooling1d_4 ( (None, 32)                0         
_________________________________________________________________
dense_16 (Dense)             (None, 32)                1056      
_________________________________________________________________
dense_17 (Dense)             (None, 32)                1056      
_________________________________________________________________
dense_18 (Dense)             (None, 16)                528       
_________________________________________________________________
dense_19 (Dense)             (None, 6)                 102       
Total params: 3,542
Trainable params: 3,542
Non-trainable params: 0
____________________________________________________

In [27]:
history = model.fit(pad_sequences, np.array(y_train), epochs=250, verbose=True)

Epoch 1/250
Epoch 2/250
Epoch 3/250
Epoch 4/250
Epoch 5/250
Epoch 6/250
Epoch 7/250
Epoch 8/250
Epoch 9/250
Epoch 10/250
Epoch 11/250
Epoch 12/250
Epoch 13/250
Epoch 14/250
Epoch 15/250
Epoch 16/250
Epoch 17/250
Epoch 18/250
Epoch 19/250
Epoch 20/250
Epoch 21/250
Epoch 22/250
Epoch 23/250
Epoch 24/250
Epoch 25/250
Epoch 26/250
Epoch 27/250
Epoch 28/250
Epoch 29/250
Epoch 30/250
Epoch 31/250
Epoch 32/250
Epoch 33/250
Epoch 34/250
Epoch 35/250
Epoch 36/250
Epoch 37/250
Epoch 38/250
Epoch 39/250
Epoch 40/250
Epoch 41/250
Epoch 42/250
Epoch 43/250
Epoch 44/250
Epoch 45/250
Epoch 46/250
Epoch 47/250
Epoch 48/250
Epoch 49/250
Epoch 50/250
Epoch 51/250
Epoch 52/250
Epoch 53/250
Epoch 54/250
Epoch 55/250
Epoch 56/250
Epoch 57/250
Epoch 58/250
Epoch 59/250
Epoch 60/250
Epoch 61/250
Epoch 62/250
Epoch 63/250
Epoch 64/250
Epoch 65/250
Epoch 66/250
Epoch 67/250
Epoch 68/250
Epoch 69/250
Epoch 70/250
Epoch 71/250
Epoch 72/250
Epoch 73/250
Epoch 74/250
Epoch 75/250
Epoch 76/250
Epoch 77/250
Epoch 78

## Testando a Rose

In [28]:
def chatbot():
    max_len = 50
    
    print(f'{Fore.RED}Chatbot ativo, envie "sair" para finalizar...{Style.RESET_ALL}')
    
    while True:
        print(f'{Fore.GREEN}Usuário: {Style.RESET_ALL}', end=' ')
        texto = unidecode(input().lower())
        
        if texto == 'sair':
            break
            
        result = model.predict(tf.keras.preprocessing.sequence.pad_sequences(tokenizer.texts_to_sequences([texto]), truncating='post', maxlen=max_len))
        label = encoder.inverse_transform([np.argmax(result)])

        responses = target.get(label[0], None)
        
        if responses == None:
            print(f'{Fore.RED}Oooops...{Style.RESET_ALL}')
            continue
        
        response = np.random.choice(responses)
        
        print(f'{Fore.RED}Rose: {Style.RESET_ALL}{response}')
        
    print(f'{Fore.RED}Chatbot offline...{Style.RESET_ALL}')

In [29]:
chatbot()

[31mChatbot ativo, envie "sair" para finalizar...[0m
[32mUsuário: [0m 

 ola


[31mRose: [0mcomo vai?
[32mUsuário: [0m 

 tudo bem>


[31mRose: [0mSem problemas!
[32mUsuário: [0m 

 tudo bem?


[31mRose: [0mSem problemas!
[32mUsuário: [0m 

 preciso agendar um exame


[31mRose: [0mCerto! Preciso de mais informações. Qual exame gostaria de agendar?
[32mUsuário: [0m 

 como você se chama?


[31mRose: [0mMeu nome é Rose, sou um chatbot!
[32mUsuário: [0m 

 sair


[31mChatbot offline...[0m
