In [1]:
import re
import pickle
import pandas as pd
from textblob import TextBlob
from spellchecker import SpellChecker
from sklearn.model_selection import StratifiedShuffleSplit, cross_val_predict
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics import accuracy_score

In [2]:
RANDOM_SEED = 13

In [3]:
df = pd.read_excel("sentences.xlsx")
df.head()

Unnamed: 0,Intenção,Sentença
0,Consultar saldo da conta,Qual o meu saldo
1,Interagir com a luz ou o ar-condicionado,Ligue a luz
2,Consultar saldo da conta,Me diga meu saldo
3,Consultar saldo da conta,Qual o meu saldo?
4,Interagir com a luz ou o ar-condicionado,está muito claro


## Limpando o dataset

In [4]:
df["Sentença"] = df["Sentença"].str.lower()
df["Sentença"] = df["Sentença"].str.replace(r"\s\-\s|\-\-+", " ", regex=True)
df["Sentença"] = df["Sentença"].str.replace(r"[^\w\s\-]", " ", regex=True)
df["Sentença"] = df["Sentença"].str.replace("foxbot ", "", regex=False)
df.head()

Unnamed: 0,Intenção,Sentença
0,Consultar saldo da conta,qual o meu saldo
1,Interagir com a luz ou o ar-condicionado,ligue a luz
2,Consultar saldo da conta,me diga meu saldo
3,Consultar saldo da conta,qual o meu saldo
4,Interagir com a luz ou o ar-condicionado,está muito claro


## Adequação dos dados para o MultinomialNB

In [5]:
# Adequa os dados para entrada no modelo MultinomialNB e já separa em X e y.
v = CountVectorizer()
def adaptToModel(df, objective=None, vectorizer=v):
    txts = df["Sentença"].tolist()
    if objective == "train":
        counts = vectorizer.fit_transform(txts)
        return counts, df["Intenção"]
    elif objective == "test":
        counts = vectorizer.transform(txts)
        return counts, df["Intenção"]
    else:
        raise ValueError("Defina o objetivo ('train' ou 'test')")

## Separando o dataset em treinamento e teste

In [6]:
# Divide em treinamento e teste, de modo estratificado, o conjunto de dados.
split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=RANDOM_SEED)
for train_index, test_index in split.split(df, df["Intenção"]):
    strat_train_set = df.loc[train_index]
    strat_test_set = df.loc[test_index]

## Treinando o modelo

In [7]:
model = MultinomialNB()
X_train, y_train = adaptToModel(strat_train_set, objective="train")
model.fit(X_train, y_train)


MultinomialNB()

## Testando o modelo

In [8]:
X_test, y_test = adaptToModel(strat_test_set, objective="test")

In [9]:
pred = cross_val_predict(model, X_test, y_test, cv=10, n_jobs=-1)

In [10]:
output = pd.DataFrame()
output["Sentença"] = strat_test_set["Sentença"]
output["Real"] = y_test
output["Predicted"] = pred
output.head()

Unnamed: 0,Sentença,Real,Predicted
59,como vai estar o clima amanhã,Obter informações relativas ao clima,Obter informações relativas ao clima
233,apague todas as luzes vou dormir,Interagir com a luz ou o ar-condicionado,Interagir com a luz ou o ar-condicionado
112,menos luz,Interagir com a luz ou o ar-condicionado,Interagir com a luz ou o ar-condicionado
349,aumente a potência do ar-condicionado,Interagir com a luz ou o ar-condicionado,Interagir com a luz ou o ar-condicionado
294,boa noite apague a luz,Interagir com a luz ou o ar-condicionado,Interagir com a luz ou o ar-condicionado


In [11]:
score = accuracy_score(output["Real"], output["Predicted"])
print(f"Acurácia: {score * 100:.2f}%")

Acurácia: 91.11%


## Função que prevê a classe de uma nova sentença

Ela checa se a frase está em português, faz a correção ortográfica e classifica.

In [12]:
def predNewSentence(txt, predModel=model, vectorizer=v):
    if TextBlob(txt).detect_language() == "pt":
        sentence = ""
        text = re.sub(r"\s\-\s|\-\-+", " ", txt.lower())
        text = re.sub(r"[^\w\s\-]", " ", text)
        text = re.sub(r"foxbot ", "", text)
        spellCheck = SpellChecker(language="pt")
        for word in text.split():
            sentence += spellCheck.correction(word) + " "
        counts = vectorizer.transform([sentence])
        return predModel.predict(counts)[0]
    else:
        raise ValueError("O modelo só é capaz de trabalhar com frases em português!")

## Treinando o modelo com todos os dados da base

Como o modelo já foi validado podemos treinar o modelo com toda a base de dados para ter previsões ainda melhores.

In [13]:
X, y = adaptToModel(df, objective="train")
model.fit(X, y)

MultinomialNB()

## Realizando a previsão de alguns exemplos

In [14]:
predNewSentence("Acende a luz por favor!", predModel=model)

'Interagir com a luz ou o ar-condicionado'

In [15]:
predNewSentence("Foxbot, como tá a minha conta bancária?", predModel=model)

'Consultar saldo da conta'

In [16]:
predNewSentence("Vai fazer sol depois de amanhã?", predModel=model)

'Obter informações relativas ao clima'

In [17]:
predNewSentence("Marque uma consulta com o fisioterapeuta para segunda às 10 horas.", predModel=model)

'Não sei'

## Salvando o modelo

In [18]:
pickle.dump(model, open("model_v0.sav", "wb"))
pickle.dump(v, open("vectorizer_v0.sav", "wb"))