# Classify Intent

In [17]:
import spacy
import unicodedata
import pandas as pd
from spacy import displacy
from string import punctuation
from nltk.stem import RSLPStemmer
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfVectorizer

clf = MultinomialNB()
nlp = spacy.load('pt')
stemmer = RSLPStemmer()
vectorizer = TfidfVectorizer()

In [2]:
df = pd.DataFrame([
     # sales
     ['vendas do último mês', 'sales'],
     ['quanto vendi esse mês', 'sales'],
     ['quanto vendi no mês de agosto', 'sales'],
     ['quais são os 10 produtos que mais vendi esse ano', 'sales'],
     ['quais são os 10 produtos que mais vendi esse mês', 'sales'],
     ['quais são os 10 produtos que mais vendi hoje', 'sales'],
     ['qual produto eu mais vendi hoje', 'sales'],
     # products
     ['quantos produtos eu tenho na minha base', 'products'],
     ['quantos produtos eu tenho na minha base de dados', 'products'],
     ['quantos produtos eu tenho na minha loja', 'products'],
     ['quantos refrigerantes eu vendo na minha loja', 'products'],
     ['quanto é o preço da coca-cola', 'products'],
     ['qual é o preço da coca-cola', 'products'],
     ['quantos refrigerantes tenho no estoque', 'products']
 ], columns=['message', 'label'])

'''
 PREPROCESSING TEXT
'''

def normalize(message):
    normalized = unicodedata.normalize('NFKD', message).encode('ASCII', 'ignore').decode('utf-8')
    return normalized

def stem(message):
    words = word_tokenize(message)
    words = [stemmer.stem(word) for word in words]
    return ' '.join(words)

def remove_stopwords(message):
    blacklist = set(stopwords.words('portuguese') + list(punctuation))
    clean_words = [word for word in word_tokenize(message) if word not in blacklist]
    return ' '.join(clean_words)

def preprocess_message(message):
    message = normalize(message)
    message = remove_stopwords(message)
#     message = stem(message)
    return message

def preprocess(df, column_in='message', column_out='message_clean'):
    df[column_out] = df[column_in].apply(lambda message : preprocess_message(message))

'''
 VECTORIZE
'''
def vectorize(df, column = 'message'):
    X = vectorizer.fit_transform(df[column])
    return X

def vectorize_message(message):
    return vectorizer.transform([message])

'''
 PREDICTION
'''
def predict(model, message):
    vector = vectorize_message(message)
    predict_label = model.predict(vector)
    predict_proba = model.predict_proba(vector)
    return { 'label': predict_label, 'probability': predict_proba, 'classes': model.classes_ }

In [3]:
preprocess(df, column_in='message', column_out='message_clean')
X = vectorize(df, column='message_clean')

print(vectorizer.get_feature_names())
print('corpus shape: ', X.shape)

['10', 'agosto', 'ano', 'base', 'coca', 'cola', 'dados', 'estoque', 'hoje', 'loja', 'mes', 'preco', 'produto', 'produtos', 'quais', 'quanto', 'quantos', 'refrigerantes', 'sao', 'ultimo', 'vendas', 'vendi', 'vendo']
corpus shape:  (14, 23)


In [4]:
model = clf.fit(X, df['label'])

In [5]:
predict(model, 'quantas coca-colas tenho no estoque?')

{'label': array(['products'], dtype='<U8'),
 'probability': array([[0.71838278, 0.28161722]]),
 'classes': array(['products', 'sales'], dtype='<U8')}

# Named Entity Recognition

Named Entities supported by Spacy: https://spacy.io/api/annotation#named-entities

In [20]:
doc = nlp('Maria está se mudando para Paris. No dia 01/02/2019 ela irá partir.')
for entidade in doc.ents:
    print(entidade.text, entidade.label_)

Maria PER
Paris LOC


In [18]:
displacy.render(doc, style='ent', jupyter=True)

In [19]:
spacy.explain('PER')

'Named person or family.'

Observamos aqui que o Spacy não identificou a data. Então vamos treinar um modelo para que isso seja possível.

In [41]:
# treinar o modelo com os novos dados
!python train_new_entity_type.py -m pt -o modelo_kodama.md

Loaded model 'pt'
Losses {'ner': 27.490759546630343}
Losses {'ner': 35.42058718498639}
Losses {'ner': 15.506918851121213}
Losses {'ner': 23.31801952333217}
Losses {'ner': 18.023392192993924}
Losses {'ner': 19.650847862412775}
Losses {'ner': 21.60367745428107}
Losses {'ner': 20.66616348864045}
Losses {'ner': 18.14009229358635}
Losses {'ner': 21.078436665222398}
Losses {'ner': 18.903406301404175}
Losses {'ner': 21.48789181606662}
Losses {'ner': 14.439496162929572}
Losses {'ner': 15.32623327759211}
Losses {'ner': 18.812756245024502}
Losses {'ner': 20.415693648981687}
Losses {'ner': 15.088580413488671}
Losses {'ner': 12.45081877951452}
Losses {'ner': 14.515449170852662}
Losses {'ner': 13.827697296379483}
Losses {'ner': 17.705478971038247}
Losses {'ner': 15.181215309741674}
Losses {'ner': 17.6580340828732}
Losses {'ner': 16.939349999211117}
Losses {'ner': 13.074150303346073}
Losses {'ner': 19.621065201893543}
Losses {'ner': 25.998893824154948}
Losses {'ner': 22.043855502881343}
Losses {'ner

In [42]:
nlp = spacy.load('./modelo_kodama.md')

In [47]:
doc = nlp('quero meu relatório de vendas entre 01/02/2020 e 01/03/2020')
displacy.render(doc, style='ent', jupyter=True)

Nós podemos observar que com um modelo probabislítico temos alguns problemas em identificar datas. Precisamos de mais exemplos e talvez nesse caso seja mais interessante utilizar uma abordagem baseda em regras (regex) e no caso de dados relativas como "ultimo mes" "semestre de 2020" podemos utilizar uma abordagem combinada com regras e bases de conhecimento

# Rule based and Knowledge Based

https://spacy.io/usage/rule-based-matching
https://spacy.io/usage/rule-based-matching#entityruler

In [53]:
from spacy.lang.pt import Portuguese
from spacy.pipeline import EntityRuler

nlp = Portuguese() # if you want to combina with existing prob model use spacy.load('pt')
ruler = EntityRuler(nlp)
patterns = [{'label': 'DATE', 'pattern': 'mês', 'id': 'date'}]
ruler.add_patterns(patterns)
nlp.add_pipe(ruler)

doc = nlp("quero relatório de vendas do ultimo mês")
print([(ent.text, ent.label_) for ent in doc.ents])

# nlp.to_disk("/path/to/model") saving model

[('mês', 'DATE')]
