In [1]:
import spacy
from spacy import displacy

nlp = spacy.load('pt')

# Named Entity Recognition

Named Entities supported by Spacy: https://spacy.io/api/annotation#named-entities

In [2]:
doc = nlp('Maria está se mudando para Paris. No dia 01/02/2019 ela irá partir.')
for entidade in doc.ents:
    print(entidade.text, entidade.label_)

Maria PER
Paris LOC


In [3]:
displacy.render(doc, style='ent', jupyter=True)

In [4]:
spacy.explain('PER')

'Named person or family.'

In [5]:
# treinar o modelo com os novos dados
!python train_new_entity_type.py -m pt -o modelo_kodama.md

Loaded model 'pt'
Losses {'ner': 30.92538600668653}
Losses {'ner': 31.454840575629262}
Losses {'ner': 27.404309965555072}
Losses {'ner': 28.070894540207064}
Losses {'ner': 22.631297555781202}
Losses {'ner': 23.80390477474384}
Losses {'ner': 22.869779231175926}
Losses {'ner': 19.038161833159393}
Losses {'ner': 23.323969737626612}
Losses {'ner': 21.236340762348846}
Losses {'ner': 20.657431311672553}
Losses {'ner': 21.386681608855724}
Losses {'ner': 18.974342360161245}
Losses {'ner': 24.957486101659015}
Losses {'ner': 19.19161887653172}
Losses {'ner': 12.495212723846635}
Losses {'ner': 26.037852619716432}
Losses {'ner': 15.336943093978334}
Losses {'ner': 18.387670449679717}
Losses {'ner': 14.352215200517094}
Losses {'ner': 21.485799086629413}
Losses {'ner': 18.102753300452605}
Losses {'ner': 20.468476392285083}
Losses {'ner': 19.64151975273853}
Losses {'ner': 16.078637087732204}
Losses {'ner': 18.903074446301616}
Losses {'ner': 16.963952124460775}
Losses {'ner': 14.217290301407047}
Losses

In [6]:
nlp = spacy.load('./modelo_kodama.md')

In [7]:
doc = nlp('quero meu relatório de vendas entre 01/02/2020 e 01/03/2020')
displacy.render(doc, style='ent', jupyter=True)

Nós podemos observar que com um modelo probabislítico temos alguns problemas em identificar datas. Precisamos de mais exemplos e talvez nesse caso seja mais interessante utilizar uma abordagem baseda em regras (regex) e no caso de dados relativas como "ultimo mes" "semestre de 2020" podemos utilizar uma abordagem combinada com regras e bases de conhecimento

# Rule based and Knowledge Based

https://spacy.io/usage/rule-based-matching
https://spacy.io/usage/rule-based-matching#entityruler

In [8]:
from spacy.lang.pt import Portuguese
from spacy.pipeline import EntityRuler

nlp = Portuguese() # if you want to combina with existing prob model use spacy.load('pt')
ruler = EntityRuler(nlp)
patterns = [
    {
        'label': 'DATE', 'pattern': 
        [    # this will run per token and check the token sequence to match the rules
            {'TEXT' : {"REGEX": "[uú]ltimo"} },
            {'TEXT' : {"REGEX": "m[êe]s"} },
        ], 
        'id': 'date'
    },
    {
        'label': 'DATE', 'pattern': 
        [
            {'TEXT' : {"REGEX": "[uú]ltimo"} },
            {'TEXT' : {"REGEX": "\d"} },
            {'TEXT' : {"REGEX": "m[êe]s"} },
        ], 
        'id': 'date'
    },
    {
        'label': 'DATE', 'pattern': 
        [
            {'TEXT' : {"REGEX": "([Jj]aneiro|[Ff]evereiro|[Mm]ar[çc]o|[Aa]bril|[Mm]aio|[Jj]unho|[Jj]ulho|[Aa]gosto|[Ss]etembro|[Oo]utubro|[Nn]ovembro|[Dd]ezembro)"} }
        ], 
        'id': 'date'
    }, {
        'label': 'DATE', 'pattern': 
        [
            {'TEXT' : {"REGEX": "(hoje|ontem)"} }
        ], 
        'id': 'date'
    }
]
ruler.add_patterns(patterns)
nlp.add_pipe(ruler)

messages = [
    'quero relatório de vendas do ultimo mês',
    'como foram as minhas vendas nos últimos 3 meses',
    'vendas do mês de agosto',
    'minhas vendas do mes de março até junho',
    'como foram as minhas vendas entre Maio e Agosto',
    'quanto vendi entre abril e junho?',
    'qual produto eu mais vendi hoje'
]

def test_date_entity(messages):
    for message in messages:
        doc = nlp(message)
        print([(ent.text, ent.label_) for ent in doc.ents])

test_date_entity(messages)

# nlp.to_disk("/path/to/model") saving model

[('ultimo mês', 'DATE')]
[('últimos 3 meses', 'DATE')]
[('agosto', 'DATE')]
[('março', 'DATE'), ('junho', 'DATE')]
[('Maio', 'DATE'), ('Agosto', 'DATE')]
[('abril', 'DATE'), ('junho', 'DATE')]
[('hoje', 'DATE')]


# Dictionary based

In [48]:
import pandas as pd
from string import punctuation
from nltk.corpus import stopwords
from spacy.lang.pt import Portuguese
from nltk.tokenize import word_tokenize
from nltk.metrics.distance import edit_distance
from sklearn.feature_extraction.text import CountVectorizer

class Preprocessing:
    def __init__(self):
        pass

    def remove_stop_words(self, message, tokenizer, tokenized = True):
        blacklist = set(stopwords.words('portuguese') + list(punctuation))
        tokens = [] 
        if tokenizer:
            tokens = tokenizer(message)
        else:
            tokens = word_tokenize(message)
        clean_words = [word for word in tokens if word not in blacklist]
        if tokenized:
            return clean_words
        else:
            return ' '.join(clean_words)
        
        

class NER:
    '''
     NER Approaches created by Mee 🤖🔮💜
     Author: Guilherme Kodama 07/2020
    '''
    def __init__(self, corpus):
        self.preprocessing = Preprocessing()
        self.nlp = Portuguese()
        self.vectorizer = CountVectorizer()
        self.matrix = self.vectorizer.fit_transform(corpus)
        self.vocab = self.vectorizer.vocabulary_
        self.tokenizer = self.vectorizer.build_tokenizer()
        
    def recognize(self, message, algo='perfect_match', threshold=2):
        tokens = self.preprocessing.remove_stop_words(message, tokenizer=self.tokenizer)

        for token in tokens:
            if algo == 'perfect_match':
                if token in self.vocab:
                    print(token)
            # Calculate the Levenshtein edit-distance https://www.nltk.org/api/nltk.metrics.html#nltk.metrics.distance.edit_distance
            elif algo == 'edit_distance':
                for word in self.vectorizer.get_feature_names():
                    if edit_distance(token, word) <= threshold:
                        print(token)

In [49]:
ner = NER(['parmegiana de frango', 'bife a parmegiana', 'refrigerante coca-cola', 'heineken 600ml'])
ner.vectorizer.vocabulary_
ner.recognize('quantas coca-colas tenho no estoque ?', algo='edit_distance')

coca
coca
colas
colas
