# BM25

In [4]:
from rank_bm25 import BM25Okapi

corpus = [
    "Hello there good man!",
    "It is quite windy in London",
    "How is the weather today?"
]

tokenized_corpus = [doc.split(" ") for doc in corpus]
tokenized_corpus

[['Hello', 'there', 'good', 'man!'],
 ['It', 'is', 'quite', 'windy', 'in', 'London'],
 ['How', 'is', 'the', 'weather', 'today?']]

In [5]:
bm25 = BM25Okapi(tokenized_corpus)

In [3]:
query = "windy London"
tokenized_query = query.split(" ")
tokenized_query

['windy', 'London']

In [6]:
doc_scores = bm25.get_scores(tokenized_query)
doc_scores

array([0.        , 0.93729472, 0.        ])

In [7]:
bm25.get_top_n(tokenized_query, corpus, n=3)

['It is quite windy in London',
 'How is the weather today?',
 'Hello there good man!']

# TF-IDF with sklearn

In [27]:
import nltk
from unidecode import unidecode

ENTITIES = ["@sys-number", "@Datas"]
stopwordsNLTK = nltk.corpus.stopwords.words('portuguese')
stemmer = nltk.stem.RSLPStemmer()

def analyzer(text):
    text = unidecode(text) # remove accent
    for punctuation in [".", "!", "?", ",", ";"]:
        text = text.replace(punctuation, "")
    return text

def remove_stopwords(text):
    without_stopwords = [word for word in text.split() if word not in stopwordsNLTK]
    return without_stopwords

def apply_stemmer(tokens):
    stemmed_words = []
    for token in tokens:
        if token not in ENTITIES:
            stemmed_words.append(stemmer.stem(token.lower()))
        else:
            stemmed_words.append(token)
    return stemmed_words

In [28]:
Consultar_ContasPagas = ["A minha conta de @Datas está disponível para consulta?",
                        "Como consultar todas as minhas contas pagas?",
                        "Como consulto minha conta do dia @Datas?",
                        "Como faço para consultar minhas contas antigas?",
                        "como vejo os boletos que paguei?",
                        "consigo ver meus pagamentos?",
                        "Dá pra ver todas as contas que paguei?",
                        "extrato de pagamento de conta",
                        "Gostaria de consultar minhas faturas pagas"]

Emitir_SegundaViaConta = ["ACABEI DE DANIFICAR A CONTA NAO CONSIGO 2 VIA PELO SITE",
                         "Como consigo pagar minha conta atrasada?",
                         "como eu emito um novo boleto?",
                         "como faço para gerar 2ª via de conta?",
                         "Como tirar uma nova conta deste mês?",
                         "poderia me ajudar a pagar uma conta atrasada?",
                         "preciso imprimir segunda via de boleto",
                         "quero pagar meu boleto atrasado"]

In [29]:
Consultar_ContasPagas_text = analyzer(" ".join(Consultar_ContasPagas))
Consultar_ContasPagas_text

'A minha conta de @Datas esta disponivel para consulta Como consultar todas as minhas contas pagas Como consulto minha conta do dia @Datas Como faco para consultar minhas contas antigas como vejo os boletos que paguei consigo ver meus pagamentos Da pra ver todas as contas que paguei extrato de pagamento de conta Gostaria de consultar minhas faturas pagas'

In [30]:
Emitir_SegundaViaConta_text = analyzer(" ".join(Emitir_SegundaViaConta))
Emitir_SegundaViaConta_text

'ACABEI DE DANIFICAR A CONTA NAO CONSIGO 2 VIA PELO SITE Como consigo pagar minha conta atrasada como eu emito um novo boleto como faco para gerar 2a via de conta Como tirar uma nova conta deste mes poderia me ajudar a pagar uma conta atrasada preciso imprimir segunda via de boleto quero pagar meu boleto atrasado'

In [31]:
tokens1 = remove_stopwords(Consultar_ContasPagas_text)
reduced_words = apply_stemmer(tokens1)
reduced_words

['a',
 'cont',
 '@Datas',
 'disponi',
 'consult',
 'com',
 'consult',
 'tod',
 'cont',
 'pag',
 'com',
 'consult',
 'cont',
 'dia',
 '@Datas',
 'com',
 'fac',
 'consult',
 'cont',
 'antig',
 'vej',
 'bolet',
 'pag',
 'consig',
 'ver',
 'pag',
 'da',
 'pra',
 'ver',
 'tod',
 'cont',
 'pag',
 'extrat',
 'pag',
 'cont',
 'gost',
 'consult',
 'fatur',
 'pag']

In [33]:
tokens2 = remove_stopwords(Consultar_ContasPagas_text)
reduced_words2 = apply_stemmer(tokens2)
reduced_words2

['a',
 'cont',
 '@Datas',
 'disponi',
 'consult',
 'com',
 'consult',
 'tod',
 'cont',
 'pag',
 'com',
 'consult',
 'cont',
 'dia',
 '@Datas',
 'com',
 'fac',
 'consult',
 'cont',
 'antig',
 'vej',
 'bolet',
 'pag',
 'consig',
 'ver',
 'pag',
 'da',
 'pra',
 'ver',
 'tod',
 'cont',
 'pag',
 'extrat',
 'pag',
 'cont',
 'gost',
 'consult',
 'fatur',
 'pag']

In [35]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()

In [34]:
corpus = [" ".join(reduced_words), " ".join(reduced_words2)]

In [37]:
td_idf_docs = vectorizer.fit_transform(corpus).toarray()
td_idf_docs

array([[0.0877058 , 0.0877058 , 0.26311741, 0.0877058 , 0.43852901,
        0.52623481, 0.0877058 , 0.1754116 , 0.0877058 , 0.0877058 ,
        0.0877058 , 0.0877058 , 0.0877058 , 0.0877058 , 0.52623481,
        0.0877058 , 0.1754116 , 0.0877058 , 0.1754116 ],
       [0.0877058 , 0.0877058 , 0.26311741, 0.0877058 , 0.43852901,
        0.52623481, 0.0877058 , 0.1754116 , 0.0877058 , 0.0877058 ,
        0.0877058 , 0.0877058 , 0.0877058 , 0.0877058 , 0.52623481,
        0.0877058 , 0.1754116 , 0.0877058 , 0.1754116 ]])

# Check if index exist

In [1]:
from elastic_db.elasticsearch import elastic_conection

es = elastic_conection()

In [3]:
es.indices.exists(index="nlp_model-dc1e7b3d-9137-4a20-a99c-d0d2029ef170-01012021122212")

True

In [7]:
es.delete_by_query(index="nlp_model-dc1e7b3d-9137-4a20-a99c-d0d2029ef170", body={
                                                          "query": {
                                                            "term": {
                                                              "intent": "Abono"
                                                            }
                                                          }
                                                        })

{'took': 0,
 'timed_out': False,
 'total': 0,
 'deleted': 0,
 'batches': 0,
 'version_conflicts': 0,
 'noops': 0,
 'retries': {'bulk': 0, 'search': 0},
 'throttled_millis': 0,
 'requests_per_second': -1.0,
 'throttled_until_millis': 0,
 'failures': []}

In [5]:
es.get(index="nlp_model-dc1e7b3d-9137-4a20-a99c-d0d2029ef170-01012021133423",
      id="GgHavnYB2VES4V58Lm8")

NotFoundError: NotFoundError(404, '{"_index":"nlp_model-dc1e7b3d-9137-4a20-a99c-d0d2029ef170-01012021133423","_type":"_doc","_id":"GgHavnYB2VES4V58Lm8","found":false}')

In [4]:
 es.indices.delete(index="nlp_model-dc1e7b3d-9137-4a20-a99c-d0d2029ef170-01012021122212")

{'acknowledged': True}

# Classification with Elasticsearch

Read [Classificação de texto facilitada com o Elasticsearch](https://www.elastic.co/pt/blog/text-classification-made-easy-with-elasticsearch)


mapping:

```
{
  "settings": {
    "index" : {
      "number_of_shards" : 1,
      "number_of_replicas" : 0
    },
    "analysis": {
      "filter": {
        "portuguese_stop":{
               "type": "stop",
               "stopwords": "_portuguese_"
            },
        "my_stemmer": {
          "type": "stemmer",
          "language": "portuguese_rslp"
        }
      },
    "analyzer": {
        "sys-date": {
          "type": "pattern",
          "pattern":   ["[0-9]{2}[/-][0-9]{2}[/-][0-9]{2,4}",  "((\d{1,2}|\dº|primeiro)( de )?(janeiro|fevereiro|março|abril|maio|junho|julho|agosto|setembro|outubro|novembro|dezembro))( de \d{2,4})?"], 
          "lowercase": true
        }
        "examples_intent_analyzer":{ 
               "type":"custom",
               "tokenizer":"standard",
               "char_filter":  [ "html_strip" ],
               "filter":[
                  "lowercase",
                  "asciifolding",
                  "portuguese_stop"
               ]
            }
      }
    }
  },
  "mappings": { 
    "properties":{
       "examples":{
          "type":"text",
          "analyzer":"examples_intent_analyzer",
          "term_vector": "yes"
       },
       "intent":{"type": "keyword"}
    }
  }
}```

In [60]:
mapping = {
  "settings": {
    "index" : {
      "number_of_shards" : 1,
      "number_of_replicas" : 0
    },
    "analysis": {
      "filter": {
        "sys-date" : {
               "type" : "pattern_replace",
               "lowercase": True,
               "pattern" : "((\d{1,2}|\dº|primeiro)( de )?(janeiro|fevereiro|março|abril|maio|junho|julho|agosto|setembro|outubro|novembro|dezembro))( de \d{2,4})?",
               "replacement": "date"
        },
        "portuguese_stop":{
               "type": "stop",
               "stopwords": "_portuguese_"
            },
        "my_stemmer": {
          "type": "stemmer",
          "language": "portuguese_rslp"
        }
      },
    "analyzer": {
        "examples_intent_analyzer":{ 
               "type":"custom",
               "tokenizer":"standard",
               "char_filter":  [ "html_strip" ],
               "filter":[
                  "lowercase",
                  "sys-date",
                  "asciifolding",
                  "portuguese_stop",
                  "my_stemmer"
               ]
            }
      }
    }
  },
  "mappings": { 
    "properties":{
       "examples":{
          "type":"text",
          "analyzer":"standard"
       },
       "intent":{"type": "keyword"}
    }
  }
}

In [1]:
from elastic_db.elasticsearch import elastic_conection, NLPmodelIndex

es = elastic_conection()
index = NLPmodelIndex(es, workspace_id="dc1e7b3d-9137-4a20-a99c-d0d2029ef170")

# es = elastic_conection()
# index_name = 'yara-bot-yarin-dc1e7b3d-9137-4a20-a99c-d0d2029ef170'
# try:
#     es.indices.create(index=index_name,  body=mapping)
# except:
#     es.indices.delete(index=index_name)
#     es.indices.create(index=index_name,  body=mapping)

In [2]:
index.index_exist(es)

False

In [3]:
index.index_name

'nlp_model-dc1e7b3d-9137-4a20-a99c-d0d2029ef170-25122020150019'

In [4]:
index.index_alias

'nlp_model-dc1e7b3d-9137-4a20-a99c-d0d2029ef170'

In [5]:
index.model_recipe

{'language': 'pt-br', 'model_kind': 'BM25', 'BM25': {'b': 0.75, 'k1': 1.2}}

In [6]:
index.create_index(es)

{'acknowledged': True,
 'shards_acknowledged': True,
 'index': 'nlp_model-dc1e7b3d-9137-4a20-a99c-d0d2029ef170-25122020150019'}

In [4]:
# index.create_index(es)

In [7]:
index.create_recipe(es)

(False,
 {'_index': 'nlp_model-dc1e7b3d-9137-4a20-a99c-d0d2029ef170-25122020150019',
  '_type': '_doc',
  '_id': 'dc1e7b3d-9137-4a20-a99c-d0d2029ef170',
  '_version': 1,
  'result': 'created',
  '_shards': {'total': 2, 'successful': 1, 'failed': 0},
  '_seq_no': 0,
  '_primary_term': 1})

In [8]:
index.create_recipe(es)

(True, 'Recipe already exist!')

In [9]:
import json

file = open('/home/cloves/Downloads/skill-YARA_PRD.json', "r") 
workspace = json.load(file)
workspace["intents"][-1]

{'intent': 'Vizinho_Invadindo_Terreno',
 'examples': [{'text': 'A unidade está sendo invadida. Quem pode ajudar?'},
  {'text': 'Estamos com problema com vizinhos da unidade. Com quem posso falar?'},
  {'text': 'Nosso terreno está sendo invadido pelo vizinho da unidade. O que fazer?'},
  {'text': 'O vizinho da unidade está invadindo uma parte do imóvel da Yara. O que fazer?'}],
 'description': ''}

In [13]:
j = '\
  {"intent": "Vizinho_Invadindo_Terreno",\
   "examples": [{"text": "A unidade está sendo invadida. Quem pode ajudar?"},\
                 {"text": "Estamos com problema com vizinhos da unidade. Com quem posso falar?"},\
                 {"text": "Nosso terreno está sendo invadido pelo vizinho da unidade. O que fazer?"},\
                 {"text": "O vizinho da unidade está invadindo uma parte do imóvel da Yara. O que fazer?"}\
    ],\
  "description": ""}'
    
json.loads(j)

{'intent': 'Vizinho_Invadindo_Terreno',
 'examples': [{'text': 'A unidade está sendo invadida. Quem pode ajudar?'},
  {'text': 'Estamos com problema com vizinhos da unidade. Com quem posso falar?'},
  {'text': 'Nosso terreno está sendo invadido pelo vizinho da unidade. O que fazer?'},
  {'text': 'O vizinho da unidade está invadindo uma parte do imóvel da Yara. O que fazer?'}],
 'description': ''}

In [10]:
for intent in workspace["intents"]:
    index.add_intent(es, intent)

In [11]:
user_input = "quando o 13º será pago?"
query = {
    "query":{
       "more_like_this":{
          "fields":["examples.text"],
          "like":user_input,
          "min_term_freq":1,
          "max_query_terms":20
       }
    }
}

response = es.search(index=index.index_name, body = query)
for r in response["hits"]["hits"]:
    print((r["_source"]["intent"], r["_score"]))

('Adiantamento_e_QuandoReceber_13_Salario', 10.771127)
('Data_Envio_Vale_RefeicaoAlimentacao', 6.4685035)
('Data_Pagamento_Vale_RefeicaoAlimentação', 6.335941)
('Contrato_Devolvido_Juridico', 6.32493)
('Data_Pagamento_Salario', 6.283629)
('Hora_Extra', 5.9060307)
('Bonus_Mobilidade', 4.600733)
('Duvidas_Funcoes_Cartao', 4.5996284)
('Pagamento_Licenca_Maternidade', 4.4481616)
('Custo_Movimentação_Estado', 4.3218856)


In [15]:
print("Isso aqui é um float %f"%10.1)

Isso aqui é um float 10.100000


In [17]:
print("Isso aqui é um float {numero}".format(numero="10.1"))

Isso aqui é um float 10.1


In [18]:
print("isso é um numero ", 10)

isso é um numero  10


# Process the text data with elastic


Read [How scoring works in Elasticsearch](https://www.compose.com/articles/how-scoring-works-in-elasticsearch/)

```
GET /_analyze
{
  "char_filter" : ["html_strip"],
  "tokenizer" : "whitespace",
  "filter" : ["lowercase", "asciifolding", {"type": "stemmer", "language": "portuguese_rslp"},{"type": "stop", "stopwords": ["que", "com", ",", ".", "?"]}],
  "text" : "Olá tudo bem? <h1>Eu vou bem</h2>, que bom, estava com saudades"
}
```

In [2]:
from elastic_db.elasticsearch import elastic_conection

es = elastic_conection()

In [3]:
import nltk
from unidecode import unidecode

# https://www.freeformatter.com/java-regex-tester.html#ad-output

stopwordsNLTK = list(nltk.corpus.stopwords.words('portuguese'))

input_text = "<h1>olá tudo bem?</h1> 1º de janeiro, 25 de fevereiro, 15 de dezembro, primeiro de abril de 2020, 2 de junho de 2018"
input_text2 = "olá bom dia 20/10/2020, 30-01-20"

query1 = {
  "char_filter" : ["html_strip"],
  "tokenizer" : "whitespace",
  "filter" : [
              "lowercase",
              {
               "type" : "pattern_replace",
               "pattern" : "[0-9]{2}[/-][0-9]{2}[/-][0-9]{2,4}",
               "replacement": "date"
              },
              "asciifolding",
              #{"type": "stemmer", "language": "portuguese_rslp"},
              {"type": "stop", "stopwords": stopwordsNLTK}],
  "text" : input_text2
}

query2 = {
  "char_filter" : ["html_strip"],
  "tokenizer" : "whitespace",
  "filter" : [
              "lowercase",
              {
               "type" : "pattern_replace",
               "pattern" : "(([0-9]{1,2}|[0-9]º|primeiro)( de )?(janeiro\b|fevereiro\b|março\b|abril\b|maio\b|junho\b|julho\b|agosto\b|setembro\b|outubro\b|novembro\b|dezembro\b))( de [0-9]{2,4})?",
               "replacement": "date"
              },
              "asciifolding",
              {"type": "stop", "stopwords": "_portuguese_"}],
  "text" : input_text
}


query3 = {
  "tokenizer": "whitespace",
  "filter": [
    {
      "type": "pattern_replace",
      "pattern": "(cachorro)",
      "replacement": "watch$1"
    }
  ],
  "text": "rapozas são cachorros"
}
index_name="nlp_model-dc1e7b3d-9137-4a20-a99c-d0d2029ef170"
result = es.indices.analyze(index=index_name, body=query3)
result

{'tokens': [{'token': 'rapozas',
   'start_offset': 0,
   'end_offset': 7,
   'type': 'word',
   'position': 0},
  {'token': 'são',
   'start_offset': 8,
   'end_offset': 11,
   'type': 'word',
   'position': 1},
  {'token': 'watchcachorros',
   'start_offset': 12,
   'end_offset': 21,
   'type': 'word',
   'position': 2}]}

In [5]:
query = {
 "analyzer": "standard",
 "text": "Como faço para ver os erros do meu ponto e tomar café?"
}
result = es.indices.analyze(index=index_name, body=query)
result

{'tokens': [{'token': 'como',
   'start_offset': 0,
   'end_offset': 4,
   'type': '<ALPHANUM>',
   'position': 0},
  {'token': 'faço',
   'start_offset': 5,
   'end_offset': 9,
   'type': '<ALPHANUM>',
   'position': 1},
  {'token': 'para',
   'start_offset': 10,
   'end_offset': 14,
   'type': '<ALPHANUM>',
   'position': 2},
  {'token': 'ver',
   'start_offset': 15,
   'end_offset': 18,
   'type': '<ALPHANUM>',
   'position': 3},
  {'token': 'os',
   'start_offset': 19,
   'end_offset': 21,
   'type': '<ALPHANUM>',
   'position': 4},
  {'token': 'erros',
   'start_offset': 22,
   'end_offset': 27,
   'type': '<ALPHANUM>',
   'position': 5},
  {'token': 'do',
   'start_offset': 28,
   'end_offset': 30,
   'type': '<ALPHANUM>',
   'position': 6},
  {'token': 'meu',
   'start_offset': 31,
   'end_offset': 34,
   'type': '<ALPHANUM>',
   'position': 7},
  {'token': 'ponto',
   'start_offset': 35,
   'end_offset': 40,
   'type': '<ALPHANUM>',
   'position': 8},
  {'token': 'e',
   'start

# Entity Resolution

* [Real time entity resolution with elasticsearch](https://www2.slideshare.net/o19s/real-time-entity-resolution-with-elasticsearch-haystack-2018?from_action=save)
* [Named Entity Annotations in Elasticsearch](https://saskia-vola.com/named-entity-annotations-in-elasticsearch)

# API

[REST API Testing Strategy: What Exactly Should You Test?](https://www.sisense.com/blog/rest-api-testing-strategy-what-exactly-should-you-test/)

# Mapping

In [19]:
def find(key_path, doc):
    keys = key_path.split('.')
    rv = doc
    try:
        for key in keys:
            rv = rv[key]
        return {keys[-1]: rv}
    except KeyError:
        return "Field %s do not exist!"%keys[-1]

In [13]:
doc = {
    "customer_id": "yara",
    "language": "pt-br",
    "recipe": {
        "BM25": {
            "b": 0.75,
            "k1": 1.2
        },
        "model_kind": "BM25"
    },
    "workspace_id": "dc1e7b3d-9137-4a20-a99c-d0d2029ef170"
}

In [21]:
find("recipe.BM25.k1", doc)

{'k1': 1.2}

In [34]:
import json 

def convert_value_to_reight_type(value):
    try:
        value = json.loads(value)
        return value
    except:
        try:
            value = int(value)
            return value
        except:
            try:
                value = float(value)
                return value
            except:
                if value.lower() == "true":
                    return bool(value)
                else:
                    return value
        
            

In [37]:
convert_value('{"nome": "cloves"}')

{'nome': 'cloves'}

In [33]:
bool("cloves")

True

In [None]:
update(doc, "recipe.BM25.k1")

# Regex

In [2]:
import re
from elastic_db.elasticsearch import elastic_conection, NLPmodelIndex

es = elastic_conection()
index = NLPmodelIndex(es=es, workspace_id="dc1e7b3d-9137-4a20-a99c-d0d2029ef170")

In [3]:
index.patterns_entities

{'ContactInfo:email': ['\\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}\\b',
  "^[a-zA-Z0-9.!#$%&'*+/=?^_`{|}~-]+@[a-zA-Z0-9](?:[a-zA-Z0-9-]{0,61}[a-zA-Z0-9])?(?:\\.[a-zA-Z0-9](?:[a-zA-Z0-9-]{0,61}[a-zA-Z0-9])?)*$"],
 'ContactInfo:telefone': ['^\\s?\\(?\\d{2,3}\\)?[\\s-]?\\d{4,5}-?\\d{4}\\s?$'],
 'Datas:data': ['((0[1-9])|(1[0-9])|(2[0-9])|(3[0-1]))/((0[1-9])|(1[0-2]))/[0-9]{4}',
  '((0[1-9])|(1[0-9])|(2[0-9])|(3[0-1]))-((0[1-9])|(1[0-2]))-[0-9]{4}',
  '((0[1-9])|(1[0-2]))/[0-9]{4}',
  '((0[1-9])|(1[0-2]))-[0-9]{4}',
  '((0[1-9])|(1[0-2]))/[0-9]{2}'],
 'CEP:cep': ['^\\s?\\d{5}-?\\d{3}\\s?$',
  '([0-9]{5}-[0-9]{3}){1}',
  '([0-9]{8}){1}']}

In [5]:
def patterns_matcher(patterns, sentence):
    found_entities = []
    for entity, values in patterns:
        for value in values:
            results = re.findall(value, sentence)
            if results:
                found_entities.append({entity: results})
            else:
                pass
    return found_entities

"alterar gestor e tomar coffé clovesgtx@gmail.com"

In [14]:
patterns = zip(index.patterns_entities.keys(), index.patterns_entities.values())
text = "e-mail: clovesgtx@gmail.com,  cep 88054641, meu telefone é 1198406-8732, aniversário 26/12/1989"
patterns_matcher(patterns=patterns, sentence=text)

[{'ContactInfo:email': ['clovesgtx@gmail.com']},
 {'Datas:data': [('26', '', '', '26', '', '12', '', '12')]},
 {'Datas:data': [('12', '', '12')]},
 {'Datas:data': [('06', '06', '')]},
 {'Datas:data': [('12', '', '12')]},
 {'CEP:cep': ['98406-873']},
 {'CEP:cep': ['88054641']}]

# Space

In [1]:
import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")
for token in doc:
    print(token.text, token.pos_, token.dep_)

Apple PROPN nsubj
is AUX aux
looking VERB ROOT
at ADP prep
buying VERB pcomp
U.K. PROPN compound
startup NOUN dobj
for ADP prep
$ SYM quantmod
1 NUM compound
billion NUM pobj


In [5]:
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")
list(doc)

[Apple, is, looking, at, buying, U.K., startup, for, $, 1, billion]

In [1]:
import spacy
from spacy.matcher import PhraseMatcher
from spacy.tokens import Span

# https://spacy.io/usage/processing-pipelines#custom-components
class EntityMatcher(object):
    name = "entity_matcher"

    def __init__(self, nlp, terms, label):
        patterns = [nlp.make_doc(text) for text in terms]
        self.matcher = PhraseMatcher(nlp.vocab)
        self.matcher.add(label, None, *patterns)

    def __call__(self, doc):
        matches = self.matcher(doc)
        for match_id, start, end in matches:
            span = Span(doc, start, end, label=match_id)
            doc.ents = list(doc.ents) + [span]
        return doc

nlp = spacy.load("pt_core_news_sm")
terms = ("macaxeira", "aipim", "castelinha", "uaipi", "mandioca-doce", 
         "mandioca-mansa", "maniva", "maniveira", "pão-de-pobre", 
         "mandioca-brava", "mandioca-amarga")
entity_matcher = EntityMatcher(nlp, terms, "CulturaPlatacao:Mandioca")

nlp.add_pipe(entity_matcher, after="ner")

#print(nlp.pipe_names)  # The components in the pipeline

doc = nlp("Essa raíz é chamada de diferente formas, como mandioca, aipim, macaxeira, etc")
print([(ent.text, ent.label_) for ent in doc.ents])

[('aipim', 'CulturaPlatacao:Mandioca'), ('macaxeira', 'CulturaPlatacao:Mandioca')]


In [52]:
from fuzzywuzzy import fuzz

FUZZY_MATCH_THRESHOLD = 90
TOKENIZER_QUERY = {
  "analyzer": "standard",
  "text" : ""
}
 
def SynonymMatcher(entity, value, sentence, sentence_tokens, found_entities):
    for value in values:
        words_of_entity  = value.split(" ")
        if len(words_of_entity) > 1:
            score = fuzz.ratio(sentence, value)  
            if score >= 90:
                found_entities[entity] = sentence
        else:
            for token in sentence_tokens:
                score = fuzz.ratio(token, value)  
                if score >= 90:
                    found_entities[entity] = token

In [14]:
from elastic_db.elasticsearch import elastic_conection, NLPmodelIndex

es = elastic_conection()

index = NLPmodelIndex(es=es, workspace_id="dc1e7b3d-9137-4a20-a99c-d0d2029ef170")

In [18]:
def get_tokens(sentence):
    TOKENIZER_QUERY["text"] = sentence
    sentence_tokens = es.indices.analyze(index=index.index_name, body=TOKENIZER_QUERY)
    sentence_tokens = [item["token"] for item in sentence_tokens["tokens"]]
    return sentence_tokens

In [53]:
from multiprocessing import Process, Manager

Pros = []
manager = Manager()
found_entities = manager.dict()
sentence = "madioca aipim macaxeira"
sentence_tokens = get_tokens(sentence)

entities = zip(index.synonyms_entities.keys(), index.synonyms_entities.values())

# Run this with a pool of 5 agents having a chunksize of 3 until finished
# agents = len(dataset)
# chunksize = 1
for entity, values in entities:
        p = Process(target=SynonymMatcher, args=(entity, values, sentence, sentence_tokens, found_entities))
        Pros.append(p)
        p.start()

In [57]:
entities = zip(index.synonyms_entities.keys(), index.synonyms_entities.values())
for entity, values in entities:
    print(entity, values)

EntedidadesGerais:Agendamento de Férias ['Agendamento de Férias', 'Agendamento', 'Nova programação']
EntedidadesGerais:Alteração da Data de Férias ['Alteração da Data de Férias', 'Alteração']
EntedidadesGerais:Alteração de Cargo ['Alteração de Cargo']
EntedidadesGerais:Alteração de Centro de Custo ['Alteração de Centro de Custo']
EntedidadesGerais:Alteração de Gestor ['Alteração de Gestor']
EntedidadesGerais:Alteração de Tipo de Contrato ['Alteração de Tipo de Contrato']
EntedidadesGerais:Central de Serviço ['Central de Serviço']
EntedidadesGerais:Enquadramento ['Enquadramento']
EntedidadesGerais:Extensão do Contrato ['Extensão do Contrato']
EntedidadesGerais:Mérito ['Mérito']
EntedidadesGerais:Promoção ['Promoção']
EntedidadesGerais:Transferência entre filiais ['Transferência entre filiais']
DetalheDesconto:Cartão combustível ['Cartão combustível']
DetalheDesconto:Cartão combustívelPensão Alimentícia ['Cartão combustívelPensão Alimentícia']
DetalheDesconto:Empréstimos ['Empréstimos']


In [54]:
for t in Pros:
    t.join()

In [55]:
found_entities.values()

[]

In [11]:
def get_entities(es, index_name, value_type):
    synonyms_result = es.search(index=index_name, body = {
                                                          "query": {
                                                           "bool": {
                                                             "must": [
                                                               {"term": {"doc_type.keyword": "entity"}},
                                                               {"term": {"values.type": value_type}}
                                                             ]
                                                           }
                                                          }
                                                        })
    
    entities = [synonym["_source"] for synonym in synonyms_result["hits"]["hits"]]
    dic = dict()
    if value_type == "synonyms":
        for entity in entities:
            entity_name = entity["entity"] + ":"
            for value in entity["values"]:
                key = entity_name+value["value"]
                dic[key] = [value["value"]] + value[value_type]
    if value_type == "patterns":
        for entity in entities:
            entity_name = entity["entity"] + ":"
            for value in entity["values"]:
                key = entity_name+value["value"]
                dic[key] = value[value_type]

    return dic
        

In [12]:
get_entities(es, index.index_name, "synonyms")

{'CulturaPlatacao:Café': ['Café'],
 'CulturaPlatacao:Cana-de-Açúcar': ['Cana-de-Açúcar', 'cana'],
 'CulturaPlatacao:Mandioca': ['Mandioca',
  'macaxeira',
  'aipim',
  'castelinha',
  'uaipi',
  'mandioca-doce',
  'mandioca-mansa',
  'maniva',
  'maniveira',
  'pão-de-pobre',
  'mandioca-brava',
  'mandioca-amarga']}

In [13]:
get_entities(es, index.index_name, "patterns")

{'ContactInfo:email': ['\\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{b,}\\b',
  "^[a-zA-Z0-9.!#$%&'*+/=?^_`{|}~-]+@[a-zA-Z0-9](?:[a-zA-Z0-9-]{0,61}[a-zA-Z0-9])?(?:\\.[a-zA-Z0-9](?:[a-zA-Z0-9-]{0,61}[a-zA-Z0-9])?)*$"],
 'ContactInfo:telefone': ['^\\s?\\(?\\d{2,3}\\)?[\\s-]?\\d{4,5}-?\\d{4}\\s?$']}

In [18]:
zip(dic.keys(), dic.values())

<zip at 0x7f01137a5708>

In [16]:
dic.keys()

dict_keys(['CulturaPlatacao:Café', 'CulturaPlatacao:Cana-de-Açúcar', 'CulturaPlatacao:Mandioca'])

In [17]:
dic.values()

dict_values([['Café'], ['Cana-de-Açúcar', 'cana'], ['Mandioca', 'macaxeira', 'aipim', 'castelinha', 'uaipi', 'mandioca-doce', 'mandioca-mansa', 'maniva', 'maniveira', 'pão-de-pobre', 'mandioca-brava', 'mandioca-amarga']])

In [7]:
from elastic_db.elasticsearch import NLPmodelIndex, elastic_conection
from utils.entities import nlp, SynonymMatcher

es = elastic_conection()

In [2]:
index = NLPmodelIndex(es=es, workspace_id="dc1e7b3d-9137-4a20-a99c-d0d2029ef170")

In [3]:
index.synonyms_entities

{'EntedidadesGerais:Agendamento de Férias': ['Agendamento de Férias',
  'Agendamento',
  'Nova programação'],
 'EntedidadesGerais:Alteração da Data de Férias': ['Alteração da Data de Férias',
  'Alteração'],
 'EntedidadesGerais:Alteração de Cargo': ['Alteração de Cargo'],
 'EntedidadesGerais:Alteração de Centro de Custo': ['Alteração de Centro de Custo'],
 'EntedidadesGerais:Alteração de Gestor': ['Alteração de Gestor'],
 'EntedidadesGerais:Alteração de Tipo de Contrato': ['Alteração de Tipo de Contrato'],
 'EntedidadesGerais:Central de Serviço': ['Central de Serviço'],
 'EntedidadesGerais:Enquadramento': ['Enquadramento'],
 'EntedidadesGerais:Extensão do Contrato': ['Extensão do Contrato'],
 'EntedidadesGerais:Mérito': ['Mérito'],
 'EntedidadesGerais:Promoção': ['Promoção'],
 'EntedidadesGerais:Transferência entre filiais': ['Transferência entre filiais'],
 'DetalheDesconto:Cartão combustível': ['Cartão combustível'],
 'DetalheDesconto:Cartão combustívelPensão Alimentícia': ['Cartão c

In [4]:
index.patterns_entities

{'ContactInfo:email': ['\\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}\\b',
  "^[a-zA-Z0-9.!#$%&'*+/=?^_`{|}~-]+@[a-zA-Z0-9](?:[a-zA-Z0-9-]{0,61}[a-zA-Z0-9])?(?:\\.[a-zA-Z0-9](?:[a-zA-Z0-9-]{0,61}[a-zA-Z0-9])?)*$"],
 'ContactInfo:telefone': ['^\\s?\\(?\\d{2,3}\\)?[\\s-]?\\d{4,5}-?\\d{4}\\s?$'],
 'Datas:data': ['((0[1-9])|(1[0-9])|(2[0-9])|(3[0-1]))/((0[1-9])|(1[0-2]))/[0-9]{4}',
  '((0[1-9])|(1[0-9])|(2[0-9])|(3[0-1]))-((0[1-9])|(1[0-2]))-[0-9]{4}',
  '((0[1-9])|(1[0-2]))/[0-9]{4}',
  '((0[1-9])|(1[0-2]))-[0-9]{4}',
  '((0[1-9])|(1[0-2]))/[0-9]{2}'],
 'CEP:cep': ['^\\s?\\d{5}-?\\d{3}\\s?$',
  '([0-9]{5}-[0-9]{3}){1}',
  '([0-9]{8}){1}']}

In [5]:
def build_synonyms_matchers(index):
    for synonym in index.synonyms_entities.keys():
        entity_matcher = SynonymMatcher(nlp, index.synonyms_entities[synonym], synonym)
        nlp.add_pipe(entity_matcher, after="ner")
    return nlp

In [8]:
nlp = build_synonyms_matchers(index)

ValueError: [E007] 'synonym_matcher' already exists in pipeline. Existing names: ['tagger', 'parser', 'ner', 'synonym_matcher']