In [1]:
import spacy
spacy.__version__
nlp = spacy.load("es_core_news_md")

# Emparejamiento basado en reglas

### Emparejar secuencias de tokens

Un patrón de secuencia de tokens permite buscar patrones en el texto empleando los atributos lexicográficos y lingüísticos de los tokens; por ejemplo: nombre seguido de un adjetivo, nombre precedido por un artículo, etc. Los patrones de emparejamiento se definen como listas de diccionarios. Cada diccionario describe un atrobuto de un token. Las claves son los nombres de los atributos del token asociados a valores que se espera emparejar/buscar.

<img src="09-spacy-secuencia-de-palabras-con-patrones_.png" width="600px"/>

Por ejemplo, cuando se recibe una pregunta que comienza con una secuencia de palabras que usa el patrón "verbo auxiliar + verbo", como "Podría enviar", sabemos que la pregunta es sobre la capacidad, posibilidad, permiso u obligación de realizar la acción del verbo principal.

**Referencias**

- __[spaCy - Rule-based matching](https://spacy.io/usage/rule-based-matching)__
- __[Available token attributes for Marcher](https://spacy.io/usage/rule-based-matching#adding-patterns-attributes)__ 
- __[Rule-based Matcher Explorer](https://explosion.ai/demos/matcher)__
- __[An Overview of spaCy’s Token Matcher and Phrase Matcher](https://medium.com/featurepreneur/an-overview-of-spacys-token-matcher-and-phrase-matcher-8e68725c1fb1)__

In [2]:
doc = nlp('Podría enviar un pedido mañana?')
for token in doc:
    print(f"{token.text} | POS: {token.pos_}, explain: {spacy.explain(token.pos_)} | lemma {token.lemma_}")

Podría | POS: AUX, explain: auxiliary | lemma poder
enviar | POS: VERB, explain: verb | lemma enviar
un | POS: DET, explain: determiner | lemma uno
pedido | POS: NOUN, explain: noun | lemma pedido
mañana | POS: ADV, explain: adverb | lemma mañana
? | POS: PUNCT, explain: punctuation | lemma ?


In [3]:
from spacy.matcher import Matcher

In [4]:
# Cómo usar el objeto Matcher
# https://spacy.io/api/matcher
matcher = Matcher(nlp.vocab)
pattern = [{"POS":"AUX", "LEMMA": "poder"},{"POS":"VERB"}]
matcher.add("aux_verb_pattern", [pattern])
matches = matcher(doc)

In [18]:
#matches es similar a [ (match_id, start, end), (match_id, start, end)... (match_id, start, end) ]
for match_id, start, end in matches:
    print(doc[start:end])

Podría enviar


## Cuantificadores y operadores

Los cuantificadores permiten definir la frecuencia con la que el objeto __[Matcher](https://spacy.io/api/matcher)__ busca emperajmientos de un token.

<img src="16-rule-based-matching-quantifiers.png" width="600px"/>

- ```!```	match 0 times.
- ```?```	match 0 or 1 times.
- ```+```	match 1 or more times.
- ```*```	match 0 or more times.

Los operadores permiten realizar comparaciones diferentes a 'igual'

<img src="17-rule-based-matching-comparison-operators.png" width="800px"/>

In [5]:
doc = nlp('Quería enviar un pedido mañana?')
for token in doc:
    print(f"{token.text} | POS: {token.pos_}, explain: {spacy.explain(token.pos_)} | lemma {token.lemma_}")

Quería | POS: VERB, explain: verb | lemma querer
enviar | POS: VERB, explain: verb | lemma enviar
un | POS: DET, explain: determiner | lemma uno
pedido | POS: ADJ, explain: adjective | lemma pedido
mañana | POS: ADV, explain: adverb | lemma mañana
? | POS: PUNCT, explain: punctuation | lemma ?


In [20]:
matcher = Matcher(nlp.vocab)
pattern = [{"LEMMA": {"IN": ["poder", "querer"]}},{"POS":"VERB"}]
matcher.add("aux_verb_pattern", [pattern])
matches = matcher(doc)
            
for match_id, start, end in matches:
    print(doc[start:end])

Quería enviar


## __[Expresiones regulares](https://spacy.io/usage/rule-based-matching#regex)__ y __[comodín](https://spacy.io/usage/rule-based-matching#adding-patterns-wildcard)__

In [6]:
#Expresiones regulares
doc = nlp('Buen día. Buenos días')
pattern = [{"TEXT": {"REGEX": "[Bb]uen(os)?"}}, {"TEXT": {"REGEX": "[Dd]ía(s)?"}}]
matcher = Matcher(nlp.vocab)
matcher.add("greeting", [pattern])
matches = matcher(doc)
            
for match_id, start, end in matches:
    print(doc[start:end])

Buen día
Buenos días


In [11]:
# Comodín
doc = nlp('Enviamos el correo. Enviar carta')
# pattern = [{"LEMMA": "enviar"}, {}, {"LOWER": "correo"}]
pattern = [{"LEMMA": "enviar"}, {'OP':'?'}, {"POS": "NOUN"}]
matcher = Matcher(nlp.vocab)
matcher.add("send_mail", [pattern])
matches = matcher(doc)
            
for match_id, start, end in matches:
    print(doc[start:end])

Enviamos el correo
Enviar carta


# [PhraseMatcher](https://spacy.io/api/phrasematcher)

Facilia la búsqueda de frases.

In [22]:
texto = """Ayer comenzó el Encuentro por la Salud y la Vida en Cochabamba con la presencia de más de mil 
personas entre profesionales de salud, dirigentes de la Central Obrera Bolivia"""
doc = nlp( texto )


In [23]:
from spacy.matcher import PhraseMatcher

matcher = PhraseMatcher(nlp.vocab)
terms = ["Central Obrera Bolivia", "COB"]
#El patrón de búsqueda es una lista de documentos
patterns = [nlp.make_doc(text) for text in terms]
matcher.add("cob_pattern", patterns)
matches = matcher(doc)
            
for match_id, start, end in matches:
    print(doc[start:end])

Central Obrera Bolivia
