In [3]:
# Importa spaCy
import spacy
# Importa el Matcher
from spacy.matcher import Matcher

# Encontrando patrones basados en reglas
## Usando el Matcher

In [8]:
# Carga el modelo y crea un objeto nlp
nlp = spacy.load("es_core_news_sm")

In [9]:
# Inicializa el matcher con el vocabulario compartido
matcher = Matcher(nlp.vocab)

In [10]:
# Añade el patrón al matcher
pattern = [{"TEXT": "adidas"}, {"TEXT": "zx"}]
matcher.add("ADIDAS_PATTERN", [pattern])

In [15]:
# Procesa un texto
doc = nlp("Nuevos diseños de zapatillas en la colección adidas zx")

# Llama al matcher sobre el doc
matches = matcher(doc)

In [16]:
# Itera sobre los resultados
for match_id, start, end in matches:
    # Obtén el span resultante
    matched_span = doc[start:end]
    print(matched_span.text)
    
# match_id: valor del hash del nombre del patrón
# start: índice de inicio del span resultante
# end: índice del final del span resultante

adidas zx


## Encontrando por atributos léxicos

In [28]:
pattern = [
    {"IS_DIGIT": True},
    {"LOWER": "copa"},
    {"LOWER": "mundial"},
    {"LOWER": "fifa"},
    {"IS_PUNCT": True}
]

matcher.add("COPA_PATTERN", [pattern])

doc = nlp("2014 Copa Mundial FIFA: Alemania ganó!")

matches = matcher(doc)

for match_id, start, end in matches:
    matched_span = doc[start:end]
    print(matched_span.text)

2014 Copa Mundial FIFA:


## Encontrando por otros atributos del token

In [32]:
pattern = [
    {"LEMMA": "comer", "POS": "VERB"},
    {"POS": "NOUN"}
]

matcher.add("COMIDA_PATTERN", [pattern])

doc = nlp("Camila prefería comer sushi. Pero ahora está comiendo pasta.")

matches = matcher(doc)

for match_id, start, end in matches:
    matched_span = doc[start:end]
    print(matched_span.text)

comer sushi


## Usando operadores y cuantificadores

In [31]:
pattern = [
    {"LEMMA": "comprar"},
    {"POS": "DET", "OP": "?"},  # opcional: encuentra 0 o 1 ocurrencias
    {"POS": "NOUN"}
]

matcher.add("COMPRAS_PATTERN", [pattern])

doc = nlp("Me compré un smartphone. Ahora le estoy comprando aplicaciones.")

matches = matcher(doc)

for match_id, start, end in matches:
    matched_span = doc[start:end]
    print(matched_span.text)

comprando aplicaciones
