# Rule-Based Matching / Phrase-Based Matching

En este notebook definimos términos de búsqueda para encontrar términos basados en reglas o frases completas usando SpaCy.

Tutorial: https://stackabuse.com/python-for-nlp-vocabulary-and-phrase-matching-with-spacy/

In [0]:
# Installs 

!pip3 install spacy
!python -m spacy download es_core_news_md

Collecting numpy>=1.15.0 (from spacy)
[?25l  Downloading https://files.pythonhosted.org/packages/35/d5/4f8410ac303e690144f0a0603c4b8fd3b986feb2749c435f7cdbb288f17e/numpy-1.16.2-cp36-cp36m-manylinux1_x86_64.whl (17.3MB)
[K    100% |████████████████████████████████| 17.3MB 1.7MB/s 
[31mfeaturetools 0.4.1 has requirement pandas>=0.23.0, but you'll have pandas 0.22.0 which is incompatible.[0m
[31mdatascience 0.10.6 has requirement folium==0.2.1, but you'll have folium 0.8.3 which is incompatible.[0m
[31malbumentations 0.1.12 has requirement imgaug<0.2.7,>=0.2.5, but you'll have imgaug 0.2.8 which is incompatible.[0m
Installing collected packages: numpy
  Found existing installation: numpy 1.14.6
    Uninstalling numpy-1.14.6:
      Successfully uninstalled numpy-1.14.6
Successfully installed numpy-1.16.2


Collecting es_core_news_md==2.0.0 from https://github.com/explosion/spacy-models/releases/download/es_core_news_md-2.0.0/es_core_news_md-2.0.0.tar.gz#egg=es_core_news_md==2.0.0
[?25l  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_md-2.0.0/es_core_news_md-2.0.0.tar.gz (98.5MB)
[K    100% |████████████████████████████████| 98.5MB 100.3MB/s 
[?25hInstalling collected packages: es-core-news-md
  Running setup.py install for es-core-news-md ... [?25ldone
[?25hSuccessfully installed es-core-news-md-2.0.0

[93m    Linking successful[0m
    /usr/local/lib/python3.6/dist-packages/es_core_news_md -->
    /usr/local/lib/python3.6/dist-packages/spacy/data/es_core_news_md

    You can now load the model via spacy.load('es_core_news_md')



In [0]:
# Imports

import spacy


In [0]:
# Initializations

nlp = spacy.load('es_core_news_md')

In [0]:
from spacy.matcher import Matcher # Palabras
from spacy.matcher import PhraseMatcher # Frases

## Rule-Based Matching

In [0]:
# Rule-Based Matching rules

sentence = nlp(u'El término Latinoamérica engloba a los países del continente \
    americano donde se hablan las lenguas derivadas del latín (español, \
    portugués y francés). El significado de América Latina es el mismo \
    que de Latinoamérica. Iberoamérica incluye a los países de habla \
    hispana y portuguesa. Es decir países americanos donde se habla \
    español y portugués, en algunas ocasiones también se refiere a lo \
    relativo a España y Portugal. Su gentilicio es iberoamericano. \
    Iberoamérica no debe usarse para designar a los países de habla \
    española solamente, para ello debe usarse el término Hispanoamérica.')

# find "latino américa", "latinoamerica" or "américa latina"
lugar1 = [{'LOWER': 'latino'}, {'IS_PUNCT': True, 'OP':'*'}, {'LOWER': 'américa'}]
lugar2 = [{'LOWER': 'latinoamerica'}]
lugar3 = [{'LOWER': 'américa'}, {'IS_PUNCT': True, 'OP':'*'}, {'LOWER': 'latina'}]
lugar4 = [{'LOWER': 'españa'}]
lugar5 = [{'LOWER': 'portugal'}]
idioma1 = [{'LOWER': 'español'}]
idioma2 = [{'LOWER': 'portugués'}]


rbMatcher = Matcher(nlp.vocab)  # Rule-based matcher
rbMatcher.add('LUGAR', None, lugar1, lugar2, lugar3, lugar4, lugar5) 
rbMatcher.add('IDIOMA', None, idioma1, idioma2) 

matches = rbMatcher(sentence)  
for match_id, start, end in matches:  
    string_id = nlp.vocab.strings[match_id]  
    span = sentence[start:end]                   
    print(string_id, span.text)


IDIOMA español
IDIOMA portugués
LUGAR América Latina
IDIOMA español
IDIOMA portugués
LUGAR España
LUGAR Portugal


## Phrase-Based Matching

In [0]:
sentence = nlp(u'Kandinsky es contratado como profesor de la Bauhaus en \
       1922 para dar una clase de pintura mural junto con su compañero \
       Paul Klee y Oskar Shlemmer. En la Bauhaus, Kandinsky dedica especial \
       atención a las correspondencias de color es y formas, y al estudio \
       de los elementos aislados.  Según su teoría, determinados colores \
       corresponden a determinadas formas; es decir, que determinados \
       colores intensifican su efecto mediante determinadas formas. \
       Para respaldar su tesis elabora un cuestionario que debe ser \
       rellenado por los alumnos del taller de pintura mural: las tres \
       formas geométricas básicas deben ser pintadas con los tres \
       colores primarios o con los colores que les parezcan adecuados. \
       La gran mayoría de los estudiantes atribuye el amarillo al \
       triangulo, el rojo al cuadrado y el azul al círculo, confirmando \
       así la teoría de Kandinsky. Esto sucede porque la percepción del \
       amarillo se refuerza mediante la combinación con una forma aguda \
       como los triángulos, y los colores que tienden a la profundidad, \
       como el azul, intensifican su efecto a través de las formas redondas. Wassily aplica este tipo de principios sobre la teoría del color durante todo el periodo en la Bauhaus.')

colores = [nlp(text) for text in ('rojo', 'verde', 'amarillo', 'gris', 'negro')]
personas = [nlp(text) for text in ('Paul Klee', 'Oskar Shlemmer', 'Kandinsky')]
figuras = [nlp(text) for text in ('cuadrado', 'círculo')]

pbMatcher = PhraseMatcher(nlp.vocab)
pbMatcher.add('COLOR', None, *colores)
pbMatcher.add('PERSONA', None, *personas)
pbMatcher.add('FIGURA', None, *figuras)


phrase_matches = pbMatcher(sentence)  
for match_id, start, end in phrase_matches:  
    string_id = nlp.vocab.strings[match_id]  
    span = sentence[start:end]                   
    print(string_id, span.text)

PERSONA Paul Klee
COLOR amarillo
COLOR rojo
FIGURA cuadrado
FIGURA círculo
COLOR amarillo
