<a href="https://colab.research.google.com/github/vicentcamison/idal_ia3/blob/main/5%20Procesado%20del%20lenguaje%20natural/Sesion%201/NLP_04_Introduccio%CC%81n_al_spaCy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a la librería spaCy
En este *notebook* vamos a describir el uso de la librería `spaCy` para el Procesado de Lenguaje Natural.

In [None]:
import spacy
import pandas as pd
import re

Cargamos la librería y el modelo de lenguaje para el español. Vemos las principales características de la librería y del modelo.

In [None]:
spacy.info()

{'spacy_version': '3.0.5',
 'location': '/home/juan/anaconda3/lib/python3.8/site-packages/spacy',
 'platform': 'Linux-5.8.0-49-generic-x86_64-with-glibc2.10',
 'python_version': '3.8.5',
 'pipelines': {'es_core_news_sm': '3.0.0'}}

Comprobamos los modelos de lenguaje instalados (compatible con todas las versiones de `spaCy`)

In [None]:
!python -m spacy validate

2021-04-17 10:08:41.429845: W tensorflow/stream_executor/platform/default/dso_loader.cc:60] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda-11.2/lib64:
2021-04-17 10:08:41.429867: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.
[2K[38;5;2m✔ Loaded compatibility table[0m
[1m
[38;5;4mℹ spaCy installation:
/home/juan/anaconda3/lib/python3.8/site-packages/spacy[0m

NAME              SPACY            VERSION                            
es_core_news_sm   >=3.0.0,<3.1.0   [38;5;2m3.0.0[0m   [38;5;2m✔[0m



In [None]:
nlp = spacy.load("es_core_news_sm")

## Arquitectura del modelo
Para cada modelo, `spaCy` tiene un vocabulario de palabras ya conocidas que almacena en un `stringStore` global

Cada modelo tiene un conjunto de lexemas del idioma definidos en su Vocabulario

In [None]:
nlp.vocab

<spacy.vocab.Vocab at 0x7fdc3cd47b80>

In [None]:
nlp.vocab["ciudad"]

<spacy.lexeme.Lexeme at 0x7fdc3cd78340>

In [None]:
nlp.vocab["ciudad"].text

'ciudad'

In [None]:
dir(spacy.lexeme.Lexeme)

['__class__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__ne__',
 '__new__',
 '__pyx_vtable__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'check_flag',
 'cluster',
 'flags',
 'has_vector',
 'is_alpha',
 'is_ascii',
 'is_bracket',
 'is_currency',
 'is_digit',
 'is_left_punct',
 'is_lower',
 'is_oov',
 'is_punct',
 'is_quote',
 'is_right_punct',
 'is_space',
 'is_stop',
 'is_title',
 'is_upper',
 'lang',
 'lang_',
 'like_email',
 'like_num',
 'like_url',
 'lower',
 'lower_',
 'norm',
 'norm_',
 'orth',
 'orth_',
 'prefix',
 'prefix_',
 'prob',
 'rank',
 'sentiment',
 'set_attrs',
 'set_flag',
 'shape',
 'shape_',
 'similarity',
 'suffix',
 'suffix_',
 'text',
 'vector',
 'vector_norm',
 'vocab']

In [None]:
"albaricoque" in nlp.vocab

False

In [None]:
nlp.vocab["albaricoque"]

<spacy.lexeme.Lexeme at 0x7fdc3cd75b80>

In [None]:
"albaricoque" in nlp.vocab

True

## Procesado de texto
spaCy ejecuta todos los análisis del texto con una sola instrucción. Esta instrucción ejecuta un *pipeline* (procesado secuencial) que implementa:  

- División en tokens  
- Lematizado
- Análisis gramatical
- Análisis de dependencias
- *Name Entity Recognition* (NER)

In [None]:
# Ejemplo de texto
texto = "La gata de Juan es muy bonita."

Lo primero que hacemos es analizar el texto y generar un objeto de tipo `Doc`

In [None]:
doc = nlp(texto)
type(doc)

spacy.tokens.doc.Doc

## Exploramos el documento

Al analizar un texto, spaCy lo divide en una lista de `tokens`, que se acceden iterando sobre el objeto `Doc`


In [None]:
[t for t in doc]

[La, gata, de, Juan, es, muy, bonita, .]

Esta división es distinta de la simple división por espacios:

In [None]:
texto.split(' ')

['La', 'gata', 'de', 'Juan', 'es', 'muy', 'bonita.']

In [None]:
type(doc[0])

spacy.tokens.token.Token

Cada token tiene una serie de atributos:

In [None]:
print([prop for prop in dir(spacy.tokens.token.Token) if not prop.startswith('__')])

['_', 'ancestors', 'check_flag', 'children', 'cluster', 'conjuncts', 'dep', 'dep_', 'doc', 'ent_id', 'ent_id_', 'ent_iob', 'ent_iob_', 'ent_kb_id', 'ent_kb_id_', 'ent_type', 'ent_type_', 'get_extension', 'has_dep', 'has_extension', 'has_head', 'has_morph', 'has_vector', 'head', 'i', 'idx', 'iob_strings', 'is_alpha', 'is_ancestor', 'is_ascii', 'is_bracket', 'is_currency', 'is_digit', 'is_left_punct', 'is_lower', 'is_oov', 'is_punct', 'is_quote', 'is_right_punct', 'is_sent_end', 'is_sent_start', 'is_space', 'is_stop', 'is_title', 'is_upper', 'lang', 'lang_', 'left_edge', 'lefts', 'lemma', 'lemma_', 'lex', 'lex_id', 'like_email', 'like_num', 'like_url', 'lower', 'lower_', 'morph', 'n_lefts', 'n_rights', 'nbor', 'norm', 'norm_', 'orth', 'orth_', 'pos', 'pos_', 'prefix', 'prefix_', 'prob', 'rank', 'remove_extension', 'right_edge', 'rights', 'sent', 'sent_start', 'sentiment', 'set_extension', 'set_morph', 'shape', 'shape_', 'similarity', 'subtree', 'suffix', 'suffix_', 'tag', 'tag_', 'tensor

In [None]:
doc[0]

La

Lugar en memoria en la que ha guardado la palabra:

In [None]:
doc[0].orth

6239908149323985340

In [None]:
doc[0].tag

90

In [None]:
doc[0].tag_

'DET'

'DET' quiere decir que la palabra 'La' en el contexto en el que se encuentra, es un determinante (análisis morfológico)

Cada propiedad tiene dos atributos:  
- `propiedad`: ID único o *hash* que identifica el valor en un diccionario común a todos los Docs (Vocab)
- `propiedad_`: valor de la propiedad  

In [None]:
nlp.vocab.strings[doc[0].tag]

'DET'

Veamos los atributos de algunos de los tokens:

In [None]:
token=doc[3]
print("TOKEN:", token)
print("original:", token.orth, token.orth_)
print("lowercased:", token.lower, token.lower_)
print("lemma:", token.lemma, token.lemma_)
print("shape:", token.shape, token.shape_)
print("prefix:", token.prefix, token.prefix_)
print("suffix:", token.suffix, token.suffix_)
print("log probability:", token.prob)
print("Brown cluster id:", token.cluster)
print("POS:", token.pos, token.pos_)
print("tag:", token.tag, token.tag_)
print("morphology:", token.morph)
print("Dependency parsing:", token.dep, token.dep_)


TOKEN: Juan
original: 12079884900455715477 Juan
lowercased: 5414139780887730998 juan
lemma: 12079884900455715477 Juan
shape: 10887629174180191697 Xxxx
prefix: 18003918085672799305 J
suffix: 15055317959408037229 uan
log probability: -20.0
Brown cluster id: 0
POS: 96 PROPN
tag: 96 PROPN
morphology: 
Dependency parsing: 426 nmod


Las propiedades más importantes son (https://spacy.io/api/token#attributes):  
* `orth_`: texto del token
* `lemma_`: lema (palabra base)
* `shape_`: forma ortográfica del token
* `pos_`: Part-of-Speech (genérico)
* `tag_`: POS detallado
* `morph`: Análisis morfológico
* `dep_`: Tipo de dependencia del token (análisis de dependencias)

In [None]:
pd.set_option('display.max_colwidth', None)

datos = map(lambda t: {'token': t.orth_,
                       'lema': t.lemma_,
                       'shape': t.shape_,
                       'POS': t.pos_,
                       'TAG': t.tag_,
                       'Descripción TAG': spacy.explain(t.tag_),
                       'dependencia': t.dep_,
                       'Descripción dep': spacy.explain(t.dep_),
                       'Morfología': t.morph}, doc)

pd.DataFrame(datos)

Unnamed: 0,token,lema,shape,POS,TAG,Descripción TAG,dependencia,Descripción dep,Morfología
0,La,el,Xx,DET,DET,determiner,det,determiner,"(Definite=Def, Gender=Fem, Number=Sing, PronType=Art)"
1,gata,gata,xxxx,NOUN,NOUN,noun,nsubj,nominal subject,"(Gender=Fem, Number=Sing)"
2,de,de,xx,ADP,ADP,adposition,case,case marking,(AdpType=Prep)
3,Juan,Juan,Xxxx,PROPN,PROPN,proper noun,nmod,modifier of nominal,()
4,es,ser,xx,AUX,AUX,auxiliary,cop,copula,"(Mood=Ind, Number=Sing, Person=3, Tense=Pres, VerbForm=Fin)"
5,muy,mucho,xxx,ADV,ADV,adverb,advmod,adverbial modifier,()
6,bonita,bonito,xxxx,ADJ,ADJ,adjective,ROOT,,"(Gender=Fem, Number=Sing)"
7,.,.,.,PUNCT,PUNCT,punctuation,punct,punctuation,(PunctType=Peri)


### Diferencia entre token y lexema

In [None]:
parsedData = nlp("Me he cansado de estar cansado")
datos = map(lambda t: {'token': t.orth_,
                       'lema': t.lemma_,
                       'shape': t.shape_,
                       'POS': t.pos_,
                       'POS detallado': t.tag_,
                       'dependencia': t.dep_,
                       'Descripción dep': spacy.explain(t.dep_)},
                        parsedData)

pd.DataFrame(datos)

Unnamed: 0,token,lema,shape,POS,POS detallado,dependencia,Descripción dep
0,Me,yo,Xx,PRON,PRON,iobj,indirect object
1,he,haber,xx,AUX,AUX,aux,auxiliary
2,cansado,cansar,xxxx,VERB,VERB,ROOT,
3,de,de,xx,ADP,ADP,case,case marking
4,estar,estar,xxxx,AUX,AUX,aux,auxiliary
5,cansado,cansado,xxxx,ADJ,ADJ,xcomp,open clausal complement


In [None]:
parsedData[2]

cansado

In [None]:
parsedData[5]

cansado

In [None]:
parsedData[2]==parsedData[5]

False

In [None]:
parsedData[2].orth

13205991698470524012

In [None]:
nlp.vocab.strings[parsedData[2].orth]

'cansado'

In [None]:
parsedData[2].orth==parsedData[5].orth

True

## Análisis gramatical
Los documentos SpaCy también dividen en texto en oraciones (*sentences*) que son objetos del tipo `spacy.tokens.span.Span`. Podemos iterar con el generador `doc.sents` usando `next()`, `list()`, un bucle o con una comprensión de lista.

In [None]:
texto = "Al Sr. Daniel siempre le gustaron las catedrales. La de su ciudad era tan alta, \
que al mirarla desde su pequeña estatura, tenía que torcer el cuello de tal forma que \
le costaba no marearse. Lo que más temía era que sus pies se despegasen de la tierra \
y la Catedral le arrastrara con ella hasta los cielos. Aun así, un espíritu \
aventurero le llevaba cada tarde hasta la Plaza Mayor."
doc = nlp(texto)

In [None]:
datos = map(lambda t: {'token': t.orth_,
                       'lema': t.lemma_,
                       'shape': t.shape_,
                       'POS': t.pos_,
                       'POS detallado': t.tag_,
                       'dependencia': t.dep_,
                       'Descripción dep': spacy.explain(t.dep_)},
                        doc)

pd.DataFrame(datos).head(60)

Unnamed: 0,token,lema,shape,POS,POS detallado,dependencia,Descripción dep
0,Al,al,Xx,ADP,ADP,case,case marking
1,Sr.,Sr.,Xx.,PROPN,PROPN,obj,object
2,Daniel,Daniel,Xxxxx,PROPN,PROPN,flat,flat multiword expression
3,siempre,siempre,xxxx,ADV,ADV,advmod,adverbial modifier
4,le,él,xx,PRON,PRON,obj,object
5,gustaron,gustar,xxxx,VERB,VERB,ROOT,
6,las,el,xxx,DET,DET,det,determiner
7,catedrales,catedral,xxxx,NOUN,NOUN,obj,object
8,.,.,.,PUNCT,PUNCT,punct,punctuation
9,La,el,Xx,DET,DET,mark,marker


In [None]:
frases = doc.sents

In [None]:
next(frases)

Al Sr. Daniel siempre le gustaron las catedrales.

In [None]:
type(next(doc.sents))

spacy.tokens.span.Span

In [None]:
for i, sent in enumerate(doc.sents):
    print("Oración {}:\n{}\n".format(i,sent))

Oración 0:
Al Sr. Daniel siempre le gustaron las catedrales.

Oración 1:
La de su ciudad era tan alta, que al mirarla desde su pequeña estatura, tenía que torcer el cuello de tal forma que le costaba no marearse.

Oración 2:
Lo que más temía era que sus pies se despegasen de la tierra y la Catedral le arrastrara con ella hasta los cielos.

Oración 3:
Aun así, un espíritu aventurero le llevaba cada tarde hasta la Plaza Mayor.



Cada sentencia también tiene sus propios atributos, distintos de los de los tokens. Para spaCy las oraciones son objetos de tipo `spacy.tokens.span.Span`

In [None]:
print([prop for prop in dir(spacy.tokens.span.Span) if not prop.startswith('_')])

['as_doc', 'char_span', 'conjuncts', 'doc', 'end', 'end_char', 'ent_id', 'ent_id_', 'ents', 'get_extension', 'get_lca_matrix', 'has_extension', 'has_vector', 'kb_id', 'kb_id_', 'label', 'label_', 'lefts', 'lemma_', 'n_lefts', 'n_rights', 'noun_chunks', 'orth_', 'remove_extension', 'rights', 'root', 'sent', 'sentiment', 'set_extension', 'similarity', 'start', 'start_char', 'subtree', 'tensor', 'text', 'text_with_ws', 'to_array', 'vector', 'vector_norm', 'vocab']


Algunas propiedades de `Span` son distintas que las de cada `Token`:

In [None]:
[prop for prop in dir(spacy.tokens.span.Span) if
 not prop.startswith('_') and not prop in dir(spacy.tokens.token.Token)]

['as_doc',
 'char_span',
 'end',
 'end_char',
 'ents',
 'get_lca_matrix',
 'kb_id',
 'kb_id_',
 'label',
 'label_',
 'noun_chunks',
 'root',
 'start',
 'start_char',
 'to_array']

### Ejercicio 1
Obtén la palabra raíz -atributo `root`- de cada oración del texto anterior y muéstrala.  
La respuesta es  
```python  
[gustaron, alta, era, llevaba]
```

In [None]:
# COMPLETAR

#Ayuda
#Las oraciones del texto son accesibles con el iterable doc.sents
#La raíz de la oración es el atributo root

raices = [s.root for s in doc.sents]
raices

[gustaron, alta, era, llevaba]

Lo que hace internamente el objeto root es almacenar el token de la raiz de la palabra

In [None]:
type(raices[0])

spacy.tokens.token.Token

### Part of Speech (POS)
La librería `spaCy` determina el tipo gramatical (POS) de cada palabra en nuestro texto. Creamos un diccionario con los distintos POS de nuestro texto de ejemplo, usando el *hash* de cada POS como clave del diccionario:

In [None]:
{w.pos: (w.pos_, spacy.explain(w.pos_)) for w in doc} 

{85: ('ADP', 'adposition'),
 96: ('PROPN', 'proper noun'),
 86: ('ADV', 'adverb'),
 95: ('PRON', 'pronoun'),
 100: ('VERB', 'verb'),
 90: ('DET', 'determiner'),
 92: ('NOUN', 'noun'),
 97: ('PUNCT', 'punctuation'),
 87: ('AUX', 'auxiliary'),
 84: ('ADJ', 'adjective'),
 98: ('SCONJ', 'subordinating conjunction'),
 89: ('CCONJ', 'coordinating conjunction')}

Cada tipo gramatical (POS) se subdivide en distintas etiquetas según su análisis mnorfológico(atributo `morph`).  
Por ejemplo en nuestro texto tenemos los siguientes `tag`:

In [None]:
pd.DataFrame(set([(w.pos_, w.morph) for w in doc]), columns=['POS', 'morph']).sort_values(by='POS')

Unnamed: 0,POS,morph
1,ADJ,"(Gender=Fem, Number=Sing)"
33,ADJ,"(Gender=Masc, Number=Sing)"
34,ADP,(AdpType=Prep)
9,ADP,(AdpType=Preppron)
4,ADV,()
32,ADV,(Degree=Cmp)
23,ADV,(Polarity=Neg)
19,AUX,"(Mood=Ind, Number=Sing, Person=3, Tense=Imp, VerbForm=Fin)"
11,CCONJ,()
0,DET,"(Definite=Ind, Gender=Masc, Number=Sing, PronType=Art)"


### Ejercicio 2
Crea una lista de Python con todas las palabras del texto `doc` que sean del tipo NOMBRE y además sean de género Femenino.  
Ayuda: tendrás que usar una comprensión de lista filtrando mediante una función de búsqueda de texto (o patrón regular) sobre el valor del atributo `morph` 

In [None]:
## Completar

[w for w in doc if w.pos_=='NOUN' and 'Gender=Fem' in w.morph]

[ciudad, estatura, tierra]

Curioso en este caso el funcionamiento de 'Gender=Fem'. Pensaba que funcionaría igual que en la situación de w.pos_, pero no.

**En teoría, esto también se podría resolver usando EXPRESIONES REGULARES**

### Análisis de dependencias (dependency parsing)
La librería `spaCy`también analiza las relaciones entre palabras de una frase.

In [None]:
doc = nlp("El perro de Juan se comió mi bocadillo.")
dependencias = [(t.text, t.dep_, spacy.explain(t.dep_)) for t in doc]
pd.DataFrame(list(dependencias), columns=['texto', 'dependencia', 'explicación'])

Unnamed: 0,texto,dependencia,explicación
0,El,det,determiner
1,perro,nsubj,nominal subject
2,de,case,case marking
3,Juan,nmod,modifier of nominal
4,se,obj,object
5,comió,ROOT,
6,mi,det,determiner
7,bocadillo,obj,object
8,.,punct,punctuation


Cada palabra tiene un tipo de dependencia determinado dentro de la frase. 
La lista completa está en https://spacy.io/docs/api/annotation  
La dependencia `root` coincide con el atributo `root` de cada sentencia.

In [None]:
sent=next(doc.sents)
sent.root

comió

Cada raíz tiene una serie de hijos (tokens que dependen gramaticalmente de esa raíz).

In [None]:
list(sent.root.children)

#Es curioso como se realiza el análisis sintáctico. NO de la forma en que se nos explicó en lengua y literatura,
# sino como raíces y jerarquías.

# Por ejemplo, en este caso, los hijos directos del verbo (elemento principal de la frase) son el núcleo
# del sujeto, el reflexivo del verbo: el verbo completo es comerse, el 'se' no tiene significado adicional, no
# está haciendo de CI. Por último, bocadillo es el CD.
# El punto también es importante.

[perro, se, bocadillo, .]

Podemos extender el análisis a cada palabra del texto.

In [None]:
for word in sent: 
    print(word, ': ', str(list(word.children)))
    
# 'Perro' es el núcleo del sujeto: 'El' y 'Juan' son sus complementos
# 'Juan' tiene complemento a 'de', ya que lo usa de conector
# 'Comió' ha sido comentado anteriormente
# 'Bocadillo' tiene complemento a 'mi', ya que lo usa de conector

El :  []
perro :  [El, Juan]
de :  []
Juan :  [de]
se :  []
comió :  [perro, se, bocadillo, .]
mi :  []
bocadillo :  [mi]
. :  []


Además, cada palabra tiene una palabra de la que depende (`.head`) y unas palabras que dependen de ella (`children`) a izquierda (`.lefts`) y a derecha (`.rights`).

In [None]:
dependencias = map(lambda t: {
    'Palabra': t.orth_,
    'tipo de dependencia': f"{t.dep_} ({spacy.explain(t.dep_)})",
    'HEAD': t.head.orth_},
    doc)

pd.DataFrame(dependencias)

Unnamed: 0,Palabra,tipo de dependencia,HEAD
0,El,det (determiner),perro
1,perro,nsubj (nominal subject),comió
2,de,case (case marking),Juan
3,Juan,nmod (modifier of nominal),perro
4,se,obj (object),comió
5,comió,ROOT (None),comió
6,mi,det (determiner),bocadillo
7,bocadillo,obj (object),comió
8,.,punct (punctuation),comió


In [None]:
dependencias = map(lambda token: {
    'dep. izquierdas': [t.orth_ for t in token.lefts],
    'palabra[tipo de dependencia]': f"{token.orth_} [{token.dep_}]",
    'dep.derechas': [t.orth_ for t in token.rights]},
    doc)

pd.DataFrame(dependencias)

Unnamed: 0,dep. izquierdas,palabra[tipo de dependencia],dep.derechas
0,[],El [det],[]
1,[El],perro [nsubj],[Juan]
2,[],de [case],[]
3,[de],Juan [nmod],[]
4,[],se [obj],[]
5,"[perro, se]",comió [ROOT],"[bocadillo, .]"
6,[],mi [det],[]
7,[mi],bocadillo [obj],[]
8,[],. [punct],[]


Podemos representar gráficamente las dependencias con el módulo de visualización `displaCy`:

In [None]:
from spacy import displacy

displacy.render(doc, style='dep', jupyter=True, options={'distance':120})

También se pueden obtener los **sintagmas nominales** (*noun phrases*) de la oración. Cada NP tiene un sustantivo como raíz, acompañado ocasionalmente de las palabras que describen el sustantivo.  

In [None]:
chunks = map(lambda chunk: {'NP': chunk.text,
                            'root': chunk.root.text,
                            'Dep.': chunk.root.dep_,
                            'head': chunk.root.head.text},
             doc.noun_chunks)

pd.DataFrame(chunks)

Unnamed: 0,NP,root,Dep.,head
0,El perro,perro,nsubj,comió
1,Juan,Juan,nmod,perro
2,se,se,obj,comió
3,mi bocadillo,bocadillo,obj,comió


# Búsqueda de patrones
Spacy tiene una clase `Matcher` que permite buscar tokens con un patrón definido en los objetos `Doc`.  
Se puede buscar por el texto del token o por los atributos del token.  
Ref: https://spacy.io/usage/rule-based-matching

In [None]:
from spacy.matcher import Matcher

#inicializamos sobre el vocabulario
matcher = Matcher(nlp.vocab)

In [None]:
#definimos un patrón de texto a buscar
patron = [{"TEXT": "iPhone"}, {"TEXT": "X"}] #Patrón: texto 'iPhone' seguido de texto 'X'
matcher.add("iphone_x", [patron])

#procesamos un documento con el patrón
doc = nlp("El iPhone X salió después del iPhone 8, pero nunca sacaron el iPhone 9")

#llamamos al matcher
matches = matcher(doc)

#iteramos sobre los resultados
for match_id, start, end in matches:
    matched_span = doc[start:end]
    print(matched_span.text)

iPhone X


Podemos buscar por atributos del token:

In [None]:
patron = [{"TEXT": "iPhone"}, {"IS_DIGIT": True}] #Patrón: texto 'iPhone' seguido token con la atributo 'IS_DIGIT' a True
matcher.add("iphone_NN", [patron])
#llamamos al matcher
matches = matcher(doc)

#iteramos sobre los resultados
for match_id, start, end in matches:
    matched_span = doc[start:end] #span del match en el documento
    string_id = nlp.vocab.strings[match_id] #identificador del match
    print(f"{string_id}: {matched_span.text}")

iphone_x: iPhone X
iphone_NN: iPhone 8
iphone_NN: iPhone 9


In [None]:
doc = nlp("A mí me gusta bailar y a Pedro le gustaba tocar la trompeta pero no le gusta María y el gusta el iPhone X")

patron = [{"LEMMA": "gustar"}, {"POS": "PROPN"}]
matcher.add("gustar_persona", [patron])
#llamamos al matcher
matches = matcher(doc)

#iteramos sobre el resultado
for match_id, start, end in matches:
    matched_span = doc[start:end]
    string_id = nlp.vocab.strings[match_id]
    print(f"{string_id}: {matched_span.text}")

gustar_persona: gusta María
iphone_x: iPhone X


### Ejercicio 3
Creamos un nuevo patrón para "gustar" + verbo

In [None]:
patron = [{'LEMMA':'gustar'}, {'POS':'VERB'}]
matcher.add("gustar_verbo", [patron])
#llamamos al matcher
matches = matcher(doc)

#iteramos sobre el resultado
for match_id, start, end in matches:
    matched_span = doc[start:end]
    string_id = nlp.vocab.strings[match_id]
    print(f"{string_id}: {matched_span.text}")

gustar_verbo: gusta bailar
gustar_verbo: gustaba tocar
gustar_persona: gusta María
iphone_x: iPhone X


### Ejercicio 4
Busca todas las secuencias de texto formadas por nombre seguido de adjetivo en el texto siguiente.

In [None]:
texto = "En el agua muerta, de una brillantez de estaño, permanecía inmóvil la barca-correo: \
un gran ataúd cargado de personas y paquetes, con la borda casi a flor de agua. La vela triangular, \
con remiendos obscuros, estaba rematada por un guiñapo incoloro que en otros tiempos había sido una \
bandera española y delataba el carácter oficial de la vieja embarcación."

#solución
doc = nlp(texto)
patron = [{'POS':'NOUN'}, {'POS':'ADJ'}]
matcher.add("Nom_adj", [patron])
#llamamos al matcher
matches = matcher(doc)

#iteramos sobre el resultado
for match_id, start, end in matches:
    matched_span = doc[start:end]
    string_id = nlp.vocab.strings[match_id]
    print(f"{string_id}: {matched_span.text}")

Nom_adj: agua muerta
Nom_adj: ataúd cargado
Nom_adj: vela triangular
Nom_adj: guiñapo incoloro
Nom_adj: bandera española
Nom_adj: carácter oficial
