<a href="https://colab.research.google.com/github/SoniaPMi/NLP/blob/main/NLP_04_Introducci%C3%B3n_al_spaCy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a la librería spaCy
En este *notebook* vamos a describir el uso de la librería `spaCy` para el Procesado de Lenguaje Natural.

In [1]:
import spacy
import pandas as pd
import re

In [2]:
!pip install spacy==2.2.4
!python -m spacy download es_core_news_sm
!python -m spacy download en_core_web_md
!python -m spacy download es_core_news_md

Collecting es_core_news_sm==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-2.2.5/es_core_news_sm-2.2.5.tar.gz (16.2 MB)
[K     |████████████████████████████████| 16.2 MB 18.1 MB/s 
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('es_core_news_sm')
Collecting en_core_web_md==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_md-2.2.5/en_core_web_md-2.2.5.tar.gz (96.4 MB)
[K     |████████████████████████████████| 96.4 MB 1.2 MB/s 
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('en_core_web_md')
Collecting es_core_news_md==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_md-2.2.5/es_core_news_md-2.2.5.tar.gz (78.4 MB)
[K     |████████████████████████████████| 78.4 MB 1.3 MB/s 
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spac

Cargamos la librería y el modelo de lenguaje para el español. Vemos las principales características de la librería y del modelo.

In [3]:
spacy.info()

[1m

spaCy version    2.2.4                         
Location         /usr/local/lib/python3.7/dist-packages/spacy
Platform         Linux-5.4.144+-x86_64-with-Ubuntu-18.04-bionic
Python version   3.7.13                        
Models           en                            



{'Location': '/usr/local/lib/python3.7/dist-packages/spacy',
 'Models': 'en',
 'Platform': 'Linux-5.4.144+-x86_64-with-Ubuntu-18.04-bionic',
 'Python version': '3.7.13',
 'spaCy version': '2.2.4'}

Comprobamos los modelos de lenguaje instalados (compatible con todas las versiones de `spaCy`)

In [4]:
!python -m spacy validate

⠙ Loading compatibility table...[2K[38;5;2m✔ Loaded compatibility table[0m
[1m
[38;5;4mℹ spaCy installation: /usr/local/lib/python3.7/dist-packages/spacy[0m

TYPE      NAME              MODEL             VERSION                            
package   es-core-news-sm   es_core_news_sm   [38;5;2m2.2.5[0m   [38;5;2m✔[0m
package   es-core-news-md   es_core_news_md   [38;5;2m2.2.5[0m   [38;5;2m✔[0m
package   en-core-web-sm    en_core_web_sm    [38;5;2m2.2.5[0m   [38;5;2m✔[0m
package   en-core-web-md    en_core_web_md    [38;5;2m2.2.5[0m   [38;5;2m✔[0m
link      en                en_core_web_sm    [38;5;2m2.2.5[0m   [38;5;2m✔[0m



In [5]:
nlp = spacy.load("es_core_news_md")

## Arquitectura del modelo
Para cada modelo, `spaCy` tiene un vocabulario de palabras conocidas (*lexemes*) que almacena en un `stringStore` global

Cada modelo tiene un conjunto de lexemas del idioma definidos en su Vocabulario

In [6]:
nlp.vocab

<spacy.vocab.Vocab at 0x7efe5a78fc20>

In [7]:
len(nlp.vocab) #esta longitud es falsa

1229970

In [8]:
len(nlp.vocab.strings)

1632081

In [9]:
nlp.vocab["ciudad"]

<spacy.lexeme.Lexeme at 0x7efe4113a870>

In [10]:
nlp.vocab["ciudad"].text

'ciudad'

In [11]:
[prop for prop in dir(spacy.lexeme.Lexeme) if not prop.startswith('_')]

['check_flag',
 'cluster',
 'flags',
 'from_bytes',
 'has_vector',
 'is_alpha',
 'is_ascii',
 'is_bracket',
 'is_currency',
 'is_digit',
 'is_left_punct',
 'is_lower',
 'is_oov',
 'is_punct',
 'is_quote',
 'is_right_punct',
 'is_space',
 'is_stop',
 'is_title',
 'is_upper',
 'lang',
 'lang_',
 'like_email',
 'like_num',
 'like_url',
 'lower',
 'lower_',
 'norm',
 'norm_',
 'orth',
 'orth_',
 'prefix',
 'prefix_',
 'prob',
 'rank',
 'sentiment',
 'set_attrs',
 'set_flag',
 'shape',
 'shape_',
 'similarity',
 'suffix',
 'suffix_',
 'text',
 'to_bytes',
 'vector',
 'vector_norm',
 'vocab']

In [12]:
nlp.vocab["adiós"].has_vector

True

In [13]:
"albaricoque" in nlp.vocab

True

In [14]:
nlp.vocab["albaricoque"]

<spacy.lexeme.Lexeme at 0x7efe59ea45f0>

In [15]:
"albaricoque" in nlp.vocab

True

In [16]:
nlp.vocab["adiós"].orth

15970597814306712899

In [17]:
nlp.vocab.strings[15970597814306712899]

'adiós'

## Procesado de texto
spaCy ejecuta todos los análisis del texto con una sola instrucción. Esta instrucción ejecuta un *pipeline* (procesado secuencial) que implementa:  

- División en tokens  
- Lematizado
- Análisis gramatical
- Análisis de dependencias
- *Name Entity Recognition* (NER)

In [18]:
# Ejemplo de texto
texto = "La gata de Juan es muy bonita."

Lo primero que hacemos es procesar el texto y generar un objeto de tipo `Doc`

In [19]:
doc = nlp(texto)
type(doc)

spacy.tokens.doc.Doc

In [20]:
[prop for prop in dir(spacy.tokens.doc.Doc) if not prop.startswith('_')]

['cats',
 'char_span',
 'count_by',
 'doc',
 'ents',
 'extend_tensor',
 'from_array',
 'from_bytes',
 'from_disk',
 'get_extension',
 'get_lca_matrix',
 'has_extension',
 'has_vector',
 'is_nered',
 'is_parsed',
 'is_sentenced',
 'is_tagged',
 'lang',
 'lang_',
 'mem',
 'merge',
 'noun_chunks',
 'noun_chunks_iterator',
 'print_tree',
 'remove_extension',
 'retokenize',
 'sentiment',
 'sents',
 'set_extension',
 'similarity',
 'tensor',
 'text',
 'text_with_ws',
 'to_array',
 'to_bytes',
 'to_disk',
 'to_json',
 'to_utf8_array',
 'user_data',
 'user_hooks',
 'user_span_hooks',
 'user_token_hooks',
 'vector',
 'vector_norm',
 'vocab']

In [21]:
doc.text

'La gata de Juan es muy bonita.'

## Exploramos el documento

Al analizar un texto, spaCy lo divide en una lista de `tokens`, que se acceden iterando sobre el objeto `Doc`


In [None]:
[t for t in doc]

Esta división es distinta de la simple división por espacios:

In [None]:
texto.split(' ')

In [None]:
type(doc[0])

Cada token tiene una serie de atributos:

In [None]:
print([prop for prop in dir(spacy.tokens.token.Token) if not prop.startswith('_')])

In [None]:
doc[0]

In [None]:
doc[0].orth

In [None]:
nlp.vocab["La"].orth

In [None]:
doc[0].is_ascii

In [None]:
nlp.vocab["La"].is_ascii

In [None]:
doc[0].tag

In [None]:
doc[0].tag_

Cada propiedad tiene dos atributos:  
- `propiedad`: ID único o *hash* que identifica el valor en un diccionario común a todos los Docs (`stringstore`)
- `propiedad_`: valor de la propiedad  

In [None]:
nlp.vocab.strings[doc[0].tag]

Veamos los atributos de algunos de los tokens:

In [None]:
token=doc[3]
print("TOKEN:", token)
print("original:", token.orth, token.orth_)
print("lowercased:", token.lower, token.lower_)
print("lemma:", token.lemma, token.lemma_)
print("shape:", token.shape, token.shape_)
print("prefix:", token.prefix, token.prefix_)
print("suffix:", token.suffix, token.suffix_)
print("log probability:", token.prob)
print("Brown cluster id:", token.cluster)
print("POS:", token.pos, token.pos_)
print("tag:", token.tag, token.tag_)
print("morphology:", token.morph)
print("Dependency parsing:", token.dep, token.dep_)


Las propiedades más importantes son (https://spacy.io/api/token#attributes):  
* `orth_`: texto del token
* `lemma_`: lema (palabra base)
* `shape_`: forma ortográfica del token
* `pos_`: Part-of-Speech (genérico)
* `tag_`: POS detallado
* `morph`: Análisis morfológico
* `dep_`: Tipo de dependencia del token (análisis de dependencias)

In [None]:
pd.set_option('display.max_colwidth', None)

datos = map(lambda t: {'token': t.orth_,
                       'lema': t.lemma_,
                       'shape': t.shape_,
                       'POS': t.pos_,
                       'TAG': t.tag_,
                       'Descripción TAG': spacy.explain(t.tag_),
                       'dependencia': t.dep_,
                       'Descripción dep': spacy.explain(t.dep_),
                       'Morfología': t.morph}, doc)

pd.DataFrame(datos)

### Diferencia entre token y lexema

In [None]:
nlp_en = spacy.load('en_core_web_md')
parsedData = nlp_en("I run a long run")
datos = map(lambda t: {'token': t.orth_,
                       'lema': t.lemma_,
                       'shape': t.shape_,
                       'POS': t.pos_,
                       'Morfología': t.morph,
                       'dependencia': t.dep_,
                       'Descripción dep': spacy.explain(t.dep_)},
                        parsedData)

pd.DataFrame(datos)

In [None]:
parsedData[1]

In [None]:
parsedData[4]

In [None]:
parsedData[1]==parsedData[4]

In [None]:
parsedData[1].orth

In [None]:
nlp.vocab.strings[parsedData[1].orth]

In [None]:
parsedData[1].orth==parsedData[4].orth

## Análisis gramatical
Los documentos SpaCy también dividen en texto en oraciones (*sentences*) que son objetos del tipo `spacy.tokens.span.Span`. Podemos iterar con el generador `doc.sents` usando `next()`, `list()`, un bucle o con una comprensión de lista.

In [None]:
texto = "Al Sr. Daniel siempre le gustaron las catedrales. La de su ciudad era tan alta, \
que al mirarla desde su pequeña estatura, tenía que torcer el cuello de tal forma que \
le costaba no marearse. Lo que más temía era que sus pies se despegasen de la tierra \
y la Catedral le arrastrara con ella hasta los cielos. Aun así, un espíritu \
aventurero le llevaba cada tarde hasta la Plaza Mayor."
doc = nlp(texto)

In [None]:
doc.text

In [None]:
frases = doc.sents
frases

In [None]:
next(frases)

In [None]:
type(next(doc.sents))

In [None]:
for i, sent in enumerate(doc.sents):
    print("Oración {}:\n{}\n".format(i,sent))

Cada sentencia también tiene sus propios atributos, distintos de los de los tokens. Para spaCy las oraciones son objetos de tipo `spacy.tokens.span.Span`

In [None]:
print([prop for prop in dir(spacy.tokens.span.Span) if not prop.startswith('_')])

Algunas propiedades de `Span` son distintas que las de cada `Token`:

In [None]:
[prop for prop in dir(spacy.tokens.span.Span) if
 not prop.startswith('_') and not prop in dir(spacy.tokens.token.Token)]

In [None]:
frase=next(doc.sents)
frase

In [None]:
[t for t in doc[frase.start:frase.end]]

### Ejercicio 1
Obtén la palabra raíz -atributo `root`- de cada oración del texto anterior y muéstrala.  
La respuesta es  
```python  
[gustaron, alta, era, llevaba]
```

### Part of Speech (POS)
La librería `spaCy` determina el tipo gramatical (POS) de cada palabra en nuestro texto. Creamos un diccionario con los distintos POS de nuestro texto de ejemplo, usando el *hash* de cada POS como clave del diccionario:

In [None]:
{w.pos: (w.pos_, spacy.explain(w.pos_)) for w in doc} 

Cada tipo gramatical (POS) se subdivide en distintas etiquetas según su análisis mnorfológico(atributo `morph`).  
Por ejemplo en nuestro texto tenemos los siguientes `tag`:

In [None]:
pd.DataFrame(set([(w.pos_, w.morph) for w in doc]), columns=['POS', 'morph']).sort_values(by='POS')

### Ejercicio 2
Crea una lista de Python con todas las palabras del texto `doc` que sean del tipo NOMBRE y además sean de género Femenino.  
Ayuda: tendrás que usar una comprensión de lista filtrando mediante una función de búsqueda de texto (o patrón regular) sobre el valor del atributo `morph` 

### Análisis de dependencias (dependency parsing)
La librería `spaCy` también analiza las relaciones entre palabras de una frase.

In [None]:
doc = nlp("El perro de Juan se comió mi bocadillo.")
dependencias = [(t.text, t.dep_, spacy.explain(t.dep_)) for t in doc]
pd.DataFrame(list(dependencias), columns=['texto', 'dependencia', 'explicación'])

In [None]:
doc[0].head

Cada palabra tiene un tipo de dependencia determinado dentro de la frase. 
La lista completa está en https://spacy.io/docs/api/annotation  
La dependencia `root` coincide con el atributo `root` de cada sentencia.

In [None]:
sent=next(doc.sents)
sent.root

Cada raíz tiene una serie de hijos (tokens que dependen gramaticalmente de esa raíz).

In [None]:
list(sent.root.children)

Podemos extender el análisis a cada palabra del texto.

In [None]:
for word in sent: 
    print(word, ': ', str(list(word.children)))

Además, cada palabra tiene una palabra de la que depende (`.head`) y unas palabras que dependen de ella (`children`) a izquierda (`.lefts`) y a derecha (`.rights`).

In [None]:
dependencias = map(lambda t: {
    'Palabra': t.orth_,
    'tipo de dependencia': f"{t.dep_} ({spacy.explain(t.dep_)})",
    'HEAD': t.head.orth_},
    doc)

pd.DataFrame(dependencias)

In [None]:
dependencias = map(lambda token: {
    'dep. izquierdas': [t.orth_ for t in token.lefts],
    'palabra[tipo de dependencia]': f"{token.orth_} [{token.dep_}]",
    'dep.derechas': [t.orth_ for t in token.rights]},
    doc)

pd.DataFrame(dependencias)

Podemos representar gráficamente las dependencias con el módulo de visualización `displaCy`:

In [None]:
from spacy import displacy

displacy.render(doc, style='dep', jupyter=True, options={'distance':120})

También se pueden obtener los **sintagmas nominales** (*noun phrases*) de la oración. Cada NP tiene un sustantivo como raíz, acompañado ocasionalmente de las palabras que describen el sustantivo.  

In [None]:
chunks = map(lambda chunk: {'NP': chunk.text,
                            'root': chunk.root.text,
                            'Dep.': chunk.root.dep_,
                            'head': chunk.root.head.text},
             doc.noun_chunks)

pd.DataFrame(chunks)

# Búsqueda de patrones
Spacy tiene una clase `Matcher` que permite buscar tokens con un patrón definido en los objetos `Doc`.  
Se puede buscar por el texto del token o por los atributos del token.  
Ref: https://spacy.io/usage/rule-based-matching

In [None]:
from spacy.matcher import Matcher

#inicializamos sobre el vocabulario
matcher = Matcher(nlp.vocab)

In [None]:
#definimos un patrón de texto a buscar
patron = [{"TEXT": "iPhone"}, {"TEXT": "X"}] #Patrón: texto 'iPhone' seguido de texto 'X'
matcher.add("iphone_x", [patron])

#procesamos un documento con el patrón
doc = nlp("El iPhone X salió después del iPhone 8, pero nunca sacaron el iPhone 9")

#llamamos al matcher
matches = matcher(doc)

#iteramos sobre los resultados
for match_id, start, end in matches:
    matched_span = doc[start:end]
    print(matched_span.text)

In [None]:
matches #lista de 'matches'

In [None]:
nlp.vocab.strings[1738708750870670527]

Podemos buscar por atributos del token:

In [None]:
patron = [{"TEXT": "iPhone"}, {"IS_DIGIT": True}] #Patrón: texto 'iPhone' seguido token con la atributo 'IS_DIGIT' a True
matcher.add("iphone_NN", [patron])
#llamamos al matcher
matches = matcher(doc)

#iteramos sobre los resultados
for match_id, start, end in matches:
    matched_span = doc[start:end] #span del match en el documento
    string_id = nlp.vocab.strings[match_id] #identificador del match
    print(f"{string_id}: {matched_span.text}")

In [None]:
doc = nlp("A mí me gusta el baile y a Pedro le gustaba tocar la trompeta pero no le gusta María y le gusta el iPhone X")

patron = [{"LEMMA": "gustar"}, {"POS": "PROPN"}]
matcher.add("gustar_persona", [patron])
#llamamos al matcher
matches = matcher(doc)

#iteramos sobre el resultado
for match_id, start, end in matches:
    matched_span = doc[start:end]
    string_id = nlp.vocab.strings[match_id]
    print(f"{string_id}: {matched_span.text}")

In [None]:
doc = nlp("A mí me gusta el baile y a Pedro le gustaba tocar la trompeta pero no le gusta María y el gusta el iPhone X")

patron = [{"LEMMA": "gustar"}, {"POS": "DET", "OP": "?"}, {"POS": {"REGEX": "NOUN|PROPN"}}]
matcher.add("gustar_nombre", [patron])
#llamamos al matcher
matches = matcher(doc)

#iteramos sobre el resultado
for match_id, start, end in matches:
    matched_span = doc[start:end]
    string_id = nlp.vocab.strings[match_id]
    print(f"{string_id}: {matched_span.text}")

### Ejercicio 3
Crea un nuevo patrón para el lema "gustar" seguido de un verbo

### Ejercicio 4
Busca todas las secuencias de texto formadas por nombre seguido de al menos un adjetivo en el texto siguiente.

In [None]:
texto = "En el agua muerta, de una brillantez de estaño, permanecía inmóvil la barca-correo: \
un gran ataúd cargado de personas y paquetes, con la borda casi a flor de agua. La vela triangular, \
con remiendos obscuros, estaba rematada por un guiñapo incoloro que en otros tiempos había sido una \
bandera española rota y delataba el carácter oficial de la vieja embarcación."
