# Escuela CoAnDi 30/08/2023
## [Spacy](https://spacy.io)

Notebook diseñado por C. Plancq (2021), actualizado por T. Poibeau y C. Brando

- Biblioteca de software de NLP escrita en Python
- Etiquetado POS, lematización, análisis sintáctico, entidades con nombre, incrustación de palabras, transformadores
- Uso de modelos neuronales
- Fácil integración de bibliotecas de aprendizaje profundo
- Licencia MIT (código abierto) para el código
    - Varias licencias abiertas para los modelos
- Producto de la empresa [explosion.ai](https://explosion.ai/). Fundada por : Matthew Honnibal ([@honnibal](https://twitter.com/honnibal)) e Ines Montani ([@_inesmontani](https://twitter.com/_inesmontani))

## ¿Por qué Spacy?

- Es Python 🙌🎉
- Bastante fácil de aprender
- Muy bien documentado. De hecho, en lugar de este cuaderno, sigue el excelente tutorial de Ines Montani: [https://course.spacy.io/](https://course.spacy.io/)
- Cubre el procesamiento de una cadena típica de NLP
- PERO no es necesariamente la herramienta que da los mejores resultados para lenguas como el francés o el espanol en todas las tareas de PLN.

## Spacy et les autres

Spacy es uno de los frameworks NLP disponibles

- [NLTK](http://www.nltk.org/) : python, orientado a la pedagogía, no incluye modelos neuronales pero combina bien con TensorFlow, PyTorch o AlleNLP
- [Stanford Core NLP](https://stanfordnlp.github.io/stanfordnlp/) : java, modelos para 53 idiomas (UD), resolución de anaforas.
- [Stanza](https://stanfordnlp.github.io/stanza/) : python, nuevo framework Stanford, modelos neuronales entrenados con datos UD <small>[https://github.com/explosion/spacy-stanza](https://github.com/explosion/spacy-stanza) permite utilizar modelos Stanford con Spacy</small>
- [flair](https://github.com/zalandoresearch/flair) : el framework Zalando, muy buenos resultados en el reconocimiento de entidades nombradas
- [TextBlob](https://textblob.readthedocs.io/en/dev/)
- [DKPro](https://dkpro.github.io/)


## instalación


In [None]:
!pip install spacy



In [None]:
!python -m spacy download es_core_news_md

Collecting es-core-news-md==3.6.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.6.0/es_core_news_md-3.6.0-py3-none-any.whl (42.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.3/42.3 MB[0m [31m14.6 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-md
Successfully installed es-core-news-md-3.6.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_md')


In [None]:
!python -m spacy validate

2023-08-29 21:46:38.406383: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
[2K[38;5;2m✔ Loaded compatibility table[0m
[1m
[38;5;4mℹ spaCy installation: /usr/local/lib/python3.10/dist-packages/spacy[0m

NAME              SPACY            VERSION                            
es_core_news_md   >=3.6.0,<3.7.0   [38;5;2m3.6.0[0m   [38;5;2m✔[0m
en_core_web_sm    >=3.6.0,<3.7.0   [38;5;2m3.6.0[0m   [38;5;2m✔[0m



## modelos

- Spacy utiliza modelos estadísticos para predecir anotaciones lingüísticas
- idiomas disponibles: alemán, chino, danés, español, francés, inglés, italiano, japonés, neerlandés, lituano, griego, noruego, polaco, portugués, rumano y ruso + modelo multilingüe
- 4 modelos para [español](https://spacy.io/models/es)
- Todos estos modelos, sea cual sea su tipo o lenguaje, se utilizan de la misma manera, con la misma API.

## uso

- si quiere usar Spacy tómate el tiempo de leer la [documentación](https://spacy.io/usage), aquí es sólo un vistazo rápido
- una plantilla es una instancia de la clase `Language`, y está adaptada a un idioma en particular
- una plantilla incorpora un vocabulario, pesos, vectores de palabras y una configuración

In [None]:
import spacy
nlp = spacy.load('es_core_news_md')

In [None]:
type(nlp)

spacy.lang.es.Spanish

El procesamiento funciona con una [*pipeline*](https://spacy.io/usage/spacy-101#pipelines) para convertir texto en un objeto `Doc` (texto anotado)

In [None]:
nlp = spacy.load('es_core_news_md', disable=["parser", "ner"])
nlp.pipeline

[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec at 0x7bd368e96020>),
 ('morphologizer',
  <spacy.pipeline.morphologizer.Morphologizer at 0x7bd368e962c0>),
 ('attribute_ruler',
  <spacy.pipeline.attributeruler.AttributeRuler at 0x7bd361d62100>),
 ('lemmatizer',
  <spacy.lang.es.lemmatizer.SpanishLemmatizer at 0x7bd368e49300>)]

Regreso al pipeline por defecto

In [None]:
nlp = spacy.load('es_core_news_md')
nlp.pipeline

[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec at 0x7bd361dad540>),
 ('morphologizer',
  <spacy.pipeline.morphologizer.Morphologizer at 0x7bd368d37ac0>),
 ('parser', <spacy.pipeline.dep_parser.DependencyParser at 0x7bd368cf3140>),
 ('attribute_ruler',
  <spacy.pipeline.attributeruler.AttributeRuler at 0x7bd361f86300>),
 ('lemmatizer',
  <spacy.lang.es.lemmatizer.SpanishLemmatizer at 0x7bd368d8c680>),
 ('ner', <spacy.pipeline.ner.EntityRecognizer at 0x7bd368cf33e0>)]

- Un objeto `Doc` es una secuencia de objetos `Token` (véase la [API](https://spacy.io/api/token))
 - El texto original se descompone en frases, se tokeniza, se anota con POS, lemas, sintaxis (dependencia) y entidades nombradas (NER).

In [None]:
doc = nlp("La Organización de las Naciones Unidas (ONU) lanzó el martes un llamado de emergencia para recaudar decenas de millones de dólares destinados a proteger a los refugiados vulnerables de la propagación del nuevo coronavirus.")
type(doc)

spacy.tokens.doc.Doc

##  uso - tokenización

La tokenización de Spacy no es destructiva. Puede cortar un texto en tokens y restaurarlo a su forma original.

In [None]:
doc = nlp("La Organización de las Naciones Unidas (ONU) lanzó el martes un llamado de emergencia para recaudar decenas de millones de dólares destinados a proteger a los refugiados vulnerables de la propagación del nuevo coronavirus.")
for token in doc:
    print(token)

La
Organización
de
las
Naciones
Unidas
(
ONU
)
lanzó
el
martes
un
llamado
de
emergencia
para
recaudar
decenas
de
millones
de
dólares
destinados
a
proteger
a
los
refugiados
vulnerables
de
la
propagación
del
nuevo
coronavirus
.


In [None]:
for token in doc:
    print(token.text_with_ws, end="")

La Organización de las Naciones Unidas (ONU) lanzó el martes un llamado de emergencia para recaudar decenas de millones de dólares destinados a proteger a los refugiados vulnerables de la propagación del nuevo coronavirus.

## uso - etiquetado

Las anotaciones relativas a los tokens son accesibles a través de los atributos de los objetos de tipo `token`: [https://spacy.io/api/token#attributes](https://spacy.io/api/token#attributes)  
  - `pos_` contiene la etiqueta de parte de discurso de [dependencias universales](https://universaldependencies.org/docs/u/pos/)
  - `tag_` contiene la etiqueta del corpus original, a veces más detallada
  - `lemma_` para el lema
  - `morph` para el análisis morfológico

In [None]:
for token in doc:
    print(token.text, token.pos_, token.morph, token.lemma_)

La DET Definite=Def|Gender=Fem|Number=Sing|PronType=Art el
Organización PROPN  Organización
de ADP  de
las DET Definite=Def|Gender=Fem|Number=Plur|PronType=Art el
Naciones PROPN  Naciones
Unidas PROPN  Unidas
( PUNCT PunctSide=Ini|PunctType=Brck (
ONU PROPN  ONU
) PUNCT PunctSide=Fin|PunctType=Brck )
lanzó VERB Mood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=Fin lanzar
el DET Definite=Def|Gender=Masc|Number=Sing|PronType=Art el
martes NOUN AdvType=Tim martes
un DET Definite=Ind|Gender=Masc|Number=Sing|PronType=Art uno
llamado ADJ Gender=Masc|Number=Sing|VerbForm=Part llamado
de ADP  de
emergencia NOUN Gender=Fem|Number=Sing emergencia
para ADP  para
recaudar VERB VerbForm=Inf recaudar
decenas NOUN Gender=Fem|Number=Plur decena
de ADP  de
millones NOUN Gender=Masc|Number=Plur millón
de ADP  de
dólares NOUN NumForm=Digit dólares
destinados ADJ Gender=Masc|Number=Plur|VerbForm=Part destinado
a ADP  a
proteger VERB VerbForm=Inf proteger
a ADP  a
los DET Definite=Def|Gender=Masc|Number=Pl

Pour traiter plusieurs textes en série, il est recommandé d'utiliser [nlp.pipe](https://spacy.io/api/language#pipe)

In [None]:
texts = [
    "Cadine avait un très-mauvais caractère. Elle ne s’accommodait pas du rôle de servante.",
    "Aussi finit-elle par s’établir pour son compte.",
    "Comme elle était alors âgée de treize ans, et qu’elle ne pouvait rêver le grand commerce, un banc de vente de l’allée aux fleurs, elle vendit des bouquets de violettes d’un sou, piqués dans un lit de mousse, sur un éventaire d’osier pendu à son cou.",
    "Elle rôdait toute la journée dans les Halles, autour des Halles, promenant son bout de pelouse.",
    "C’était là sa joie, cette flânerie continuelle, qui lui dégourdissait les jambes, qui la tirait des longues heures passées à faire des bouquets, les genoux pliés, sur une chaise basse.",
    "Maintenant, elle tournait ses violettes en marchant, elle les tournait comme des fuseaux, avec une merveilleuse légèreté de doigts ; elle comptait six à huit fleurs, selon la saison, pliait en deux un brin de jonc, ajoutait une feuille, roulait un fil mouillé ; et, entre ses dents de jeune loup, elle cassait le fil."
]

✍️
1. Extrae la lista de sustantivos comunes de la serie de frases anteriores.
2. Cuenta el número de sustantivos masculinos y femeninos

## uso – NER

Si NER (*Named Entity Recognition*) forma parte de su modelo, sus datos también se anotarán como entidades con nombre.
Puede acceder a ello mediante el atributo `ent_type_` de los tokens

In [None]:
doc = nlp("La Organización de las Naciones Unidas (ONU) lanzó el martes un llamado de emergencia para recaudar decenas de millones de dólares destinados a proteger a los refugiados vulnerables de la propagación del nuevo coronavirus.")
for token in doc:
    print(token, token.ent_type_)

La 
Organización ORG
de ORG
las ORG
Naciones ORG
Unidas ORG
( 
ONU ORG
) 
lanzó 
el 
martes 
un 
llamado 
de 
emergencia 
para 
recaudar 
decenas 
de 
millones 
de 
dólares 
destinados 
a 
proteger 
a 
los 
refugiados 
vulnerables 
de 
la 
propagación 
del 
nuevo 
coronavirus 
. 


O acceso directo a las entidades del objeto `Doc`.

In [None]:
for ent in doc.ents:
    print(ent.text, ent.label_)

Organización de las Naciones Unidas ORG
ONU ORG


Spacy incluye una herramienta de visualización para anotar entidades nombradas:

In [None]:
from spacy import displacy
displacy.render(doc, style="ent", jupyter=True)

In [None]:
doc = nlp('El Presidente Xi Jinping afirmó que la propagación del coronavirus estaba "prácticamente bajo control". También realizó su primera visita a Wuhan, capital de la provincia de Hubei, cuna de Covid-19.')
displacy.render(doc, style="ent", jupyter=True)

## uso – análisis sintáctico

El análisis sintáctico o *parsing* de Spacy es un análisis de dependencias. La mayoría de los modelos utilizados, si no todos, proceden de https://universaldependencies.org.

En el análisis sintáctico de dependencias producido por Spacy, cada palabra de una oración tiene un único gobernador (*head*), y la relación de dependencia entre la palabra y su gobernador está tipificada (*nsubj*, *obj*, ...).  
La relación *ROOT* se utiliza para la cabeza de la frase.

La estructura producida por el análisis sintáctico es un árbol, un grafo acíclico y conectado. Los tokens son los nodos, los arcos son las dependencias y el tipo de relación es la etiqueta del arco.

`displacy` proporciona una práctica herramienta de visualización:

In [None]:
doc = nlp('El Presidente Xi Jinping realizó ayer un visita a Wuhan, capital de la provincia de Hubei, cuna de Covid-19.')
displacy.render(doc, style="dep", jupyter=True, options={'distance':90})

También podemos recuperar los tokens y mostrarlos

In [None]:
for token in doc:
    print(token, token.dep_.upper(), token.head)

El DET Presidente
Presidente NSUBJ realizó
Xi FLAT Presidente
Jinping FLAT Presidente
realizó ROOT realizó
ayer ADVMOD realizó
un DET visita
visita OBJ realizó
a CASE Wuhan
Wuhan NMOD visita
, PUNCT capital
capital APPOS Wuhan
de CASE provincia
la DET provincia
provincia NMOD capital
de CASE Hubei
Hubei NMOD provincia
, PUNCT cuna
cuna APPOS Hubei
de CASE Covid-19
Covid-19 NMOD cuna
. PUNCT realizó


Los siguientes atributos pueden utilizarse para recorrer el árbol de relaciones:
- `children` todos los tokens dependientes del token
- `subtree`: todos los descendientes del token
- `ancestors` todos los padres del token
- `rights` todos los hijos a la derecha del token
- `lefts` los hijos a la izquierda del token

La tripleta sujeto-verbo-objeto puede extraerse de la frase anterior de la siguiente manera:

In [None]:
root = [token for token in doc if token.head == token][0]
subjects = [tok for tok in root.lefts if tok.dep_ == "nsubj"]
subject = subjects[0]
objs = [tok for tok in root.rights if tok.dep_ == "obj"]
obj = objs[0]
subject, root, obj

(Presidente, realizó, visita)

## Matching

## 1. Matching por regla

Spacy tiene una clase `Matcher` que se puede utilizar para identificar tokens o secuencias de tokens utilizando patrones (*pattern*). Estos patrones pueden referirse a la forma de los tokens o a sus atributos (pos, ent). También se pueden utilizar categorías como `IS_ALPHA` o `IS_NUM`, véase [doc](https://spacy.io/usage/rule-based-matching#adding-patterns-attributes)

In [None]:
from spacy.matcher import Matcher

doc = nlp("Este modelo también está disponible en talla M, lo recomiendo.")

matcher = Matcher(nlp.vocab)
pattern = [{"LOWER": "en"}, {"LOWER": "talla"}, {"IS_ALPHA": True, "IS_UPPER": True}]
matcher.add("tailles", [pattern])

matches = matcher(doc)
for _, start, end in matches:
    #string_id = nlp.vocab.strings[match_id]  # Get string representation
    span = doc[start:end]  # The matched span
    print(start, end, span.text)

5 8 en talla M


In [None]:
doc = nlp("¿lo tiene en XL?")
matches = matcher(doc)
for match_id, start, end in matches:
    string_id = nlp.vocab.strings[match_id]  # Get string representation
    span = doc[start:end]  # The matched span
    print(match_id, string_id, start, end, span.text)

Podemos intentar mejorar las reglas:

In [None]:
matcher = Matcher(nlp.vocab)
pattern_1 = [{"LOWER": "en"}, {"LOWER": "taille"}, {"IS_ALPHA": True, "IS_UPPER": True}]
pattern_2 = [{"LOWER": "en"}, {"IS_ALPHA": True, "IS_UPPER": True}]
matcher.add("tailles", [pattern_1, pattern_2])
# règle avec deux patterns

doc = nlp("¿lo tiene en XL?")
matches = matcher(doc)
for _, start, end in matches:
    #string_id = nlp.vocab.strings[match_id]  # Get string representation
    span = doc[start:end]  # The matched span
    print(span.text)

en XL


Ou encore :

In [None]:
matcher = Matcher(nlp.vocab)
sizes = ['XS', 'S', 'M', 'L', 'XL']
pattern_1 = [{"LOWER": "en"}, {"LOWER": "taille"}, {"TEXT": {"IN": sizes}}]
pattern_2 = [{"LOWER": "en"}, {"TEXT": {"IN": sizes}}]
matcher.add("tailles", [pattern_1, pattern_2])
# règle avec deux patterns

doc = nlp("¿lo tiene en L?")
matches = matcher(doc)
for match_id, start, end in matches:
    string_id = nlp.vocab.strings[match_id]  # Get string representation
    span = doc[start:end]  # The matched span
    print(string_id, start, end, span.text)

tailles 3 5 en L


Desde la v3, Spacy ha añadido un *Dependancy Matcher* que permite extraer patrones sintácticos. Ahora es posible consultar el árbol sintáctico y no sólo la secuencia de tokens.  
Este sistema utiliza [Semgrex](https://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/semgraph/semgrex/SemgrexPattern.html), la sintaxis utilizada en Tgrep y Tregex, las herramientas de consulta del Treebank de Stanford.

[Documentación](https://spacy.io/usage/rule-based-matching#dependencymatcher)