# spaCy

spaCy es otra librería open source en Python para NLP.

La diferencia fundamental entre NLTK y spaCy es que el primero es muy cómodo para aprender e iniciarse mientras que el segundo está pensado para productizar.

Gensim, otra librería, la veremos más adelante cuando estudiemos Topic Modeling y Word Embeddings.

Documentación de spaCy: https://spacy.io/

La filosofía de trabajo en spaCy es que si existen una serie de algoritmos que solucionan un problema, dar la solución al problema con un único. Además, su funcionamiento se basa en la construcción de pipelines.


<img src=https://i.imgur.com/nD7ut2U.jpg>

¿Qué capacidades (modelos) linguísticas nos ofrece spaCy?

<img src=https://i.imgur.com/lGcL6lx.jpg>

Es decir, de spaCy podremos sacar siempre que queramos tokens, pos tags, árboles de dependencia, o entidades nombradas. Incluye también modelos de word embeddings (que veremos con más detalle en sesiones posteriores).

<img src=https://spacy.io/architecture-bcdfffe5c0b9f221a2f6607f96ca0e4a.svg width=550px>

## Modelos de spaCy

Modelos pre-entrenados para diferentes idiomas y con diferentes corpus. Pueden ser descargados de diferentes maneras, tanto descarga directa, como con pip.

Link: https://spacy.io/usage/models



In [1]:
!pip install spacy==3.7.2
#!pip install scispacy==0.5.1

Collecting spacy==3.7.2
  Downloading spacy-3.7.2-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (25 kB)
Collecting thinc<8.3.0,>=8.1.8 (from spacy==3.7.2)
  Downloading thinc-8.2.5-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (15 kB)
Collecting weasel<0.4.0,>=0.1.0 (from spacy==3.7.2)
  Downloading weasel-0.3.4-py3-none-any.whl.metadata (4.7 kB)
Collecting typer<0.10.0,>=0.3.0 (from spacy==3.7.2)
  Downloading typer-0.9.4-py3-none-any.whl.metadata (14 kB)
Collecting smart-open<7.0.0,>=5.2.1 (from spacy==3.7.2)
  Downloading smart_open-6.4.0-py3-none-any.whl.metadata (21 kB)
Collecting langcodes<4.0.0,>=3.2.0 (from spacy==3.7.2)
  Downloading langcodes-3.5.0-py3-none-any.whl.metadata (29 kB)
Collecting language-data>=1.2 (from langcodes<4.0.0,>=3.2.0->spacy==3.7.2)
  Downloading language_data-1.3.0-py3-none-any.whl.metadata (4.3 kB)
Collecting blis<0.8.0,>=0.7.8 (from thinc<8.3.0,>=8.1.8->spacy==3.7.2)
  Downloading blis-0.7.11-cp312-cp312-ma

In [1]:
!pip install https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0.tar.gz
!pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.7.1/en_core_web_sm-3.7.1.tar.gz

Collecting https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0.tar.gz
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0.tar.gz (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m99.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: es_core_news_sm
  Building wheel for es_core_news_sm (setup.py) ... [?25l[?25hdone
  Created wheel for es_core_news_sm: filename=es_core_news_sm-3.7.0-py3-none-any.whl size=12885523 sha256=e2e1658f2cbd732afccb663578a354170ff76d1c82849c393e4da3e2e54a9074
  Stored in directory: /root/.cache/pip/wheels/12/57/99/2caa2a1774a7061dfe5a891b323accbabf3cdf827ace8149bc
Successfully built es_core_news_sm
Installing collected packages: es_core_news_sm
Successfully installed es_core_news_sm-3.7.0
Collecting https://github.com/exp

### **spacy**

spacy es una librería de procesamiento del lenguaje natural, robusta, rápida, fácil de instalar y utilizar e integrable con otras librerías de NLP y de deep learning

Tiene modelos entrenados en varios idiomas y permite realizar las típicas tareas de segmentación por oraciones, tokenizanción, análisis morfológico, extracción de entidades y análisis de opinión.

Una vez instalados los modelos, podemos importarlos fácilmente:



In [2]:

import es_core_news_sm
import en_core_web_sm

# Modelo "pequeño" entrenado con noticias en castellano
# https://spacy.io/models/es
nlp_es = es_core_news_sm.load()

# Modelo "pequeño" entrenado con página
# https://spacy.io/models/en
nlp_en = en_core_web_sm.load()

In [3]:
nlp_en = en_core_web_sm.load()

In [4]:
# Pipeline del modelo por defecto
nlp_es.pipeline

[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec at 0x7cdda6342ed0>),
 ('morphologizer',
  <spacy.pipeline.morphologizer.Morphologizer at 0x7cdcc16775f0>),
 ('parser', <spacy.pipeline.dep_parser.DependencyParser at 0x7cdcc14ded50>),
 ('attribute_ruler',
  <spacy.pipeline.attributeruler.AttributeRuler at 0x7cdcc1402c50>),
 ('lemmatizer',
  <spacy.lang.es.lemmatizer.SpanishLemmatizer at 0x7cdcc13fa650>),
 ('ner', <spacy.pipeline.ner.EntityRecognizer at 0x7cdcc14df0d0>)]

In [5]:
nlp_en.pipeline

[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec at 0x7cdcc07e9b50>),
 ('tagger', <spacy.pipeline.tagger.Tagger at 0x7cdcc07e91f0>),
 ('parser', <spacy.pipeline.dep_parser.DependencyParser at 0x7cdcc07e5000>),
 ('attribute_ruler',
  <spacy.pipeline.attributeruler.AttributeRuler at 0x7cdcbf26e490>),
 ('lemmatizer',
  <spacy.lang.en.lemmatizer.EnglishLemmatizer at 0x7cdcbf278ad0>),
 ('ner', <spacy.pipeline.ner.EntityRecognizer at 0x7cdcc07e4eb0>)]

Pipelines en spaCy:
https://spacy.io/usage/processing-pipelines

<img src=https://d33wubrfki0l68.cloudfront.net/16b2ccafeefd6d547171afa23f9ac62f159e353d/48b91/pipeline-7a14d4edd18f3edfee8f34393bff2992.svg width=700px>

In [6]:
text = 'Mi nombre es Cristina y vivo en Barcelona. Hoy es lunes 17 de Noviembre'
doc = nlp_es(text)

In [7]:
print(doc)

Mi nombre es Cristina y vivo en Barcelona. Hoy es lunes 17 de Noviembre


# Tokenizing

## Frases

In [8]:
# en el doc generado vamos a ver las frases que tienen
for idx, sent in enumerate(doc.sents):
    print('Frase {0:5}{1:5}'.format(str(idx), sent.text))

Frase 0    Mi nombre es Cristina y vivo en Barcelona.
Frase 1    Hoy es lunes 17 de Noviembre


## Tokens

In [9]:
#queremos ver cuales son los tokens, cuales son las palabras que hay. tambi´ne podemos verlos automaticamente, iterame sobre doc
for idx, token in enumerate(doc):
    print('Token {0:5}{1:5}'.format(str(idx), token.text))

Token 0    Mi   
Token 1    nombre
Token 2    es   
Token 3    Cristina
Token 4    y    
Token 5    vivo 
Token 6    en   
Token 7    Barcelona
Token 8    .    
Token 9    Hoy  
Token 10   es   
Token 11   lunes
Token 12   17   
Token 13   de   
Token 14   Noviembre


In [10]:
# un análisis mas detallado sobre los tokens, por ejemplo si es alfanumerico


print('{0:10}{1:10}{2:5}'.format('Token', 'Shape', 'is_alpha'))
for token in doc:
    print('{0:10}{1:10}{2:5}'.format(token.text, token.shape_, str(token.is_alpha)))

Token     Shape     is_alpha
Mi        Xx        True 
nombre    xxxx      True 
es        xx        True 
Cristina  Xxxxx     True 
y         x         True 
vivo      xxxx      True 
en        xx        True 
Barcelona Xxxxx     True 
.         .         False
Hoy       Xxx       True 
es        xx        True 
lunes     xxxx      True 
17        dd        False
de        xx        True 
Noviembre Xxxxx     True 


# Normalización de texto

In [11]:
# Eliminar stop words
from spacy.lang.es.stop_words import STOP_WORDS

print(list(STOP_WORDS)[:20])

['esa', 'tenemos', 'mucha', 'usar', 'apenas', 'mías', 'y', 'usan', 'tuyas', 'estado', 'hecho', 'lleva', 'quedó', 'sus', 'sólo', 'buenas', 'con', 'menudo', 'días', 'quién']


In [12]:
len(list(STOP_WORDS))

521

In [13]:
ex_text_1 = 'Soy una frase de ejemplo de la cual vamos a eliminar los stopwords'
[word for word in ex_text_1.lower().split() if word not in STOP_WORDS]

['frase', 'ejemplo', 'eliminar', 'stopwords']

Debate: ¿Pensáis que, en general, se deben filtrar los stopwords?

In [14]:
ex_text_2 = 'No me gusta esta canción'
[word for word in ex_text_2.lower().split() if word not in STOP_WORDS]

['gusta', 'canción']

In [15]:
from spacy.lang.en.stop_words import STOP_WORDS

if 'no' in STOP_WORDS:
  print ('Es stopword en English')

Es stopword en English


# Part of Speech tagging

El PoS Tagging es una técnica **fundamental** en NLP que consiste en etiquetar cada palabra de un documento en su correspondiente categría gramatical.

<img src=https://blog.aaronccwong.com/assets/images/bigram-hmm/pos-title.jpg width=650px>

¿Utilidad? Muchísima:

- Posibilidad de encontrar los adjetivos / sustantivos /adverbios más comunes
- _Ayuda_ a Lemmatizers al desambiguar entre palabras
- Grafos en los que los nodos son entidades y verbos. Posibilidad de analizar relaciones entre entidades -> Pintar ejemplo
- Posibles features (la distribución de categorías no siempre es homogénea en función del contexto)

Podríamos hacer un algoritmo que mirara verbos entre otras entidades, como nombres o adjetivos, y que fuera el verbo quien decidiera que relación tienen esas entidades. Eso se suele hacer para crear bases de datos de grafos, donde cada nodo es una entidad, y entre entidades hay relaciones.

Veamos algún ejemplo:

Atributos (https://spacy.io/api/token#attributes):
- pos_: tipo de palabra (sustantivo, verbo, adjetivo, etc)
- tag_: tipo de palabra especificando más atributos
- dep_: relación de dependencia sintáctica

Explicación de los términos:
https://github.com/explosion/spaCy/blob/master/spacy/glossary.py

In [16]:
doc

Mi nombre es Cristina y vivo en Barcelona. Hoy es lunes 17 de Noviembre

In [17]:
# ACCEDEMOS AL TOKEN.POS_ Para saber la etiqueta que tienen

print('{0:10}{1:10}'.format('Token', 'pos'))
for idx, token in enumerate(doc):
    print('{0:10}{1:10}'.format(token.text, token.pos_))

Token     pos       
Mi        DET       
nombre    NOUN      
es        AUX       
Cristina  PROPN     
y         CCONJ     
vivo      ADJ       
en        ADP       
Barcelona PROPN     
.         PUNCT     
Hoy       ADV       
es        AUX       
lunes     NOUN      
17        NUM       
de        ADP       
Noviembre NOUN      


In [18]:
# lo mismo la parte de los tags
print('{0:10}{1:10}'.format('Token', 'tag'))
for idx, token in enumerate(doc):
    print('{0:10}{1:10}'.format(token.text, token.tag_))

Token     tag       
Mi        DET       
nombre    NOUN      
es        AUX       
Cristina  PROPN     
y         CCONJ     
vivo      ADJ       
en        ADP       
Barcelona PROPN     
.         PUNCT     
Hoy       ADV       
es        AUX       
lunes     NOUN      
17        NUM       
de        ADP       
Noviembre NOUN      


In [19]:
import spacy

print('{0:10}{1:10}{2:10}'.format('Token', 'tag','dep', 'Meaning'))
for idx, token in enumerate(doc):
    print('{0:10}{1:10}{2:10}'.format(token.text, token.dep_, str(spacy.explain(token.dep_))))

Token     tag       dep       
Mi        det       determiner
nombre    nsubj     nominal subject
es        cop       copula    
Cristina  ROOT      root      
y         cc        coordinating conjunction
vivo      conj      conjunct  
en        case      case marking
Barcelona nmod      modifier of nominal
.         punct     punctuation
Hoy       advmod    adverbial modifier
es        cop       copula    
lunes     ROOT      root      
17        compound  compound  
de        case      case marking
Noviembre nmod      modifier of nominal


# Dependencia sintáctica

In [20]:
from spacy import displacy
displacy.render(doc, style='dep', jupyter=True, options={'distance':100})

# Reconocimiento de entidades nombradas (NER)

El reconocimiento de entidades nombradas (Named Entity Recognition, NER, por sus siglas en inglés) trata de detectar posibles entidades nombradas y, posteriormente, clasificarlas entre un conjunto de categorías predefinidas.

Ejemplos de entidades nombradas: nombres de personas, lugares, cantidades, empresas...

Pero, ¿qué es exactamente una _entidad nombrada_? Según definió Saul Kripke * (filósofo y lógico) son - o deberían ser - todas aquellas entidades para las cuales existe uno - o más de uno - designador rígido. Es decir, dicha palabra / expresión se refiere a la misma cosa / entidad con independencia del contexto.

<img src=https://hyscore.io/wp-content/uploads/2019/03/illustration_named_entity_recognition-1024x486-1.jpg width=700px>

El rendimiento de los NER varía mucho en función del idioma en el que han sido entrenados. El rendimiento que se comienza a obtener (debido principalmente al uso de modelos de embeddings contextuales) supera al de un ser humano.

Un enlace intersante: https://primer.ai/blog/a-new-state-of-the-art-for-named-entity-recognition/

* _El nombrar y la necesidad_ (Saul Kripke), 1980

In [21]:
doc_ner_1 = nlp_es('Jim compró 300 acciones de Acme Corp. en 2006')
displacy.render(doc_ner_1, style='ent', jupyter=True, options={'distance':100})

In [22]:
doc_ner_2 = nlp_en('Peter bought 300 shares of Acme Corp. in 2006')
displacy.render(doc_ner_2, style='ent', jupyter=True, options={'distance':100})

In [23]:
doc_ner_2 = nlp_en('I heard that Paris Hilton stayed at the Hilton in Paris')
displacy.render(doc_ner_2, style='ent', jupyter=True, options={'distance':100})

In [24]:
print('{0:10}{1:10}'.format('Token', 'Entity Label'))
for entity in doc_ner_1.ents:
    print('{0:10}{1:10}'.format(entity.text, entity.label_))

Token     Entity Label
Acme Corp PER       


In [25]:
print('{0:10}{1:10}'.format('Token', 'Entity Label'))
for entity in doc_ner_2.ents:
    print('{0:10}{1:10}'.format(entity.text, entity.label_))

Token     Entity Label
Paris HiltonORG       
Hilton    GPE       
Paris     GPE       


# Lemmatization

Técnica de normalización de textos que busca reducir las palabras a su raíz (lemma).

Muy utilizado para reducir la cardinalidad del vocabulario asociando para diferentes formas flexionadas un único token ('entreno', 'entrenarás', 'entrenaría' -> 'entrenar').

Aunque muy utilizados en motores de búsqueda

In [26]:
print('{0:10}{1:10}{2:10}'.format('Token', 'Lemma', 'PoS Tag'))
for idx, token in enumerate(doc):
    print('{0:10}{1:10}{2:10}'.format(token.text, token.lemma_, token.pos_))

Token     Lemma     PoS Tag   
Mi        mi        DET       
nombre    nombre    NOUN      
es        ser       AUX       
Cristina  Cristina  PROPN     
y         y         CCONJ     
vivo      vivo      ADJ       
en        en        ADP       
Barcelona Barcelona PROPN     
.         .         PUNCT     
Hoy       hoy       ADV       
es        ser       AUX       
lunes     lunes     NOUN      
17        17        NUM       
de        de        ADP       
Noviembre noviembre NOUN      


In [27]:
text_2 = 'comer comiendo comieron comedor comeré comerá comerás'
text_3 = 'comerás'
doc_2 = nlp_es(text_2)
doc_3 = nlp_es(text_3)


print('Text 2')
print('{0:10}{1:10}{2:10}'.format('Token', 'Lemma', 'PoS Tag'))
for idx, token in enumerate(doc_2):
    print('{0:10}{1:10}{2:10}'.format(token.text, token.lemma_, token.pos_))

print('\nText 3')
print('{0:10}{1:10}{2:10}'.format('Token', 'Lemma', 'PoS Tag'))
for idx, token in enumerate(doc_3):
    print('{0:10}{1:10}{2:10}'.format(token.text, token.lemma_, token.pos_))

Text 2
Token     Lemma     PoS Tag   
comer     comer     VERB      
comiendo  comer     VERB      
comieron  comer     VERB      
comedor   comedor   NOUN      
comeré    comeré    ADJ       
comerá    comer     VERB      
comerás   comerás   ADP       

Text 3
Token     Lemma     PoS Tag   
comerás   comerás   ADP       


# Lemmatization vs Stemming

Ambas tienen como objetivo reducir las palabras a su raíz léxica.

- **Lemmatization**:

    Tiene en consideración el análisis morfológico de las palabras. Son necesarios diccionarios completos de formas flexionadas y raíces (lemmas).
    
    A veces es necesario desambiguar. P. ej.: "planta" (planta vs plantar)

<img src=https://blog.bitext.com/hs-fs/hubfs/lemma_v2.png width=500px>

- **Stemming**:
    
    Algoritmos que mediante heurísticos / reglas tratan de reducir las palabras a una posible raíz (stem) mediante la eliminación de algunos prefijos y sufijos. Más sencillo que un lemmatizer
    
    No hay garantía de que el resultado sea una palabra real.
    
    El algoritmo más utilizado en Inglés es el de Porter que consiste en 5 fases de reducción de la palabra aplicadas de manera secuencial.
    <img src=https://blog.bitext.com/hs-fs/hubfs/stemming_v2.png width=250px>

# Similitud



spaCy permite calcular la similitud semántica entre cualquier par de objetos de tipo Doc, Span o Token.

Ojo, La similitud semántica es un concepto algo subjetivo, pero en este caso se puede entender como la probabilidad de que dos palabras aparezcan en los mismos contextos.

In [28]:
!pip install https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.7.0/es_core_news_md-3.7.0.tar.gz



Collecting https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.7.0/es_core_news_md-3.7.0.tar.gz
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.7.0/es_core_news_md-3.7.0.tar.gz (42.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.3/42.3 MB[0m [31m22.2 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: es_core_news_md
  Building wheel for es_core_news_md (setup.py) ... [?25l[?25hdone
  Created wheel for es_core_news_md: filename=es_core_news_md-3.7.0-py3-none-any.whl size=42285768 sha256=f9bde7f577699115ac6bbf2ed245b5e58d903791277cbac27f1d6d4bb2733319
  Stored in directory: /root/.cache/pip/wheels/92/45/ca/fcbc5c29d75138e55c94b3480b73fb4951f7d3cf475dbfd9d3
Successfully built es_core_news_md
Installing collected packages: es_core_news_md
Successfully installed es_core_news_md-3.7.0


In [29]:
# cargamos el modelo entrenado en español
nlp_es_md = spacy.load("es_core_news_md")

In [30]:
word_1 = nlp_es_md('verde')
word_2 = nlp_es_md('azul')
word_3 = nlp_es_md('mariposa')

print('Similarity between word {} and word {}: {:0.6f}'.format(1, 2, word_1.similarity(word_2)))
print('Similarity between word {} and word {}: {:0.6f}'.format(1, 3, word_1.similarity(word_3)))
print('Similarity between word {} and word {}: {:0.6f}'.format(2, 3, word_2.similarity(word_3)))

Similarity between word 1 and word 2: 0.743638
Similarity between word 1 and word 3: 0.382572
Similarity between word 2 and word 3: 0.442991


In [31]:
sent_1 = nlp_es_md('me gusta el color verde')
sent_2 = nlp_es_md('me gusta el azul')
sent_3 = nlp_es_md('me gusta la mariposa')

print('Similarity between sent {} and sent {}: {:0.6f}'.format(1, 2, sent_1.similarity(sent_2)))
print('Similarity between sent {} and sent {}: {:0.6f}'.format(1, 3, sent_1.similarity(sent_3)))
print('Similarity between sent {} and sent {}: {:0.6f}'.format(2, 3, sent_2.similarity(sent_3)))

Similarity between sent 1 and sent 2: 0.967595
Similarity between sent 1 and sent 3: 0.651385
Similarity between sent 2 and sent 3: 0.653034


# El Universo de spaCy

Diferentes recursos (paquetes, plugins, extensiones, etc) desarrollados por o para spaCy.

https://spacy.io/universe