<a href="https://colab.research.google.com/github/Viny2030/UNED/blob/main/103_NLP_Conceptos_spaCy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 03 - Conceptos para el Procesamiento del Lenguaje Natural con spaCy

* ***spaCy*** es una librería de código abierto en python para el Procesamiento del Lenguaje natural que posee modelos entrenados para varios idiomas, entre ellos el Español.


* Es una librería pensada para funcionar en entornos productivos y es una librería con mejor rendimiento que **NLTK**.


* Dispone de una web y de una documentación muy buena, incluso se pueden ejecutar ciertos ejemplos en la propia web: https://spacy.io/


* Dispone también de un curso online (https://course.spacy.io/) bastante interesante.


* Entre otras cosas con ***spaCy*** podemos hacer:
    1. Tokenización
    2. Lematización
    3. Detección de Stop Words
    4. Part of Speech (PoS)
    5. Named Entity Recognition (NER)


* ***spaCy*** puede ser instalado tanto con "pip" como con "conda" de la siguiente manera respectivamente:

```
>> pip install spacy
>> conda install spacy
```


* Como se ha comentado anteriormente la ventaja que tiene ***spaCy*** frente a ***NLTK*** en lo que a idiomas se refiere es que permite trabajar con varior idiomas gracias a los modelos que tiene entrenados.


* En particular para el Español ***spaCy*** tiene entrenados dos modelos (con Redes Neuronales Convolucionales según su documentación) de pequeño y mediano tamaño con los corpus de **AnCora** (http://clic.ub.edu/corpus/es/ancora) y **WikiNER**.


* Estos dos modelos de pequeño y mediano tamaño los podemos encontrar en la web de ***spaCy*** (https://spacy.io/models/es) y son los siguiente:
    - es_core_news_md (93 MiB)
    - es_core_news_sm (35 MiB)


* ***spaCy*** hace uso de estos modelos y tienen que ser descargados, para ello debemos de abrir un terminal en python y ejecutar lo siguiente para descargar el modelo en Español (*NOTA: los que uséis conda, tener activado el entorno*).


```
>> python3 -m spacy download es
```


<img src="./imgs/005_spacy_es_download.png" style="width: 500px;"/>





In [None]:
#!python -m spacy download es

<hr>


# spaCy - Arquitectura:

* ***spaCy*** utiliza dos tipos de estructuras (objetos) llamados **Doc** y **Vocab**:
<span></span><br><br>
    - ***Doc***: Este objeto esta formado por una secuencia de Tokens (objetos de la clase ***Token***).
<span></span><br><br>
    - ***Vocab***: Este objeto posee un conjunto de Look-up tables (tablas de consulta) que hacen que la información común esté disponible en todos los documentos (Lemas, Stop Words, PoS, etc.).

<img src="./imgs/006_spacy_architecture.png" style="width: 600px;"/>


* Una forma sencilla de trabajar con ***spaCy*** es:
    1. Cargar un modelo de lenguaje (por ejemplo el Español)
    2. Dado un texto plano, crear un objeto de la clase "Doc" y pasarle el texto plano. El texto ya quedará tokenizado dentro del objeto "Doc".
    3. Trabajar sobre las palabras del documento.

<hr>



# Ejemplos con spaCy

## -Tokenización


* Divide las cadenas de texto del documento en piezas más pequeñas o tokens.


* Pasos:
    1. Importar la librería.
    2. Cargar un modelo de lenguaje (el Español).
    3. Crear un documento (de la clase "Doc") pasándole un texto plano.
    4. El objeto de la clase "Doc" ya esta tokenizado por palabras y podemos iterar sobre él.

In [3]:
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m73.6 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [4]:
import spacy
nlp = spacy.load('es_core_news_sm')
doc = nlp("Un radar multa a Mariano. Rajoy por caminar demasiado rápido")
print('Tipo de dato: ' + str(type(doc)))
print([w.text for w in doc])

Tipo de dato: <class 'spacy.tokens.doc.Doc'>
['Un', 'radar', 'multa', 'a', 'Mariano', '.', 'Rajoy', 'por', 'caminar', 'demasiado', 'rápido']


## tokenizacion input

In [13]:
!python -m spacy download en_core_news_sm


[38;5;1m✘ No compatible package found for 'en_core_news_sm' (spaCy v3.7.5)[0m



In [15]:
import spacy
nlp = spacy.load("en_core_web_sm")
import en_core_web_sm
nlp = en_core_web_sm.load()
doc1 = nlp("Jane bought me these books.Jane bought a book for me.She dropped a line to him. Thank you.She sleeps.I sleep a lot.I was born in Madrid.the cat was chased by the dog.I was born in Madrid during 1995.Out of all this , something good will come.Susan left after the rehearsal. She did it well.She sleeps during the morning, but she sleeps.")
print([(w.text, w.pos_) for w in doc1])

[('Jane', 'PROPN'), ('bought', 'VERB'), ('me', 'PRON'), ('these', 'DET'), ('books', 'NOUN'), ('.', 'PUNCT'), ('Jane', 'PROPN'), ('bought', 'VERB'), ('a', 'DET'), ('book', 'NOUN'), ('for', 'ADP'), ('me', 'PRON'), ('.', 'PUNCT'), ('She', 'PRON'), ('dropped', 'VERB'), ('a', 'DET'), ('line', 'NOUN'), ('to', 'ADP'), ('him', 'PRON'), ('.', 'PUNCT'), ('Thank', 'VERB'), ('you', 'PRON'), ('.', 'PUNCT'), ('She', 'PRON'), ('sleeps', 'VERB'), ('.', 'PUNCT'), ('I', 'PRON'), ('sleep', 'VERB'), ('a', 'DET'), ('lot', 'NOUN'), ('.', 'PUNCT'), ('I', 'PRON'), ('was', 'AUX'), ('born', 'VERB'), ('in', 'ADP'), ('Madrid.the', 'PROPN'), ('cat', 'NOUN'), ('was', 'AUX'), ('chased', 'VERB'), ('by', 'ADP'), ('the', 'DET'), ('dog', 'NOUN'), ('.', 'PUNCT'), ('I', 'PRON'), ('was', 'AUX'), ('born', 'VERB'), ('in', 'ADP'), ('Madrid', 'PROPN'), ('during', 'ADP'), ('1995.Out', 'NUM'), ('of', 'ADP'), ('all', 'DET'), ('this', 'PRON'), (',', 'PUNCT'), ('something', 'PRON'), ('good', 'ADJ'), ('will', 'AUX'), ('come', 'VERB'

**tokenizacion output**

In [16]:
import spacy
nlp = spacy.load("en_core_web_sm")
import en_core_web_sm
nlp = en_core_web_sm.load()


In [20]:
doc2 = '/content/output.txt'
doc2

'/content/output.txt'

In [21]:
print(doc2)

/content/output.txt


In [19]:
doc2 = '/content/output.txt'
doc2 = nlp(doc2)
print([(w.text, w.pos_) for w in doc2])

[('/content', 'PUNCT'), ('/', 'SYM'), ('output.txt', 'X')]


In [23]:
import pandas as pd

In [24]:
output = pd.read_json("https://raw.githubusercontent.com/Viny2030/datasets/refs/heads/main/output.json")

In [25]:
doc2 = nlp(output.iloc[:,0].astype(str).str.cat(sep=' '))
print([(w.text, w.pos_) for w in doc2])

[('[', 'X'), ("'", 'PUNCT'), ('I', 'PRON'), ('was', 'AUX'), ('born', 'VERB'), ('in', 'ADP'), ('Madrid', 'PROPN'), ('.', 'PUNCT'), ("'", 'PUNCT'), (',', 'PUNCT'), ("'", 'PUNCT'), ('I', 'PRON'), ('was', 'AUX'), ('born', 'VERB'), ('in', 'ADP'), ('Madrid', 'PROPN'), ('during', 'ADP'), ('1995', 'NUM'), ('.', 'PUNCT'), ("'", 'PUNCT'), (']', 'PUNCT'), ('NVPN', 'PROPN'), ('2', 'NUM'), ('I', 'PRON'), ('bear', 'VERB'), ('None', 'PROPN'), ('in', 'ADP'), ('CITY', 'PROPN')]


## -Segmentación


* La ***segmentación*** divide las cadenas de texto en frases o párrafos.


* Para la segmentación en spaCy hay que usar un componente llamado "**sentencier**" que divide los textos por simbolos como puntos, interrogantes, etc.

In [5]:
from spacy.pipeline import Sentencizer
sentencizer = Sentencizer()
doc = nlp("Frase numero 1. Frase número 2? Frase 3")
print([s.text for s in doc.sents])

['Frase numero 1.', 'Frase número 2?', 'Frase 3']


**##Segmentacion input**

In [26]:
from spacy.pipeline import Sentencizer
sentencizer = Sentencizer()
doc3 = nlp(("Jane bought me these books.Jane bought a book for me.She dropped a line to him. Thank you.She sleeps.I sleep a lot.I was born in Madrid.the cat was chased by the dog.I was born in Madrid during 1995.Out of all this , something good will come.Susan left after the rehearsal. She did it well.She sleeps during the morning, but she sleeps."))
print([s.text for s in doc3.sents])

['Jane bought me these books.', 'Jane bought a book for me.', 'She dropped a line to him.', 'Thank you.', 'She sleeps.', 'I sleep a lot.', 'I was born in Madrid.the cat was chased by the dog.', 'I was born in Madrid during 1995.Out of all this , something good will come.', 'Susan left after the rehearsal.', 'She did it well.', 'She sleeps during the morning, but she sleeps.']


**##Segmentacion output**

In [27]:
output = pd.read_json("https://raw.githubusercontent.com/Viny2030/datasets/refs/heads/main/output.json")

In [33]:
doc4 = nlp(output.iloc[:,0].astype(str).str.cat(sep=' '))
print([s.text for s in doc4.sents])

["['I was born in Madrid.', 'I was born in Madrid during 1995.']", 'NVPN 2 I bear None in CITY']


## -Stemming

* ***Funcionalidad no disponoble en spaCy***

## -Lematización


* Proceso lingüístico que sustituye una palabra con forma flexionada (plurales, femeninos, verbos conjugados, etc.) por su lema; es decir, por una palabra válida en el idioma.


* ***spaCy*** hace una lematización muy buena en Español.


* Los objetos de la clase ***Token*** tienen la propiedad (o atributo) ***lema_*** que nos devuelve el lema del token (o la palabra).

In [29]:
doc = nlp("Unos radares multan a Mariano Rajoy por ir caminando demasiados rápidos")
for word in doc:
    print(word.text + ' - ' + word.lemma_)

Unos - Unos
radares - radare
multan - multan
a - a
Mariano - Mariano
Rajoy - Rajoy
por - por
ir - ir
caminando - caminando
demasiados - demasiado
rápidos - rápido


# **##Lematizacion input**

In [31]:
doc1 = nlp(("Jane bought me these books.Jane bought a book for me.She dropped a line to him. Thank you.She sleeps.I sleep a lot.I was born in Madrid.the cat was chased by the dog.I was born in Madrid during 1995.Out of all this , something good will come.Susan left after the rehearsal. She did it well.She sleeps during the morning, but she sleeps."))
for word in doc1:
    print(word.text + ' - ' + word.lemma_)

Jane - Jane
bought - buy
me - I
these - these
books - book
. - .
Jane - Jane
bought - buy
a - a
book - book
for - for
me - I
. - .
She - she
dropped - drop
a - a
line - line
to - to
him - he
. - .
Thank - thank
you - you
. - .
She - she
sleeps - sleep
. - .
I - I
sleep - sleep
a - a
lot - lot
. - .
I - I
was - be
born - bear
in - in
Madrid.the - Madrid.the
cat - cat
was - be
chased - chase
by - by
the - the
dog - dog
. - .
I - I
was - be
born - bear
in - in
Madrid - Madrid
during - during
1995.Out - 1995.out
of - of
all - all
this - this
, - ,
something - something
good - good
will - will
come - come
. - .
Susan - Susan
left - leave
after - after
the - the
rehearsal - rehearsal
. - .
She - she
did - do
it - it
well - well
. - .
She - she
sleeps - sleep
during - during
the - the
morning - morning
, - ,
but - but
she - she
sleeps - sleep
. - .


### **lematizacion output**

In [32]:
output = pd.read_json("https://raw.githubusercontent.com/Viny2030/datasets/refs/heads/main/output.json")

In [34]:
doc5 = nlp(output.iloc[:,0].astype(str).str.cat(sep=' '))
for word in doc5:
    print(word.text + ' - ' + word.lemma_)

[ - [
' - '
I - I
was - be
born - bear
in - in
Madrid - Madrid
. - .
' - '
, - ,
' - '
I - I
was - be
born - bear
in - in
Madrid - Madrid
during - during
1995 - 1995
. - .
' - '
] - ]
NVPN - NVPN
2 - 2
I - I
bear - bear
None - None
in - in
CITY - CITY


## -Stop words

* Son las palabras que no aportan nada al significado de la frase.


* spaCy dispone de más de 500 stop words en Español.


* Veamos a continuación las Stop Words en Español.

In [35]:
stopwords = spacy.lang.es.stop_words.STOP_WORDS
print('Número de stop words: ' + str(len(stopwords)))
print('Stop words: ' + str(list(stopwords)))

Número de stop words: 521
Stop words: ['eres', 'está', 'tambien', 'ademas', 'hay', 'algunos', 'durante', 'doce', 'excepto', 'haciendo', 'delante', 'solamente', 'cuanto', 'sigue', 'tuyos', 'lado', 'a', 'llegó', 'poner', 'salvo', 'mismos', 'quiere', 'eran', 'fue', 'detrás', 'cuenta', 'aqui', 'breve', 'trata', 'haceis', 'siguiente', 'éstos', 'nuestro', 'cuales', 'pocos', 'realizó', 'quien', 'si', 'ninguna', 'dado', 'bastante', 'verdadera', 'sabes', 'día', 'estos', 'podría', 'veces', 'queremos', 'mias', 'nuestras', 'un', 'ir', 'siempre', 'peor', 'mencionó', 'realizado', 'tampoco', 'hablan', 'tu', 'éstas', 'hacen', 'que', 'aquellos', 'enfrente', 'atras', 'sola', 'ti', 'vez', 'habían', 'usa', 'mientras', 'once', 'esto', 'largo', 'diferentes', 'cierto', 'sé', 'ahora', 'adelante', 'vosotros', 'aquel', 'mismas', 'están', 'así', 'mío', 'nuestra', 'ningunas', 'muchas', 'paìs', 'informó', 'estado', 'podriamos', 'alli', 'nosotras', 'nuevo', 'todavia', 'pesar', 'aquéllos', 'respecto', 'estuvo', 'sí'

* Los objetos de la clase ***Token*** tienen la propiedad ***is_stop*** que devuelve en Boolean indicando si el token es o no una stop word; es decir, si el ***Token*** (o palabra) esta dentro de la lista antes mostrada.


* Veamos a continuación como obtener las stop words de una frase con spaCy:

In [36]:
doc = nlp("Un radar multa a Mariano. Rajoy por caminar demasiado rápido")
for word in doc:
    if word.is_stop:
        print(word)

a


**##Stop words in input**

In [38]:
stopwords = spacy.lang.en.stop_words.STOP_WORDS
print('Número de stop words: ' + str(len(stopwords)))
print('Stop words: ' + str(list(stopwords)))

Número de stop words: 326
Stop words: ['nor', 'anyway', 'yet', 'really', 'either', 'whereas', 'hereupon', 'namely', 'other', 'whom', 'per', 'how', 'out', 'a', 'nevertheless', '’re', 'amongst', 'she', 'formerly', 'myself', 'see', 'themselves', 'or', 'has', 'whereby', 'every', 'their', 'each', 'whose', 'least', 'without', 'none', 'serious', 'move', 'yourself', 'via', 'around', 'cannot', 'seems', 'we', 'few', 'regarding', 'were', 'part', 'empty', 'further', 'bottom', 'less', 'used', 'ours', 'once', 'doing', 'that', 'amount', 'became', 'as', 'nobody', 'all', 'one', 'wherever', '’ve', 'only', "'d", 'even', 'towards', 'due', 'make', 'you', 'therein', 'six', 'n‘t', 'twenty', 'under', 'whither', 'still', 'otherwise', 'could', 'should', 'anything', 'ten', 'thence', 'already', 'be', 'whoever', 'being', 'there', 'his', 'which', 'so', 'three', 'herein', 'except', '’d', 'of', 'seem', 'hers', '‘ll', 'twelve', 'he', 'next', 'whereupon', 'often', 'sometimes', 'n’t', 'unless', 'may', 'been', 'whether',

In [39]:
doc6 = nlp("Jane bought me these books.Jane bought a book for me.She dropped a line to him. Thank you.She sleeps.I sleep a lot.I was born in Madrid.the cat was chased by the dog.I was born in Madrid during 1995.Out of all this , something good will come.Susan left after the rehearsal. She did it well.She sleeps during the morning, but she sleeps.")
for word in doc6:
    if word.is_stop:
        print(word)

me
these
a
for
me
She
a
to
him
you
She
I
a
I
was
in
was
by
the
I
was
in
during
of
all
this
something
will
after
the
She
did
it
well
She
during
the
but
she


**##Stop words in output**

In [40]:
output = pd.read_json("https://raw.githubusercontent.com/Viny2030/datasets/refs/heads/main/output.json")

In [41]:
doc7 = nlp(output.iloc[:,0].astype(str).str.cat(sep=' '))

In [42]:
for word in doc7:
    if word.is_stop:
        print(word)

I
was
in
I
was
in
during
I
None
in


## -Part of Speech (PoS)

* En ***spaCy*** el PoS lo divide en 3 tipos de tags que son:
    1. **pos**: etiqueta simple de alto nivel (verbo, nombre, adjetivo, etc).
    2. **tag**: etiqueta con más nivel de detalle que el pos.
    3. **dep**: dependencia sintáctica para ver la relación entre tokens.


* Estos 3 tipos son propiedades de la clase ***Token***:

In [43]:
doc = nlp("Un radar multa a Mariano Rajoy con 300€ por caminar demasiado rápido")
pos = [[tk.text, tk.pos_, tk.tag_, tk.dep_] for tk in doc]

import pandas as pd
pd.DataFrame(pos, columns=["Text", "PoS", "TAG", "DEP"])

Unnamed: 0,Text,PoS,TAG,DEP
0,Un,PROPN,NNP,compound
1,radar,NOUN,NN,compound
2,multa,PROPN,NNP,nsubj
3,a,DET,DT,det
4,Mariano,PROPN,NNP,compound
5,Rajoy,PROPN,NNP,appos
6,con,PROPN,NNP,ROOT
7,300,NUM,CD,nummod
8,€,NOUN,NN,compound
9,por,NOUN,NN,compound


# **-Part of Speech (PoS)_input**
En spaCy el PoS lo divide en 3 tipos de tags que son:
pos: etiqueta simple de alto nivel (verbo, nombre, adjetivo, etc).
tag: etiqueta con más nivel de detalle que el pos.
dep: dependencia sintáctica para ver la relación entre tokens.
Estos 3 tipos son propiedades de la clase Token:

## -Named Entity Recognition (NER)

* Named Entity Recognition (Reconocimiento de Entidades Nombradas) es una tarea de extracción de información que busca localizar y clasificar en categorías predefinidas, como personas, organizaciones, lugares, expresiones de tiempo y cantidades, las entidades nombradas encontradas en un texto.

In [None]:
doc = nlp("Leo Messi jugador del FC Barcelona marco 34 en La Liga 2017-18")
for entity in doc.ents:
    print(entity.text + ' - ' + entity.label_ + ' - ' + str(spacy.explain(entity.label_)))

Leo Messi - PER - Named person or family.
FC Barcelona - ORG - Companies, agencies, institutions, etc.
La Liga - MISC - Miscellaneous entities, e.g. events, nationalities, products or works of art



<hr>


# -Resumen

* Una vez creado el documento a partir del texto plano, tenemos ese texto tokenizado.


* Los objetos de la clase ***Token*** tienen una serie de propiedades que permiten obtener mucha información relativa a los tokens (o palabras).


* Haciendo un resumen de lo visto anteriormente podemos obtener la siguiente información de las palabras de un texto:

In [None]:
import spacy
import pandas as pd

nlp = spacy.load('es_core_news_sm')
doc = nlp("Un radar multa a Mariano Rajoy con 300€ por caminar demasiado rápido")

result = [[tk.text, tk.lemma_, tk.pos_, tk.tag_, tk.dep_, tk.shape_, tk.is_alpha, tk.is_stop] for tk in doc]
pd.DataFrame(result, columns=["Text", "Lema", "PoS", "TAG", "DEP", "Shape", "Alpha", "is Stop word"])

Unnamed: 0,Text,Lema,PoS,TAG,DEP,Shape,Alpha,is Stop word
0,Un,uno,DET,DET,det,Xx,True,True
1,radar,radar,NOUN,NOUN,amod,xxxx,True,False
2,multa,multar,VERB,VERB,ROOT,xxxx,True,False
3,a,a,ADP,ADP,case,x,True,False
4,Mariano,Mariano,PROPN,PROPN,nmod,Xxxxx,True,False
5,Rajoy,Rajoy,PROPN,PROPN,flat,Xxxxx,True,False
6,con,con,ADP,ADP,case,xxx,True,True
7,300,300,NUM,NUM,nummod,ddd,False,False
8,€,€,NOUN,NOUN,nmod,€,False,False
9,por,por,ADP,ADP,mark,xxx,True,True


#### Para más información visitar el siguiente enlace: https://spacy.io/usage/spacy-101#annotations