In [1]:
# 26/01/2024

## POS TAGGING (Etiquetado morfosintáctico)

En primer lugar se importa la biblioteca spaCy. Además, se debe descargar el modelo de lenguaje pre-entrenado a emplear, en este caso es:

es_core_news_sm.

In [2]:
# python -m spacy download es_core_news_sm

In [4]:
import spacy
nlp = spacy.load("es_core_news_sm")

Para poder hacer uso de las distintas funciones de spacy, se debe convertir el texto de entrada en un objeto Doc que contiene toda la información analizada y procesada del texto.

In [5]:
texto_entrada = 'Una de las bibliotecas más importantes dentro del área del NLP es Spacy.'

print('El texto de entrada es un objeto de tipo: ',type(texto_entrada))
print('')

doc = nlp(texto_entrada)

print('El texto de entrada se ha convertido a tipo:',type(doc))

El texto de entrada es un objeto de tipo:  <class 'str'>

El texto de entrada se ha convertido a tipo: <class 'spacy.tokens.doc.Doc'>


Para ver todos los posibles modelos o funciones que se pueden emplear: 

In [None]:
nlp.pipe_names

['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']

En caso de que se quiera "deshabilitar" una de esas funcionalidades, por que no se va a emplear pero se puede llegar a ganar algo de eficiencia:

In [None]:
nlp.disable_pipes('ner')
nlp.pipe_names

['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer']

### Tokenization 

------------------------------------------------------------------------------------------------------------------


Una vez que se dispone del texto como un objeto tipo doc, tokenizar una frase resulta muy sencillo. Esto es porque spacy ya cuenta con un modelo pre-entrenado capaz realizar el proceso de tokenización: 

In [6]:
doc = nlp("En este ejemplo, va a dividirse la oración en sus diferentes tokens.")

for token in doc:
    print(token.text)

En
este
ejemplo
,
va
a
dividirse
la
oración
en
sus
diferentes
tokens
.


Si se prefiere, puede almacenarse en formato lista en lugar de printear cada token: 

In [7]:
list_tokens = []

for token in doc:
    list_tokens.append(token.text)
    
print(list_tokens)

['En', 'este', 'ejemplo', ',', 'va', 'a', 'dividirse', 'la', 'oración', 'en', 'sus', 'diferentes', 'tokens', '.']


###  POS Tagging 
---------------------------------------------------------------------

Permite explicar la funcion que desarrolla una palabra dentro de una oración, hay 9 opciones posibles: 
- Sustantivo
- Pronombre
- Adjetivo
- Verbo
- Adverbio
- Preposición
- Conjunción
- Interjección

Spacy cuenta con un modelo que es capaz de predecir qué etiqueta es la más probable para un contexto dado. Estas etiquetas, están recogidas en: "Universal Dependencies UPOS:  https://universaldependencies.org/u/pos/index.html 

Para obtener una representación legible de la etiqueta escogida, se debe añadir un "_", si no, simplemente se obtendria una especie de identificador interno de spacy. (Ejemplo: En es ADP, pero el código de ADP en spacy es 85). Emplear el comando pos es menos claro pero aporta mayor eficiencia al software.

En spaCy, las etiquetas de POS funcionan como un atributo para el objeto Token, es decir, que para que spacy pueda etiquetar gramaticalmente una frase, primero debe tokenizarse.

In [None]:
doc = nlp("El perro está jugando con la pelota azul en el parque.")

for token in doc:
    print(token,':')
    print('\t Su correspondiente etiqueta es:', token.pos_)
    print('\t El identificador para esa etiqueta es:', token.pos)

El :
	 Su correspondiente etiqueta es: DET
	 El identificador para esa etiqueta es: 90
perro :
	 Su correspondiente etiqueta es: NOUN
	 El identificador para esa etiqueta es: 92
está :
	 Su correspondiente etiqueta es: AUX
	 El identificador para esa etiqueta es: 87
jugando :
	 Su correspondiente etiqueta es: VERB
	 El identificador para esa etiqueta es: 100
con :
	 Su correspondiente etiqueta es: ADP
	 El identificador para esa etiqueta es: 85
la :
	 Su correspondiente etiqueta es: DET
	 El identificador para esa etiqueta es: 90
pelota :
	 Su correspondiente etiqueta es: NOUN
	 El identificador para esa etiqueta es: 92
azul :
	 Su correspondiente etiqueta es: ADJ
	 El identificador para esa etiqueta es: 84
en :
	 Su correspondiente etiqueta es: ADP
	 El identificador para esa etiqueta es: 85
el :
	 Su correspondiente etiqueta es: DET
	 El identificador para esa etiqueta es: 90
parque :
	 Su correspondiente etiqueta es: NOUN
	 El identificador para esa etiqueta es: 92
. :
	 Su correspo

Esta información podría almacenarse en un diccionario para su posterior consulta. 

In [None]:
dicc_pos_tagging = {}

for token in doc:
    dicc_pos_tagging[token.text] = token.pos_

print(dicc_pos_tagging)

{'El': 'DET', 'perro': 'NOUN', 'está': 'AUX', 'jugando': 'VERB', 'con': 'ADP', 'la': 'DET', 'pelota': 'NOUN', 'azul': 'ADJ', 'en': 'ADP', 'el': 'DET', 'parque': 'NOUN', '.': 'PUNCT'}


Se puede mostrar también de manera más visual y eficiente: 


In [8]:
from spacy import displacy

displacy.render(doc, style="dep" , jupyter=True)

También es posible extraer información sobre su funcion dentro de la oración, así como una explicacion de la misma:

In [None]:
for token in doc:
    print(token,':', token.tag_, spacy.explain(token.tag_))

El : DET determiner
perro : NOUN noun
está : AUX auxiliary
jugando : VERB verb
con : ADP adposition
la : DET determiner
pelota : NOUN noun
azul : ADJ adjective
en : ADP adposition
el : DET determiner
parque : NOUN noun
. : PUNCT punctuation


Del mismo modo, se puede observar las dependencias entre las palabras de la frase: 

In [None]:
for token in doc:
    print(token.text,":", token.dep_, "-->", spacy.explain(token.dep_))

El : det --> determiner
perro : nsubj --> nominal subject
está : aux --> auxiliary
jugando : ROOT --> root
con : case --> case marking
la : det --> determiner
pelota : obj --> object
azul : amod --> adjectival modifier
en : case --> case marking
el : det --> determiner
parque : obl --> oblique nominal
. : punct --> punctuation
