**ANÁLISIS LÉXICO (POS Tagging)**

*John Atkinson*

Este programa realiza el análisis léxico o etiquetado de partes-del-habla (POS) para un texto de entrada en **Español**. El programa utiliza métodos de la biblioteca **SPaCY** para procesamiento de lenguaje natural.

El conjunto de etiquetas del tipo POS a utilizar (tagset) se encuentra disponible en [SpacY](https://spacy.io/api/annotation#pos-tagging)

Primero, instalamos los paquetes respectivos (si es que no se ha realizado antes):

In [1]:
!pip install spacy
!python -m spacy download es_core_news_sm

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
2022-09-25 03:36:20.583225: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting es-core-news-sm==3.4.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.4.0/es_core_news_sm-3.4.0-py3-none-any.whl (12.9 MB)
[K     |████████████████████████████████| 12.9 MB 4.2 MB/s 
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.4.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


Luego, importamos el modelo de lenguaje pre-entrenado para Español desde SpACY:

In [2]:
import es_core_news_sm
import re

Luego, definimos la función **Etiquetar(texto)**, que realiza el etiquetado del tipo POS para cada palabra de un texto de entrada. Paar esto, se utiliza el método **nlp(..) **que ahora nos entrega la etiqueta POS de cada una de las palabras (*.pos_*) para crear un string con cada una de las palabras y etiquetas del texto en el formato:
$w_1/POS_1  w_2/POS_2 ...$

In [3]:
def Etiquetar(texto):
   doc = nlp(texto)
   Etiquetado = ''.join(t.text+"/"+t.pos_+" " for t in doc)
   return(Etiquetado.rstrip())

Ahora, ejecutamos nuestro programa principal que inicializa variables y métodos. Para esto, especificamos el nombre del archivo de texto que queremos leer y cargamos el modelo de NLP pre-entrenado.

In [5]:
NombreArchivo='sample.txt'  
nlp = es_core_news_sm.load()

Luego, leemos el texto del archivo especificado, y lo etiquetamos con nuestra función **Etiquetar(..)**:


In [6]:
texto = open(NombreArchivo, 'r',encoding="utf8").read()
texto_etiquetado = Etiquetar(texto)

Ahora podemos extraer todos los elementos que son, por ejemplo, nombres (*NOUNS*). Para esto, utilizamos una función predefinida llamada **re.findall(patron,texto)**, la cual encuentra todas las ocurrencias de un **patron** en un **texto**, retornando una lista con todas los calces: 

In [7]:
# La expresión para cualquier palabra es: "(\w+)"
Calces  = re.findall("(\w+)/NOUN",texto_etiquetado)
print(Calces)

['días', 'ciudadanía', 'día', 'renuncia', 'cargo', 'señor', 'parte', 'capacidad', 'lucha', 'delincuencia', 'narcotráfico', 'terrorismo', 'fuerza', 'decisión', 'modernización', 'reformulación', 'sistema', 'inteligencia', 'coordinación', 'policías', 'fortalecimiento', 'capacidad', 'rehabilitación', 'reintegración', 'personas', 'libertad', 'perfeccionamiento', 'legislación', 'fortalecimiento', 'rol', 'municipios', 'comunidad', 'lucha', 'delincuencia', 'narcotráfico', 'forma', 'seguridad', 'ciudadanos', 'país', 'vida', 'paz', 'tranquilidad', 'familias', 'señor', 'servicios', 'conformidad', 'legislación', 'mando', 'carácter', 'señor', 'gracias']


In [8]:
print(texto)

Muy buenos días:
 
Quiero informar a la ciudadanía que, en el día de hoy, he aceptado la renuncia al cargo de General Director de Carabineros, del señor Bruno Villalobos Krumm.
 
Como hemos informado -y es parte de nuestro programa- para fortalecer nuestra capacidad de lucha eficaz contra la delincuencia, el narcotráfico y el terrorismo, nuestro Gobierno avanzará, con fuerza y decisión, en una profunda modernización de Carabineros y de la Policía de Investigaciones; una reformulación de nuestro sistema de inteligencia; una mejor coordinación entre policías, fiscales y jueces; un fortalecimiento de la capacidad de rehabilitación y reintegración de las personas privadas de libertad; un perfeccionamiento de nuestra legislación penal; y un fortalecimiento del rol de los municipios y de la comunidad en la lucha contra la delincuencia y el narcotráfico.
 
De esta forma, podremos mejorar la seguridad de los ciudadanos de nuestro país y avanzar hacia una vida con mayor paz y mayor tranquilidad