**ANÁLISIS LÉXICO (POS Tagging)**

*John Atkinson*

Este programa realiza el análisis léxico o etiquetado de partes-del-habla (POS) para un texto de entrada en **Español**. El programa utiliza métodos de la biblioteca **SPaCY** para procesamiento de lenguaje natural.

El conjunto de etiquetas del tipo POS a utilizar (tagset) se encuentra disponible en [SpacY](https://spacy.io/api/annotation#pos-tagging)

Primero, instalamos los paquetes respectivos (si es que no se ha realizado antes):

In [None]:
!pip install spacy
!python -m spacy download es_core_news_sm

Luego, importamos el modelo de lenguaje pre-entrenado para Español desde SpACY:

In [None]:
import es_core_news_sm
import re

Luego, definimos la función **Etiquetar(texto)**, que realiza el etiquetado del tipo POS para cada palabra de un texto de entrada. Paar esto, se utiliza el método **nlp(..) **que ahora nos entrega la etiqueta POS de cada una de las palabras (*.pos_*) para crear un string con cada una de las palabras y etiquetas del texto en el formato:
$w_1/POS_1  w_2/POS_2 ...$

In [None]:
def Etiquetar(texto):
   doc = nlp(texto)
   Etiquetado = ''.join(t.text+"/"+t.pos_+" " for t in doc)
   return(Etiquetado.rstrip())

Ahora, ejecutamos nuestro programa principal que inicializa variables y métodos. Para esto, especificamos el nombre del archivo de texto que queremos leer y cargamos el modelo de NLP pre-entrenado.

In [None]:
NombreArchivo='sample.txt'  
nlp = es_core_news_sm.load()

Luego, leemos el texto del archivo especificado, y lo etiquetamos con nuestra función **Etiquetar(..)**:


In [17]:
texto = open(NombreArchivo, 'r',encoding="utf8").read()
texto_etiquetado = Etiquetar(texto)

Ahora podemos extraer todos los elementos que son, por ejemplo, nombres (*NOUNS*). Para esto, utilizamos una función predefinida llamada **re.findall(patron,texto)**, la cual encuentra todas las ocurrencias de un **patron** en un **texto**, retornando una lista con todas los calces: 

In [18]:
# La expresión para cualquier palabra es: "(\w+)"
Calces  = re.findall("(\w+)/NOUN",texto_etiquetado)
print(Calces)

['tardes', 'verdad', 'momento', 'almuerzo', 'países', 'años', 'actividad', 'familias', 'regiones', 'terremoto', 'maremoto', 'febrero', 'día', 'marzo', 'cambio', 'mando', 'actividad', 'ejercicio', 'niños', 'niñas', 'adolescentes', 'hogar', 'niños', 'centros', 'desintegración', 'familias', 'veces', 'alcoholismo', 'delincuencia', 'drogadicción', 'males', 'abusos', 'maltratos', 'tristeza', 'soledad', 'vida', 'niños', 'fondo', 'vidas', 'centros', 'centros', 'cuidarlos', 'protegerlos', 'casos', 'misión', 'cortas', 'vidas', 'niños', 'niñas', 'adolescentes', 'hogares', 'organismos', 'etapas', 'vidas', 'amor', 'acogimiento', 'estimulación', 'protección', 'niños', 'niñas', 'adolescentes', 'organismos', 'vidas', 'forma', 'medio', 'silencio', 'tristeza', 'soledad', 'amparo', 'protección', 'duda', 'padres', 'familias', 'rostros', 'historias', 'vidas', 'tan', 'años', 'verdad', 'niños', 'niñas', 'vejaciones', 'abusos', 'encargo', 'deber', 'responsabilidad', 'cuidarlos', 'protegerlos', 'niños', 'niñas