**ANÁLISIS MORFOLÓGICO**

*John Atkinson*

Este programa realiza el análisis morfológico del tipo **lematización** de textos de entrada en **Español**. El programa utiliza métodos de la biblioteca **SPaCY** para procesamiento de lenguaje natural.

Primero, debemos instalar la biblioteca SpacY. Luego, debemos cargar un modelo de SpacY pre-entrenado para textos de noticias en Español (*es_core_news_sm*) 

In [1]:
!pip install spacy
!python -m spacy download es_core_news_sm

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
2022-09-25 03:21:52.295129: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting es-core-news-sm==3.4.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.4.0/es_core_news_sm-3.4.0-py3-none-any.whl (12.9 MB)
[K     |████████████████████████████████| 12.9 MB 13.3 MB/s 
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.4.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


Una vez instaladas, utilizamos algunas bibliotecas para NLP y otros utitlitarios.

In [2]:
import es_core_news_sm
from string import punctuation

Luego, definimos algunas funciones que nos serán útiles.

La función **LeerTexto(NombreArchivo)** lee un archivo de texto en español, lo separa según puntuaciones simples ("."), y retorna el texto separado en varias oraciones. 

In [3]:
def LeerTexto(NombreArchivo):
    f = open(NombreArchivo, 'r', encoding="utf8")
    texto = f.read().split('.')
    f.close()
    return(texto)

Luego, definimos la función **Lematizar(oracion)**, que recibe una oración de texto, y genera un string con cada uno de los lemas de cada palabra de la oración. Para esto, se utiliza  el método **nlp(..)** de Spacy. A diferencia de otros frameworks para NLP (i.e., NLTK), SpaCY realiza varios análisis simultáneamente para una misma oración con el mismo método **nlp(..)**: lematización, POS tagging, tokenización, etc. En otras bibliotecas, cada análisis requiere métodos/funciones diferentes.

Luego, generamos una lista con cada uno de los lemas obtenidos por **nlp(..)**, y se retorna un string con los lemas concatenados.  

In [4]:
def Lematizar(oracion):
   doc = nlp(oracion)
   lemas = [token.lemma_ for token in doc]
   return(" ".join(lemas))  

Una vez definidas todas las funciones, ejecutamos nuestro programa principal que inicializa variables y métodos, e invoca a las funciones definidas previamente. 

Especificamos el nombre del archivo que deseamos analizar (**NO se le olvide cargarlos en su directorio!!**). Luego, inicializamos nuestro método **nlp(..)** para que cargue el modelo de NLP pre-entrenado en Español:

In [7]:
NOMBRE_ARCHIVO='sample.txt'
nlp       = es_core_news_sm.load()

Leemos el texto especificado:

In [8]:
oraciones = LeerTexto(NOMBRE_ARCHIVO)

In [9]:
print(oraciones)

['Muy buenos días:\n \nQuiero informar a la ciudadanía que, en el día de hoy, he aceptado la renuncia al cargo de General Director de Carabineros, del señor Bruno Villalobos Krumm', '\n \nComo hemos informado -y es parte de nuestro programa- para fortalecer nuestra capacidad de lucha eficaz contra la delincuencia, el narcotráfico y el terrorismo, nuestro Gobierno avanzará, con fuerza y decisión, en una profunda modernización de Carabineros y de la Policía de Investigaciones; una reformulación de nuestro sistema de inteligencia; una mejor coordinación entre policías, fiscales y jueces; un fortalecimiento de la capacidad de rehabilitación y reintegración de las personas privadas de libertad; un perfeccionamiento de nuestra legislación penal; y un fortalecimiento del rol de los municipios y de la comunidad en la lucha contra la delincuencia y el narcotráfico', '\n \nDe esta forma, podremos mejorar la seguridad de los ciudadanos de nuestro país y avanzar hacia una vida con mayor paz y mayo

Creamos una lista con cada una de las oraciones del texto *lematizadas*, y luego las mostramos.

In [10]:
texto_lematizado  = [Lematizar(oracion) for oracion in oraciones]
print(texto_lematizado)

['mucho buen día : \n \n querer informar a el ciudadanía que , en el día de hoy , haber aceptar el renuncia al cargo de General Director de Carabineros , del señor Bruno Villalobos Krumm', '\n \n como haber informar -y ser parte de nuestro programa- para fortalecer nuestro capacidad de lucha eficaz contra el delincuencia , el narcotráfico y el terrorismo , nuestro Gobierno avanzar , con fuerza y decisión , en uno profundo modernización de Carabineros y de el Policía de Investigaciones ; uno reformulación de nuestro sistema de inteligencia ; uno mejor coordinación entre policía , fiscal y juez ; uno fortalecimiento de el capacidad de rehabilitación y reintegración de el persona privado de libertad ; uno perfeccionamiento de nuestro legislación penal ; y uno fortalecimiento del rol de el municipio y de el comunidad en el lucha contra el delincuencia y el narcotráfico', '\n \n de este forma , poder mejorar el seguridad de el ciudadano de nuestro país y avanzar hacia uno vida con mayor paz