**ANÁLISIS MORFOLÓGICO**

*John Atkinson*

Este programa realiza el análisis morfológico del tipo **lematización** de textos de entrada en **Español**. El programa utiliza métodos de la biblioteca **SPaCY** para procesamiento de lenguaje natural.

Primero, debemos instalar la biblioteca SpacY. Luego, debemos cargar un modelo de SpacY pre-entrenado para textos de noticias en Español (*es_core_news_sm*) 

In [None]:
!pip install spacy
!python -m spacy download es_core_news_sm

Una vez instaladas, utilizamos algunas bibliotecas para NLP y otros utitlitarios.

In [None]:
import es_core_news_sm
from string import punctuation

Luego, definimos algunas funciones que nos serán útiles.

La función **LeerTexto(NombreArchivo)** lee un archivo de texto en español, lo separa según puntuaciones simples ("."), y retorna el texto separado en varias oraciones. 

In [None]:
def LeerTexto(NombreArchivo):
    f = open(NombreArchivo, 'r', encoding="utf8")
    texto = f.read().split('.')
    f.close()
    return(texto)

Luego, definimos la función **Lematizar(oracion)**, que recibe una oración de texto, y genera un string con cada uno de los lemas de cada palabra de la oración. Para esto, se utiliza  el método **nlp(..)** de Spacy. A diferencia de otros frameworks para NLP (i.e., NLTK), SpaCY realiza varios análisis simultáneamente para una misma oración con el mismo método **nlp(..)**: lematización, POS tagging, tokenización, etc. En otras bibliotecas, cada análisis requiere métodos/funciones diferentes.

Luego, generamos una lista con cada uno de los lemas obtenidos por **nlp(..)**, y se retorna un string con los lemas concatenados.  

In [None]:
def Lematizar(oracion):
   doc = nlp(oracion)
   lemas = [token.lemma_ for token in doc]
   return(" ".join(lemas))  

Una vez definidas todas las funciones, ejecutamos nuestro programa principal que inicializa variables y métodos, e invoca a las funciones definidas previamente. 

Especificamos el nombre del archivo que deseamos analizar (**NO se le olvide cargarlos en su directorio!!**). Luego, inicializamos nuestro método **nlp(..)** para que cargue el modelo de NLP pre-entrenado en Español:

In [None]:
NOMBRE_ARCHIVO='sample.txt'
nlp       = es_core_news_sm.load()

Leemos el texto especificado:

In [None]:
oraciones = LeerTexto(NOMBRE_ARCHIVO)

In [None]:
print(oraciones)

Creamos una lista con cada una de las oraciones del texto *lematizadas*, y luego las mostramos.

In [None]:
texto_lematizado  = [Lematizar(oracion) for oracion in oraciones]
print(texto_lematizado)