**ANÁLISIS MORFOLÓGICO**


Este programa realiza el análisis morfológico del tipo **lematización** de textos de entrada en **Español**. El programa utiliza métodos de la biblioteca **[SPaCY](https://spacy.io/)** para procesamiento de lenguaje natural.

Primero, debemos instalar la biblioteca SpacY. Luego, debemos cargar un modelo de SpacY pre-entrenado para textos de noticias en Español (*es_core_news_sm*) 

In [None]:
# !pip install spacy
# !python -m spacy download es_core_news_sm

Una vez instaladas, utilizamos algunas bibliotecas para NLP y otros utitlitarios.

In [1]:
import es_core_news_sm

Luego, definimos algunas funciones que nos serán útiles.

La función **LeerTexto(NombreArchivo)** lee un archivo de texto en español, lo separa según puntuaciones simples ("."), y retorna el texto separado en varias oraciones. 

In [2]:
def LeerTexto(NombreArchivo):
    f = open(NombreArchivo, 'r', encoding="latin1")
    texto = f.read().split('.')
    f.close()
    return(texto)

Luego, definimos la función **Lematizar(oracion)**, que recibe una oración de texto, y genera un string con cada uno de los lemas de cada palabra de la oración. Para esto, se utiliza  el método **nlp(..)** de Spacy. A diferencia de otros frameworks para NLP (i.e., NLTK), SpaCY realiza varios análisis simultáneamente para una misma oración con el mismo método **nlp(..)**: lematización, POS tagging, tokenización, etc. En otras bibliotecas, cada análisis requiere métodos/funciones diferentes.

Luego, generamos una lista con cada uno de los lemas obtenidos por **nlp(..)**, y se retorna un string con los lemas concatenados.  

In [3]:
def Lematizar(oracion):
   doc = nlp(oracion)
   lemas = [token.lemma_ for token in doc]
   return(" ".join(lemas))  

Una vez definidas todas las funciones, ejecutamos nuestro programa principal que inicializa variables y métodos, e invoca a las funciones definidas previamente. 

Especificamos el nombre del archivo que deseamos analizar (**NO se le olvide cargarlos en su directorio!!**). Luego, inicializamos nuestro método **nlp(..)** para que cargue el modelo de NLP pre-entrenado en Español:

In [5]:
NOMBRE_ARCHIVO = r'C:\Users\Usuario\Big Data\Text Mining\1 Nube de palabras/neruda.txt'

In [6]:
nlp = es_core_news_sm.load()

Leemos el texto especificado:

In [7]:
oraciones = LeerTexto(NOMBRE_ARCHIVO)

In [8]:
print(oraciones)
len(oraciones)

['Poema 1\n\nCuerpo de mujer, blancas colinas, muslos blancos,\nte pareces al mundo en tu actitud de entrega', '\nMi cuerpo de labriego salvaje te socava\ny hace saltar el hijo del fondo de la tierra', '\nFui solo como un tÃºnel', ' De mÃ\xad huÃ\xadan los pÃ¡jaros\ny en mÃ\xad la noche entraba su invasiÃ³n poderosa', '\nPara sobrevivirme te forjÃ© como un arma,\ncomo una flecha en mi arco, como una piedra en mi honda', '\nPero cae la hora de la venganza, y te amo', '\nCuerpo de piel, de musgo, de leche Ã¡vida y firme', '\nAh los vasos del pecho! Ah los ojos de ausencia!\nAh las rosas del pubis! Ah tu voz lenta y triste!\nCuerpo de mujer mÃ\xada, persistirÃ¡ en tu gracia', '\nMi sed, mi ansia sin limite, mi camino indeciso!\nOscuros cauces donde la sed eterna sigue,\ny la fatiga sigue, y el dolor infinito', '\n\nPoema 2\n\nEn su llama mortal la luz te envuelve', '\nAbsorta, pÃ¡lida doliente, asÃ\xad situada\ncontra las viejas hÃ©lices del crepÃºsculo\nque en torno a ti da vueltas', '\n

323

Creamos una lista con cada una de las oraciones del texto *lematizadas*, y luego las mostramos.

In [9]:
texto_lematizado  = [Lematizar(oracion) for oracion in oraciones]
print(texto_lematizado)

['Poema 1 \n\n Cuerpo de mujer , blanca colina , muslo blanco , \n tú parecer al mundo en tu actitud de entrega', '\n mi cuerpo de labriego salvaje tú socavar \n y hacer saltar el hijo del fondo de el tierra', '\n fui solo como uno tãºnel', '  de mÃ\xad huã\xadan el pã¡jaro \n y en mÃ\xad el noche entrar su invasiã³n poderoso', '\n para sobrevivir yo tú forjÃ © como uno arma , \n como uno flecha en mi arco , como uno piedra en mi honda', '\n pero caer el hora de el venganza , y tú amar', '\n cuerpo de piel , de musgo , de leche ã¡vido y firme', '\n ah el vaso del pecho ! ah el ojo de ausencia ! \n ah el rosa del pubis ! Ah tu voz lento y triste ! \n cuerpo de mujer mÃ\xada , persistirã ¡ en tu gracia', '\n mi sed , mi ansia sin limite , mi camino indeciso ! \n Oscuros cauce donde el sed eterno seguir , \n y el fatiga seguir , y el dolor infinito', '\n\n Poema 2 \n\n En su llama mortal el luz tú envolver', '\n Absorta , pã¡lido doliente , asã\xad situado \n contra el viejo hÃ © liz del 