## __Text mining y Procesamiento de Lenguaje Natural (NLP)__

__Profesor__: Anthony D. Cho

__Tema__: Análisis morfológico

***

__Documentación__:

* [Documentacion de Spacy](https://spacy.io/models)
* [Documentacion de NLTK](https://www.nltk.org/)

__Dependencias__

```python
    python3 -m pip install nltk spacy
    python3 -m spacy download en_core_web_sm
    python3 -m spacy download es_core_news_sm
```

### Librerias

In [43]:
from spacy import load
from spacy.lang.es.stop_words import STOP_WORDS
from string import punctuation
import re
from nltk.stem import SnowballStemmer 

## Cargar el modelo del lenguaje
nlp = load('es_core_news_sm')
# nlp = load('en_core_web_sm')

## Modelo de Stemming
stemmer = SnowballStemmer('spanish')    

## Agregar simbolos de puntuaciones
punctuation = punctuation + '¿°'

## Ejecuciones

#### Carga de texto:

In [18]:
filename = "Data/texto_01.txt"

## Abrir el archivo de texto plano
file = open(file=filename, mode='r', encoding='utf-8')

## Leer el contenido y separarlo por '.'
texts = file.read().split('.')

## Cerrar el archivo
file.close()

## Mostrar información
print('Cantidad de oraciones: {}'.format(len(texts)))

Cantidad de oraciones: 6


In [19]:
## Mostrar contenido cargado
for text in texts:
    print(text, end=2*'\n')

Sharp lamenta protesta de camioneros en Valparaíso y atribuye responsabilidad al Gobierno El alcalde afirmó que "hace dos semanas" enviaron una propuesta al Presidente para abordar las demandas del gremio, que acusa falta de proyectos para reactivar la región

 "No tenemos aún respuesta", aseguró



SANTIAGO

- El alcalde de Valparaíso, Jorge Sharp (Movimiento Autonomista), salió al paso del reclamo de los camioneros de la región que mantienen bloqueada parte de la Ruta 68, a la altura del cruce La Pólvora, acusando falta de proyectos para reactivar la región

 Pasada la medianoche, la Federación Regional de Dueños de Camiones (Fedequinta) dio inicio a la manifestación con la que acusan, además, una baja del empleo en la zona








#### Limpieza de texto:

In [35]:
## Almacenador de textos procesados
clean_texts = []

for text in texts:

    ## Tokenizamos
    # Aplicamos el modelo de lenguaje al texto
    documento = nlp(text=text)

    # Extraemos los tokens del documento, convertir en minuscula y eliminamos los espacios del lado derecho de cada token.
    tokens = [palabra.text.lower().rstrip() for palabra in documento]

    ## Remover stopwords y puntuaciones
    new_tokens = []
    for token in tokens:
        if (token not in STOP_WORDS) and (token not in punctuation) and (len(token)>0):
            new_tokens.append(token)

    ## Unimos los tokens filtrados
    new_documento = ' '.join(new_tokens)

    ## Remover numeros (opcional)
    new_documento = re.sub(pattern='\d', repl='', string=new_documento)

    ## Remover espaciados sobrantes
    new_documento = re.sub(pattern='\s+', repl=' ', string=new_documento)

    if len(new_documento):
        ## Almacenamos el texto limpiado
        clean_texts.append( new_documento )

## Mostrar información
print('Cantidad de oraciones: {}'.format(len(clean_texts)))
print(clean_texts)


Cantidad de oraciones: 5
['sharp lamenta protesta camioneros valparaíso atribuye responsabilidad gobierno alcalde semanas enviaron propuesta presidente abordar demandas gremio acusa falta proyectos reactivar región', 'respuesta', 'santiago', 'alcalde valparaíso jorge sharp movimiento autonomista salió paso reclamo camioneros región mantienen bloqueada ruta altura cruce pólvora acusando falta proyectos reactivar región', 'medianoche federación regional dueños camiones fedequinta inicio manifestación acusan baja empleo zona']


In [37]:
## Mostrar contenido limpiado
for text in clean_texts:
    print(text, end=2*'\n')

sharp lamenta protesta camioneros valparaíso atribuye responsabilidad gobierno alcalde semanas enviaron propuesta presidente abordar demandas gremio acusa falta proyectos reactivar región

respuesta

santiago

alcalde valparaíso jorge sharp movimiento autonomista salió paso reclamo camioneros región mantienen bloqueada ruta altura cruce pólvora acusando falta proyectos reactivar región

medianoche federación regional dueños camiones fedequinta inicio manifestación acusan baja empleo zona



#### Lematización:

In [40]:
## Almacenador de textos procesados con lemmatizado
lemma_texts = []

for text in clean_texts:

    ## Aplicamos el modelo de lenguaje al texto de interés.
    documento = nlp(text)

    ## Extraer los lemmas de modelo de lenguaje procesado.
    lemmas = [word.lemma_ for word in documento]

    ## Unamos los lemmas para generar una cadena de lemmas
    documento_lemma = ' '.join(lemmas)

    ## Almacenamos el texto lemmatizado
    lemma_texts.append( documento_lemma )

In [41]:
## Mostrar contenido lemmatizado
for text in lemma_texts:
    print(text, end=2*'\n')

sharp lamentar protesta camioneros valparaíso atribuir responsabilidad gobierno alcalde semanas enviar propuesta presidente abordar demanda gremio acusar falta proyecto reactivar región

respuesta

santiago

alcalde valparaíso jorge sharp movimiento autonomista salir paso reclamo camionero región mantener bloqueado ruto altura cruce pólvora acusar faltar proyecto reactivar región

medianoche federación regional dueño camión fedequintar inicio manifestación acusar bajo empleo zona



#### Stemming

In [44]:
stemm_texts = []

for text in clean_texts:
    
    ## Tokenizamos
    # Aplicamos el modelo de lenguaje al texto
    documento = nlp(text=text)

    # Extraemos los tokens del documento
    tokens = [palabra.text for palabra in documento]

    ## Aplicamos stemming
    stemms = [stemmer.stem(word) for word in tokens]

    ## Unamos los stemms para generar una cadena de stemms
    documento_stemm = ' '.join(stemms)

    ## Almacenamos el texto lemmatizado
    stemm_texts.append( documento_stemm )

In [46]:
stemm_texts

['sharp lament protest camioner valparais atribu respons gobiern alcald seman envi propuest president abord demand gremi acus falt proyect reactiv region',
 'respuest',
 'santiag',
 'alcald valparais jorg sharp movimient autonom sal pas reclam camioner region mantien bloqu rut altur cruc polvor acus falt proyect reactiv region',
 'medianoch feder regional dueñ camion fedequint inici manifest acus baj emple zon']

In [45]:
## Mostrar contenido stemmatizado
for text in stemm_texts:
    print(text, end=2*'\n')

sharp lament protest camioner valparais atribu respons gobiern alcald seman envi propuest president abord demand gremi acus falt proyect reactiv region

respuest

santiag

alcald valparais jorg sharp movimient autonom sal pas reclam camioner region mantien bloqu rut altur cruc polvor acus falt proyect reactiv region

medianoch feder regional dueñ camion fedequint inici manifest acus baj emple zon

