# Usos y operaciones de NLTK en español

En este notebook vamos a poner en práctica la tokenización de textos vista en el apartado 3.4.1 de la unidad 2.

La tokenización consiste en la división del texto en piezas más pequeñas. Se puede tokenizar por palabras o frases, aunque lo más habitual es hacerlo por palabras.


## Librerías e instalación

### NLTK

En primer lugar debemos importar la librería NLTK.

In [1]:
import nltk

## Trabajar con los datos

Primeramente cargaremos una frase sencilla para trabajar con ella y ver ejemplos de una forma clara


In [2]:
frase = 'Me he comprado un coche rojo. Ahora tenemos que encontrar un seguro de coches a todo riesgo'

### 3.5.1 Tokenización de palabras

Utilizaremos el "word tokenize" que hemos importado previamente. Para ello cargaremos el texto de la página web que hemos obtenido y limpiado en el paso anterior.

A continuación explicamos brevemente los comandos utilizados: ".lower()" lo que hacemos es estandarizar el formato de todas las palabras. ".isalpha()" evaluaremos cada token como true o flase en función de si es una palabra o no. Con esto descartamos todos los signos de puntuación, números, símbolos, etc ...

#### NLTK Word Tokenize

Importamos el componente Word Tokenize de la librería NLTK para genererar los tokens de nuestro texto.

Importante tener en cuenta, que utilizaremos la condifuración en español en nuestro caso para el análisis del texto.

In [3]:
from nltk.tokenize import word_tokenize

### Obtenemos los tokens

Para obtener los tokens simplemente tenemos que utilizar el comando `word_tokenize(t,i)` donde;
* **t** sería el texto a tokenizar
* **i** sería el idioma, en nuestro caso `spanish`

In [4]:

tokens = word_tokenize(frase, "spanish") 

# Con esta línea eliminamos los signos de puntuación y 
# estandarizamos el formato de las palabras para tner todo en minúsculas
tokens = [word.lower() for word in tokens if word.isalpha()] 

tokens

['me',
 'he',
 'comprado',
 'un',
 'coche',
 'rojo',
 'ahora',
 'tenemos',
 'que',
 'encontrar',
 'un',
 'seguro',
 'de',
 'coches',
 'a',
 'todo',
 'riesgo']

### 3.5.2 Palabras de parada

Las palabras de parada son aquellas palabras que no son realmente relevantes para nuestro ejercicio, por ejemplo los artículos, las conjunciones, determinantes, verbos auxiliares, etc ...

En primer lugar debemos importar el paquete **stopwords** de NLTK

In [5]:
from nltk.corpus import stopwords

Podemos ver de forma sencilla las palabras contenidas dentro de stopwords ejecutando el siguiente comando `stopwords.words('spanish')`

In [7]:
stopwords.words('spanish')

['de',
 'la',
 'que',
 'el',
 'en',
 'y',
 'a',
 'los',
 'del',
 'se',
 'las',
 'por',
 'un',
 'para',
 'con',
 'no',
 'una',
 'su',
 'al',
 'lo',
 'como',
 'más',
 'pero',
 'sus',
 'le',
 'ya',
 'o',
 'este',
 'sí',
 'porque',
 'esta',
 'entre',
 'cuando',
 'muy',
 'sin',
 'sobre',
 'también',
 'me',
 'hasta',
 'hay',
 'donde',
 'quien',
 'desde',
 'todo',
 'nos',
 'durante',
 'todos',
 'uno',
 'les',
 'ni',
 'contra',
 'otros',
 'ese',
 'eso',
 'ante',
 'ellos',
 'e',
 'esto',
 'mí',
 'antes',
 'algunos',
 'qué',
 'unos',
 'yo',
 'otro',
 'otras',
 'otra',
 'él',
 'tanto',
 'esa',
 'estos',
 'mucho',
 'quienes',
 'nada',
 'muchos',
 'cual',
 'poco',
 'ella',
 'estar',
 'estas',
 'algunas',
 'algo',
 'nosotros',
 'mi',
 'mis',
 'tú',
 'te',
 'ti',
 'tu',
 'tus',
 'ellas',
 'nosotras',
 'vosotros',
 'vosotras',
 'os',
 'mío',
 'mía',
 'míos',
 'mías',
 'tuyo',
 'tuya',
 'tuyos',
 'tuyas',
 'suyo',
 'suya',
 'suyos',
 'suyas',
 'nuestro',
 'nuestra',
 'nuestros',
 'nuestras',
 'vuestro'

Para eliliminar una stopword del texto, simplemente tendremos que buscarla en la lista.

In [8]:
clean_tokens = tokens[:]
 
for token in tokens:
 
    if token in stopwords.words('spanish'):
 
        clean_tokens.remove(token)
    
print(clean_tokens)

['comprado', 'coche', 'rojo', 'ahora', 'encontrar', 'seguro', 'coches', 'riesgo']


### 3.5.3 Derivación regresiva

La derivación regresiva nos permite eliminar tiempos verbales, géneros, plurales, ... para así mejorar el conteo y la agrupación de palabras de los textos analizados. 

En nuestro caso, para el español, utilizaremos el algoritmo **Snowball**. Importaremos el `SnowballStemmer` dentro del paquete **nltk.stem**

In [9]:
from nltk.stem import SnowballStemmer

Como este stemmer es multidioma deberemos especificar cuál queremos utilizar.

Puedes consultar todos los idiomas disponibles, junto con más documentación en: https://www.nltk.org/_modules/nltk/stem/snowball.html

In [10]:
spanish_stemmer = SnowballStemmer('spanish')

A continuación, tenemos que cargar los tokens sin las stopWords que hemos generado previamente para obtenerlo (también puedes cargar cualquier token, aunque incluya stopWords)

In [11]:
stem_tokens = []

for token in clean_tokens:
    stem_tokens.append(spanish_stemmer.stem(token))
    
stem_tokens

['compr', 'coch', 'roj', 'ahor', 'encontr', 'segur', 'coch', 'riesg']

### 3.5.4 Lemmatización

La lematización, por simplificar mucho su deficinión, nos permite obtener la palabra original, por ejemplo:

* Verbos: Comiendo -> Comer
* Plurales: Mesas -> Mesa

Con esto podemos hacer una clasificación mucho más optima que con la derivación regresiva. 

Para hacer este proceso en español debemos hacer uso de la librerís spaCy, puesto que NLTK no realiza este proceso en español. 
La instalación de spaCy es muy sencilla, basta con ejecutar en un terminal de **Anaconda Prompt** los siguientes comandos:
* `conda install -c conda-forge spacy`
* `python -m spacy download es_core_news_sm`

Una vez instalado importaremos la librería con `import spacy` y cargaremos el paquete español con `spacy.load('es_core_news_sm)`

In [16]:
import spacy


In [17]:
nlp = spacy.load('es_core_news_sm')

Una vez importado y cargado el idioma, precederemos a obtener los lemas

In [18]:
lem_tokens = []

separator = ' '

for token in nlp(separator.join(clean_tokens)):
    lem_tokens.append(token.lemma_)
    
lem_tokens

['comprado',
 'coche',
 'rojo',
 'ahora',
 'encontrar',
 'seguro',
 'coche',
 'riesgo']