# El módulo de Natural Language Toolkit (NLTK)

## 1. Cómo instalarlo
Desde el Anaconda Navigator, busquen e instalen el paquete `nltk`

O desde el terminal:

```
conda install nltk
```

Luego en Jupyter ejecuten lo siguiente:

In [None]:
import nltk
nltk.download()

Eso abrirá la aplicación de instalación:
    
![nltk01](https://raw.githubusercontent.com/nivaca/HD201920/master/intro-a-python/nltk01.png)


<br><br>

Ahora seleccionan "all" y pulsan "Download":

![nltk02](https://raw.githubusercontent.com/nivaca/HD201920/master/intro-a-python/nltk02.png)

Eso se demorará un buen rato, mientras baja todos los "corpora" necesarios para el procesamiento de lenguaje natural.

## 2. Uso básico

### Primero bajaremos *Niebla* de Miguel de Unamuno y lo guardaremos en el disco duro

In [None]:
import requests
url = "https://www.gutenberg.org/files/49836/49836-0.txt"
r = requests.get(url)
with open('niebla.txt', 'wb') as f:
    f.write(r.content)

### Ahora analizaremos procesaremos el texto y analizaremos las frecuencias relativas de todas sus palabras

In [None]:
import nltk

with open("niebla.txt", "r") as f:
    text = f.read()
    
tokens = [t for t in text.split()]

"""
La anterior instrucción es una
forma abreviada de hacer esto mismo:

tokens = []
for t in text.split():
    tokens.append(t)
"""

freq = nltk.FreqDist(tokens)

for key,val in freq.items():
    print(str(key) + ': ' + str(val))

### Ahora mostraremos un gráfico con esas frecuencias

In [None]:
freq.plot(30, cumulative=False)

Prueben cambiando el argumento que dice `30` por otros mayores o menores. ¿Qué pasa?

Ahora prueben cambiando el valor de `cumulative` a `True`. ¿Qué pasa ahora?

(Para más detalles sobre este método, cf. http://www.nltk.org/api/nltk.html?highlight=plot#nltk.probability.FreqDist.plot)


### Palabras vacías (*stop words*)

Vamos ahora a descontar las *stop words* de nuestro análisis.

Primero veamos cuáles son las del español:

In [None]:
import nltk
from nltk.corpus import stopwords

stopwords.words('spanish')
stopsp = stopwords.words('spanish')

print(stopsp)

#### Lo que vamos a hacer ahora es quitar todas esas *stop words* de nuestro texto, para poder procesarlo de nuevo

In [None]:
tokens = [t for t in text.split()]

ntokens = []

for t in tokens:
        if t.lower() not in stopsp:   # usamos "t.lower()" porque queremos minúsculas
            ntokens.append(t)

print(ntokens)

#### ¡Listo! Ahora procesamos frecuencias nuevamente:

In [None]:
freq = nltk.FreqDist(ntokens)
 
for key,val in freq.items():
    print (str(key) + ':' + str(val))

#### Y creamos el gráfico

In [None]:
freq.plot(20, cumulative=False)

#### Aún hay bastante que hacer para limpiar el texto
Pero baste esto por el momento...