# NLTK

La librería *Natural Language Toolkit* es un paquete de Python enfocado principalmente al trabajo con textos y con lenguaje natural. En este cuaderno vamos a realizar el *aeiou* de procesamiento de lenguaje natural, esperamos que sea lo suficiente como para que se os quite el miedo y os atreváis a hacer vuestros propios programillas.

NLTK viene del mundo anglosajón, así que dispone de muchos más recursos para inglés que para otros lenguajes; probablemente tampoco sea la librería más potente de procesamiento de lenguaje de natural, pero en cualquier caso, nos servirá para introducirnos en este apasionante mundo dada su sencillez y facilidad de uso.

De aquí en adelante, siempre tendremos que importar la cabecera `nltk`:

In [1]:
import nltk

## Ejemplos básicos

Utilicemos un texto en inglés:

In [2]:
texto1 = "At eight o'clock on Thursday morning Arthur didn't feel very good."  # Puedes cambiarlo si quieres

## Tokenizar

¿Qué es lo primero que se hace siempre? Separar por palabras, lo que conocemos como *tokenizar*, veámoslo en acción:

In [3]:
tokens = nltk.word_tokenize(texto1)
print("Oración original: {}".format(texto1))
print("Lista de palabras: {}".format(tokens))

Oración original: At eight o'clock on Thursday morning Arthur didn't feel very good.
Lista de palabras: ['At', 'eight', "o'clock", 'on', 'Thursday', 'morning', 'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']


## Part of speech tagging

O lo que es lo mismo, el análisis sintáctico, qué función cumple cada palabra en la oración

In [5]:
tagged = nltk.pos_tag(tokens)
for t in tagged:
    print(t)

('At', 'IN')
('eight', 'CD')
("o'clock", 'NN')
('on', 'IN')
('Thursday', 'NNP')
('morning', 'NN')
('Arthur', 'NNP')
('did', 'VBD')
("n't", 'RB')
('feel', 'VB')
('very', 'RB')
('good', 'JJ')
('.', '.')


Cada palabra ha sido etiquetada con su categoría gramatical según el *Penn Treebank project*, [aquí](https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html) puedes consultar la lista completa de la que traemos esta selección:

| Tag | Description |
|-----|-------------|
| IN  | Preposition or subordinating conjunction |
| CD  | Cardinal number |
| NNP | Proper noun, singular |
| NN  | Noun, singular or mass |
| VBD | Verb, past tense |
| RB  | Adverb |
| VB  | Verb, base form |
| JJ  | Adjective |

In [6]:
print(tagged)

[('At', 'IN'), ('eight', 'CD'), ("o'clock", 'NN'), ('on', 'IN'), ('Thursday', 'NNP'), ('morning', 'NN'), ('Arthur', 'NNP'), ('did', 'VBD'), ("n't", 'RB'), ('feel', 'VB'), ('very', 'RB'), ('good', 'JJ'), ('.', '.')]


¿Ha acertado muchas? ¿Ves muchos fallos?

## Named entity recognition

A partir de las palabras, una vez troceadas y etiquetadas, NLTK puede intentar encontrar cuáles de los sustantivos pertenecen a lugares, personas u organizaciones:

In [8]:
entities = nltk.chunk.ne_chunk(tagged)
for entity in entities:
    print(entity)

ImportError: No module named 'numpy'

¿Había algún nombre propio?

Y esto han sido ejemplos muy básicos de lo que se puede hacer con NLTK, no hemos hecho más que rascar la superficie. El objetivo es ver que dentro de Jupyter podemos ejecutar esta librería y comentar cada uno de los pasos de tal forma que cualquiera que llegue a este cuaderno entienda qué estamos haciendo en cada paso.

## Mini-ejercicio

Prueba a modificar el texto que se utiliza en este cuaderno y a ejecutarlo de nuevo. Quizá algunos textos no encajen, pero el código se actualiza, a que parece bastante útil. La línea que tienes que modificar es el primer trozo de código, en el que aparecía esto:

```python
texto1 = "At eight o'clock on Thursday morning Arthur didn't feel very good."
```