# 01 - Introducción a la librería NLTK


* NLTK (https://www.nltk.org/) es una librería para Python, usada para el análisis y la manipulación del lenguaje natural.


* Se instala bien con el gestor de paquetes "pip" o con "conda" en caso de utilizarlo. Para instalarlo con pip o conda se realiza de la siguiente manera respectivamente:

```
>> pip install nltk
>> conda install nltk
```

<hr>

## 1.- Instalación y descargar de las bases de datos

* NLTK utiliza una serie de bases de datos léxicas para la manipulación del lenguaje natural.


* También dispone de una una serie de corpus (colección de textos) que nos podemos descargar para "jugar" con ellos.


* Para descargarnos las bases de datos y los corpus realizaremos lo siguiente:
    1. Importar la librería nltk
    2. llamar a al método "download"<sup>(*)</sup>
    3. Aparecerá una ventana emergente para seleccionar todo lo que NLTK nos permite descargar
    
    
###### (*): Si utilizas un MAC es posible que al ejecutar el método "download()" haga un logout de la sesión. Para evitarlo y para que se descargue todo el contenido, es necesario pasarle al método "download" como parámetros aquello que nos queramos descargar, en nuestro caso todo:

```
>> nltk.download('all')
```

In [1]:
import nltk
nltk.download()
#nltk.download('all')

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

4. Seleccionar todo aquello que queramos descargar.
    1. Para empezar seleccionamos todo (all)
    2. Pulsamos el boton de descargar
    
<img src="./imgs/001_nltk_download_db.png" style="width: 500px;"/>

5. Una vez que ya tenemos todo descargado no aparecerá con fondo verde todo lo descargardo:

<img src="./imgs/002_nltk_download_all.png" style="width: 500px;"/>

6. Llegados a este punto ya tenemos descargado todos los corpus y bases de datos lexicas en el directorio que se indicar en la ventana emergente.

<hr>

## 2.- Corpus


* Un ***Corpus*** (en Latín "*Cuerpo*") dentro del contexto del NLP se refiere a una colección de textos como puede ser un conjunto de artítulo periodísticos, libros, críticas, tweets, etc.


* NLTK dispone de una serie de ***Corpus*** con los que poder trabajar y realizar pruebas.


* Algunos de los ***corpus*** que pueden ser de interés didáctico son los siguientes:

|Corpus|Content|
|---|---|
|Brown Corpus|15 genres, 1.15M words, tagged, categorized|
|CESS Treebanks|1M words, tagged and parsed (Catalan, Spanish)|
|Gutenberg (selections)|18 texts, 2M words|
|Inaugural Address Corpus|U.S. Presidential Inaugural Addresses (1789–present)|
|Movie Reviews|2k movie reviews with sentiment polarity classification|
|Reuters Corpus|1.3M words, 10k news documents, categorized|
|Stopwords Corpus|2,400 stopwords for 11 languages|
|WordNet 3.0 (English)|145k synonym sets|


* Para más información relativa a los corpus ir al siguiente enlace: http://www.nltk.org/howto/


<hr>

### 2.1.- Manejo de Corpus (funcionalidades)

Dentro de NLTK podemos encontrarnos diferentes tipos de Corpus que podrían clasificarse en:

* Textos planos: como el corpus de *Gutenberg*
* Textos categorizados: como el corpus de *Bronwn* (15 generos)
* Textos multicategóricos: como el corpus de *Reuters* (1 documentos, varias categorias)
* Textos temporales: como el corpus *Inaugural Address Corpus*, discursos presidenciales a lo largo de la historia

Para el manejo de estos corpus NLTK nos ofrece las siguientes funciones:

|Example|Description|
|---|---|
|fileids()|the files of the corpus|
|fileids([categories])|the files of the corpus corresponding to these categories|
|categories()|the categories of the corpus|
|categories([fileids])|the categories of the corpus corresponding to these files|
|raw()|the raw content of the corpus|
|raw(fileids=[f1,f2,f3])|the raw content of the specified files|
|raw(categories=[c1,c2])|the raw content of the specified categories|
|words()|the words of the whole corpus|
|words(fileids=[f1,f2,f3])|the words of the specified fileids|
|words(categories=[c1,c2])|the words of the specified categories|
|sents()|the sentences of the whole corpus|
|sents(fileids=[f1,f2,f3])|the sentences of the specified fileids|
|sents(categories=[c1,c2])|the sentences of the specified categories|
|abspath(fileid)|the location of the given file on disk|
|encoding(fileid)|the encoding of the file (if known)|
|open(fileid)|open a stream for reading the given corpus file|
|root|if the path to the root of locally installed corpus|
|readme()|the contents of the README file of the corpus|

### 2.1.1.- Ejemplo con el corpus de Gutenberg

**1. ¿Que ficheros componen el corpus?**

In [1]:
from nltk.corpus import gutenberg
gutenberg.fileids()

['austen-emma.txt',
 'austen-persuasion.txt',
 'austen-sense.txt',
 'bible-kjv.txt',
 'blake-poems.txt',
 'bryant-stories.txt',
 'burgess-busterbrown.txt',
 'carroll-alice.txt',
 'chesterton-ball.txt',
 'chesterton-brown.txt',
 'chesterton-thursday.txt',
 'edgeworth-parents.txt',
 'melville-moby_dick.txt',
 'milton-paradise.txt',
 'shakespeare-caesar.txt',
 'shakespeare-hamlet.txt',
 'shakespeare-macbeth.txt',
 'whitman-leaves.txt']

**2. ¿Cual es el contenido del fichero "blake-poems.txt"?**

(Por legibilidad mostramos solo los 300 primeros caracteres)

In [2]:
contenido = gutenberg.raw("blake-poems.txt")
contenido[:300]

'[Poems by William Blake 1789]\n\n \nSONGS OF INNOCENCE AND OF EXPERIENCE\nand THE BOOK of THEL\n\n\n SONGS OF INNOCENCE\n \n \n INTRODUCTION\n \n Piping down the valleys wild,\n   Piping songs of pleasant glee,\n On a cloud I saw a child,\n   And he laughing said to me:\n \n "Pipe a song about a Lamb!"\n   So I piped'

**3. De cada uno de los ficheros mostramos:**
    - Número de caracteres
    - Número de palabras
    - Número de frases
    - Número de palabras distintas que aparecen en el texto (primero las pasamos a minúsculas)
    - Número de medio de caracteres por palabra
    - Número medio de palabras por frase
    - Diversidad léxica (número de palabras / palabras distintas del texto)

In [3]:
for file in gutenberg.fileids():
    num_chars = len(gutenberg.raw(file))
    num_words = len(gutenberg.words(file))
    num_sents = len(gutenberg.sents(file))
    num_words_distinct = len(set([w.lower() for w in gutenberg.words(file)]))
    avg_chars_words = int(num_chars/num_words)
    avg_words_sents = int(num_words/num_sents)
    lexical_diversity = int(num_words/num_words_distinct)
    print("{num_chars:<10} {num_words:<10} {num_sents:<10} {num_words_distinct:<10} {avg_chars_words:<10} {avg_words_sents:<10} {lexical_diversity:<10} {file:<10}"
          .format(num_chars=num_chars, num_words=num_words, num_sents=num_sents,
                  num_words_distinct=num_words_distinct, avg_chars_words=avg_chars_words,
                  avg_words_sents = avg_words_sents, lexical_diversity=lexical_diversity, file=file))

887071     192427     7752       7344       4          24         26         austen-emma.txt
466292     98171      3747       5835       4          26         16         austen-persuasion.txt
673022     141576     4999       6403       4          28         22         austen-sense.txt
4332554    1010654    30103      12767      4          33         79         bible-kjv.txt
38153      8354       438        1535       4          19         5          blake-poems.txt
249439     55563      2863       3940       4          19         14         bryant-stories.txt
84663      18963      1054       1559       4          17         12         burgess-busterbrown.txt
144395     34110      1703       2636       4          20         12         carroll-alice.txt
457450     96996      4779       8335       4          20         11         chesterton-ball.txt
406629     86063      3806       7794       4          22         11         chesterton-brown.txt
320525     69213      3742       6349      

<hr>

### 2.1.2.- Ejemplo con el corpus de Brown

Este es un corpus que contiene una serie de textos categorizados (o tageados) con un tipos de genero 

**1. ¿Cuales son las categorias del corpus de Brown?**

In [5]:
from nltk.corpus import brown
brown.categories()

['adventure',
 'belles_lettres',
 'editorial',
 'fiction',
 'government',
 'hobbies',
 'humor',
 'learned',
 'lore',
 'mystery',
 'news',
 'religion',
 'reviews',
 'romance',
 'science_fiction']

***2. ¿Qué ficheros componen la categoría de noticias (news)?*** (por legibilidad solo mostramos 5)

In [6]:
brown.fileids(['news'])[0:5]

['ca01', 'ca02', 'ca03', 'ca04', 'ca05']

***3.¿Que categorias corresponden al fichero "ca01"?***

In [7]:
brown.categories(fileids=['ca01'])

['news']

***4.¿Que palabras corresponden a la categoria humor?***

In [8]:
brown.words(categories='humor')

['It', 'was', 'among', 'these', 'that', 'Hinkle', ...]

<hr>

## 3.- WordNet

* ***WordNet*** es un diccionario semántico y jerárquico en Ingles compuesto por una 155k palabras y 117K sinónimos.


* De forma jerarquica, esta estructurado de tal manera que hay una serie de palabras llamadas "***unique beginers***" o "*root synsets*" que son palabras que definen "conceptos" muy generales y a partir de esos conceptos generales engloban una serie de palabras pertenecientes a ese concepto. Veamos el siguiente ejemplo:

<img src="./imgs/003_wordnet-hierarchy.png" style="width: 500px;"/>
<p style="text-align: center;">imagen obtenida del libro: "<i>Natural Language Procesing with Python</i>"</p>


* En este ejemplo vemos como un "*camión*" (truck) esta definido como un "*vehiculo motorizado*" (motor vehicle) y este a su vez esta definido por otra palabra de nivel conceptual superior, hasta llegar a un muy alto nivel de palabra que lo define como un "*artefacto*" (artefact).


* Este seria ("a grandes rasgos") como está organizado este diccionario, de tal manera que permite obtener de una palabra cosas como:
    * Sinónimos
    * Antónimos
    * Hipérnimos
    * Hipónimos
    * Merónimos
    * Holónimos
    * Etc.
    

Veamos a continuación un ejemplo con la palabra "motorcar" y como nos daría una lista de sinónimos (synset) de esa palabra con la función "synsets()"

In [9]:
from nltk.corpus import wordnet as wn
wn.synsets('motorcar')

[Synset('car.n.01')]

* En este caso nos devuelve una lista de sinónimos (synset), que serian los "nodos" del diccionario jerarquico a partir del cual se relaciona esa palabra. Para este ejemplo solo nos ha dado un sinónimo.

* A partir del "nodo" 'car.n.01' vamos a:
    * Obtener su definición
    * Obtener los lemas de sus sinónimos (de la palabra car no de la palabra motorcar)

In [10]:
definicion = wn.synset('car.n.01').definition()
sinonimos = wn.synset('car.n.01').lemma_names()

print('Definición: ' + definicion)
print('Sinónimos: ' + str(sinonimos))

Definición: a motor vehicle with four wheels; usually propelled by an internal combustion engine
Sinónimos: ['car', 'auto', 'automobile', 'machine', 'motorcar']


### Relación semántica entre palabras

* Otro tema interesante que tenemos con ***WordNet*** es que nos permite ver la relación semáncia o la similaridad que hay entre palabras veamos por ejemplo la similaridad entre las siguientes palabras:

    * car
    * truck
    * dog

* Primero obtenemos alguno de los "nodos" de la palabra (el primero)
* Comparamos la similaridad "nodo" con "nodo"

In [11]:
car = wn.synsets('car')[0]
truck = wn.synsets('truck')[0]
dog = wn.synsets('dog')[0]

print('Similaridad entre Coche y Camión: ' + str(car.path_similarity(truck)))
print('Similaridad entre Coche y Perro: ' + str(car.path_similarity(dog)))

Similaridad entre Coche y Camión: 0.3333333333333333
Similaridad entre Coche y Perro: 0.07692307692307693


* Aunque no hay una similaridad directa entre estas 3 palabras si que se puede apreciar que hay mayor similaridad entre dos automóviles que entre un animal y un automóvil.