## NLTK
[Libro NLTK](http://www.nltk.org/book/): Contiene ejercicios y soluciones. 

NLTK (Natural Language Tool Kit) es una librería de Python con módulos específicos para el manejo de datos en lenguaje natural (_tokenize, tag, corpus, colocations_, etc). 

Otras librerías y módulos: re, os, random, Spacy, pyTorch, gensim, etc.





### Qué es una Librería?

... una biblioteca o librería (del inglés library)  es un conjunto de implementaciones funcionales, codificadas en un lenguaje de programación, que ofrece una interfaz bien definida para la funcionalidad que se invoca ([Wikipedia](https://es.wikipedia.org/wiki/Biblioteca_(inform%C3%A1tica)))

Tienen un comportamiento similiar al de cualquier programa pero, en genearl, son un conjunto de programitas desarrollados no para ser usados de forma autónoma sino como parte de otros programas.

La instalación básica de Python viene con una librería estándar que consiste en un conjunto de paquetes y módulos, pero hay muchísimas librerías con funciones más específicas que se pueden descargar.

Para instalar módulos y paquetes en Python, generalmente usamos **pip**. 



    pip install nombreDelPaquete

Para usar una función de un módulo específico necesitamos importarlo o cargarlo

    import librería 
o

    from librería import módulo

In [31]:
# Accedemos al corpus
import glob
import re

path_cuentos = glob.glob('../bestiario/*') # Tenes que chequear que el path se corresponda con el directorio
lista_cuentos = []                            # de la carpeta con los cuentos de Bestiario

for path_cuento in path_cuentos:
    cada_cuento = re.sub('../bestiario/','',path_cuento)
    cada_cuento = re.sub('.txt','',cada_cuento)
    globals()[cada_cuento] = path_cuento
    lista_cuentos.append(cada_cuento)
    #print(cada_cuento, path_cuento)
    

print(lista_cuentos)

['carta_a_una_senorita_en_paris', 'omnibus', 'bestiario', 'circe', 'lejana', 'casa_tomada', 'las_puertas_del_cielo', 'cefalea']


In [32]:
with open(casa_tomada) as file: # Abrimos el archivo y lo dejamos lindo (?
    lines = [f.strip('\n').strip() for f in file.readlines() if f != '\n']

titulo = lines[0]
cuento = ' '.join(lines[1:])


print("Titulo: ", titulo)
print(cuento)
print(type(cuento))

Titulo:  CASA TOMADA
Nos gustaba la casa porque aparte de espaciosa y antigua (hoy que las casas antiguas sucumben a la más ventajosa liquidación de sus materiales) guardaba los recuerdos de nuestros bisabuelos, el abuelo paterno, nuestros padres y toda la infancia. Nos habituamos Irene y yo a persistir solos en ella, lo que era una locura pues en esa casa podían vivir ocho personas sin estorbarse. Hacíamos la limpieza por la mañana, levantándonos a las siete, y a eso de las once yo le dejaba a Irene las últimas habitaciones por repasar y me iba a la cocina. Almorzábamos a mediodía, siempre puntuales; ya no quedaba nada por hacer fuera de unos pocos platos sucios. Nos resultaba grato almorzar pensando en la casa profunda y silenciosa y cómo nos bastábamos para mantenerla limpia. A veces llegamos a creer que era ella la que no nos dejó casarnos. Irene rechazó dos pretendientes sin mayor motivo, a mí se me murió María Esther antes que llegáramos a comprometernos. Entramos en los cuarenta

### Tokenización


Los programas que vamos a ver, generalmente, recibirán una cadena de texto a analizar, es decir: una palabra, un párrafo, un libro o todos los sitios indexados de google y la recibirán como un bloque. 
Como nuestro programa no sabe lo que es una palabra, lo primero que deberemos hacer con ese texto es tokenizarlo.

La tokenización, al ser lo primero en el pipeline, se concibe como una tarea de preprocesamiento que consiste en la segmentación de un string en unidades mínimas (tokens) con las que vamos a poder trabajar y hacer operaciones

Vamos a ver una serie de Tokenizadores propios de NLTK, pero antes recordemos que una forma básica de tokenización puede ser el método .split()


https://www.google.com/url?sa=i&source=images&cd=&ved=2ahUKEwiY-PuvmuriAhVGIbkGHWFoBlwQjRx6BAgBEAU&url=https%3A%2F%2Fspacy.io%2Fusage%2Fprocessing-pipelines%2F&psig=AOvVaw33vcEni8-bG9NXZSjn3MOm&ust=1560644076033899

In [33]:
tokens_spl = cuento.split()
tokens_spl

['Nos',
 'gustaba',
 'la',
 'casa',
 'porque',
 'aparte',
 'de',
 'espaciosa',
 'y',
 'antigua',
 '(hoy',
 'que',
 'las',
 'casas',
 'antiguas',
 'sucumben',
 'a',
 'la',
 'más',
 'ventajosa',
 'liquidación',
 'de',
 'sus',
 'materiales)',
 'guardaba',
 'los',
 'recuerdos',
 'de',
 'nuestros',
 'bisabuelos,',
 'el',
 'abuelo',
 'paterno,',
 'nuestros',
 'padres',
 'y',
 'toda',
 'la',
 'infancia.',
 'Nos',
 'habituamos',
 'Irene',
 'y',
 'yo',
 'a',
 'persistir',
 'solos',
 'en',
 'ella,',
 'lo',
 'que',
 'era',
 'una',
 'locura',
 'pues',
 'en',
 'esa',
 'casa',
 'podían',
 'vivir',
 'ocho',
 'personas',
 'sin',
 'estorbarse.',
 'Hacíamos',
 'la',
 'limpieza',
 'por',
 'la',
 'mañana,',
 'levantándonos',
 'a',
 'las',
 'siete,',
 'y',
 'a',
 'eso',
 'de',
 'las',
 'once',
 'yo',
 'le',
 'dejaba',
 'a',
 'Irene',
 'las',
 'últimas',
 'habitaciones',
 'por',
 'repasar',
 'y',
 'me',
 'iba',
 'a',
 'la',
 'cocina.',
 'Almorzábamos',
 'a',
 'mediodía,',
 'siempre',
 'puntuales;',
 'ya',
 

In [4]:
import sys
sys.path.append("/home/dipa/proyectos/2019_cursoNLP/lib/python3.6/site-packages")
import nltk

In [5]:
from nltk import tokenize 

Miremos el código del [NLTK Tokenizer Package](https://www.nltk.org/_modules/nltk/tokenize.html). Y veamos qué hay.



Vamos a encontrar unas funciones:
- sent_tokenize
- word_tokenize

In [34]:
nltk.download('punkt')
sents = nltk.sent_tokenize(cuento, language='spanish')
sents
#type(sents)

[nltk_data] Downloading package punkt to /home/dipa/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


['Nos gustaba la casa porque aparte de espaciosa y antigua (hoy que las casas antiguas sucumben a la más ventajosa liquidación de sus materiales) guardaba los recuerdos de nuestros bisabuelos, el abuelo paterno, nuestros padres y toda la infancia.',
 'Nos habituamos Irene y yo a persistir solos en ella, lo que era una locura pues en esa casa podían vivir ocho personas sin estorbarse.',
 'Hacíamos la limpieza por la mañana, levantándonos a las siete, y a eso de las once yo le dejaba a Irene las últimas habitaciones por repasar y me iba a la cocina.',
 'Almorzábamos a mediodía, siempre puntuales; ya no quedaba nada por hacer fuera de unos pocos platos sucios.',
 'Nos resultaba grato almorzar pensando en la casa profunda y silenciosa y cómo nos bastábamos para mantenerla limpia.',
 'A veces llegamos a creer que era ella la que no nos dejó casarnos.',
 'Irene rechazó dos pretendientes sin mayor motivo, a mí se me murió María Esther antes que llegáramos a comprometernos.',
 'Entramos en los

In [35]:
tokens_wd = []
for sent in sents:
    tokens_wd.extend(nltk.word_tokenize(sent, language='spanish'))
    
print(tokens_wd)
#len(tokens_wd)

['Nos', 'gustaba', 'la', 'casa', 'porque', 'aparte', 'de', 'espaciosa', 'y', 'antigua', '(', 'hoy', 'que', 'las', 'casas', 'antiguas', 'sucumben', 'a', 'la', 'más', 'ventajosa', 'liquidación', 'de', 'sus', 'materiales', ')', 'guardaba', 'los', 'recuerdos', 'de', 'nuestros', 'bisabuelos', ',', 'el', 'abuelo', 'paterno', ',', 'nuestros', 'padres', 'y', 'toda', 'la', 'infancia', '.', 'Nos', 'habituamos', 'Irene', 'y', 'yo', 'a', 'persistir', 'solos', 'en', 'ella', ',', 'lo', 'que', 'era', 'una', 'locura', 'pues', 'en', 'esa', 'casa', 'podían', 'vivir', 'ocho', 'personas', 'sin', 'estorbarse', '.', 'Hacíamos', 'la', 'limpieza', 'por', 'la', 'mañana', ',', 'levantándonos', 'a', 'las', 'siete', ',', 'y', 'a', 'eso', 'de', 'las', 'once', 'yo', 'le', 'dejaba', 'a', 'Irene', 'las', 'últimas', 'habitaciones', 'por', 'repasar', 'y', 'me', 'iba', 'a', 'la', 'cocina', '.', 'Almorzábamos', 'a', 'mediodía', ',', 'siempre', 'puntuales', ';', 'ya', 'no', 'quedaba', 'nada', 'por', 'hacer', 'fuera', 'de'

In [8]:
#Visualicemos esto de otra forma para ver qué pasa. 
set(tokens_wd)

{'(',
 ')',
 ',',
 '.',
 '1939',
 ':',
 ';',
 '?',
 'A',
 'Ahora',
 'Aires',
 'Almorzábamos',
 'Antes',
 'Aparte',
 'Apreté',
 'Argentina',
 'Asentí',
 'Aveces',
 'Buenos',
 'Cerré',
 'Como',
 'Con',
 'Cuando',
 'Cómo',
 'De',
 'Dejó',
 'Desde',
 'El',
 'En',
 'Entramos',
 'Era',
 'Es',
 'Estaban',
 'Esther',
 'Estábamos',
 'Eupen',
 'Fui',
 'Hacíamos',
 'Han',
 'Hay',
 'Hesperidina',
 'Irene',
 'La',
 'Lo',
 'Los',
 'Malmédy',
 'María',
 'Me',
 'Mis',
 'Muy',
 'No',
 'Nos',
 'Nuestros',
 'Nunca',
 'Pero',
 'Peña',
 'Rodeé',
 'Rodríguez',
 'Se',
 'Solamente',
 'También',
 'Un',
 'Uno',
 'Y',
 'Ya',
 'Yo',
 'a',
 'abajo',
 'abandonar',
 'abierta',
 'abrigaban',
 'abría',
 'abuelo',
 'acordarme',
 'acordé',
 'acostarnos',
 'acostumbró',
 'actividad',
 'acuerdo',
 'ademán',
 'además',
 'advertía',
 'afligir',
 'agitaban',
 'agradaba',
 'agua',
 'agujas',
 'agujas—',
 'ahogado',
 'ahora',
 'aire',
 'aislaba',
 'al',
 'ala',
 'alcanfor',
 'alcantarilla',
 'alegramos',
 'alejarnos',
 'alfomb

#### Pero... 

que pasa con los símbolos? queremos las comas para algo? los paréntesis?



![SegmentLocal](mesa.gif "segment")

Necesitamos separar los símbolos de las palabras para poder tener una lista más certera de los tokens.



Importemos otro modulo y miremos ahora [el código](https://www.nltk.org/_modules/nltk/tokenize/regexp.html). 
Qué vemos de diferente respecto del código anterior? 

En este caso el código puede ser parecido, pero si recordamos el script anterior, veremos algo diferente. Vamos a volver sobre esto en breve, pero a diferencia de las funciones que se declaraban en el paquete tokenize, vemos acá una palabra especial "class"


In [9]:
from nltk.tokenize import RegexpTokenizer #importamos entoces el módulo 

In [10]:
#Qué hacen estas regex?
pattern1 = r'\w+'
tokenizer = RegexpTokenizer(pattern1) #instanciamos nuestro regexpTokenizer con el patrón que tenemos arriba

tokens_reg = tokenizer.tokenize(cuento) 
print(tokens_reg)

['Nos', 'gustaba', 'la', 'casa', 'porque', 'aparte', 'de', 'espaciosa', 'y', 'antigua', 'hoy', 'que', 'las', 'casas', 'antiguas', 'sucumben', 'a', 'la', 'más', 'ventajosa', 'liquidación', 'de', 'sus', 'materiales', 'guardaba', 'los', 'recuerdos', 'de', 'nuestros', 'bisabuelos', 'el', 'abuelo', 'paterno', 'nuestros', 'padres', 'y', 'toda', 'la', 'infancia', 'Nos', 'habituamos', 'Irene', 'y', 'yo', 'a', 'persistir', 'solos', 'en', 'ella', 'lo', 'que', 'era', 'una', 'locura', 'pues', 'en', 'esa', 'casa', 'podían', 'vivir', 'ocho', 'personas', 'sin', 'estorbarse', 'Hacíamos', 'la', 'limpieza', 'por', 'la', 'mañana', 'levantándonos', 'a', 'las', 'siete', 'y', 'a', 'eso', 'de', 'las', 'once', 'yo', 'le', 'dejaba', 'a', 'Irene', 'las', 'últimas', 'habitaciones', 'por', 'repasar', 'y', 'me', 'iba', 'a', 'la', 'cocina', 'Almorzábamos', 'a', 'mediodía', 'siempre', 'puntuales', 'ya', 'no', 'quedaba', 'nada', 'por', 'hacer', 'fuera', 'de', 'unos', 'pocos', 'platos', 'sucios', 'Nos', 'resultaba', '

Ahora que nos libramos de los espacios, podemos buscar por ejemplo determinadas palabras. 

In [11]:
pattern2 = r'[A-Z][a-z]+\b' #qué hace esta regex?
tokenizer_up = RegexpTokenizer(pattern2)

tokens_up = tokenizer_up.tokenize(cuento)
print(tokens_up)

['Nos', 'Nos', 'Irene', 'Irene', 'Nos', 'Irene', 'Esther', 'Entramos', 'Nos', 'Irene', 'Aparte', 'No', 'Irene', 'Los', 'Irene', 'Yo', 'Desde', 'Argentina', 'Pero', 'Irene', 'Me', 'Irene', 'Uno', 'Un', 'Estaban', 'Irene', 'No', 'Pero', 'Irene', 'Era', 'El', 'Solamente', 'Se', 'De', 'Cuando', 'Irene', 'Buenos', 'Aires', 'Hay', 'Lo', 'Irene', 'Fui', 'El', 'Me', 'Fui', 'Irene', 'Tuve', 'Han', 'Entonces', 'Yo', 'Me', 'Los', 'Mis', 'Irene', 'Yo', 'Irene', 'Hesperidina', 'Con', 'No', 'Pero', 'La', 'Irene', 'Lo', 'Irene', 'Nos', 'Ahora', 'Irene', 'Irene', 'Yo', 'Nos', 'Irene', 'Aveces', 'Irene', 'No', 'Un', 'Eupen', 'Se', 'Cuando', 'Irene', 'Nunca', 'Irene', 'Nuestros', 'Nos', 'Aparte', 'De', 'La', 'En', 'Irene', 'En', 'Muy', 'Yo', 'Irene', 'Es', 'De', 'Irene', 'Desde', 'Irene', 'Nos', 'No', 'Irene', 'Los', 'Ahora', 'Han', 'Irene', 'El', 'Cuando', 'Tuviste', 'No', 'Me', 'Ya', 'Como', 'Irene', 'Antes', 'No']


Como **ejercicio** tratá de modificar la función para reducir los matcheos. 
Por ejemplo si el token es menor a x len entonces, si está entre stopwords o si está después de un punto, dejalo de lado

In [49]:
def mayuscExt(s):
    
    #pattern = r'[A-Z][a-z]+\b'
    pattern = r'[A-Z][a-z]'
    tokenizer_up = RegexpTokenizer(pattern)
    resultado = tokenizer_up.tokenize(cuento)
    
    return resultado

mayuscExt(cuento)



['No',
 'No',
 'Ir',
 'Ha',
 'Ir',
 'Al',
 'No',
 'Ir',
 'Ma',
 'Es',
 'En',
 'No',
 'Ir',
 'Ap',
 'No',
 'Ir',
 'Lo',
 'Ir',
 'Yo',
 'De',
 'Ar',
 'Pe',
 'Ir',
 'Me',
 'Ir',
 'Un',
 'Un',
 'Es',
 'Ir',
 'No',
 'Pe',
 'Ir',
 'Er',
 'El',
 'Ro',
 'Pe',
 'So',
 'Se',
 'De',
 'Cu',
 'Ir',
 'Bu',
 'Ai',
 'Ha',
 'Lo',
 'Ir',
 'Fu',
 'El',
 'Ta',
 'Me',
 'Fu',
 'Ir',
 'Tu',
 'Ha',
 'De',
 'Es',
 'As',
 'En',
 'Yo',
 'Me',
 'Lo',
 'Mi',
 'Ir',
 'Yo',
 'Ir',
 'He',
 'Co',
 'No',
 'Pe',
 'La',
 'Ir',
 'Lo',
 'Ir',
 'No',
 'Ah',
 'Ir',
 'Ir',
 'Yo',
 'No',
 'Ir',
 'Av',
 'Ir',
 'No',
 'Un',
 'Eu',
 'Ma',
 'Es',
 'Se',
 'Cu',
 'Ir',
 'Nu',
 'Ir',
 'Nu',
 'No',
 'Ap',
 'De',
 'La',
 'En',
 'Ir',
 'En',
 'Mu',
 'Yo',
 'Ir',
 'Es',
 'De',
 'Ir',
 'De',
 'Ir',
 'No',
 'No',
 'Ap',
 'Ir',
 'Lo',
 'Ce',
 'Ah',
 'Ha',
 'Ir',
 'El',
 'Cu',
 'Tu',
 'No',
 'Es',
 'Me',
 'Ya',
 'Co',
 'Ro',
 'Ir',
 'An',
 'No']

##### Ahora imaginemos que en nuestro corpus tenemos otro tipo de textos, por ejemplo, tuits. Cómo hacemos para tokenizar un nombre de usuario o los hashtag si eliminamos los los símbolos?

In [50]:
tuit = '@tw_user No los merecemos, jaja !!! 😊😊😊 #hashtag#hashtag2'

In [51]:
from nltk.tokenize import TweetTokenizer 

tokenizer_tw = TweetTokenizer()

tokens_tw = tokenizer_tw.tokenize(tuit)

Podemos decir que existen diferentes tipos de tokenizadores según tratemos con determinado tipo de texto u otro. El paquete nltk.tokenize nos provee de una serie de clases que nos permiten tratar distintivamente esto. 

Tanto la variable tokenizer y tokenizer_up como tokenizer_tw son objetos, instancias de su clase (RegexpTokenizer & TweetTokenizer)

In [52]:
help(TweetTokenizer)

Help on class TweetTokenizer in module nltk.tokenize.casual:

class TweetTokenizer(builtins.object)
 |  Tokenizer for tweets.
 |  
 |      >>> from nltk.tokenize import TweetTokenizer
 |      >>> tknzr = TweetTokenizer()
 |      >>> s0 = "This is a cooool #dummysmiley: :-) :-P <3 and some arrows < > -> <--"
 |      >>> tknzr.tokenize(s0)
 |      ['This', 'is', 'a', 'cooool', '#dummysmiley', ':', ':-)', ':-P', '<3', 'and', 'some', 'arrows', '<', '>', '->', '<--']
 |  
 |  Examples using `strip_handles` and `reduce_len parameters`:
 |  
 |      >>> tknzr = TweetTokenizer(strip_handles=True, reduce_len=True)
 |      >>> s1 = '@remy: This is waaaaayyyy too much for you!!!!!!'
 |      >>> tknzr.tokenize(s1)
 |      [':', 'This', 'is', 'waaayyy', 'too', 'much', 'for', 'you', '!', '!', '!']
 |  
 |  Methods defined here:
 |  
 |  __init__(self, preserve_case=True, reduce_len=False, strip_handles=False)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  tokenize(se

In [53]:
#print(tokenizer)
#print(tokenizer_tw)
tokens_tw

['@tw_user',
 'No',
 'los',
 'merecemos',
 ',',
 'jaja',
 '!',
 '!',
 '!',
 '😊',
 '😊',
 '😊',
 '#hashtag',
 '#hashtag2']

Una **clase** es un tipo compuesto definido por el usuario. La clase va a ser como una plantilla que nos va a aportar:

- atributos

- métodos (acciones o funciones)

para que podamos modelar los objetos que van a habitar el universo de nuestro programa (¿?).


Un objeto es un tipo de dato compuesto que va a representar una cosa o concepto del "mundo" modelado en nuestro programa.

Si una clase es una plantilla qué aporta las características y comportamientos que tendrán los objetos, debemos crear una instancia de esa clase para darle existencia al objeto en sí... es decir, debemos instanciar la clase. 


Por ejemplo de la clase TweetTokenizer: Nuestro objeto se llama tokenizer_tw y puede recibir métodos de su clase, como el de tokenize (siempre usando notación de punto).

![SegmentLocal](o.gif "segment")

## Volviendo a Tokenización

Una vez que obtuvimos nuestra lista de tokens, lo siguiente que vamos a hacer es generar el **vocabulario** del texto. Vamos a usar la lista "tokens_reg" que tiene todos los tokens menos los símbolos. 

###### Si nuestra lista de tokens contiene cada aparición de un string compatible con una palabra (o la unidad que busquemos), 
###### un vocabulario va a contener:
- una sola aparición de cada palabra (set) en nuestro texto, o 
- un conteo de la frecuencia de cada palabras (defaultdict) en nuestro texto.

In [54]:
set(tokens_reg)

{'1939',
 'A',
 'Ahora',
 'Aires',
 'Almorzábamos',
 'Antes',
 'Aparte',
 'Apreté',
 'Argentina',
 'Asentí',
 'Aveces',
 'Buenos',
 'Cerré',
 'Como',
 'Con',
 'Cuando',
 'Cómo',
 'De',
 'Dejó',
 'Desde',
 'El',
 'En',
 'Entonces',
 'Entramos',
 'Era',
 'Es',
 'Estaban',
 'Esther',
 'Estábamos',
 'Estás',
 'Eupen',
 'Fui',
 'Fíjate',
 'Hacíamos',
 'Han',
 'Hay',
 'Hesperidina',
 'Irene',
 'La',
 'Lo',
 'Los',
 'Malmédy',
 'María',
 'Me',
 'Mis',
 'Muy',
 'No',
 'Nos',
 'Nuestros',
 'Nunca',
 'Pero',
 'Peña',
 'Rodeé',
 'Rodríguez',
 'Se',
 'Solamente',
 'También',
 'Tuve',
 'Tuviste',
 'Un',
 'Uno',
 'Y',
 'Ya',
 'Yo',
 'a',
 'abajo',
 'abandonar',
 'abierta',
 'abrigaban',
 'abría',
 'abuelo',
 'acordarme',
 'acordé',
 'acostarnos',
 'acostumbró',
 'actividad',
 'acuerdo',
 'ademán',
 'además',
 'advertía',
 'afligir',
 'agitaban',
 'agradaba',
 'agua',
 'agujas',
 'ahogado',
 'ahora',
 'aire',
 'aislaba',
 'al',
 'ala',
 'alcanfor',
 'alcantarilla',
 'alegramos',
 'alejarnos',
 'alfom

In [55]:
from collections import defaultdict

frecuencia = defaultdict(int)

for token in tokens_reg:
    frecuencia[token] += 1

print(frecuencia)

defaultdict(<class 'int'>, {'Nos': 8, 'gustaba': 2, 'la': 91, 'casa': 18, 'porque': 8, 'aparte': 1, 'de': 95, 'espaciosa': 1, 'y': 69, 'antigua': 1, 'hoy': 1, 'que': 46, 'las': 23, 'casas': 1, 'antiguas': 1, 'sucumben': 1, 'a': 53, 'más': 13, 'ventajosa': 1, 'liquidación': 1, 'sus': 4, 'materiales': 1, 'guardaba': 1, 'los': 27, 'recuerdos': 1, 'nuestros': 4, 'bisabuelos': 2, 'el': 55, 'abuelo': 1, 'paterno': 1, 'padres': 1, 'toda': 1, 'infancia': 1, 'habituamos': 1, 'Irene': 30, 'yo': 10, 'persistir': 1, 'solos': 1, 'en': 50, 'ella': 7, 'lo': 7, 'era': 13, 'una': 12, 'locura': 1, 'pues': 2, 'esa': 5, 'podían': 1, 'vivir': 3, 'ocho': 2, 'personas': 1, 'sin': 9, 'estorbarse': 1, 'Hacíamos': 1, 'limpieza': 3, 'por': 16, 'mañana': 1, 'levantándonos': 1, 'siete': 1, 'eso': 5, 'once': 3, 'le': 10, 'dejaba': 1, 'últimas': 1, 'habitaciones': 1, 'repasar': 1, 'me': 13, 'iba': 3, 'cocina': 12, 'Almorzábamos': 1, 'mediodía': 1, 'siempre': 7, 'puntuales': 1, 'ya': 2, 'no': 19, 'quedaba': 3, 'nada'

In [56]:
# Tenemos dos maneras de ver esto además del print común: Usando operator o usando pandas: 

import operator

resultado = sorted(frecuencia.items(), key=operator.itemgetter(1), reverse=True)

print(resultado)



import pandas as pd

df = pd.DataFrame([[key, frecuencia[key]] for key in frecuencia.keys()], columns=['Token', 'Frecuencia'])

df.sort_values(by='Frecuencia', ascending=False) # Imprimo ordenando por frecuencia (invertido)


[('de', 95), ('la', 91), ('y', 69), ('el', 55), ('a', 53), ('en', 50), ('que', 46), ('Irene', 30), ('los', 27), ('se', 26), ('las', 23), ('un', 22), ('no', 19), ('con', 19), ('casa', 18), ('para', 17), ('por', 16), ('puerta', 15), ('al', 14), ('más', 13), ('era', 13), ('me', 13), ('una', 12), ('cocina', 12), ('del', 12), ('yo', 10), ('le', 10), ('o', 10), ('pasillo', 10), ('sin', 9), ('Nos', 8), ('porque', 8), ('nos', 8), ('pero', 8), ('parte', 8), ('lado', 8), ('ella', 7), ('lo', 7), ('siempre', 7), ('No', 7), ('mi', 7), ('dormitorios', 7), ('su', 6), ('dormitorio', 6), ('cuando', 6), ('roble', 6), ('estaba', 6), ('noche', 6), ('hasta', 6), ('esa', 5), ('eso', 5), ('nada', 5), ('antes', 5), ('tejía', 5), ('creo', 5), ('Yo', 5), ('tejido', 5), ('baño', 5), ('living', 5), ('cancel', 5), ('bien', 5), ('voz', 5), ('sus', 4), ('nuestros', 4), ('hacer', 4), ('veces', 4), ('mí', 4), ('algún', 4), ('día', 4), ('después', 4), ('Me', 4), ('casi', 4), ('cosa', 4), ('eran', 4), ('tiempo', 4), ('v

Unnamed: 0,Token,Frecuencia
6,de,95
2,la,91
8,y,69
27,el,55
16,a,53
38,en,50
11,que,46
34,Irene,30
23,los,27
106,se,26


In [56]:
from nltk import FreqDist #Además podemos generar un diccionario de frecuencias propio de nltk

fdist1 = FreqDist(tokens_reg) 
fdist1

FreqDist({'de': 95, 'la': 91, 'y': 69, 'el': 55, 'a': 53, 'en': 50, 'que': 46, 'Irene': 30, 'los': 27, 'se': 26, ...})

In [58]:
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 5))  # the size 


fdist1.plot(20, cumulative=False)

plt.show()

NameError: name 'fdist1' is not defined

Como vemos, las palabras más frecuentes en el texto son aquellas que tienen, en general, baja carga semántica y que mayormente querríamos eliminar. Este conjunto se denomina **STOPWORDS** 

In [62]:
nltk.download('stopwords')
from nltk.corpus import stopwords

stop_words = set(stopwords.words('spanish'))
stop_words

[nltk_data] Downloading package stopwords to /home/dipa/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


{'a',
 'al',
 'algo',
 'algunas',
 'algunos',
 'ante',
 'antes',
 'como',
 'con',
 'contra',
 'cual',
 'cuando',
 'de',
 'del',
 'desde',
 'donde',
 'durante',
 'e',
 'el',
 'ella',
 'ellas',
 'ellos',
 'en',
 'entre',
 'era',
 'erais',
 'eran',
 'eras',
 'eres',
 'es',
 'esa',
 'esas',
 'ese',
 'eso',
 'esos',
 'esta',
 'estaba',
 'estabais',
 'estaban',
 'estabas',
 'estad',
 'estada',
 'estadas',
 'estado',
 'estados',
 'estamos',
 'estando',
 'estar',
 'estaremos',
 'estará',
 'estarán',
 'estarás',
 'estaré',
 'estaréis',
 'estaría',
 'estaríais',
 'estaríamos',
 'estarían',
 'estarías',
 'estas',
 'este',
 'estemos',
 'esto',
 'estos',
 'estoy',
 'estuve',
 'estuviera',
 'estuvierais',
 'estuvieran',
 'estuvieras',
 'estuvieron',
 'estuviese',
 'estuvieseis',
 'estuviesen',
 'estuvieses',
 'estuvimos',
 'estuviste',
 'estuvisteis',
 'estuviéramos',
 'estuviésemos',
 'estuvo',
 'está',
 'estábamos',
 'estáis',
 'están',
 'estás',
 'esté',
 'estéis',
 'estén',
 'estés',
 'fue',
 'f

In [63]:
#Eliminación de stopwords

tokens_filtrados = []

for t in tokens_reg:
    t = t.lower()
    if t not in stop_words:
        tokens_filtrados.append(t)

#print(tokens_filtrados)
set(tokens_filtrados)

{'1939',
 'abajo',
 'abandonar',
 'abierta',
 'abrigaban',
 'abría',
 'abuelo',
 'acordarme',
 'acordé',
 'acostarnos',
 'acostumbró',
 'actividad',
 'acuerdo',
 'ademán',
 'además',
 'advertía',
 'afligir',
 'agitaban',
 'agradaba',
 'agua',
 'agujas',
 'ahogado',
 'ahora',
 'aire',
 'aires',
 'aislaba',
 'ala',
 'alcanfor',
 'alcantarilla',
 'alegramos',
 'alejarnos',
 'alfombra',
 'alguna',
 'algún',
 'allá',
 'allí',
 'almorzar',
 'almorzábamos',
 'almuerzo',
 'alta',
 'ambos',
 'andaba',
 'antigua',
 'antiguas',
 'apagaba',
 'aparte',
 'apenas',
 'apiladas',
 'apoyando',
 'apreté',
 'aprovechaba',
 'aquellas',
 'aquí',
 'argentina',
 'armario',
 'asentada',
 'asentí',
 'así',
 'atardecer',
 'atención',
 'atrás',
 'aumentaba',
 'aun',
 'avanzando',
 'aveces',
 'ayudarme',
 'años',
 'bandeja',
 'bastaba',
 'bastábamos',
 'baño',
 'biblioteca',
 'bien',
 'bisabuelos',
 'blancas',
 'botella',
 'brazo',
 'brazos',
 'brusca',
 'buenos',
 'cada',
 'caer',
 'cajón',
 'calenté',
 'callada'

In [57]:
plt.figure(figsize=(14, 3))  # the size 

fdist2 = FreqDist(tokens_filtrados) 
fdist2

fdist2.plot(50, cumulative=False)

NameError: name 'plt' is not defined

Una vez que hemos eliminado las stopwords, nuestro gráfico de frecuencias de tokens se vuelve un poco más representativo respecto de la naturaleza del texto que estamos manipulando. 
Hasta este punto, hemos partido de un texto crudo en formato txt y al que aplicamos distintos métodos para obtener sus unidades mínimas (tokens, palabras, etc). 

Pero para poder avanzar en el procesamiento necesitaríamos que nuestro programa, además de distinguir tokens semánticamente relevantes de aquellos irrelevantes, pueda identificar por ejemplo todas las formas en que aparece conjugado el verbo 'hacer' como una única aparición ese concepto y no como apariciones aisladas. 

In [65]:
pattern = re.compile(r'hac.*')

In [66]:
tokenst = []
for token in tokens_filtrados:
    tokenst.extend(re.findall(pattern, token))

In [67]:
tokenst

['hacíamos', 'hacer', 'hacer', 'hacer', 'hacia', 'hacer', 'hacían', 'hacia']

#### Todas estas formas son en realidad distintas detecciones de un mismo concepto o lemma. Pero este paso quedará para la próxima clase