## Ejemplo 3: Nltk Text

### 1. Objetivos:
    - Aprender a usar el objeto Text de la librería Nltk
 
---
    
### 2. Desarrollo:

Vamos a utilizar la librería Nltk para explorar algunas técnicas básicas de procesamiento de lenguaje natural. Muchos de estos procedimientos normalmente sirven para preparar nuestros datos para entrenar un modelo o para realizar una visualización.

In [None]:
import pandas as pd
import nltk
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

In [None]:
df = pd.read_json('../../Datasets/new_york_times_bestsellers-clean.json')

df.head()

In [None]:
grouped_by_title = df.groupby('title')['description'].max()

grouped_by_title

Primero hay que limpiar un poco nuestros textos:

In [None]:
grouped_by_title = grouped_by_title.str.lower()
grouped_by_title = grouped_by_title.str.strip()
grouped_by_title = grouped_by_title.str.replace('[^\w\s]', '')
grouped_by_title = grouped_by_title.str.replace('\d', '')
grouped_by_title = grouped_by_title.str.replace('\\n', '')
grouped_by_title = grouped_by_title.dropna()

grouped_by_title

Ahora, vamos a construir un objeto Text con nuestros datos. Primero que nada necesitamos descargar algunas librerías que requiere `nltk` para funcionar. Ve a tu terminal, abre python, importa nltk y usa el siguiente comando:

`nltk.download('punkt')`

Ahora sí, estamos listos:

In [None]:
nltk.download('punkt')

In [None]:
# Separamos cada oración en palabras

tokenized = grouped_by_title.apply(nltk.word_tokenize)

In [None]:
tokenized

In [None]:
# Sumamos todas las listas para obtener una lista con todas las palabras en nuestro conjunto de datos
# Creamos un objeto Text

all_words = tokenized.sum()
text = nltk.Text(all_words)

text

In [None]:
text.concordance('woman', lines=20)

In [None]:
# similar te regresa las palabras que aparecen en contextos similares al argumento

text.similar('woman')

In [None]:
text.similar('women')

In [None]:
text.concordance('man', lines=20)

In [None]:
text.similar('man')

In [None]:
text.similar('men')

In [None]:
# common_contexts regresa los contextos que comparten dos o más palabras

text.common_contexts(['woman', 'man'])

In [None]:
# En este caso una gráfica de dispersión no tiene mucho sentido, pero así es como se produce

text.dispersion_plot(['woman', 'man'])

In [None]:
# Podemos también generar texto que intenta imitar el estilo de nuestro conjunto de datos

print(text.generate())

In [None]:
# Total de palabras

len(text)

In [None]:
# Total de palabras distintas

len(set(text))

In [None]:
# Cuantificando la riqueza léxica

len(set(text)) / len(text)

In [None]:
# Las colocaciones son pares de palabras (bigramas) que son inusualmente comunes en nuestro conjunto de datos

text.collocations()