## Ejemplo 4: Nltk FreqDist

### 1. Objetivos:
    - Aprender a usar el objeto FreqDist de la librería Nltk
 
---
    
### 2. Desarrollo:

Ahora vamos a explorar el objeto `FreqDist` que nos facilita el conteo de frecuencias de las palabras en nuestro conjunto de datos. La primera parte del procesamiento es idéntico a la vez pasada.

In [None]:
import pandas as pd
import nltk
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

In [None]:
df = pd.read_json('https://raw.githubusercontent.com/manu-msr/beduadp/master/Datasets/new_york_times_bestsellers-clean.json')

df.head()

In [None]:
grouped_by_title = df.groupby('title')['description'].max()

grouped_by_title

Primero hay que limpiar un poco nuestros textos:

In [None]:
grouped_by_title = grouped_by_title.str.lower()
grouped_by_title = grouped_by_title.str.strip()
grouped_by_title = grouped_by_title.str.replace('[^\w\s]', '')
grouped_by_title = grouped_by_title.str.replace('\d', '')
grouped_by_title = grouped_by_title.str.replace('\\n', '')
grouped_by_title = grouped_by_title.dropna()

grouped_by_title

In [None]:
# Separamos cada oración en palabras

tokenized = grouped_by_title.apply(nltk.word_tokenize)

In [None]:
tokenized

In [None]:
all_words = tokenized.sum()

In [None]:
# Utilizamos FreqDist para analizar la distribución de frecuencia de nuestras palabras

freq_dist = nltk.FreqDist(all_words)

print(freq_dist)

In [None]:
freq_dist.most_common(50)

Vamos a eliminar las 'palabras vacías' o 'stop words'

Para hacer esto tienes que correr primero el siguiente comando:

`nltk.download('stopwords')`

In [None]:
from nltk.corpus import stopwords

In [None]:
english_stop_words = stopwords.words('english')

all_words_except_stop_words = [word for word in all_words if word not in english_stop_words]

freq_dist_no_stop_words = nltk.FreqDist(all_words_except_stop_words)

In [None]:
freq_dist_no_stop_words.most_common(50)

In [None]:
# Conteo de una palabra y porcentaje de aparición

print(f'{(100 * freq_dist_no_stop_words["woman"] / len(all_words_except_stop_words)):.3f}%')

In [None]:
# Veamos qué proporción del text está siendo ocupada por las 50 palabras más comunes

freq_dist_no_stop_words.plot(50, cumulative=True);

In [None]:
# Palabras que sólo aparecen una sola vez

freq_dist_no_stop_words.hapaxes()[:20]

In [None]:
# Palabras largas

unique = set(all_words_except_stop_words)
unique_series = pd.Series(list(unique))

unique_series

In [None]:
unique_series[unique_series.str.len() > 15]

In [None]:
# Palabras largas que son frecuentes

larger_than_10 = unique_series.str.len() > 7
is_frequent = unique_series.apply(lambda x: freq_dist_no_stop_words[x] > 7)

unique_series[larger_than_10 & is_frequent]

In [None]:
# Podemos contar otras cosas, como la frecuencia de longitudes de nuestras palabras

freq_dist_lengths = nltk.FreqDist([len(w) for w in all_words_except_stop_words])

In [None]:
freq_dist_lengths.most_common()

In [None]:
freq_dist_lengths.max()

In [None]:
freq_dist_lengths[5]

In [None]:
# También podemos saber qué proporción del total de palabras tiene longitud de 5

freq_dist_lengths.freq(5)