# Configuración inicial

* En este notebook vamos a descargar el dataset `book` que contiene muchos libros en ingles en formato de texto tokenizado, de los cuales vamos a hacer procesamiento.

In [None]:
import nltk
nltk.download('book')
from nltk.book import *
import matplotlib.pyplot as plt
import numpy as np

# Analizando un texto

In [5]:
# escogemos text1 que es el famoso libro Moby Dick
text1


<Text: Moby Dick by Herman Melville 1851>

In [6]:
text1.tokens[:10]

['[',
 'Moby',
 'Dick',
 'by',
 'Herman',
 'Melville',
 '1851',
 ']',
 'ETYMOLOGY',
 '.']

In [7]:
len(text1)

260819

## Medida de riqueza lexica en un texto: 
$$ R_l = \frac{\text{total de palabras únicas}}{\text{total de palabras}} = \frac{\text{longitud del vocabulario}}{\text{longitud del texto}}$$ 

In [11]:
# Primero realizamos la construcción de un vocabulario (identificamos las palabras unicas que hay en el libro)
# https://docs.python.org/2/library/sets.html

# el voculario es la lista de palabras unicas de un lenguaje

vocabulario = list(set(text1))
vocabulario[1000:1050]


['Forthwith',
 'unaided',
 'inactive',
 'surprise',
 'desk',
 'interpenetrate',
 'dearly',
 'lubber',
 'ditchers',
 'ladies',
 'spirally',
 'pyres',
 'buries',
 'Lais',
 'immensely',
 'ranks',
 'consign',
 'Northern',
 'stately',
 'employed',
 'Blanket',
 'contingent',
 'green',
 'onward',
 'wasps',
 'respectively',
 'soladoes',
 'placed',
 'corkscrew',
 'twiske',
 'pox',
 'murderer',
 'brigs',
 'elder',
 'Usually',
 'philosophical',
 'trencher',
 '99',
 'breadfruit',
 'jobs',
 'czar',
 'conveniences',
 'justify',
 'encamped',
 'analogies',
 'caressed',
 'centralization',
 'handling',
 'WHALING',
 'livingly']

In [12]:
vocabulario = sorted(set(text1))
vocabulario[1000:1050]


['Crew',
 'Crish',
 'Crockett',
 'Cross',
 'Crossed',
 'Crossing',
 'Crotch',
 'Crowding',
 'Crown',
 'Crozetts',
 'Cruelty',
 'Cruising',
 'Cruppered',
 'Crusaders',
 'Crushed',
 'Crying',
 'Cuba',
 'Curious',
 'Curse',
 'Cursed',
 'Curses',
 'Cussed',
 'Customs',
 'Cut',
 'Cutter',
 'Cutting',
 'Cuvier',
 'Cyclades',
 'Czar',
 'D',
 'DAGGOO',
 'DAM',
 'DANCE',
 'DANCING',
 'DANIEL',
 'DANISH',
 'DARKENS',
 'DARWIN',
 'DAVENANT',
 'DEAD',
 'DEATH',
 'DEBELL',
 'DECK',
 'DEL',
 'DESTROYED',
 'DEVIL',
 'DICTIONARY',
 'DID',
 'DIGNITY',
 'DISCOVERS']

In [13]:
rl = len(vocabulario) / len(text1)
rl

0.07406285585022564

In [14]:
len(set(text1))

19317

In [16]:
def lexical_richness(text):
    return len(set(text)) / len(text)

In [17]:
lexical_richness(text1)


0.07406285585022564

In [18]:
lexical_richness(text2)


0.04826383002768831

In [19]:
def word_percentage(word, text):
    return 100 * text.count(word) / len(text)

In [20]:
word_percentage('monster', text1)


0.018786974875296663

In [21]:
word_percentage('the', text1)


5.260736372733581

In [23]:
text1.count('monster')


49

In [24]:
text1.count('the')


13721