# Problema:
Analiza el texto Moby Dick de Herman Melville 1851, que está en el corpus gutenberg incluido en nltk (puedes descargalo de Poliformat: melville-moby_dyck.txt).
Calcula los siguientes resultados, después de eliminar signos de puntuación y stopwords:

*   Cantidad total de tokens.
*   Número medio de tokens por frase.
*   Cantidad total de tokens diferentes (vocabulario).
*   Cantidad total de stems diferentes.
*   Muestre los 10 stems más frecuentes con su frecuencia.

Indique también cuál es el nombre, el verbo y el adjetivo más frecuente en el corpus.

Tendrá que utilizar las siguientes herramientas: un segmentador de oraciones, un tokenizador, una lista de stopwords, un stemmer y un POS tagger.


In [35]:
#Hecho por César Martínez Chico

import nltk
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

from nltk.corpus import stopwords
from nltk import PorterStemmer, sent_tokenize
from nltk.tokenize import word_tokenize
from nltk import pos_tag

from nltk.probability import FreqDist

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


In [45]:
import re
moby_dick = "melville-moby_dick.txt"
with open(moby_dick, 'r') as archivo:
    moby_dick_or = archivo.read().lower()
    patron_puntuacion = r"[^\w\s]"
    moby_dick = re.sub(patron_puntuacion, "", moby_dick_or)

    #a) cantidad de tokens
    tokens = word_tokenize(moby_dick)
    stop_words = set(stopwords.words('english'))
    tokensNoSw = [word for word in tokens if word.lower() not in stop_words]
    tokensCantidad = len(tokensNoSw)
    print("Cantidad de tokens en total: " + str(tokensCantidad))

    #b) cantidad de tokens medio por frase
    frases = sent_tokenize(moby_dick_or)
    tokensFrase = tokensCantidad / len(frases)
    print("Cantidad de tokens media por frase: " + str(tokensFrase))

    #c)cantidad de tokens diferente, vocabulario
    tokensUnicos = set(tokensNoSw)
    print("La cantidad de tokens unicos es: " + str(len(tokensUnicos)))

    #d)Cantidad total de stems diferentes.
    stemmer = PorterStemmer()
    stems = [stemmer.stem(token) for token in tokensNoSw]
    stemsUnicos = len(set(stems))
    print("La cantidad de stems unicos es: " + str(stemsUnicos))

    #e) muestre los stems más frecuentes por frecuencia
    frecuencia_stems = FreqDist(stems)
    stems_mas_frecuentes = frecuencia_stems.most_common(10)
    print("Los stems mas frecuentes son: ")
    for stem, frecuencia in stems_mas_frecuentes:
      print(stem, frecuencia)

    #Indique también cuál es el nombre, el verbo y el adjetivo más frecuente en el corpus.
    frecuencia_pos = FreqDist(tag for word, tag in nltk.pos_tag(tokensUnicos))
    pos_tags = nltk.pos_tag(tokensNoSw)
    nombre = [word for word, tag in pos_tags if tag.startswith('NN')]
    verbo = [word for word, tag in pos_tags if tag.startswith('VB')]
    adjetivo = [word for word, tag in pos_tags if tag.startswith('JJ')]
    nombre = FreqDist(nombre).max()
    verbo = FreqDist(verbo).max()
    adjetivo = FreqDist(adjetivo).max()
    print("El nombre, verbo y adjetivo mas comun son: " + str(nombre) + "  " + str(verbo) + "  " + str(adjetivo))



Cantidad de tokens en total: 108692
Cantidad de tokens media por frase: 11.066177967827326
La cantidad de tokens unicos es: 19832
La cantidad de stems unicos es: 13493
Los stems mas frecuentes son: 
whale 1458
one 919
like 589
upon 565
ship 555
man 499
ahab 492
ye 486
sea 466
seem 459
El nombre, verbo y adjetivo mas comun son: whale  said  whale
