El programa del ejercicio 3 que calculaba las palabras más utilizadas se puede reescribir de forma mucho más sencilla utilizando un `pandas`.

Para ello, en lugar de devolver un diccionario en la función `words_to_frequencies` se puede devolver una `Series` de Pandas. Más información dentro de las funciones.

In [1]:
import numpy
import pandas

In [2]:
# Leemos el fichero

lyrics = open("data/despacito.txt", "r").read()

In [3]:
def split_into_words(lyrics):
    """
    Split a string into lowercase words, removing all punctuation characters,
    returning the result.
    """
    result = []
    for word in lyrics.lower().split():  # lower() convierte las palabras en minusculas
        word = word.strip(',.;()"!')  # strip() elimina del incio y del final los caracteres que le pasemos
        result.append(word)
    return result

In [9]:
def words_to_frequencies(lyrics):
    """
    Convert words into frequencies. Return a pandas.Series whose keys are the
    words with the frequency as the value
    """
    freqs = {}
    for word in lyrics:
        if word in freqs:
            freqs[word] += 1
        else:
            freqs[word] = 1
        # Alternativa al if anterior
        # freqs[word] = freqs.get(word, 0) + 1
        # Otra alternativa
        # freqs.setdefault(word, 0)
        # freqs[word] += 1
    freqs = pandas.Series(freqs) #Transformamos a serie de pandas

    return freqs

In [10]:
def most_common_words(frequencies):
    """
    Return a tuple containing:
    * The number of occurences of a word in the first tuple element
    * A list containing the words with that frequency
    """
    values = frequencies[:]
    best = max(values)
    words = []
    for word, score in frequencies.items():#items() saca una tupla con los pares índice-valor
        if score == best:
            words.append(word)
    return (best, words)

In [11]:
def get_more_often_user_words(frequencies, threshold=10):
    """
    Return a list of tuples of the words that are used more often, above
    the *optional* threshold. If no threshold is passed, use 10.
    """
    result = []
    freq=frequencies.copy() 
    while True:
        score = most_common_words(freq)
        if score[0] <= threshold:
            break
        for w in score[1]:
            del freq[w]
        result.append(score)
        
    return result
    pass

In [12]:
words_clean = split_into_words(lyrics)

freqs = words_to_frequencies(words_clean)

print("Palabras más frecuentes con más de 10 apariciones.")
print(get_more_often_user_words(freqs))
print("\n")
print("Palabras más frecuentes con más de 10 apariciones.")
print(get_more_often_user_words(freqs, threshold=5))

Palabras más frecuentes con más de 10 apariciones.
[(22, ['que']), (18, ['tu']), (15, ['a']), (12, ['quiero'])]


Palabras más frecuentes con más de 10 apariciones.
[(22, ['que']), (18, ['tu']), (15, ['a']), (12, ['quiero']), (10, ['despacito', 'sube']), (9, ['y', 'de', 'favoritos']), (8, ['te', 'tus', 'pasito', 'poquito']), (6, ['oh', 'el', 'mi'])]
