# **Desafio:**
Implemente um programa em Python (Python notebook) que constrói um dicionário de termos de um documento (mínimo 1000 palavras) com a frequência de cada termo permitindo confirmar a lei de Zipf para o documento selecionado.  

Comentários:




código adaptado de: https://github.com/CodeDrome/zipfs-law-python

In [23]:
import collections

In [24]:
# Cria uma lista de dicionários com as palavras mais frequentes, 
# suas frequencias e outros dados Zipfian:
def generate_zipf_table(text, top):

    text = _remove_punctuation(text)
    text = text.lower()
    top_word_frequencies = _top_word_frequencies(text, top)
    zipf_table = _create_zipf_table(top_word_frequencies)
    return zipf_table

In [25]:
# Remove caracteres especiais do texto:
def _remove_punctuation(text):

    chars_to_remove = "!\"#$%&'()*+,-./:;<=>?@[\]^_`{|}~0123456789"
    tr = str.maketrans("", "", chars_to_remove)
    return text.translate(tr)

In [26]:
# cria uma lista de tuplas contendo as palavras mais frequentes em ordem descendente:
# Com nenhum argumento o split() separa a string
# por 1 por uma ou mais instância de espaços em branco.
# Cria uma instancia collections.Counter por iteração, no caso o texto de Machado de Assis.
# most_common() fornece uma lista de tuplas contendo palavras e suas frequencias.
# na ordem de frequencia descendente:
def _top_word_frequencies(text, top):
    words = text.split()
    word_frequencies = collections.Counter(words)
    top_word_frequencies = word_frequencies.most_common(top)
    return top_word_frequencies

In [27]:
# Fornece uma lista criada por _top_word_frequencies e insere numa lista
# de dicionários, com os dados Zipfian:
def _create_zipf_table(frequencies):

    zipf_table = []
    top_frequency = frequencies[0][1]

    for index, item in enumerate(frequencies, start=1):

        relative_frequency = "1/{}".format(index)
        zipf_frequency = top_frequency * (1 / index)
        difference_actual = item[1] - zipf_frequency
        difference_percent = (item[1] / zipf_frequency) * 100

        zipf_table.append({"word": item[0],
                           "actual_frequency": item[1],
                           "relative_frequency": relative_frequency,
                           "zipf_frequency": zipf_frequency,
                           "difference_actual": difference_actual,
                           "difference_percent": difference_percent})

    return zipf_table


In [28]:
# Imprime a lista criada por generate_zipf_table no formato de tabela
# com colunas e cabeçalhos
def print_zipf_table(zipf_table):



    width = 80

    print("-" * width)
    print("|Rank|    Word    |Actual Freq | Zipf Frac  | Zipf Freq  |Actual Diff |Pct Diff|")
    print("-" * width)

    format_string = "|{:4}|{:12}|{:12.0f}|{:>12}|{:12.2f}|{:12.2f}|{:7.2f}%|"

    for index, item in enumerate(zipf_table, start=1):

        print(format_string.format(index,
                                   item["word"],
                                   item["actual_frequency"],
                                   item["relative_frequency"],
                                   item["zipf_frequency"],
                                   item["difference_actual"],
                                   item["difference_percent"]))

    print("-" * width)  


In [29]:
# Função que abre o arquivo de texto e executa as demais funções:
def main():
    try:

        f = open("domCasmurro.txt", "r")
        text = f.read()
        f.close()

        zipf_table = generate_zipf_table(text, 1000)

        print_zipf_table(zipf_table)

    except IOError as e:

        print(e)


main()

--------------------------------------------------------------------------------
|Rank|    Word    |Actual Freq | Zipf Frac  | Zipf Freq  |Actual Diff |Pct Diff|
--------------------------------------------------------------------------------
|   1|que         |        2686|         1/1|     2686.00|        0.00| 100.00%|
|   2|a           |        2488|         1/2|     1343.00|     1145.00| 185.26%|
|   3|e           |        2189|         1/3|      895.33|     1293.67| 244.49%|
|   4|de          |        1970|         1/4|      671.50|     1298.50| 293.37%|
|   5|o           |        1668|         1/5|      537.20|     1130.80| 310.50%|
|   6|não         |        1523|         1/6|      447.67|     1075.33| 340.21%|
|   7|um          |         770|         1/7|      383.71|      386.29| 200.67%|
|   8|é           |         706|         1/8|      335.75|      370.25| 210.28%|
|   9|os          |         661|         1/9|      298.44|      362.56| 221.48%|
|  10|da          |         

# Nova seção