### We will create some word counters for text files.

In [40]:
def custom_dict_print(d,n=20):
    """
    Visualisation tool.
    Function is printing common python dictionary with convention:
        ...
        key2 -> value2
        key3 -> value3
        ...
    where keys are SORTED by values.

    :param dict d: any dictionary with sortable values, best to be ints
    :param int n: how many keys should function print. If None - all keys are printed.
    """
    if n is None:
        n = len(d.keys())
    sorted_keys = sorted(d, key=d.get,reverse=True)
    m = max([len(key) for key in sorted_keys])
    j = 0
    for key in sorted_keys:
        print(key.ljust(m), '->', d[key])
        j+=1
        if j >= n:
            break

def get_words_frequency(text):
    """
    Creates dictionary of word frequency in text.
    Omits whitespaces, punctuation.
    Case insensitive.

    :param str text: text to analyse, might not work with some obscure ascii signs
    """
    inter = "\\/ \"'_+-—!@#%^&*.,;:[]()<>{}|\t"
    result = {}
    text = text.replace("\n"," ").replace("\r"," ")
    words = text.split(" ")
    words = [word.strip(inter).lower() for word in words]
    
    for word in words:
        if len(word)!=0:
            if word in result.keys():
                result[word]+=1
            else:
                result[word]=1
    return result

#### We will test those functions on some Krzysztof Krawczyk's song.

In [41]:

test_song_text = """
Na zewnątrz mgła, tylko ziąb i deszcz
A dla mnie świat w ciepłym świetle świec
Powietrze ma elektryczny smak
Chciałbym tak trwać nawet tysiąc lat
Bo jesteś Ty Znów przy mnie budzisz się
Bo jesteś Ty I wciąż czuję, że...
Bo jesteś Ty Cóż więcej mógłbym chcieć?
Bo jesteś tu I proszę zostań już
Ja chciałbym tak zawsze biec pod wiatr
Nie liczyć dni, ciągle zmieniać twarz
Sprawić by czas wciąż omijał mnie
Wszystko to już dziś nie liczy się
Bo jesteś Ty Zaczynasz ze mną dzień
Bo jesteś wciąż Gdy zaczyna się noc
Już wszystko mam Cóż więcej mógłbym chcieć?
Bo jesteś tu I zawsze tu bądź
Bo jesteś Ty Znów przy mnie budzisz się
Bo jesteś Ty I wciąż czuję, że...
Bo jesteś Ty Cóż więcej mógłbym chcieć?
Bo jesteś tu I proszę zostań już Bo jesteś Ty...
"""


In [42]:
song_dict = get_words_frequency(test_song_text)
custom_dict_print(song_dict)

bo          -> 12
jesteś      -> 12
ty          -> 8
i           -> 6
mnie        -> 4
się         -> 4
wciąż       -> 4
tu          -> 4
już         -> 4
cóż         -> 3
więcej      -> 3
mógłbym     -> 3
chcieć?     -> 3
chciałbym   -> 2
tak         -> 2
znów        -> 2
przy        -> 2
budzisz     -> 2
czuję       -> 2
że          -> 2


## Zipf Law

https://en.wikipedia.org/wiki/Zipf%27s_law

In [43]:
def get_magnitude(max_in,max_out,divisor=2):
    """
    Function calculates scale, to divide max_in, so that
    max_out is bigger.
    Used if visualisation would excede print line limit.

    :param int max_in:
    :param int max_out:
    :param int divisor:
    """
    result = 1
    while max_in > max_out:
        max_in = max_in // divisor
        result *= divisor
    return result

def zipf_ilustration(d, n = 10, screen_width = 120):
    """
    Function prints zipf law visualisation, for given text.

    :param dict or text d: word frequency dictionary of some text, or text itself
    :param int n: number of positions to print
    :param int screen_width: 
    """
    if type(d) == str:
        d = get_words_frequency(d)
        
    if type(d) == dict:

        sorted_keys = sorted(d, key=d.get,reverse=True)
        sorted_keys = sorted_keys[:n]
        max_word_len = max([len(key) for key in sorted_keys[:n]])
        max_val = max(d.values())
        max_bar_len = screen_width - max_word_len
        div = get_magnitude(max_val,max_bar_len)
        
        for key in sorted_keys:
            print(key.ljust(max_word_len,' '), '*' * (d[key] // div))

## Visualisation of Zipf Law on text of a song and Ulysses.

In [44]:
zipf_ilustration(test_song_text)

bo     ************
jesteś ************
ty     ********
i      ******
mnie   ****
się    ****
wciąż  ****
tu     ****
już    ****
cóż    ***


In [46]:
with open('data/ulysses.txt','r') as file:
    ulysses = file.read()
    zipf_ilustration(ulysses, 15)

the  ********************************************************************************************************************
of   ***************************************************************
and  ********************************************************
a    **************************************************
to   **************************************
in   **************************************
he   *******************************
his  **************************
i    ********************
that *******************
with *******************
it   *****************
was  ****************
on   ****************
for  ***************
