In [73]:
import re
import difflib

def get_words(filename):
     
    with open(filename, encoding="utf8") as file:
        text = file.read()
    
    text = re.sub('[^\w]', ' ', text).lower()
    words = text.split()
    return words
 
def get_words_dict(words):
    words_dict = dict()
 
    for word in words:
        if len(word) <= 2 : continue
        if word in words_dict:
            words_dict[word] = words_dict[word] + 1
        else:
            words_dict[word] = 1
    return sorted(words_dict.items(), key=lambda x: len(x[0]))

def fold_words(words_dict):
    new_dict = dict()
    
    for word, number in words_dict:
        new_dict = add_item(word, number, new_dict)
    return new_dict

def similarity(a, b):
  matcher = difflib.SequenceMatcher(None, a, b)
  return matcher.ratio()

def add_item(word, number, new_dict):
    add = True
    for old_word in list(new_dict):
        #if word in new_dict : continue
        test = similarity(old_word, word) 
        #test =1
        is_close = distance(old_word, word)
        if  (is_close and test >= 0.8) and add:
            new_dict[old_word]['count'] += number
            new_dict[old_word]['list'].append(word)
            add = False
    if add: new_dict[word] = {'count': number, 'list': [word]}
        
    return new_dict

def distance(a, b):
    "Calculates the Levenshtein distance between a and b."
    n, m = len(a), len(b)
    if n > m:
        a, b = b, a
        n, m = m, n

    current_row = range(n+1) 
    for i in range(1, m+1):
        previous_row, current_row = current_row, [i]+[0]*n
        for j in range(1,n+1):
            #изменен вес на удаление
            add, delete, change = previous_row[j]+1, current_row[j-1]+2, previous_row[j-1]
            if a[j-1] != b[i-1]:
                change += 1
            current_row[j] = min(add, delete, change)
    return (m/2)>current_row[n] and n != m
    
 
 
def main(filename):
    words = get_words(filename)
    words_dict = get_words_dict(words)
    words_dict = fold_words(words_dict)
    print("Кол-во слов: %d" % len(words))
    print("Кол-во уникальных слов: %d" % len(words_dict))
    print("Все использованные слова:")
    for word in sorted(words_dict.items(), key=lambda i: i[1]["count"], reverse=True):
         print(word)
            
main('Data/mytext.txt')

Кол-во слов: 22882
Кол-во уникальных слов: 3045
Все использованные слова:
('что', {'count': 438, 'list': ['что', 'чтоб']})
('сказал', {'count': 381, 'list': ['сказал', 'сказала', 'сказали']})
('был', {'count': 297, 'list': ['был', 'была', 'были', 'было']})
('его', {'count': 294, 'list': ['его', 'него', 'чего']})
('гуннар', {'count': 275, 'list': ['гуннар', 'гуннару', 'гуннара', 'гуннаре', 'гуннаров', 'гуннаром']})
('хрут', {'count': 232, 'list': ['хрут', 'хрута', 'хруте', 'хруту', 'хрутом', 'хрутов']})
('они', {'count': 218, 'list': ['они', 'одни']})
('она', {'count': 204, 'list': ['она']})
('это', {'count': 200, 'list': ['это', 'этой', 'этом', 'этот']})
('все', {'count': 172, 'list': ['все', 'всем', 'всех', 'всей']})
('ему', {'count': 139, 'list': ['ему', 'нему', 'чему']})
('хёскульд', {'count': 123, 'list': ['хёскульд', 'хёскульда', 'хёскульду', 'хёскульдов', 'хёскульдом', 'хёскульдова', 'хёскульдовом']})
('халльгерд', {'count': 121, 'list': ['халльгерд', 'халлльгерд']})
('просил', {

('недолюбливают', {'count': 1, 'list': ['недолюбливают']})
('одарим', {'count': 1, 'list': ['одарим']})
('скарв', {'count': 1, 'list': ['скарв']})
('битву', {'count': 1, 'list': ['битву']})
('судьбе', {'count': 1, 'list': ['судьбе']})
('вывел', {'count': 1, 'list': ['вывел']})
('учтивый', {'count': 1, 'list': ['учтивый']})
('трудном', {'count': 1, 'list': ['трудном']})
('погода', {'count': 1, 'list': ['погода']})
('закинул', {'count': 1, 'list': ['закинул']})
('нанесенные', {'count': 1, 'list': ['нанесенные']})
('заботу', {'count': 1, 'list': ['заботу']})
('трогать', {'count': 1, 'list': ['трогать']})
('мелочей', {'count': 1, 'list': ['мелочей']})
('придворные', {'count': 1, 'list': ['придворные']})
('безрыбный', {'count': 1, 'list': ['безрыбный']})
('подъехав', {'count': 1, 'list': ['подъехав']})
('халлькель', {'count': 1, 'list': ['халлькель']})
('громкий', {'count': 1, 'list': ['громкий']})
('уважаемые', {'count': 1, 'list': ['уважаемые']})
('убьют', {'count': 1, 'list': ['убьют']})