После визуализации процесса токенизации слов с помощью конечного автомата, мы переходим к использованию префиксных деревьев (trie), что позволяет нам ещё более глубоко анализировать и оптимизировать поиск и обработку слов в больших текстовых корпусах. 

Префиксное дерево ускоряет поиск слов по начальным буквам или фрагментам, обеспечивая эффективную и точную обработку языковых данных, что особенно важно при работе с агглютинативными языками и комплексными морфологическими структурами.

In [1]:
with open('../data/processed/word_freqs/freq_1000000_oshhamaho.txt') as f:
    words = f.read().split('\n')

In [2]:
import ahocorasick
trie = ahocorasick.Automaton(key_type="str", value_type="int")

In [3]:
for id, word in enumerate(sorted(words)):
    trie.add_word(word, id)

trie.make_automaton()

In [4]:
list(trie.keys('къыгурыIуэртэкъым', '?', ahocorasick.MATCH_AT_MOST_PREFIX))

['к',
 'къ',
 'къы',
 'къыгурыIуэ',
 'къыгурыIуэр',
 'къыгурыIуэрт',
 'къыгурыIуэртэкъым']

In [47]:
def stem_word(word, trie):
    prefixes = list(trie.keys(word, '?', ahocorasick.MATCH_AT_MOST_PREFIX))
    if not prefixes:
        return word
    
    print(prefixes)
    avg_length = sum(len(p) for p in prefixes) / len(prefixes)
    
    stems = [p for p in prefixes if len(p) > avg_length][:-1]
    return stems

print(stem_word('къыщIыщIэтIысхьар', trie))

['к', 'къ', 'къы', 'къыщI', 'къыщIыщIэтIысхьар']
[]


In [5]:
list(trie.keys('къы???тэкъым', '?', ahocorasick.MATCH_AT_LEAST_PREFIX))

['къыдэжтэкъыми', 'къыдиттэкъым']

In [6]:
trie.longest_prefix('къыгурыIуэртэкъыми')

18

In [28]:
from tqdm import tqdm
from collections import Counter

cnt = Counter()

for word in tqdm(sorted(words)):
    cnt.update(list(trie.keys(word, '?', ahocorasick.MATCH_AT_MOST_PREFIX))[3:])

100%|██████████| 483338/483338 [00:00<00:00, 659492.42it/s]


In [29]:
most_common_words = sorted([(word, freq)  for word, freq in cnt.items() if 5 < freq < 200], key=lambda x: x[1], reverse=True)

In [30]:
most_common_words

[('зимы', 197),
 ('щыгъу', 197),
 ('Хьэж', 196),
 ('хъуа', 196),
 ('тхылъ', 194),
 ('гъун', 190),
 ('къэпщ', 190),
 ('хьэщ', 190),
 ('джэд', 189),
 ('дахэ', 188),
 ('екIуэ', 188),
 ('умыгъ', 188),
 ('кIэщ', 187),
 ('мыгъу', 187),
 ('ящIэ', 187),
 ('кърах', 186),
 ('къалэ', 183),
 ('Гъуэ', 182),
 ('кIэщI', 179),
 ('насып', 177),
 ('Хьэт', 176),
 ('жиIэ', 174),
 ('къуи', 172),
 ('илъэс', 170),
 ('къур', 165),
 ('хъун', 165),
 ('Къуэ', 164),
 ('ищIэ', 164),
 ('щхьэху', 164),
 ('кIуэд', 163),
 ('джэгу', 162),
 ('къекIуэ', 160),
 ('хуагъэ', 160),
 ('щыхуэ', 160),
 ('уэрэ', 159),
 ('гъэщ', 157),
 ('гъущ', 156),
 ('зауэ', 156),
 ('нэщхъ', 156),
 ('ныбжьэгъу', 155),
 ('хьэлэ', 155),
 ('Хьэм', 152),
 ('къыдэх', 152),
 ('зэщхь', 151),
 ('игъэщ', 151),
 ('лэжьа', 151),
 ('къуажэ', 150),
 ('къищI', 149),
 ('къыхэкI', 149),
 ('уэрэд', 149),
 ('зэрыIу', 148),
 ('нэгъу', 148),
 ('къэщ', 147),
 ('хуэхъу', 147),
 ('къалъы', 146),
 ('щIэпх', 146),
 ('илъа', 144),
 ('къэув', 144),
 ('лъэщ', 144),
 ('Къуа

In [31]:
len(most_common_words)

14227