После визуализации процесса токенизации слов с помощью конечного автомата, мы переходим к использованию префиксных деревьев (trie), что позволяет нам ещё более глубоко анализировать и оптимизировать поиск и обработку слов в больших текстовых корпусах. 

Префиксное дерево ускоряет поиск слов по начальным буквам или фрагментам, обеспечивая эффективную и точную обработку языковых данных, что особенно важно при работе с агглютинативными языками и комплексными морфологическими структурами.

In [9]:
with open('../data/processed/word_freqs/freq_1000000_oshhamaho.txt') as f:
    words = f.read().split('\n')

In [10]:
import ahocorasick
trie = ahocorasick.Automaton(key_type="str", value_type="int")

In [11]:
for id, word in enumerate(sorted(words)):
    trie.add_word(word, id)

trie.make_automaton()

In [12]:
list(trie.keys('къыгурыIуэртэкъым', '?', ahocorasick.MATCH_AT_MOST_PREFIX))

['к',
 'къ',
 'къы',
 'къыгурыIуэ',
 'къыгурыIуэр',
 'къыгурыIуэрт',
 'къыгурыIуэртэкъым']

In [13]:
list(trie.keys('къы???тэкъым', '?', ahocorasick.MATCH_AT_LEAST_PREFIX))

['къыдэжтэкъыми', 'къыдиттэкъым']

In [14]:
trie.longest_prefix('къыгурыIуэртэкъыми')

18