# Suffix Tree Term



#### Made by Yuliia Hetman

In [2]:
%%time
from multiprocessing import Pool
import re, os, json
from string import digits
import pandas as pd

docIDs = list(range(0, 18))

def delete_sings_digits(content):
    punc = '''!()-'”№[]{};:"\,“«»<>./?@#$%—…^&*_~|–abcdefghijklmnoqprstuvwxyz'''
    content = "".join([ele for ele in content.lower() if ele not in punc])
    table = str.maketrans('', '', digits)
    content = content.translate(table)
    return content


def create_vocabulary(content):    
    raw_content = delete_sings_digits(content)
    vocab = [i.lower() for i in raw_content.split() if i != '']
    return vocab

def read_book(book):
    dirname='../books/'
    with open(dirname + book, 'r', encoding='utf-8') as file:
        text = create_vocabulary(file.read())
    return text

        
def get_vocabulary(dirname='../books/'):
    books = os.listdir(dirname)
    vocabulary = list()
    dictionary = dict()
    memory = 0
    with Pool(8) as p:
        vocabul = p.map(read_book, books)
    for i, book in enumerate(books):
        dictionary[book.replace('.txt', '')] = vocabul[i]
        vocabulary += vocabul[i]
        memory += os.stat(dirname + book).st_size
    return memory, vocabulary, dictionary


memory, vocabulary, dictionary = get_vocabulary()
print(f'Total number of words : {len(vocabulary)}')
print(f'Total number of tokens : {len(set(vocabulary))}')

Total number of words : 708449
Total number of tokens : 94292
CPU times: user 594 ms, sys: 304 ms, total: 898 ms
Wall time: 1.04 s


In [None]:
def check_components(parts, word, state='ordinary'):
    temp = 0
    if state == 'ordinary' and word.find(parts[0]) != 0:
        return False
    if state == 'parts':
        temp = word.find(parts[0])
    for i in range(1, len(parts)):
        ind = word.find(parts[i])
        if temp < ind:
            temp = ind
            continue
        else:
            return False
    return True


def get_intersection(l1, l2):
    return list(set(l1) & set(l2))



def isUkrainian(word):
    ukrainian = [96, 1072, 1073, 1074, 1075, 1076, 1077, 1078, 1079, 1080, 1081, 1082, 1083, 1084, 1085, 1086, 1087, 1088, 1089, 1090, 1091, 1092, 1093, 1094, 1095, 1096, 1097, 1100, 1102, 1103, 1108, 1110, 1111, 1169, 8217]
    for l in word:
        if ord(l) not in ukrainian:
            return False
    return True
       

In [1]:
class TreeNode():
    def __init__(self):
        self.children = {}
        self.last = False
 
 
class Tree():
    def __init__(self):
        self.root = TreeNode()
 
    def insert(self, key):
        node = self.root
        for a in key:
            if not node.children.get(a):
                node.children[a] = TreeNode()
            node = node.children[a]
        node.last = True
 
    def suggestions_recursive(self, node, word, results):
        if node.last:
            results.append(word)
        for a, n in node.children.items():
            self.suggestions_recursive(n, word + a, results)
 
    def find_suggestions(self, key):
        results = list()
        node = self.root
        for a in key:
            if not node.children.get(a):
                return 0, results
            node = node.children[a]
        if not node.children:
            return -1, results
        self.suggestions_recursive(node, key, results)
        return 1, results




In [165]:

class TreeSearchTool():
    def __init__(self, vocabulary):
        self.tree = Tree()
        self.inverse = Tree()
        self.vocabulary = set(vocabulary)
        self.only_ukrainian = list()
        self.only_ukrainian = self.check_vocabulary()
        self.create_tree()
        self.create_inverse_tree()


    def check_vocabulary(self):
        self.only_ukrainian = [k for k in self.vocabulary if isUkrainian(k) == True]


    def create_inverse_tree(self):
        for word in self.vocabulary:
            self.inverse.insert(word[::-1])
            

    def create_tree(self):
        for word in self.vocabulary:
            self.tree.insert(word)
   

    def search_with_one_jocker(self, string, star='last'):
        index_jocker = string.find("*")
        if index_jocker == -1:
            success, suggestions = self.tree.find_suggestions(string)
            return success , [s for s in suggestions if s == string]
        if index_jocker == len(string) - 1:
            return self.tree.find_suggestions(string[:index_jocker])    
        _, versionsStart = self.tree.find_suggestions(string[:index_jocker])
        end = string[string.rfind("*") + 1:]
        _, versionsEnd = self.inverse.find_suggestions(end[::-1])
        versionsEnd = [i[::-1] for i in versionsEnd]
        inter = get_intersection(versionsStart, versionsEnd)
        if star == 'last':
            return 1, self.check_possible_variants(string.split('*'), inter)
        return 1 , self.check_possible_variants(string.split('*'), inter, star='first')

    
    def check_possible_variants(self, parts, possible_res, star='last', state='ordinary'):
        variants = list()
        for word in possible_res:
            if check_components(parts, word, state) == True:
                variants.append(word)
            else:
                continue
        if star == 'first':
            return [i[::-1] for i in variants]
        return variants
    

    def check_jockers(self, string):
        stars = string.count('*')
        parts = [i for i in string.split('*') if i != '']
        if string[0] != '*' and string[-1] == '*' and len(parts) <= stars:
            _, suggestions = self.tree.find_suggestions(string[:string.find('*')])
            return self.check_possible_variants(parts, suggestions)
        elif string[0] == '*' and len(parts) <= stars and string[-1] != '*':
            shorted = string[1:]
            shorted = shorted[::-1]
            _, suggestions = self.inverse.find_suggestions(shorted[:shorted.find('*')])
            return self.check_possible_variants(shorted.split('*'), suggestions, star='first')
        elif string[0] != '*'  and string[-1] != '*' and stars < 2:
            return self.search_with_one_jocker(string, star='last')
        elif string[0] == '*'  and string[-1] == '*':
            suggestions = [i for i in self.vocabulary if i.find(parts[0]) != -1]
            return self.check_possible_variants(parts, suggestions, state='parts')
        else:
            _, suggestions = self.search_with_one_jocker(string)
            return suggestions

## Define Tree

In [166]:
%%time
tree_search_tool = TreeSearchTool(set(vocabulary))

CPU times: user 4.14 s, sys: 95.9 ms, total: 4.24 s
Wall time: 4.23 s


## Check search with different amount and positions of jockers

In [167]:
%%time
found_results = tree_search_tool.check_jockers('*ті*ні*')
print(found_results)

['тітчиній', 'непотішнії', 'втішні', 'тісні', 'тіснім', 'тіснішим', 'цвітінні', 'тремтінні', 'затісні', 'тіні', 'стіні', 'ватікані', 'натільній', 'постійній', 'невтішні', 'тіснині', 'палахтінні', 'бастіоні', 'тісніше', 'їстівні', 'отінені', 'постійність', 'тісній', 'постійні', 'затіненій', 'сутіні']
CPU times: user 42.3 ms, sys: 0 ns, total: 42.3 ms
Wall time: 41.4 ms


In [168]:
%%time
found_results = tree_search_tool.check_jockers('ті*ні*')
print(found_results)

['тітчиній', 'тіснині', 'тісні', 'тіснім', 'тіснішим', 'тісніше', 'тісній', 'тіні']
CPU times: user 486 µs, sys: 7 µs, total: 493 µs
Wall time: 486 µs


In [169]:
%%time
found_results = tree_search_tool.check_jockers('ті*ні')
print(found_results)

(1, ['тіснині', 'тісні', 'тіні'])
CPU times: user 5.36 ms, sys: 0 ns, total: 5.36 ms
Wall time: 5.16 ms


In [170]:
%%time
found_results = tree_search_tool.check_jockers('ті*')
print(found_results)

['ті', 'тіштеся', 'тішать', 'тішаться', 'тішачись', 'тішити', 'тішитися', 'тішитись', 'тішить', 'тішила', 'тішилася', 'тішилась', 'тішились', 'тішилися', 'тішило', 'тішив', 'тішився', 'тіл', 'тільця', 'тілько', 'тількотілько', 'тільки', 'тілький', 'тількино', 'тількитільки', 'тількі', 'тілу', 'тіло', 'тілом', 'тілиста', 'тіла', 'тілами', 'тілець', 'тілі', 'тіпала', 'тіпалась', 'тіпало', 'тіпалося', 'тіпалось', 'тіпає', 'тіпається', 'тіпаєтьсябється', 'тіпався', 'тіпнувся', 'тітчиній', 'тітчину', 'тітчиної', 'тітко', 'тіткою', 'тітки', 'тітка', 'тітку', 'тіточка', 'тітонька', 'тітонько', 'тітусю', 'тітці', 'тівкнула', 'тіверіадо', 'тіверіаді', 'тіверіаду', 'тіверіади', 'тіста', 'тістечка', 'тістечками', 'тістечко', 'тістечком', 'тістечок', 'тісті', 'тісто', 'тісних', 'тісниною', 'тіснини', 'тіснині', 'тіснину', 'тісний', 'тісно', 'тісної', 'тісного', 'тісноті', 'тіснота', 'тісноти', 'тісноту', 'тісна', 'тісні', 'тіснім', 'тіснішим', 'тісніше', 'тісній', 'тісненьке', 'тісну', 'тіє', 'тіє

In [171]:
%%time
found_results = tree_search_tool.check_jockers('*ні*')
print(found_results)

['нічні', 'найріжніші', 'приготовані', 'заселені', 'соловїні', 'сильніша', 'екрані', 'покиненім', 'німіє', 'неуважні', 'построєнія', 'глушині', 'незапашні', 'нічиї', 'пристані', 'піднісши', 'гнівили', 'ковнірі', 'семенівка', 'скаженіє', 'затьмарені', 'нічне', 'недоречні', 'ізюбрині', 'гнівайтесь', 'пломеніють', 'закутані', 'прихильністю', 'поцюкані', 'сохатині', 'демонічною', 'туманіти', 'неприсутність', 'маніжилась', 'видніша', 'безрадісні', 'ніжно', 'німецького', 'прогнівайся', 'шаленій', 'жовнірське', 'порепані', 'дніпру', 'стемніло', 'відповідні', 'заломлені', 'бідніє', 'бляшаній', 'однієї', 'денні', 'похмурніє', 'годовані', 'льодівні', 'непманів', 'іскреннії', 'проектовані', 'неполохані', 'ленінградських', 'відданістю', 'смутніший', 'знімається', 'гнів', 'обнімалась', 'давніша', 'довжині', 'мліютьобнімають', 'закроєні', 'голоснішим', 'ніби', 'вершині', 'івоніку', 'машиністів', 'неграмотні', 'обсмалені', 'конечністю', 'позначені', 'ясніші', 'засліплені', 'лоні', 'віднині', 'сердечн