# Trie(트라이)

## Trie란?

* 검색을 뜻하는 re**trie**val에서 온 단어이다.
* Prefix tree이다.
* 트리(Tree) 자료 구조의 일종이다.
* 어떤 문자열을 검색할 때 시간 복잡도는 O(m)이다.(m : 문자열의 최대 길이)
* 문자열을 검색하는 데 특화된 자료 구조이다.

## Trie 특징

* 검색이 빠르다.
* 문자열을 키(Key)로 하는 동적 집합이나 연관 배열로 사용된다.
* 노드는 키를 갖지 않는 대신 노드의 위치가 키 역할을 한다.
* root가 빈 스트링이다.
* 공간 복잡도가 단점이다.
    * 메모리는 O(포인터 크기 x 포인터 배열 개수 x 트라이에 존재하는 총 노드의 개수)이다.

## Trie 구현

### Node 구현

1. key는 단어의 글자 하나를 담는 데 이용
    * 영어라면 알파벳만 들어갈 수 있음
2. data는 마지막 글자를 나타내는 flag로 원래 True/False로 구분할 수 있지만 마지막 글자인 경우 단어 전체를 data 필드에 저장하고 아닌 경우는 None로 둔다.
    * Python의 경우 P > y > t > h > o > n에서 마지막 글자인 n 노드의 data에만 'Python'이 들어가고 그 외 노드의 data에는 None이다.

In [None]:
class Node(object):
    """
    A node that consists of a trie.
    """
    
    def __init__(self, key, data=None):
        self.key = key          # 단어 글자, character
        self.data = data        # 마지막 글자를 나타내는 flag, string or None
        self.children = {}     # 해당 char에서 다른 char로 이어지는 children_char(key)와 Node(value)

### Trie 구현

1. 삽입 : insert(string) - 트라이에 문자열 삽입
    1. 삽입하려는 첫 글자가 root의 child로 저장되어있으면 해당 child로 내려간다.
        * 없다면 첫 글자를 root의 child로 저장한다.
    2. 동일한 문자가 있을 경우 다음 글자로 내려가고, 없을 경우 새로운 문자를 child의 sibling으로 삽입한다.
    3. 맨 마지막 글자를 체크 또는 삽입할 때까지 반복한다.
2. 탐색 : search(string) - 주어진 단어 string이 트라이에 존재하는지 여부 반환
3. starts_with(prefix) - 주어진 prefix로 시작하는 단어들을 BFS로 트라이에서 찾아 리스트 형태로 반환

In [None]:
class Trie(object):
    def __init__(self):
        self.head = Node(None)
        
    
    def insert(self, string):
        curr_node = self.head
        
        for char in string:
            if char not in curr_node.children:
                curr_node.children[char] = Node(char)
                
            curr_node = curr_node.children[char]
            
        
        curr_node.data = string     # string의 마지막 글자면 data에 문자열(string) 전체를 저장
        
        
    def search(self, string):
        curr_node = self.head
        
        for char in string:
            if char in curr_node.children:
                curr_node = curr_node.children[char]
            else:
                return False
        
        if curr_node.data != None:    # string의 마지막 글자일 때 data가 있다면 trie에 존재
            return True
        
        
    def starts_with(self, prefix):
        curr_node = self.head
        result = []
        subtrie = None
        
        for char in prefix:
            if char in curr_node.children:    # trie에서 prefix 찾기
                curr_node = curr_node.children[char]
                subtrie = curr_node    # prefix의 마지막 글자 노드를 subtrie로 설정
            else:
                return None
            
        que = list(subtrie.children.values())   # bfs로 prefix subtrie를 순회하며 data가 있는 노드(완전한 단어)를 찾음
        while que:
            curr = que.pop()
            if curr.data != None:
                result.append(curr.data)
            que += list(curr.children.values())
            
        return result

## Trie 코드

In [1]:
class Node(object):
    """
    A node that consists of a trie.
    """
    
    def __init__(self, key, data=None):
        self.key = key          # 단어 글자, character
        self.data = data        # 마지막 글자를 나타내는 flag, string or None
        self.children = {}     # 해당 char에서 다른 char로 이어지는 children_char(key)와 Node(value)
        
        
class Trie(object):
    def __init__(self):
        self.head = Node(None)
        
    
    def insert(self, string):
        curr_node = self.head
        
        for char in string:
            if char not in curr_node.children:
                curr_node.children[char] = Node(char)
                
            curr_node = curr_node.children[char]
            
        
        curr_node.data = string     # string의 마지막 글자면 data에 문자열(string) 전체를 저장
        
        
    def search(self, string):
        curr_node = self.head
        
        for char in string:
            if char in curr_node.children:
                curr_node = curr_node.children[char]
            else:
                return False
        
        if curr_node.data != None:    # string의 마지막 글자일 때 data가 있다면 trie에 존재
            return True
        
        
    def starts_with(self, prefix):
        curr_node = self.head
        result = []
        subtrie = None
        
        for char in prefix:
            if char in curr_node.children:    # trie에서 prefix 찾기
                curr_node = curr_node.children[char]
                subtrie = curr_node    # prefix의 마지막 글자 노드를 subtrie로 설정
            else:
                return None
            
        que = list(subtrie.children.values())   # bfs로 prefix subtrie를 순회하며 data가 있는 노드(완전한 단어)를 찾음
        while que:
            curr = que.pop()
            if curr.data != None:
                result.append(curr.data)
            que += list(curr.children.values())
            
        return result

In [2]:
trie = Trie()

In [3]:
trie.insert('python')

In [4]:
trie.insert('pytorch')

In [5]:
trie.insert('pyro')

In [6]:
trie.search('python')

True

In [7]:
trie.search('pythons')

False

In [8]:
trie.starts_with('py')

['pyro', 'pytorch', 'python']