# 트라이(Trie)

- 검색 트리의 일종으로 일반적으로 키가 문자열인, 동적 배열 또는 연관 배열을 저장하는 데 사용되는 정렬된 **트리 자료구조**
- 전형적인 다진 트리(m-ary Tree) 형태를 띤다.
- 자연어 처리(NLP) 분야에서 문자열 탐색을 위한 자료구조로 자주 사용된다.
- 각 문자열의 길이만큼만 탐색하면 원하는 결과를 찾을 수 있다.

**시간복잡도**
- 트라이: 삽입, 탐색, 삭제 모두 정직하게 $ O(|S|) $에 동작한다.
- 이진 검색 트리: $ O(|S| * logN) $
- 해시: $ O(|S|) $ <- 모두 O(1)인 것 같지만, 해시 값을 계산할 때 $ O(|S|) $이 필요하기도 하고, 문자열간의 비교도 발생하기 때문에
    - 단, 해시는 이론적으로 $ O(|S|) $지만 실제로는 충돌에 따라 성능이 저하될 수 있다.

- 이론적인 시간복잡도와는 별개로 실제로 <u>트라이가 해시, 이진 검색 트리에 비해 훨씬 느리다</u>. 일반적인 상황에서는 해시나 이진 검색 트리를 사용하는게 좋으나 트라이의 성질을 사용해야 하는 문제가 여럿 존재한다.

**공간복잡도**
- 좋은 시간복잡도를 가지고 있지만, 트라이는 메모리를 아주 많이 차지한다.

# 기능과 구현

In [97]:
root = 1 # 루트는 1로 고정, 새로 정점이 추가될 때마다 2,3,4 순으로 번호 부여
unused = 2
mx = 10000 * 500 + 5 # 최대 등장 가능한 글자의 수(길이가 최대 500인 문자열이 10000개 들어오는 문제)
chk = [False] * mx # 해당 정점이 문자열의 끝인지 여부를 저장하는 배열
nxt = [[-1] * 26 for _ in range(mx)] # 각 정점에서 자식 정점의 번호(알파벳의 개수 26개), -1: 해당 자식의 정점이 없음

In [106]:
def c2i(c):
    return ord(c) - 97

In [107]:
# insert 함수
def insert(s):
    global unused
    cur = root # 현재 보고 있는 정점
    for c in s:
        if nxt[cur][c2i(c)] == -1: # 자식 정점이 없음
            nxt[cur][c2i(c)] = unused # 새로운 정점 번호 부여
            unused += 1
        cur = nxt[cur][c2i(c)] # 현재 보고 있는 정점을 옮김
    chk[cur] = True

In [115]:
# find 함수
def find(s):
    cur = root
    for c in s:
        if nxt[cur][c2i(c)] == -1: # 존재하지 않는 자식 정점을 만나면 바로 False 반환
            return 0
        cur = nxt[cur][c2i(c)]
    return 1 # chk[cur]

In [109]:
# erase 함수
def erase(s):
    cur = root
    for c in s:
        if nxt[cur][c2i(c)] == -1: # 존재하지 않는 자식 정점을 만남 -> s가 트라이에 없음
            return # 종료
        cur = nxt[cur][c2i(c)]
    chk[cur] = False

---

# 객제지향으로 구현한 트라이

In [117]:
class TrieNode:  # 트라이를 저장할 노드
    def __init__(self):
        self.word = False
        self.children = {}

class Trie:

    def __init__(self):
        self.root = TrieNode() # 루트

    def insert(self, word: str) -> None: # 삽입 메소드
        node = self.root # 루트노드부터 자식 노드가 점점 깊어지면서 문자 단위의 다진 트리 형태
        for char in word:
            if char not in node.children:
                node.children[char] = TrieNode()
            node = node.children[char]
        node.word = True

    def search(self, word: str) -> bool: # 단어 존재 여부 판별 메소드
        node = self.root
        for char in word:
            if char not in node.children:
                return False
            node = node.children[char]
        
        return node.word # 마지막에 word가 True라면 단어가 존재

    def startsWith(self, prefix: str) -> bool: # 해당 문자열로 시작하는 단어가 존재하는지 여부 판별 메소드(접두사)
        node = self.root
        for char in prefix:
            if char not in node.children:
                return False
            node = node.children[char]
        
        return True # node.word를 확인하지 않고, 자식 노드가 존재하는 지 여부만 판별한다.

# 연습문제
- https://www.acmicpc.net/problem/14425
- https://www.acmicpc.net/problem/14426

In [119]:
# BOJ 14425
t = Trie()

n, m = map(int, input().split())
for _ in range(n):
    s = input()
    t.insert(s)

ans = 0
for _ in range(m):
    word = input()
    ans += t.search(word)

print(ans)

5 11
baekjoononlinejudge
startlink
codeplus
sundaycoding
codingsh
baekjoon
codeplus
codeminus
startlink
starlink
sundaycoding
codingsh
codinghs
sondaycoding
startrink
icerink
4


In [120]:
# BOJ 14426
t = Trie()

n, m = map(int, input().split())
for _ in range(n):
    s = input().rstrip()
    t.insert(s)

ans = 0
for _ in range(m):
    word = input().rstrip()
    ans += t.startsWith(word)

print(ans)

5 10
baekjoononlinejudge
startlink
codeplus
sundaycoding
codingsh
baekjoon
star
start
code
sunday
coding
cod
online
judge
plus
7


> 참고: https://blog.encrypted.gg/1059