# 트라이 (Trie)

`-` 참고: https://en.wikipedia.org/wiki/Trie

## 전설

- 문제 출처: [백준 19585번](https://www.acmicpc.net/problem/19585)

`-` 단순하게 생각하면 팀명에 대해 모든 색상을 순회하면서 해당 색상으로 시작하는지 판단하고 나머지가 닉네임인지 판단하면 된다

`-` 그런데 이렇게 하면 최악의 경우 하나의 팀명에 대해 모든 색상을 순회해야 한다

`-` 팀명이 색상으로 시작하는지 판단하려면 인덱싱을 해야하는데 이는 색상의 길이를 $L_c$라고 할 때 $O(L_c)$의 시간 복잡도를 가진다

`-` 이를 모든 색상에 대해 반복해야 하므로 $O(L_c C)$이고 모든 팀에 대해 수행하는 것은 $O(QL_cC)$이다

`-` $Q$는 최대 $20000$, $L_c$는 최대 $1000$, $C$는 최대 $4000$이므로 제한 시간 안에 통과할 수 없다

`-` 팀명을 한 번만 훑어서 색상으로 시작하는지 판단할 수 있어야 한다

`-` 색상 딕셔너리를 만들 때 단순히 딕셔너리에 해당 색상을 넣지 않고 다른 방법을 사용할 것이다

`-` 색상의 $i$번째 문자를 $s_i$라고 할 때 $s_1$부터 시작하여 딕셔너리에 접근할 것이다

`-` 딕셔너리 $d$에 $s_1$이 있는지 판단한다

`-` 있다면 $d[s_1]$으로 가서 $s_2$에 대해 위의 작업을 반복한다

`-` 만약 없다면 $d[s_1]$을 빈 딕셔너리로 초기화한다

`-` 위의 자료구조를 활용하면 팀명을 한 번만 훑어서 색상으로 시작하는지 판단할 수 있고 이는 $O(L_c)$이다

`-` 그런데 색상으로 시작하는지 판단하는게 끝이 아니고 닉네임으로 끝나는지도 판단해야 한다

`-` 닉네임에 대해 위의 방법을 적용하여 위의 자료구조를 만들자

`-` 단, 닉네임으로 끝나는지 판단하는 것이므로 닉네임은 뒤에서부터 시작해야 한다

`-` 이제 길이가 $L_q$인 팀명이 입력으로 들어온다고 해보자

`-` 팀명을 앞에서부터 한 번 훑어서 색상으로 시작하는지 판단하고 만약 색상으로 시작한다면 해당 색상의 길이를 색상 집합에 넣는다

`-` 팀명을 뒤에서부터 한 번 훑어서 닉네임으로 끝나는지 판단하고 만약 닉네임으로 끝난다면 해당 닉네임의 길이를 $L_n$이라고 하자

`-` 색상 집합에 $L_q - L_n$이 존재한다면 해당 팀명은 색상으로 시작하고 이어서 닉네임으로 끝나는 것이므로 전설에 따라 대회에서 수상할 수 있다

`-` 색상 트라이를 만드는데 $O(L_c C)$이고 닉네임의 개수를 $N$이라 하면 닉네임 트라이를 만드는데 $O(L_n N)$이다

`-` 팀명이 색상으로 시작하는지 판단하는데 $O(L_c)$이며 닉네임으로 끝나는지 판단하는데 $O(L_n)$으로 둘을 합쳐 최대 $L_q$의 길이를 탐색하므로 합쳐서 $O(L_q)$이다

`-` 팀이 최대 $Q$개이므로 전체 알고리즘의 시간 복잡도는 $O(QL_q + L_c C + L_n N)$이다

`-` 이 문제를 해결하기 위해 사용한 자료구조를 `트라이(trie)`라고 한다

In [23]:
def make_trie(strings):
    trie = {}
    for string in strings:
        temp = trie
        n = len(string)
        for i, s in enumerate(string):
            if s not in temp:
                temp[s] = {}
            temp = temp[s]
            if i == n - 1:
                temp[EXIST] = True
    return trie


def check_legend(team_name, color_trie, nickname_trie):
    n = len(team_name)
    color_set = set()
    color_temp = color_trie
    nickname_temp = nickname_trie
    for length, s in enumerate(team_name, start=1):
        if s not in color_temp:
            break
        color_temp = color_temp[s]
        if EXIST in color_temp:
            color_set.add(length)
    for length, s in enumerate(team_name[::-1], start=1):
        if s not in nickname_temp:
            break
        nickname_temp = nickname_temp[s]
        if EXIST not in nickname_temp:
            continue
        color_length = n - length
        if color_length in color_set:
            return "Yes"
    return "No"
        

def solution():
    global EXIST
    EXIST = -1
    C, N = map(int, input().split())
    colors = [input() for _ in range(C)]
    color_trie = make_trie(colors)
    nicknames = [input()[::-1] for _ in range(N)]
    nickname_trie = make_trie(nicknames)
    Q = int(input())
    for  _ in range(Q):
        team_name = input()
        answer = check_legend(team_name, color_trie, nickname_trie)
        print(answer)


solution()

# input
# 4 3
# red
# blue
# purple
# orange
# shift
# joker
# noon
# 5
# redshift
# bluejoker
# purplenoon
# orangeshift
# whiteblue

 3 1
 red
 re
 r
 shift
 3
 redshift


Yes


 reshift


Yes


 rshift


Yes


## 개미굴

- 문제 출처: [백준 14725번](https://www.acmicpc.net/problem/14725)

`-` 먹이 이름을 기준으로 트라이를 만들어서 해결할 수 있다

`-` 로봇 개미가 보내준 먹이 정보 마다 먹이 이름을 기준으로 트라이를 만들자

`-` $1$층부터 시작하여 현재 층의 먹이를 이름 순으로 정렬한 뒤 탐색하여 개미굴 구조를 출력하고 해당 굴의 다음 층을 탐색하면 된다

`-` 이를 재귀적으로 반복하면 되고 모든 먹이를 한 번씩 탐색하므로 로봇 개미의 수를 $N$, 층의 높이를 $K$라 할 때 알고리즘의 시간 복잡도는 $O(NK)$이다

In [10]:
def print_structure(trie, level):
    feeds = sorted(trie.keys())
    for feed in feeds:
        print(f"{'--' * level}{feed}")
        print_structure(trie[feed], level + 1)


def solution():
    N = int(input())
    trie = {}
    for _ in range(N):
        feeds = list(input().split())[1:]
        temp = trie
        for feed in feeds:
            if feed not in temp:
                temp[feed] = {}
            temp = temp[feed]
    print_structure(trie, 0)


solution()

# input
# 3
# 2 B A
# 4 A B C D
# 2 A C

 3
 2 B A
 4 A B C D
 2 A C


A
--B
----C
------D
--C
B
--A


## 휴대폰 자판

- 문제 출처: [백준 5670번](https://www.acmicpc.net/problem/5670)

`-` 트라이 만드는 거 헷갈려서 이전 코드 참고했다

`-` 코드를 보니 `tmep = tmep[s]` 이후의 작동이 이해가 안됐다

`-` temp를 덮어씌우면 원본 trie의 갱신이 멈춘다고 생각했는데 아니었다

`-` `temp = trie`이므로 trie 마킹이 되어있는 딕셔너리 메모리에 temp를 추가로 마킹한 것이다

`-` `temp = temp[s]`를 하고 `temp[s] = {}`하는 걸 생각하자

`-` 원본 trie는 갱신이 안될 것 같지만 `temp = temp[s]`는 `temp[s]`가 가리키는 메모리에 temp를 마킹한 것이다

`-` 근데 `temp = trie`이므로 trie 마킹이 되어있는 방에 temp 마킹을 추가로 한 것이다

`-` 이후 `temp[s] = {}`를 수행하면 당연히 원본 trie도 바뀐다

`-` 트라이 만드는 것은 이걸로 됐고 문제를 어떻게 해결할지 생각하자

`-` 사전의 모든 단어를 고려했을 때 부분 문자열 $S$에 대해 $S$ 다음에 등장하는 문자의 종류가 하나라면 버튼을 누르지 않아도 된다

`-` 트라이에 `LEN` 표식을 고려하자

`-` `trie[LEN]`은 다음에 등장하는 문자의 종류의 개수를 뜻한다

`-` `LEN`이 $1$이라면 버튼을 누르지 않아도 된다

`-` 단, 해당 문자가 마지막인 단어가 있다면 버튼을 눌러야 한다

`-` 추가로 `END` 표식을 고려해서 해당 문자로 끝나지 않으면서 `LEN`이 $1$이라면 버튼 누르는 걸 스킵하기로 하자

`-` 단어 개수를 $N$, 단어의 길이를 $S$라고 하면 트라이를 만드는 건 $O(NS)$의 시간 복잡도를 가진다

`-` 단어를 입력하는데 버튼을 몇 번 눌러야 하는지 계산하는 것도 $O(NS)$의 시간 복잡도를 가지므로 총 알고리즘의 시간 복잡도는 $O(NS)$이다

In [3]:
def make_trie(strings):
    trie = {"LEN": 0}
    for string in strings:
        temp = trie
        n = len(string)
        for i, s in enumerate(string):
            if s not in temp:
                temp[s] = {"LEN": 0}
                temp["LEN"] += 1
            if i == n - 1:
                temp[s]["END"] = True
            temp = temp[s]
    return trie


def type_word(word, trie):
    count = 0
    temp = trie
    for i, s in enumerate(word):
        if i == 0:
            temp = temp[s]
            count += 1
            continue
        if "END" not in temp and temp["LEN"] == 1:
            temp = temp[s]
            continue
        count += 1
        temp = temp[s]
    return count


def solve_testcase(n):
    strings = [input() for _ in range(n)]
    trie = make_trie(strings)
    total_count = 0
    for string in strings:
        count = type_word(string, trie)
        total_count += count
    print(f"{(total_count / n):.2f}")


def solution():
    test_key = -1
    while True:
        try:
            N = int(input())
            if N == test_key:  # For test
                break
        except EOFError:
            break
        solve_testcase(N)


solution()

# input
# 4
# hello
# hell
# heaven
# goodbye
# 3
# hi
# he
# h
# -1  # For test

 4
 hello
 hell
 heaven
 goodbye


2.00


 3
 hi
 he
 h


1.67


 -1


## 두 수 XOR

- 문제 출처: [백준 13505번](https://www.acmicpc.net/problem/13505)

`-` 트라이를 이용해 풀 수 있는 유명한 문제라고 한다

`-` $N$개의 수 중 XOR 한 값이 가장 큰 두 수를 찾으면 된다

`-` XOR 했을 때 비트가 모두 $1$로 이루어져 있어야 가장 크다

`-` 입력으로 주어지는 수는 $10^9$보다 작거나 같은 음이 아닌 정수이다

`-` $\log_2{10^9} \approx 29.8$이므로 $30$비트로 모든 수를 표현할 수 있다

`-` 가능한 모든 조합의 개수는 $O\left(N^2\right)$이고 $N$은 최대 $10^5$이므로 모든 조합을 고려하면 시간 초과이다

`-` 이진법으로 나타낸 모든 수에 대해 문자열로 취급하여 트라이에 저장하자

`-` 모든 수를 $30$비트의 이진수로 나타낸 뒤 트라이에 저장하면 된다

`-` 트라이의 각 노드에 $0$ 또는 $1$이 존재한다 (단, 이진수의 가장 오른쪽 비트 제외)

`-` XOR 했을 때 비트가 $1$이 되려면 $0$과 $1$을 하나씩 선택해야 된다

`-` 맨 처음엔 트라이에서 $0$과 $1$을 하나씩 고르자

`-` $0$이나 $1$만 존재할 수도 있는데 일단 스킵하자

`-` 참고로 같은 노드에서 같은 비트를 고를 땐 $2$개 이상 존재해야 고를 수 있다 (근데 사실 이 경우는 딱히 신경쓰지 않아도 괜찮다)

`-` $0$과 $1$을 하나씩 고른 뒤의 상황을 따져보자

`-` 일단 XOR 한 결과의 가장 왼쪽 비트의 값은 $1$이 됐다

`-` 그 다음 선택으론 $0$과 $1$이나 $1$과 $0$이나 $0$과 $0$ 그리고 $1$과 $1$이 있다

`-` 당연히 $0$과 $1$이나 $1$과 $0$을 고르는 게 낫다

`-` 근데 $0$과 $1$이 좋은지 $1$과 $0$이 좋은지 모른다 (앞으로의 선택에 따라 달라진다)

`-` 두 수를 골라 XOR을 하니까 두 수를 가리키는 두 개의 포인터를 생각해보자

`-` 각 포인터가 여태까지 골라온 비트를 추적할 수 있다

`-` 예컨대 $1011$과 $0100$이라면 만들어진 XOR의 앞 자리 일부는 $1111$이다

`-` 그리고 하나의 포인터는 $\operatorname{trie}[1][0][1][1]$에 위치하고 나머지 하나는 $\operatorname{trie}[0][1][0][0]$에 위치한다

`-` 근데 생각해 보니까 입력으로 주어지는 수의 최댓값을 $A$라고 하면 하나의 수는 트라이 상에서 $O(\log A)$개의 노드를 만든다

`-` 수가 총 $N$개이므로 트라이의 노드 개수는 $O(N\log A)$이다

`-` 백트래킹으로 풀 수 있을 것 같다

`-` 여태까지 XOR한 결과보다 작다면 백트래킹을 할 필요가 없다

`-` 그리고 $0$과 $1$로 나누어 방문할 수 있는데 $0,0$과 $1,1$로 방문하는 건 의미가 없다

`-` 그래서 노드가 겹치는 상황에서 같은 비트를 고를 때 $2$개 이상 존재하는지 확인하지 않아도 된다 ($N$은 최소 $2$이다)

`-` 같은 비트를 골랐는데 $1$개만 존재한다면 $N \le 2$이므로 $0$과 $1$이 같이 존재하는 것이고 그럼 같은 비트를 고를 이유가 없다

`-` 트라이를 만드는 것의 시간 복잡도는 $O(N \log^2 A)$이고 백트래킹의 시간 복잡도는 $O\left(N\log^2 A\right)$이다

`-` 따라서 전체 알고리즘의 시간 복잡도는 $O\left(N\log^2 A\right)$이다

`-` 백트래킹 과정 중 수를 문자열로 저장해서 XOR 결과를 갱신하는데 $O(\log A)$의 연산을 소요한다

`-` 그리고 조기 종료도 길이가 다른 문자열의 대소 비교를 하는데 추가로 비용이 들어서 구현하지 않았다 (모든 노드 방문해도 문제 없긴 하다)

`-` 시간 초과로 못 맞히면 최적화하자

`-` 맞혔다!

In [14]:
def make_trie(array):
    trie = {}
    for a in array:
        binary = bin(a)[2:].zfill(LOG_A)
        temp = trie
        for bit in binary:
            if bit not in temp:
                temp[bit] = {}
            temp = temp[bit]
    return trie


def backtracking(u_trie, v_trie, num):
    global MAX
    if len(num) == LOG_A:
        if num > MAX:
            MAX = num
        return
    if "0" in u_trie and "1" in v_trie:
        backtracking(u_trie["0"], v_trie["1"], num + "1")
    if "1" in u_trie and "0" in v_trie:
        backtracking(u_trie["1"], v_trie["0"], num + "1")
    if "0" in u_trie and "1" not in u_trie and "0" in v_trie and "1" not in v_trie:
        backtracking(u_trie["0"], v_trie["0"], num + "0")
    if "1" in u_trie and "0" not in u_trie and "1" in v_trie and "0" not in v_trie:
        backtracking(u_trie["1"], v_trie["1"], num + "0")


def solution():
    global LOG_A, MAX
    N = int(input())
    array = list(map(int, input().split()))
    LOG_A = 30
    MAX = "0" * LOG_A
    trie = make_trie(array)
    backtracking(trie, trie, "")
    print(int(MAX, 2))


solution()

# input
# 5
# 1 2 3 4 5

 5
 1 2 3 4 5


7


## 수열과 쿼리 20

- 문제 출처: [백준 16903번](https://www.acmicpc.net/problem/16903)

`-` 플레티넘 $4$ 이상의 문제를 풀어야 레이팅이 오른다

`-` 그런데 어려워서 어떻게 풀지 잘 모르겠다  

`-` 트라이와 관련된 문제는 풀 수 있을 것 같아서 풀어보려 한다

`-` [두 수 XOR](https://www.acmicpc.net/problem/13505) 문제를 풀었다면 이 문제도 해결할 수 있다

`-` 배열의 원소를 이진법으로 나태난 뒤 트라이에 저장하면 $3$번 쿼리를 $O(\log x)$에 수행할 수 있다

`-` $2$번 쿼리 때문에 트라이의 한 노드가 삭제될 수 있다

`-` $3$번 쿼리를 수행할 때 존재하지 않는 원소와 XOR을 하면 안 되니 이를 고려해야 한다

`-` 이를 위해 트라이의 각 노드에 대해 이곳을 방문한 원소가 몇 개 존재하는지 마킹하자 (이를 $c$라고 하자)

`-` $1$번 쿼리가 입력으로 들어오면 트라이에 $x$를 저장하며 방문한 노드의 $c$ 값을 $1$씩 증가시키자

`-` 그리고 $2$번 쿼리가 입력으로 주어지면 $1$번 쿼리와 반대로 $c$ 값을 $1$씩 감소시키자

`-` $3$번 쿼리를 수행할 때 $c$가 $0$인 노드는 방문하면 안 된다

`-` $x$의 비트와 반대인 비트 노드가 존재하면 해당 노드로 가고 그렇지 않다면 같은 비트 노드로 가면 $3$번 쿼리를 성공적으로 수행할 수 있다

`-` 참고로 배열 $A$에는 처음에 $0$이 포함되어 있으며 입력으로 주어지는 $x$는 자연수이므로 배열 $A$에는 $0$이 항상 존재한다

`-` 따라서 $3$번 쿼리는 항상 성공적으로 수행될 수 있다

`-` 알고리즘의 시간 복잡도는 $O(M \log x)$이다

In [1]:
import math


def append(trie, x):
    temp = trie
    for b in x:
        if b not in temp:
            temp[b] = {"c": 1}
        else:
            temp[b]["c"] += 1
        temp = temp[b]


def remove(trie, x):
    temp = trie
    for b in x:
        temp[b]["c"] -= 1
        temp = temp[b]


def find_max_xor(trie, x):
    temp = trie
    inversion = {"0": "1", "1": "0"}
    result = []
    for b in x:
        ib = inversion[b]
        if ib in temp and temp[ib]["c"] > 0:
            result.append("1")
            temp = temp[ib]
            continue
        result.append("0")
        temp = temp[b]
    result = "".join(result)
    result = int(result, 2)
    return result


def solution():
    M = int(input())
    max_length = int(math.log2(10**9)) + 1
    trie = {}
    append(trie, "0" * max_length)
    for _ in range(M):
        op, x = map(int, input().split())
        x = bin(x)[2:].zfill(max_length)
        if op == 1:
            append(trie, x)
        elif op == 2:
            remove(trie, x)
        else:
            result = find_max_xor(trie, x)
            print(result)


solution()

# input
# 10
# 1 8
# 1 9
# 1 11
# 1 6
# 1 1
# 3 3
# 2 8
# 3 3
# 3 8
# 3 11

 10
 1 8
 1 9
 1 11
 1 6
 1 1
 3 3


11


 2 8
 3 3


10


 3 8


14


 3 11


13
