In [1]:
class Node():
    def __init__(self):
        self.word = ""
        self.char = ""
        self.next = []
        self.isWord = False
        
class Ac_automaton():
    """AC自动机,用于匹配一个字符串中的单词.
    
    单词指的是一个给定字典中的元素.
    
    参考https://en.wikipedia.org/wiki/Aho%E2%80%93Corasick_algorithm
    """
    def __init__(self):
        self.root = Node()
        
    def add(self, word):
        """为字典添加单词.
        
        1. 开始时以根节点为当前节点
        2. 从单词的第一个字符开始
        3. 遍历当前节点的子节点
        4. 找到单词从头到目前字符组成的子串对应的子节点,则该子节点变成当前节点;没找到则创建新的子节点作为当前节点
        5. 跳到下一个字符,重复3和4,直到遍历完所有字符
        
        Args:
            word(str) :- 字典中新增的单词
        """
        # 1步
        current = self.root # current记录字符在树中当前节点
        
        # 2步
        for char in word:
            exist = False
            
            # 3步
            for child in current.next:
                # 4步中找到子节点
                if child.char == char:
                    current = child
                    exist = True
                    break
                    
            # 4步中没找到
            if exist == False:
                nouveau = Node()
                nouveau.word = current.word + char
                nouveau.char = char
                current.next.append(nouveau)
                current = nouveau
                
            # 5步中遍历完所有字符
            if current.word == word:
                current.isWord = True
                break

In [2]:
ac = Ac_automaton()

In [3]:
ac.add("你好")

In [4]:
ac.add("你来了")

In [5]:
node = ac.root


你
你好
