# 字符串
字符串的题目很多，复杂题目常常是以下类型相互融合：
- 前后缀
- 回文串
- 串匹配

- [单词的压缩编码](https://leetcode-cn.com/problems/short-encoding-of-words/)

## 单词的压缩编码
[此题](https://leetcode-cn.com/problems/short-encoding-of-words/)的本质是：判断“当前字符串是否为其他字符串的后缀”。由于测试样例比较小，所以解法多样，主要介绍反转排序和字典树两种方法：

**反转排序**的思路比较有趣：
1. 删除重复串；
2. 反转串；
3. 判断$s[i]$是否为$s[i+1]$的前缀。

时间开销主要是排序，不清楚具体的多键排序是如何实现的。以快排为例，时间复杂度猜测为$n\log{n}*l$，$n$为字符串个数，$l$为单个字符串的平均长度。

In [4]:
def minimumLengthEncoding(words) -> int:
    words = sorted(list(map(lambda s: s[::-1], set(words))))
    ans = [words[-1]]
    for i in range(len(words) - 1):
        if words[i] not in words[i + 1]:
            ans.append(words[i])
    return sum([len(_) + 1 for _ in ans])

minimumLengthEncoding(words=["time", "me", "bell"])

10

**字典树**是处理字符串前后缀的常用数据结构。LeetCode题解过于pythonic，自己写了个正常的字典树解法。尴尬的是，LeetCode运行时间比暴力还慢（主要是数据量太小）。
1. 删除重复串；
2. 反转串；
3. 建立字典树；
2. 逐个字符串判断是否为一条从根节点到叶子节点的路径，是则累加长度。

时间复杂度是$O(\sum w_i)$，其中$w_i$是$words[i]$的长度，即对于每个单词中的每个字母，只需要进行常数次操作。

In [5]:
from collections import defaultdict


class TrieNode:
    def __init__(self):
        self.children = defaultdict(TrieNode)
        self.word = False


class Trie:

    def __init__(self):
        self.root = TrieNode()

    def insert(self, word):
        cur = self.root
        for w in word:
            cur = cur.children[w]
        cur.word = True

    def isTail(self, word):
        cur = self.root
        for w in word:
            if w not in cur.children:
                return False
            cur = cur.children[w]
        return len(cur.children) == 0


def minimumLengthEncoding(words) -> int:
    words = list(map(lambda s: s[::-1], set(words)))

    trie = Trie()
    for word in words:
        trie.insert(word)

    ans = 0
    for word in words:
        if trie.isTail(word):
            ans += len(word) + 1
    return ans

minimumLengthEncoding(words = ["time", "me", "bell"])

10