## 3. 字符串

字符串处理是算法领域里非常重要的内容，其中有些是关于文字处理的，比如语法检查，有些则关于子字符串（子串）；或者更笼统地说，是关于模式（pattern）查找的。随着生物信息学的发展，出现了 DNA序列问题。本章中将介绍一系列我们认为的重要算法。

在计算机系统内，一个字符串可以用一个字符的列表来表示。但一般情况下，我们会使用 str 类型，这个类型在 Python 语言中类似于一个列表。对于使用 Unicode 编码方式的字符串，每个字符可以使用两个字节来编码。一般情况下，字符仅用一个字节表示，并用 ASCII 码来编码：

0 ～ 127 的每个整数代表一个不同的字符，编码按顺序排列，如 0 ～9、a ～ z、A ～ Z。同样，如果一个字符串只包含大写字母，我们可以使用 ord(s[i]) – ord('A') 这样的计算方式找到第 i 个字符在字母表中的位置。反过来说，第 j 个（从 0 开始编号）大写字母可以使用chr(j+ord('A')) 找到。


### 3.1 易位构词

- 定义

如果对调字符，使得单词 w 变成单词 v，那么 w 就是 v 的易位构词。假设有一个集合包含了 n 个最大长度为 k 的单词，现在要找到所有的易位构词。

输入：le chien marche vers sa niche et trouve une limace de chine nue pleine de malice qui lui fait du charme

句子的意思是：“一条狗走向狗窝时遇到一条顽皮的鼻涕虫，被吸引了过去。”其中某些单词，如 chien（狗）和 niche（窝）、limace（鼻涕虫）和 malice（顽皮）等，都是字母相同而顺序不同的单词，输出得到的是输入句子中所有易位构词的集合。

- 复杂度

以下算法能在平均时间 O(nk logk) 内解决问题。而在最坏情况下，由于使用了字典，所需时间复杂度是 O(n<sup>2</sup>k logk)。

- 算法

算法的思路是计算每个单词的签名。两个单词能得到相同的签名，当且仅当它们互为易位构词。这个签名不过是包含了相同字母的另一个单词，是把要计算签名的单词中的所有字母按顺序排列后得到的。
算法使用的数据结构是一个字典，将每个签名与拥有这一签名的所有单词的列表对应起来。



In [11]:
def anagrams(w):
    w = list(set(w)) # 删除重复项
    print(w)
    d = {} # 保存有同样签名的单词
    
    
    for i in range(len(w)):
        s = ''.join(sorted(w[i])) # 签名
        print(s)
        if s in d:
            d[s].append(i)
        else:
            d[s] = [i]
            
    # -- 提取易位构词
    reponse = []
    for s in d:
        if len(d[s]) > 1: # 忽略没有易位构词的词
            reponse.append([w[i] for i in d[s]])
    return reponse

In [16]:
words = 'le chien marche vers sa niche et trouve une limace de chine nue pleine de malice qui lui fait du charme'
w = words.split(' ')
# print(w)

print(anagrams(w))

[['chien', 'niche', 'chine'], ['marche', 'charme'], ['une', 'nue'], ['limace', 'malice'], ['de', 'de']]


### 3.2 T9：9 个按键上的文字

输入：2 6 6 5 6 8 7
输出：bonjour

![](https://tva1.sinaimg.cn/large/006tNbRwly1g9we6ata4gj306r07xgm1.jpg)


- 应用

按键式移动电话提供了一种有趣的输入方法，通常被称作 T9 输入
法。26 个字母分布在数字 2 ～ 9 的按键上，就像图展示的一
样。为了输入一个单词，只需按对应的数字键就可以了。但是，有
时输入一个相同的数字序列却可能得到不同的单词。在这种情况
下，就需要用字典来推测最有可能出现的单词，并把这些单词摆放
在候选词的首位。

- 定义

这个问题实例的第一部分是一个字典结构，由一系列键值对 (m, w)
组成，其中 m 是一个由 26 个小写字母中部分字母组成的单词，w
是这个单词的权重。问题实例的第二部分由输入序列为 2 ～ 9 的数
字组成。对于每个输入序列，只需要显示字典中权重最高的一个单
词。假设有一个数字序列使用 T9 输入法，根据图中的对应关
系，输出单词为 m，而输入数字序列 t 是通过将单词 m 中的每个字
母都替换为相关数字得来的。s 是输入数字序列 t 的前缀，这时，
我们就可以定义单词 m 与 s 相关。比如单词 bonjour（你好）与数
字序列 26 相关，也和数字序列 266 或 2665687 相关。

- 复杂度为 O(nk) 的算法

字典初始化的时间复杂度为 O(nk)，而每次查询的时间复杂度为
O(k)。这里的 n 是字典中的单词数量，k 是单词长度的上限。
在第一时间，对于字典中某个单词的每个前缀 p<sup>2</sup>，我们要查找将 p
作为前缀的所有单词的总权重，并把总权重存入一个 freq（频
率）字典中。接下来，我们在另一个字典 prop[seq] 中存储赋予
每个给定的 seq 序列的前缀列表。遍历 freq 中的所有键，可以确
定权重最大的前缀。此处的关键就是 word_code 函数，它能为给
定单词提供相关的输入数字序列。

为方便阅读，以下算法实现的时间复杂度是 O(nk<sup>2</sup>)。


https://editorialexpress.com/cgi-bin/conference/download.cgi?db_name=CICF2019&paper_id=1094



In [41]:
t9 = "22233344455566677778889999"
# 分别对应abcdefghijklmnopqrstuvwxyz 这26 个字母

def letter_digit(x):
    assert 'a' <= x and x <= 'z'
    return t9[ord(x)-ord('a')]

def word_code(words):
    return ''.join(map(letter_digit,words))

def predictive_text(dico): # dico 意为字典
    freq = {} # freq[p] = 拥有前缀p 的单词的总权重
    # print(dict)
    for words,weights in dico:
        prefix = ""
        for x in words:
            prefix += x
            if prefix in freq:
                freq[prefix] += weights
            else:
                freq[prefix] = weights
    
    print(freq)
    
    # prop[s] = 输入 s 时要显示的前缀
    prop = {}
    for prefix in freq:
        code = word_code(prefix)
        if code not in prop or freq[prop[code]] < freq[prefix]:
            prop[code] = prefix
    return prop

def propose(prop, seq):
    if seq in prop:
        return prop[seq]
    else:
        return "None"
    
    

In [42]:

dict = [('a',0.5),('ab',0.6),('bonjour',0.32)]

print(predictive_text(dict))

{'a': 1.1, 'ab': 0.6, 'b': 0.32, 'bo': 0.32, 'bon': 0.32, 'bonj': 0.32, 'bonjo': 0.32, 'bonjou': 0.32, 'bonjour': 0.32}
{'2': 'a', '22': 'ab', '26': 'bo', '266': 'bon', '2665': 'bonj', '26656': 'bonjo', '266568': 'bonjou', '2665687': 'bonjour'}


### 3.3 使用字典树进行拼写纠正

- 应用

如何把单词存入一个字典来纠正拼写呢？对于某个给定的单词，我
们希望很快在字典中找到一个最接近的词。如果把字典里的所有单
词存在一个散列表里，单词之间的一切相近性信息都将丢失。所
以，更好的方式是把这些单词存入字典树，字典树也叫前缀树或排
序树（trie tree）。

- 定义
一棵保存了某个单词集合的树称为字典树。连接一个节点及其子节
点的弧线用不同字母标注。因此，字典中的每个单词与树中从根节
点到树节点的路径相关。每个节点都是标记，用于区分相关字母组
合究竟是字典中的单词，还是字典中单词的前缀

![](https://tva1.sinaimg.cn/large/006tNbRwly1g9wfiz2bjlj30ih0ahq5w.jpg)

- 拼写纠正

利用上述数据结构，我们很容易在字典中找到一个与给定单词距离
为 dist 的单词。这里的距离以编辑距离（levenshtein distance）来
定义。查找方式是只需模拟每个节点的拼
写操作，然后使用参数 dist-1 进行递归调用。


- 变种


若某个节点只有一个子节点，就可以合并多个节点，这种结构更精
简。这种节点用单词标记，而不是用字母标记。右侧的结构
更节省内存和遍历时间，被称为前缀树（patricia trie）。



In [43]:
from string import ascii_letters # 在python2 中需要引用letters 库

class Trie_Node:
    def __init__(self):
        self.isWord = False
        self.s = {c: None for c in ascii_letters}
    
    def add(T, w, i=0):
        if T is None:
            T = Trie_Node()
        if i == len(w):
            T.isWord = True
        else:
            T.s[w[i]] = add(T.s[w[i]], w, i + 1)
        return T

    def Trie(S):
        T = None
        for w in S:
            T = add(T, w)
        return T

    def spell_check(T, w):
        assert T is not None
        dist = 0
        while True: # 尝试用越来越长的距离来查找
            u = search(T, dist, w)
            if u is not None:
                return u
            dist += 1

    def search(T, dist, w, i=0):
        if i == len(w):
            if T is not None and T.isWord and dist == 0:
                return ""
            else:
                return None

        if T is None:
            return None

        f = search(T.s[w[i]], dist, w, i + 1) # 相关

        if f is not None:
            return w[i] + f
        if dist == 0:
            return None

        for c in ascii_letters:
            f = search(T.s[c], dist - 1, w, i) # 插入
            if f is not None:
                return c + f
            f = search(T.s[c], dist - 1, w, i + 1) # 替换
            if f is not None:
                return c + f
        return search(T, dist - 1, w, i + 1) # 删除