## 字符串操作

计算机非数值处理的对象经常是字符串数据。如文本检索、文本聚类、文本理解等。

从主串$s$中查找模式串/目标串$t$, 暴力遍历法（Brute-Force）

In [18]:
def bf_search(source, target) -> tuple:
    """从source中查找出现的target，返回第一个位置的二元组(主串中的位置, 比较次数)，未找到返回(-1, 比较次数)"""
    compare_count = 0
    for i in range(len(source)):
        found = True
        for j in range(len(target)):
            compare_count = compare_count + 1
            if source[i+j] != target[j]:
                found = False
                break
        if found:
            return i, compare_count
    return -1, compare_count

In [19]:
source = 'aaaaaaaaaaab'
target = 'aaaab'
position, compare_count = bf_search(source, target)

print('返回位置：', position)
print(f'在{source}的第{position}个位置开始，发现了{target}，共比较了{compare_count}次')
print(source)
print('*'*position, end='')
print(target)

返回位置： 7
在aaaaaaaaaaab的第7个位置开始，发现了aaaab，共比较了40次
aaaaaaaaaaab
*******aaaab


## KMP算法

随着AI技术的进步，自动生成代码已经具有一定的效果，例如，我们可以用ChatGPT实现KMP代码的自动编写，我们在ChatGPT中输入：


请用Python写一段KMP算法的代码。

其返回结果为：

以下是使用 Python 实现的 KMP 算法代码:

In [1]:
def kmp(text, pattern):
    """
    Perform Knuth–Morris–Pratt string pattern matching.
    """
    n = len(text)
    m = len(pattern)
    if m == 0:
        return 0
    # compute the prefix table
    prefix = [0] * m
    j = 0
    for i in range(1, m):
        while j > 0 and pattern[j] != pattern[i]:
            j = prefix[j-1]
        if pattern[j] == pattern[i]:
            j += 1
        prefix[i] = j
    # perform the search
    j = 0
    for i in range(n):
        while j > 0 and pattern[j] != text[i]:
            j = prefix[j-1]
        if pattern[j] == text[i]:
            j += 1
        if j == m:
            return i - m + 1
    return -1

要使用该函数来寻找文本中的匹配项，请调用：

In [2]:
idx = kmp("hello world", "world")


这将返回在文本中找到的子字符串的索引，或者如果未找到，则返回-1。


In [3]:
print(idx)

6


## 红楼梦人物出现频次统计

### 从文件中读取要统计的人名

In [18]:
def read_names(filename = 'honglou_person.txt'):
    """
    从filename中读取文件内容到一个列表中
    """
    with open(filename, 'r', encoding='utf-8') as f:
        names = f.readlines() # 读取文件内容到一个列表中
    return [name.strip() for name in names]

names = read_names()

### 读取红楼梦全文

In [28]:
with open('honglou.txt', 'r', encoding='utf-8') as f:
    book_content = f.read()

Input: 怎么利用pip安装pyahocorasick

In [7]:
!pip install pyahocorasick

Collecting pyahocorasick
  Downloading pyahocorasick-2.0.0-cp39-cp39-win_amd64.whl (39 kB)
Installing collected packages: pyahocorasick
Successfully installed pyahocorasick-2.0.0


In [19]:
import ahocorasick

# 构造AC自动机
automaton = ahocorasick.Automaton()

# 将每个字符串添加到AC自动机中
for name in names:
    automaton.add_word(name, name)

# 将AC自动机进行预处理
automaton.make_automaton()


In [21]:
# 获取
automaton.get('贾宝玉')

'贾宝玉'

In [26]:
#book_content = '贾宝玉和林黛玉的故事。林黛玉和贾宝玉的故事。'
for position, name in automaton.iter(book_content):
    print(position, name)

2 贾宝玉
6 林黛玉
13 林黛玉
17 贾宝玉
