# 简介

FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。它依据 Levenshtein Distance 算法，计算两个序列之间的差异。

Levenshtein Distance算法，又叫 Edit Distance算法，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

## fuzz模块

fuzz模块主要用于计算两个字符串之间的相似度。

| 函数                            | 作用     | 描述                                              |
|-------------------------------|--------|-------------------------------------------------|
| fuzz.ratio(s1, s2)            | 简单匹配   | 计算两个字符串之间的相似度，返回一个介于0到100之间的数值，数值越高表示相似度越高。     |
| fuzz.partial_ratio(s1, s2)    | 非完全匹配  | 部分匹配，不考虑字符串的顺序，仅匹配部分字符串。如果s1是s2的子串，依然返回100。     |
| fuzz.token_sort_ratio(s1, s2) | 忽略顺序匹配 | 忽略单词顺序，比较两个字符串中单词的相似度。以空格为分隔符，小写化所有字母，忽略其他标点符号。 |
| fuzz.token_set_ratio(s1, s2)  | 去重子集匹配 | 将字符串视为单词集合，计算两个集合的相似度，不考虑单词的顺序和重复。              |



### fuzz.token_sort_ratio

使用场景：  

- 文本摘要或关键词提取后的相似度比较，当关键词的顺序不重要时。  
- 数据清洗中，当需要合并或去重包含相似内容但顺序不同的记录时。  
- 搜索引擎优化，特别是在处理用户查询和文档标题、描述等元数据的匹配时。

注意事项：

- 该函数在比较时会将字符串分割成单词，并默认忽略大小写。如果需要保留大小写或处理非空格分隔符，可能需要进行预处理。
- 该函数考虑单词的重复情况，因此如果两个字符串中某个单词出现的次数不同，相似度得分可能会受到影响。
- 与fuzz.token_set_ratio不同，fuzz.token_sort_ratio在排序后进行比较，因此它对于单词的顺序变化是敏感的，但这种敏感性仅限于比较前的排序过程。一旦排序完成，顺序就不再影响相似度得分。然而，在实际应用中，这种差异通常很小，因为大多数情况下我们关注的是单词的存在性和重复情况，而不是它们在原始字符串中的具体顺序。

### fuzz.token_set_ratio

使用场景：

- 关键词匹配：在搜索或推荐系统中，当需要判断用户输入的关键词与数据库中的关键词集合是否相似时，可以使用这个函数来忽略关键词的顺序和重复。
- 文本分类：在文本分类任务中，如果分类的依据是文本中包含的关键词集合，而不是具体的句子结构或顺序，这个函数就非常有用。
- 数据清洗：在数据清洗过程中，当需要识别并合并包含相似信息但格式不同的记录时，可以使用这个函数来比较记录的关键词集合。

注意事项：

- 默认基于空格分割字符串为单词，并忽略大小写。如果字符串中包含非空格的分隔符或需要保留大小写，可能需要进行额外的预处理。
- 由于这个函数只关注单词集合的相似度，而不考虑单词的顺序或上下文，因此在某些情况下可能会产生误导性的结果。例如，当两个字符串包含完全不同的句子但恰好包含相同的单词集合时，这个函数会给出较高的相似度得分。因此，在使用时需要结合具体场景和需求进行评估。

## process模块

process模块主要用于在一组字符串中查找与给定字符串最相似的选项。

| 函数                                         | 作用    | 描述                                                                |
|---------------------------------------------|--------|-------------------------------------------------------------------|
| process.extract(query, choices, limit=None) | 提取多条数据 | 从choices列表中找出与query最相似的字符串，并返回包含匹配项及其相似度得分的列表。limit参数用于限制返回结果的数量。 |
| process.extractOne(query, choices)          | 提取一条数据 | 返回与query最相似的一个字符串及其相似度得分。                                         |

### process.extract

使用场景：

- 自动补全：在用户输入查询时，根据已知的数据集提供相关的自动补全建议。
- 数据清洗：在数据清洗过程中，识别并纠正可能的拼写错误或不一致的命名。
- 搜索优化：提高搜索功能的准确性，通过优先显示与用户查询最相关的结果。

注意事项：

- process.extract方法依赖于底层的相似度计算函数（如fuzz.ratio、fuzz.partial_ratio等），这些函数定义了如何计算两个字符串之间的相似度。process.extract默认使用fuzz.partial_ratio，但你可以通过scorer参数指定其他评分方法。
- limit参数用于控制返回结果的数量，如果你只想获取最相关的几个选项，设置这个参数可以提高效率。
- 返回的相似度分数是一个介于0和100之间的整数，表示查询字符串与选择字符串之间的相似度。分数越高，相似度越高。
- 由于fuzzywuzzy的相似度计算是基于字符串匹配的，因此它可能无法处理更复杂的语义相似性问题。在处理需要理解文本含义的场景时，可能需要考虑使用更高级的NLP技术。

### process.extractOne

使用场景：

- 精确匹配：当你需要从一组选项中找到与查询字符串精确匹配或最接近的一个选项时。
- 自动补全（单个结果）：在自动补全功能中，当用户输入查询时，直接提供一个最相关的建议。
- 数据清洗（单个替换）：在数据清洗过程中，识别并替换可能的拼写错误或不一致的命名，但只替换为最相似的单个选项。

注意事项：

- process.extractOne方法只返回一个最相似的选项，如果你需要获取多个最相似的选项，应该使用process.extract方法并设置limit参数。
- 该方法默认使用fuzz.partial_ratio作为评分函数，但你可以通过scorer参数指定其他评分方法。
- 相似度分数是一个介于0和100之间的整数，分数越高表示匹配度越高。然而，即使分数很高，也不一定能保证两个字符串在语义上完全相同，因为相似度计算是基于字符串匹配的。
- 在处理大量数据时，process.extractOne可能会比process.extract更快，因为它只需要找到并返回一个最相似的选项，而不需要对整个列表进行排序。