# Fuzzy

**模糊查询**

> 在 `Elasticsearch DSL for Python` 中，`Fuzzy` 是一种模糊匹配的查询方式。它可以匹配与查询项相似但不完全相同的文档。

使用 `Elasticsearch DSL for Python` 中的 Fuzzy 查询，可以通过设置 `fuzziness` 参数来指定查询项与文档之间允许的最大编辑距离。除此之外，还可以设置其他参数，例如 `prefix_length`、`max_expansions` 等。

以下是一个示例，展示如何使用 `Fuzzy` 查询：

In [1]:
from dsl_utils import *
from elasticsearch_dsl import Search, Q, connections
from elasticsearch_dsl.query import Fuzzy

In [2]:
# 连接到 Elasticsearch
connections.create_connection(hosts=['localhost'])

# 创建一个查询对象
search = Search(index='books')

> `Fuzziness` 参数用于指定模糊匹配的程度。它可以控制查询项与文档之间允许的最大`编辑距离`，从而使得查询可以匹配与查询项相似但不完全相同的文档。

`Fuzziness` 参数可以是一个数字（表示编辑距离），也可以是一个字符串（表示模糊匹配的类型）。以下是一些常用的 `Fuzziness` 参数及其含义：

1. `0`：精确匹配。只有当查询项与文档完全相同时才匹配。
1. `1`：允许一个字符的编辑距离。例如，如果查询项为 pattern，则可以匹配 `patern、patton、paternn` 等。
1. `2`：允许两个字符的编辑距离。例如，如果查询项为 pattern，则可以匹配 `patrn、patton、paternn、patrorn` 等。
1. `AUTO`：根据查询项的长度自动选择编辑距离。例如，如果查询项长度为 2，则编辑距离为 1；如果查询项长度为 3 或 4，则编辑距离为 2；如果查询项长度大于 4，则编辑距离为 3。
1. 除了以上常用的 `Fuzziness` 参数外，还可以使用其他的参数，例如 `MULTIPLY、ADD` 等。

> 编辑距离

`编辑距离（Edit Distance）`，又称 `Levenshtein` 距离，是衡量两个字符串之间相似度的一种度量方法。它定义为将一个字符串转换成另一个字符串所需要的最少编辑操作次数。编辑操作包括插入（insert）、删除（delete）和替换（replace）字符三种操作。

例如，将字符串 "kitten" 转换成字符串 "sitting"，需要进行三次编辑操作：将 "k" 替换成 "s"、将 "e" 删除、将 "n" 替换成 "g"，因此它们之间的编辑距离为 3。

编辑距离可以用来衡量两个字符串之间的相似度。它常用于自然语言处理、拼写检查、模式匹配等领域。在 `Elasticsearch` 中，编辑距离被用作模糊匹配的一种度量方式，用于计算查询项与文档之间的相似度。

需要注意的是，计算两个字符串之间的编辑距离是一种比较复杂的计算方法，时间复杂度为 $O(n^2)$ 或 $O(nm)$，其中 $n$ 和 $m$ 分别表示两个字符串的长度。因此，在实际应用中，应该注意控制字符串的长度，避免计算复杂度过高。

In [3]:
# 完全匹配
query = Fuzzy(title={'value': 'python', 'fuzziness': 0})
search_query(search, query, columns=['title'])

title: Python


In [4]:
# 大写情况下，完全匹配，不输出内容
query = Fuzzy(title={'value': 'Python', 'fuzziness': 0})
search_query(search, query, columns=['title'])

In [5]:
# 'fuzziness' 参数指定为 1，可以输出内容
query = Fuzzy(title={'value': 'python', 'fuzziness': 1})
search_query(search, query, columns=['title'])

title: Python


In [6]:
# 'fuzziness' 参数指定为 2，可以输出内容
query = Fuzzy(title={'value': 'pthn', 'fuzziness': 2})
search_query(search, query, columns=['title'])

title: Python


In [7]:
# 中文模糊匹配
query = Fuzzy(title={'value': '游', 'fuzziness': 0})
search_query(search, query, columns=['title'])

title: 西游记


In [None]:
# 中文模糊匹配
query = Fuzzy(title={'value': '西游', 'fuzziness': 1})
search_query(search, query, columns=['title'])

In [None]:
# 中文模糊匹配
query = Fuzzy(title={'value': '西游', 'fuzziness': 2})
search_query(search, query, columns=['title'])

In [None]:
# 中文模糊匹配
query = Fuzzy(title={'value': '西', 'fuzziness': 'auto'})
search_query(search, query, columns=['title'])

`Fuzzy` 查询比起其他查询方式会更耗费资源，因此需要谨慎使用。如果可以使用其他查询方式，最好避免使用 `Fuzzy` 查询。

-----