# 文本相似度

In [None]:
import jieba
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import difflib
from fuzzywuzzy import fuzz

# 实验文本
text1 = "机器学习是人工智能的核心，是通过计算机模拟人类学习行为，通过经验改进系统性能的方法。主要方法包括监督学习、无监督学习和强化学习。"
text2 = "机器学习属于人工智能领域，它使计算机能够从历史数据中学习规律，监督学习、无监督学习是其典型方法。系统通过不断优化算法提升预测准确率。"

# 预处理函数
def chinese_process(text):
    return ' '.join(jieba.cut(text))

# 计算余弦相似度
corpus = [chinese_process(text1), chinese_process(text2)]
vectorizer = CountVectorizer()
vectors = vectorizer.fit_transform(corpus)
cos_sim = cosine_similarity(vectors[0], vectors[1])[0][0]

# 计算difflib相似度
seq = difflib.SequenceMatcher(None, text1, text2)
diff_ratio = seq.ratio()

# 计算fuzz相似度
fuzz_ratio = fuzz.ratio(text1, text2)

print(f"余弦相似度: {cos_sim:.2f}")
print(f"difflib相似度: {diff_ratio:.2f}")
print(f"FuzzyWuzzy相似度: {fuzz_ratio}%")
