| [05_text_matching/01_词粒度文本匹配.ipynb](https://github.com/shibing624/nlp-tutorial/tree/main/05_text_matching/01_词粒度文本匹配.ipynb)  | 基于字面和word2vec的词文本匹配  |[Open In Colab](https://colab.research.google.com/github/shibing624/nlp-tutorial/blob/main/05_text_matching/01_词粒度文本匹配.ipynb) |

# 词粒度文本匹配

1. 基于字面的文本相似计算
2. 基于word2vec的文本相似度计算

## 基于字面的文本相似计算

In [1]:
def get_chars_sim_score(str1, str2):
    """字面相似度计算"""
    def same_chars(str1, str2):
        return set(str1) & set(str2)

    dp = min(len(str1) / len(str2), len(str2) / len(str1))
    alpha = 0.6
    beta = 0.4
    sames = same_chars(str1, str2)
    def get_weighted(word, sames):
        top = 0.0
        bottom = 0.0
        for idx, i in enumerate(word):
            if i in sames:
                top += (idx + 1)
            bottom += (idx + 1)
        return top / bottom

    p1 = alpha * (len(sames) / len(str1) + len(sames) / len(str2)) / 2
    p2 = beta * dp * (get_weighted(str1, sames) + get_weighted(str2, sames)) / 2
    score = p1 + p2
    return score, sames


In [2]:
get_chars_sim_score('我爱中国', '你也爱中国吧')

(0.5711904761904762, {'中', '国', '爱'})

通过两句话的字面相同文本计算其相似度值。

## 基于word2vec模型比较词相似度

In [5]:
import gensim

In [6]:
txt_path = 'data/C000008_test.txt'
sentences = [i.split() for i in open(txt_path, 'r', encoding='utf-8').read().split('\n')]
sentences[:3]

[['1,本报记者',
  '发自',
  '上海',
  '国外',
  '媒体',
  '昨日',
  '报道',
  '澳大利亚',
  '银行',
  'acq',
  'arie',
  '预计',
  '推出',
  '中国',
  '人民币',
  '10',
  '亿元',
  '商业',
  '住房',
  '抵押',
  '贷款',
  '资产',
  '证券化',
  '计划',
  '有关部门',
  '批准',
  '将是',
  '海外',
  '资金',
  '首次',
  '此项',
  '计划',
  '市场分析',
  '人士',
  '计划',
  '预计',
  '中国',
  '监管部门',
  '阻力',
  '考虑到',
  '交易',
  '相关',
  '高昂',
  '固定成本',
  '人民币',
  '10',
  '亿元',
  '可能是',
  '最低',
  '金额',
  '银行',
  '原本',
  '计划',
  '2006',
  '年初',
  '中国',
  '推出',
  'macquarie',
  'anda',
  '房地产',
  '投资信托',
  '计划',
  '香港特区',
  '证监会',
  '否决',
  '该银行',
  '中国',
  '房地产投资',
  '基金',
  '首席',
  '投资',
  '执行官',
  '此前',
  '开发商',
  '行列',
  '竟是',
  '金融机构',
  '项目',
  '投融资',
  '资本运作',
  '才是',
  '特长'],
 ['2,复旦',
  '新浪',
  '本报记者',
  '杨国强',
  '1984年',
  '相貌端正',
  '复旦大学',
  '新闻系',
  '大学',
  '同学',
  '回忆说',
  '内向',
  '做事',
  '很有',
  '生活',
  '学习',
  '很有',
  '计划性',
  '大学毕业',
  '上海',
  '电视台',
  '当了',
  '两年',
  '记者',
  '赴美',
  '求学',
  '先在',
  '奥克拉荷',
  '大学',
  '拿了',
  '新闻学',
  '硕士',
  '再到',
  '德州',


In [10]:
model = gensim.models.Word2Vec(
    sentences, vector_size=50, window=5, min_count=1, workers=4)
model.save('C000008.word2vec.model')
model.wv.key_to_index

{'新浪': 0,
 '中国': 1,
 '化妆品': 2,
 '美国': 3,
 '广告': 4,
 '碎片': 5,
 '计划': 6,
 '地球': 7,
 '销售': 8,
 '上市': 9,
 '5月': 10,
 '科学家': 11,
 '皮肤': 12,
 '改善': 13,
 '大学': 14,
 '的产品': 15,
 '市场': 16,
 '彗星': 17,
 '财务': 18,
 '预计': 19,
 '参与': 20,
 '网站': 21,
 '兼任': 22,
 '提供': 23,
 '瓦斯': 24,
 '高科技公司': 25,
 '73p': 26,
 '负责': 27,
 '植物': 28,
 '拿了': 29,
 '2005年': 30,
 '1999': 31,
 '距离': 32,
 '硕士': 33,
 '首席': 34,
 '2000': 35,
 '年度': 36,
 '10': 37,
 '报道': 38,
 '银行': 39,
 '担任': 40,
 '推出': 41,
 '便宜': 42,
 '之间': 43,
 '人民币': 44,
 '2005': 45,
 '亿元': 46,
 '商业': 47,
 '推动': 48,
 'cfo': 49,
 '12日': 50,
 '宇航局': 51,
 '互联网': 52,
 '海外': 53,
 '上海': 54,
 '首次': 55,
 '很有': 56,
 '3号': 57,
 '德州': 58,
 '奥斯汀': 59,
 '再到': 60,
 '赴美': 61,
 '新闻学': 62,
 '奥克拉荷': 63,
 '电视台': 64,
 '先在': 65,
 '求学': 66,
 '当了': 67,
 '两年': 68,
 '记者': 69,
 '那一': 70,
 '专业': 71,
 '副总裁': 72,
 '照搬': 73,
 '变了': 74,
 '2001': 75,
 '2001年': 76,
 '借鉴': 77,
 '中国概念股': 78,
 '余家': 79,
 '结构': 80,
 '公司': 81,
 '设计': 82,
 '运作': 83,
 '加盟': 84,
 '身份': 85,
 '多家': 86,
 '转入': 87,
 '在此期间'

In [11]:
# compare two word
print(model.wv.similarity('中国', '澳大利亚'))

0.07167525


从文件加载模型：

In [13]:
model = gensim.models.KeyedVectors.load('C000008.word2vec.model')
# compare two word
print(model.wv.similarity('中国', '澳大利亚'))

0.07167525


通过两句话的embedding高维向量计算其语义层面的相似度值。

In [14]:
import os
os.remove('C000008.word2vec.model')

本节完。