# 自然语言和单词的分布式表示
- 编程语言是一种“硬语言”，自然语言是一种“软语言”
- 单词的含义：语言是由文字构成的，单词是文字的一部分，单词的含义是文字的意义。所以让计算机去理解单词的含义才是重点，让计算机理解单词的含义分为以下三种方法：
  - 基于同义词的字典方法
  - 基于计数的方法
  - 基于推理的方法
## 基于同义词的字典方法
像做新华字典那样：人为的设计同义词、上位-下位、整体-部分。知名的同义词字典方法：WordNet。使用同义词字典存在的问题：
- 难以顺应时代的变化
- 主要靠人，后期人力维护成本高

## 基于计数的方法
- 语料库
- 将单词要转变成向量

In [6]:
# 语料库预处理小案例
text = 'you say goodbey and I say hello.'
text = text.lower()
text = text.replace('.', ' .')
print(text)
words = text.split(' ')
words

you say goodbey and i say hello .


['you', 'say', 'goodbey', 'and', 'i', 'say', 'hello', '.']

In [8]:
# 将词和字典互转
word_to_id = {}
id_to_word = {}
for word in words:
    # 排除掉重复元素
    if word not in word_to_id:
        idx = len(word_to_id)
        word_to_id[word] = idx
        id_to_word[idx] = word
print(f'word_to_id:{word_to_id}')
print(f'id_to_word:{id_to_word}')

word_to_id:{'you': 0, 'say': 1, 'goodbey': 2, 'and': 3, 'i': 4, 'hello': 5, '.': 6}
id_to_word:{0: 'you', 1: 'say', 2: 'goodbey', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}


In [9]:
# 再将词转换为id，这里id可以重复
text_id = [word_to_id[word] for word in words]
print(f'text_id:{text_id}')

text_id:[0, 1, 2, 3, 4, 1, 5, 6]


In [10]:
# 将上面的过程定义成一个函数
import numpy as np
def preprocess(text):
    text = text.lower()
    text = text.replace('.', ' .')
    words = text.split(' ')
    word_to_id = {}
    id_to_word = {} 
    for word in words:
        if word not in word_to_id:
            idx = len(word_to_id)
            word_to_id[word] = idx
            id_to_word[idx] = word
    corpus = np.array([word_to_id[word] for word in words])
    return corpus, word_to_id, id_to_word
text = 'you say goodbey and I say hello.'
preprocess(text)

(array([0, 1, 2, 3, 4, 1, 5, 6]),
 {'you': 0, 'say': 1, 'goodbey': 2, 'and': 3, 'i': 4, 'hello': 5, '.': 6},
 {0: 'you', 1: 'say', 2: 'goodbey', 3: 'and', 4: 'i', 5: 'hello', 6: '.'})