## 0. 简介

本 Note 记录使用 Neural Networks (以下简称NN）做自然语言处理时所用的工具函数，包括：

1. `naive_preprocess(text)` 将输入文本字符串转换为单词 ID 的 Numpy 数组，并返回对应的单词-ID 字典和 ID-单词字典

## 1. naive_preprocess()

输入参数为文本序列，输出为文本的单词序列

In [None]:
def naive_preprocess(text):
    '''基于输入文本构建语料库，附带构建单词-ID 和 ID-单词两份字典，仅处理以 . 结尾的句子文本
    
    :params text: 待处理的文本字符串
    
    :return corpus: 单词 ID 组成的 Numpy 数组
    :return word_to_id: key 是单词，value 是对应的 ID 的字典
    :return id_to_word: key 是 ID，value 是对应的单词的字典
    '''
    
    text = text.lower()
    text = text.replace('.', ' .') # 在文本末尾的句号前添加空格
    words = text.split(' ') # 以空格为定界符将输入文本拆分为单词
    
    word_to_id = {}
    id_to_word = {}
    
    for word in words:
        if word not in word_to_id:
            new_id = len(word_to_id)
            word_to_id[word] = new_id
            id_to_word[new_id] = word
    
    corpus = np.array([word_to_id[w] for w in words])  # 依 word_to_id 构建 corpus
        
    return corpus, word_to_id, id_to_word