### コーパスとは

コーパスとは、簡単に言えば単なるテキストデータ。ただし、研究などの目的によって集められたもの。

シェイクスピアや夏目漱石の作品群、wikipediaなどがコーパスとして利用されている。

ここで使うコーパスは単なるテキストデータではなく、機械学習に適したように数値化(単語IDに変換)したものを利用する。そのために、次の前処理メソッドを作成しておく

In [5]:
import numpy as np

def preprocess(text):
    text = text.lower()
    text = text.replace('.', ' .')
    words = text.split(' ')
    
    word_to_id = {}
    id_to_word = {}
    for word in words:
        if word not in word_to_id:
            new_id = len(word_to_id)
            word_to_id[word] = new_id
            id_to_word[new_id] = word
    
    corpus = np.array([word_to_id[w] for w in words])
    
    return corpus, word_to_id, id_to_word

In [6]:
text = "You say goodbye and I say hello."
corpus, word_to_id, id_to_word = preprocess(text)

In [7]:
corpus

array([0, 1, 2, 3, 4, 1, 5, 6])

In [8]:
word_to_id

{'.': 6, 'and': 3, 'goodbye': 2, 'hello': 5, 'i': 4, 'say': 1, 'you': 0}

In [9]:
id_to_word

{0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}