In [None]:
トークン：自然言語を解析する際、文章の最小単位して扱われる文字や文字列のこと。
タイプ：単語の種類を表す用語。
文章：まとまった内容を表す文のこと。自然言語処理では一文を指すことが多い。
文書：複数の文章から成るデータ一件分を指すことが多い。
コーパス：文書または音声データにある種の情報を与えたデータ。
シソーラス：単語の上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけた類語辞典・辞書。
形態素：意味を持つ最小の単位。「食べた」という単語は、2つの形態素「食べ」と「た」に分解できる。
単語：単一または複数の形態素から構成される小さな単位。
表層：原文の記述のこと。
原形：活用する前の記述のこと。
特徴：文章や文書から抽出された情報のこと。
辞書：自然言語処理では、単語のリストを指す。

In [None]:
文章の単語分割の手法は大きく二つ存在し、 形態素解析 と Ngram があります。
形態素 とは 意味を持つ最小の言語単位 のことであり、単語は一つ以上の形態素を持ちます。
形態素解析 とは、辞書を利用して形態素に分割し、さらに形態素ごとに品詞などのタグ付け（情報の付与）を行うことを指します。

一方で Ngram とは、 N文字ごとに単語を切り分ける 、または N単語ごとに文章を切り分ける 解析手法のことです。

1文字、あるいは1単語ごとに切り出したものを モノグラム 、2文字（単語）ごとに切り出したものを バイグラム 、3文字（単語）ごとに切り出したものを トリグラム と呼びます。

例えば「あいうえお」という文の文字のモノグラム・バイグラム・トリグラムを考えてみると以下のようになります。

モノグラム：{あ, い, う, え, お}
バイグラム：{あい, いう, うえ, えお}
トリグラム：{あいう, いうえ, うえお}

Ngram は形態素解析のように辞書や文法的な解説が不要であるため、 言語に関係なく 用いることができます。
また Ngram は特徴抽出の漏れが発生しにくいメリットがありますが、ノイズが大きくなるデメリットがあります。 逆に形態素解析は辞書の性能差が生じてしまう代わりにノイズが少ないです。

例えば、「東京都の世界一有名なIT企業」という少し長い文字列について検索する際、バイグラムによって文字列を分割し検索すると「京都」の企業がヒットする可能性が出てしまいます。 なぜなら「東京都」の文字バイグラムを列挙すると{東京, 京都}となるからです。
形態素解析を適切に用いるとこのようなことは起こりませんが、性能の高い辞書を用意する必要があります。

＜用語＞

単語分割：文章を単語に分割すること
品詞タグ付け：単語を品詞に分類して、タグ付けをする処理のこと
形態素解析：形態素への分割と品詞タグ付けの作業をまとめたもの

In [None]:
形態素解析を行うにあたりあらかじめ形態素解析ツールが用意されており、日本語の形態素解析器として代表的なものにMeCabやjanomeなどがあります。

MeCabやjanomeは辞書を参考に形態素解析を行います。
ここではMecabの使い方を学習します。以下のMecabを使った形態素解析の実行例を見てください。

In [None]:
import MeCab
# 分かち書き
mecab = MeCab.Tagger("-Owakati")
print(mecab.parse("明日は晴れるでしょう。"))


# 形態素に分割
mecab = MeCab.Tagger("-Ochasen")
print(mecab.parse("特急はくたか"))




In [None]:
# janome

from janome.tokenizer import Tokenizer
t = Tokenizer()# Tokenizerオブジェクトの作成

tokens = t.tokenize("pythonの本を読んだ")
for token in tokens:
    print(token)

In [None]:
# 分かち書き
tokens = t.tokenize("明日晴れたらいいのにな", wakati=True)
print(tokens)

In [None]:
# 表層形を出力　＝　文中において文字列として実際に出現する形式のこと

tokens = t.tokenize("pythonの本を読んだ")

for token in tokens:
    print(token.surface)

In [None]:
# 品詞のみを出力

for token in tokens:
    print(token.part_of_speech)


In [None]:
tokens = t.tokenize("豚の肉を食べた")

word = []

for token in tokens:
    word_type = token.part_of_speech.split(",")[0]
    print(token.part_of_speech.split(","))

    if word_type == "名詞" or word_type == "動詞":
        word.append(token.surface)
    
print(word)

In [None]:
# Ngram

Ngramのアルゴリズムは以下のgen_Ngramように書くことができます。
単語のNgramを求めたい場合は、引数に単語と切り出したい数を入れます。
文章のNgramを求めたい場合は、janomeのtokenize関数を用いて分かち書きのリストを作成し、
その分かち書きのリストと切り出したい数を引数に入れます。 


In [None]:
from janome.tokenizer import Tokenizer
t = Tokenizer()
tokens = t.tokenize("太郎はこの本を二郎を見た女性に渡した。", wakati=True)

# 連続したN文字の単語は、(品詞を元に分割された数 - N + 1)個取ることができます。

def gen_Ngram(words,N):
    ngram = []
    
    for i in range(len(words) - N + 1):
        cw = ""
        for j in range(N):
            cw += words[i + j]
        ngram.append(cw)
    
    return ngram

print(gen_Ngram(tokens, 2))
print(gen_Ngram(tokens, 3))

In [None]:
正則化

表記揺れを統一する処理のこと。
全角を半角に統一や大文字を小文字に統一等、ルールベースで文字を変換する。

＜用語＞

表記揺れ：同じ文書の中で、同音・同義で使われるべき語句が異なって表記されていること
正規化：表記揺れを防ぐためルールベースで文字をや数字を変換すること

In [None]:
import neologdn

In [None]:
print(neologdn.normalize("ﾊﾝｶｸｶﾅ"))
# => 'ハンカクカナ'
print(neologdn.normalize("全角記号！？＠＃"))
# => '全角記号!?@#'
print(neologdn.normalize("全角記号例外「・」"))
# => '全角記号例外「・」'
print(neologdn.normalize("長音短縮ウェーーーーイ"))
# => '長音短縮ウェーイ'
print(neologdn.normalize("チルダ削除ウェ~∼∾〜〰～イ"))
# => 'チルダ削除ウェイ'
print(neologdn.normalize("いろんなハイフン˗֊‐‑‒–⁃⁻₋−"))
# => 'いろんなハイフン-'
print(neologdn.normalize("　　　ＰＲＭＬ　　副　読　本　　　"))
# => 'PRML副読本'
print(neologdn.normalize(" Natural Language Processing "))
# => 'Natural Language Processing'
print(neologdn.normalize("かわいいいいいいいいい", repeat=6))
# => 'かわいいいいいい'

In [None]:
# 自前でやるには nltk(Natural Language Toolkit) が便利

import nltk
t = "iPhone, IPAD, MacBook"

def lower_text(text):
    return text.lower()

lower_letters = lower_text(t)

print(lower_letters)

In [None]:
# 正規化　数字の置き換え

正規化では、数字の置き換えを行うことがあります。
数字の置き換えを行う理由としては、 数値表現が多様で出現頻度が高い割には自然言語処理のタスクに役に立たない場合があるからです。
たとえば、ニュース記事を「スポーツ」や「政治」のようなカテゴリに分類するタスクを考えましょう。
この時、記事中には多様な数字表現が出現すると思いますが、カテゴリの分類にはほとんど役に立たないと考えられます。
そのため、 数字を別の記号に置き換えて語彙数を減らしてしまいます。

正規表現を使う方法

re.sub(正規表現, 置換する文字列, 置換される文字列全体 [, 置換回数])


In [None]:
import re
def normalize_number(text):
    
    replaced_text = re.sub("\d", "!", text)
    return replaced_text


replaced_text = normalize_number("終日は前日よりも39.03ドル(0.19%)高い。")
print(replaced_text)

In [None]:
正規表現について

正規表現	意味
\d or [0-9]	数字
\D or [^0-9]	数字以外
\s or [\t\n\r\f\v]	空白
\w or [a-xA-Z0-9_]	英数字
\W or [\a-zA-Z0-9_]	英数字以外



In [None]:
自然言語処理
2.1.1
文書のベクトル表現

文書のベクトル表現 とは、 文書中に単語がどのように分布しているかをベクトルとして表現することです。
例えば、「トマトときゅうりだとトマトが好き」という文は以下のようなベクトル表現に変換することができます。

（が、きゅうり、好き、だと、と、トマト） = (1, 1, 1, 1, 1, 2)

各単語の出現回数は表現されていますが、どこに出現したかの情報は失われています。
つまり、構造や語順の情報が失われています。このようなベクトル表現方法を Bag of Words(BOW) と呼びます。

ベクトル表現に変換する方法には、代表的なものが3つあります。

・カウント表現：先ほどの例のように、文書中の各単語の出現数に着目する方法

・バイナリ表現：出現頻度を気にせず、文章中に各単語が出現したかどうかのみに着目する方法

・tf-idf表現：tf-idfという手法で計算された、文章中の各単語の重み情報を扱う方法

一般的には、 td-idf が使われていますが、 文章数が多い場合においては計算に時間がかかる ため、 バイナリ表現やカウント表現 を用います。
それぞれのベクトル表現に適材適所があります。

In [None]:
from gensim import corpora
from janome.tokenizer import Tokenizer

In [None]:
text1 = "すもももももももものうち"
text2 = "料理も景色もすばらしい"
text3 = "私の趣味は写真撮影です"

t = Tokenizer()
tokens1 = t.tokenize(text1, wakati=True)
tokens2 = t.tokenize(text2, wakati=True)
tokens3 = t.tokenize(text3, wakati=True)

documents = [tokens1, tokens2, tokens3]
# corporaを使い単語辞書を作成してください。
dictionary = corpora.Dictionary(documents)

# 各単語のidを表示してください
print("各単語のid")
print(dictionary.token2id)

# Bag of Wordsの作成してください
bow_corpus = [dictionary.doc2bow(d) for d in documents]

# (id, 出現回数)のリストが出力されます。
print("(id, 出現回数)のリスト")
print(bow_corpus)

print()
# bow_corpusの内容をわかりやすく出力する
texts = [text1, text2, text3]
for i in range(len(bow_corpus)):
    print(texts[i])
    for j in range(len(bow_corpus[i])):
        index = bow_corpus[i][j][0]
        num = bow_corpus[i][j][1]
        print("\"", dictionary[index], "\" が " ,num, "回", end=", ")
    print()

In [None]:
2.1.3 BOW tf-idfによる重み付け（理論）

「BOW_カウント表現」で行ったカウント表現では、文章を特徴付ける単語の出現回数を特徴量として扱いました。
tf-idf は単語の出現頻度である tftf (Term frequency) と、その単語がどれだけ珍しいか（希少性）をしめす逆文書頻度 idfidf(Inverse Document Frequency) の 積で 表されます。

In [None]:
実際にtf-idfを実装していきたいと思います。 
scikit-learnが提供しているツールに TfidfVectorizer があり、それを用いて実装します。
TfidfVectorizerは、「BOW　tf-idfによる重み付け（理論）」で説明した式を少し改良した形で実装されていますが、本質的な部分は同じです。

vecs.toarray()のn行目が、もとの文書docsのn番目のベクトル表現に対応しています。

コードの補足をします。

vectorizer = TfidfVectorizer() で、ベクトル表現化を行う変換器を生成します。 use_idf=False にすると、tfのみの重み付けになります。
TfidfVectorizerは、デフォルトで1文字の文字や文字列をトークンとして扱わない仕様になっているため、
引数に token_pattern="(?u)\\b\\w+\\b" を追加することで除外しないようにする必要があります。
"(?u)\\b\\w+\\b"は、「1文字以上の任意の文字列」を表す正規表現ですが、深く理解する必要はありません。（正確には正規表現にエスケープシーケンスをつけたものです。）

vectorizer.fit_transform() で、文書をベクトルに変換します。引数には、 空白文字によって分割された（分かち書きされた）文書からなる配列 を与えます。 toarrayによって出力をNumpyのndarray配列に変換できます。

np.set_printoptions() は、numpy配列の表示のフォーマットを定める関数であり、precisionで有効数字を指定することができます。
今回の例だと、有効数字二桁で表示されます。

In [None]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

np.set_printoptions(precision=2)
docs = np.array([
    "リンゴ リンゴ", "リンゴ ゴリラ", "ゴリラ ラッパ"
])

# ベクトル表現に変換してください。
vectorizer = TfidfVectorizer(use_idf=True, token_pattern="(?u)\\b\\w+\\b")
vecs = vectorizer.fit_transform(docs)

print(vecs.toarray())

In [None]:
2.1.5 cos類似度

これまでに文書を定量的に判断するために、文書のベクトル化をしてきました。
そのベクトルを比較することにより、文書同士の類似度を解析することができます。
ベクトルとベクトルがどれだけ近いものか示してくれるものに cos類似度 というものがあります。

cos類似度は下記の数式で表され、ベクトルのなす角のコサイン(0~1)を表します。 そのためcos類似度は、二つのベクトルの方向が近いときに高い値を、反対の方向に向いている時に小さい値をとります。
「1に近い場合は似ていて、0に近いときは似ていない」 ということをしっかりおさえておきましょう。

実装すると以下のようになります。
np.dot()は内積を表し、np.linalg.normはベクトルのノルム（ベクトルの長さ）を表しています。

def cosine_similarity(v1, v2):
    cos_sim = np.dot(v1, v2) / (np.linalg.norm(v1)*np.linalg.norm(v2))
    return cos_sim

つまり、２つのベクトルの内積を、両者のノルムの積でわればいい

In [None]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

docs = np.array([
    "リンゴ リンゴ", "リンゴ ゴリラ", "ゴリラ ラッパ"
])
vectorizer = TfidfVectorizer(use_idf=True, token_pattern=u"(?u)\\b\\w+\\b")
vecs = vectorizer.fit_transform(docs)
vecs = vecs.toarray()

# cos類似度を求める関数を定義してください。
def cosine_similarity(v1, v2):
    cos_sim = np.dot(v1, v2) / np.linalg.norm(v1) * np.linalg.norm(v2)
    
    return cos_sim

# 類似度を比較してみましょう。
print("%1.3F" % cosine_similarity(vecs[0], vecs[1]))
print("%1.3F" % cosine_similarity(vecs[0], vecs[2]))
print("%1.3F" % cosine_similarity(vecs[1], vecs[2]))

In [None]:
2.2.1 Word2Vec

前節では文書をベクトル表現として表していましたが、今回は単語をベクトル化します。
単語をベクトルで表現すると、単語の意味の近さの数値化や同義語の探索などが行えます。

最近の研究により、新しく生まれた単語をベクトル化するツールに Word2Vec というものがあります。
簡潔に述べると 単語の意味や文法を捉えるために単語をベクトル表現化して次元を圧縮するツール です。
日本人が日常的に使う語彙数は数万から数十万といわれていますが、Word2Vecでは各単語を200次元程度のベクトルとして表現できます。

Word2Vecを用いると単語と単語の関係性を簡単に表現でき、
「王様」 - 「男」+ 「女」 = 「女王」 
「パリ」 - 「フランス」 + 「日本」 = 「東京」 
のような 単語同士の 演算も可能となります。


これから、 Word2Vec を用いて"男"という単語と関連性が高い文字列を調べていきます。
フローは以下のようになります。対応するセッション名も同時に記しています。

ニュース記事をテキストコーパスとして取り出し、文章とカテゴリーに分ける。 : 「globモジュール」、「with文」、「コーパスの呼び出し」
取り出した文書を品詞ごとに分割し、リストにする。: 「janome(3)」
Word2Vecでモデルを生成。: 「Word2Vec（実装）」
男との関連性が高い語を調べる。: 「Word2Vec（実装）」
    
用語

カウント表現：文書中の各単語の出現数
BOW：文書のベクトル表現
Word2Vec：単語をベクトル化するツール
tf-idf：文章中の各単語の重み情報を扱う方法


In [None]:
globモジュール はファイルやディレクトリを操作するときに便利なモジュールであり、正規表現を用いてパスを指定できます。

ファイル：文書、写真、音楽など、ユーザーが操作・管理する情報の最小単位。
ディレクトリ：ファイルをまとめる入れ物のこと。
パス：コンピュータ上でファイルやディレクトリの場所のこと。

globモジュールが osモジュール （基本的にファイルやディレクトリを操作するときに用いるモジュール）と異なる点は、
特殊な文字や文字列を用いて賢くファイルを検索できる点 です。
例えば、アスタリスク * を用いて以下のように記述すると、 testディレクトリにあるtxtファイルを全て表示させることができます。

lis = glob.glob("test/*.txt")

また、以下の例ようにして特殊な文字列を用いることができます。この例では、testディレクトリ以下のsample(数字).txtファイルを全て表示させることができます。

lis = glob.glob("test/sample[0-9].txt")


In [None]:
import glob

# text/sports-watchの中にあるファイルを表示してください
lis = glob.glob("./*")
print(lis)

with open(lis[0], "r", encoding="utf-8") as f:
    print(f.read())

In [None]:
コーパス

コーパスとは、文書または音声データにある種の情報を与えたデータのこと。



In [None]:
import glob

def load_livedoor_news_corpus():
    category = {
        "dokujo-tsushin": 1,
        "it-life-hack":2,
        "kaden-channel": 3,
        "livedoor-homme": 4,
        "movie-enter": 5,
        "peachy": 6,
        "smax": 7,
        "sports-watch": 8,
        "topic-news":9
    }

    
    docs  = [] # 全ての記事の文章をここに格納します。
    labels = [] # docsに格納される記事の1〜9のカテゴリーを、ラベルとして扱います。


    # 全てのカテゴリーのディレクトリについて実行します。
    for c_name, c_id in category.items():
        # {c_name}にcategory.items()から取得したカテゴリー名c_nameをformatメソッドを用いて埋め込みます。
        
        files = glob.glob("./text/{c_name}/{c_name}*.txt".format(c_name=c_name))

        # カテゴリーに属するファイル数（記事の数）を表示します。
        print("category: ", c_name, ", ",  len(files))

        # 各記事について、URL、 日付、タイトル、 本文の情報を以下のようにして取得します。
        for file in files:
            # with文を用いるため、close()は不要です。
            with open(file, "r", encoding="utf-8") as f:
                # 改行文字で分割
                lines = f.read().splitlines()
                # 分割すると0番目にurl, 1番目に日付、2番目にタイトル、3番目以降に記事本文が記載されています。
                url = lines[0]  
                datetime = lines[1]  
                subject = lines[2]
                # 記事中の本文を1行にまとめてしまいます。
                body = "".join(lines[3:])
                # タイトルと本文をまとめてしまいます。
                text = subject + body

            docs.append(text)
            labels.append(c_id)

    return docs, labels
    

docs, labels = load_livedoor_news_corpus()

print("\nlabel: ", labels[0], "\ndocs:\n", docs[0])
print("\nlabel: ", labels[1000], "\ndocs:\n", docs[1000])

In [None]:
下準備はできたので、本題の Word2Vec を説明していきます。
Word2Vecを用いる時はgensimモジュールからimportします。

from gensim.models import word2vec

学習に使用するリスト（分かち書きされた文書）を Word2Vec関数 の引数とすることで、モデルを生成します。

「BOW カウント」等で扱ったjanome.tokenizerを使って予め 分かち書き を行います。 分かち書きの際、各単語について品詞を調べます。
日本語では、「名詞、動詞、形容詞、形容動詞」以外は単語の関連性の分析に使えないので、「名詞、動詞、形容詞、形容動詞」のみの分かち書きリストを作成します。

Word2Vec は以下のようにして使います。

model = word2vec.Word2Vec(リスト, size=a, min_count=b, window=c)
# ただし、a, b, cは数字
Word2Vecのよく使う引数は主に以下です。

size ：ベクトルの次元数。
window ：この数の前後の単語を、関連性のある単語と見なして学習を行う。
min_count ：n回未満登場する単語を破棄。

適切に学習が行われた後、 modelに対し .most_similar(positive=["単語"]) のようにmost_similar()メソッドを用いるとその単語との類似度が高いものが出力されます。


In [None]:
import glob

from janome.tokenizer import Tokenizer
from gensim.models import word2vec

# livedoor newsの読み込みと分類
def load_livedoor_news_corpus():
    category = {
        "dokujo-tsushin": 1,
        "it-life-hack":2,
        "kaden-channel": 3,
        "livedoor-homme": 4,
        "movie-enter": 5,
        "peachy": 6,
        "smax": 7,
        "sports-watch": 8,
        "topic-news":9
    }
    docs  = []
    labels = []

    for c_name, c_id in category.items():
        files = glob.glob("./text/{c_name}/{c_name}*.txt".format(c_name=c_name))

        text = ""
        for file in files:
            with open(file, "r", encoding="utf-8") as f:
                lines = f.read().splitlines() 

                #1,2行目に書いたあるURLと時間は関係ないので取り除きます。
                url = lines[0]  
                datetime = lines[1]  
                subject = lines[2]
                body = "".join(lines[3:])
                text = subject + body

            docs.append(text)
            labels.append(c_id)

    return docs, labels

# 品詞を取り出し「名詞、動詞、形容詞、形容動詞」のリスト作成
def tokenize(text):
    t = Tokenizer()
    tokens = t.tokenize(",".join(text))
    word = []
    for token in tokens:
        part_of_speech = token.part_of_speech.split(",")[0]
 
        if part_of_speech == "名詞":
            word.append(token.surface)        
        if part_of_speech == "動詞":        
            word.append(token.surface)
        if part_of_speech == "形容詞":
            word.append(token.surface)        
        if part_of_speech == "形容動詞":        
            word.append(token.surface)            
    return word

# ラベルと文章に分類
docs, labels = load_livedoor_news_corpus()
sentences = tokenize(docs[0:100])  # データ量が多いため制限している


# 以下に回答を作成してください
#word2vec.Word2Vecの引数に関して、リストにはsentencesを指定し、size=200, min_count=20, window=15としてください
model = word2vec.Word2Vec(sentences, size=200, min_count=20, window=15)


In [None]:
print(model.most_similar(positive=["男"]))

In [None]:
print(len(docs))

In [None]:
2.3.1 Doc2Vec（1）

Doc2Vec は、Word2Vecを応用した 文章をベクトル化する技術 です。
「文書のベクトル表現」にてBOWで文章のベクトル化を勉強しましたが、BOWとの大きな違いは 文の語順 も特徴として考慮に入れることができる点です。

文書のベクトル表現にて学んだBOWの欠点をおさらいすると、以下のようになります。

単語の語順情報がない
単語の意味の表現が苦手
この二点の欠点をDoc2Vecは補っています。

要点
・BOW,Word2Vecは文書のベクトル表現やWord2Vecの章で学びました。
・Doc2VecはBOWの、単語の語順情報がない、単語の意味の表現が苦手、という点を補ったものです。

In [None]:
2.3.2 Doc2Vec（2）


Doc2Vec を実装していきます。
「コーパスの取り出し」にて作成したlivedoor newsコーパスのdocs[0],docs[1],docs[2],docs[3]の類似度を比較します。

フローは以下のようになります。

分かち書き
TaggedDocument クラスのインスタンスを作成
Doc2Vec でモデルの生成
類似度の出力
ポイント

1.
文章をjanomeのTokenizerを用い、分かち書きにします。

2.
TaggedDocumentの引数にwords="分かち書きされた各要素", tags=["タグ"]を与えると、 TaggedDocument クラスのインスタンスを作成できます。
タグは文書のidのようなものです。
TaggedDocumentをリストに格納し、これをDoc2Vecに渡します。

3.
モデルの学習は以下のように記述します。

model = Doc2Vec(documents=リスト, min_count=1)
min_count:最低この回数出現した単語のみを学習に使用

4.
類似度の出力は以下のように記述します。

for i in range(4):
    print(model.docvecs.most_similar("d"+str(i)))

問題にDoc2Vecの例を載せているので、解きながら使い方を覚えて行きましょう。



In [1]:
import glob
from gensim.models.doc2vec import Doc2Vec
from gensim.models.doc2vec import TaggedDocument
from janome.tokenizer import Tokenizer


# livedoor newsの読み込みと分類
def load_livedoor_news_corpus():
    category = {
        "dokujo-tsushin": 1,
        "it-life-hack":2,
        "kaden-channel": 3,
        "livedoor-homme": 4,
        "movie-enter": 5,
        "peachy": 6,
        "smax": 7,
        "sports-watch": 8,
        "topic-news":9
    }
    docs  = []
    labels = []

    for c_name, c_id in category.items():
        files = glob.glob("./text/{c_name}/{c_name}*.txt".format(c_name=c_name))

        text = ""
        for file in files:
            with open(file, "r", encoding="utf-8") as f:
                lines = f.read().splitlines() 

                #1,2行目に書いたあるURLと時間は関係ないので取り除きます。
                url = lines[0]  
                datetime = lines[1]  
                subject = lines[2]
                body = "".join(lines[3:])
                text = subject + body

            docs.append(text)
            labels.append(c_id)

    return docs, labels

docs, labels = load_livedoor_news_corpus()

# Doc2Vecの処理
token = [] # 各docsの分かち書きした結果を格納するリストです
training_docs = [] # TaggedDocumentを格納するリストです

for i in range(4):
    
    # docs[i] を分かち書きして、tokenに格納します
    t = Tokenizer() 
    token.append(t.tokenize(docs[i], wakati=True))
    
    # TaggedDocument クラスのインスタンスを作成して、結果をtraining_docsに格納します
    # タグは "d番号"とします
    training_docs.append(TaggedDocument(words=token[i], tags=["d" + str(i)]))

# 以下に回答を作成してください
#-------------------------------------------------------
model = Doc2Vec(documents=training_docs, min_count=1)

#-------------------------------------------------------

for i in range(4):
    print(model.docvecs.most_similar("d"+str(i)))

[('d3', 0.9999418258666992), ('d1', 0.9999411106109619), ('d2', 0.9999375939369202)]
[('d3', 0.9999696612358093), ('d2', 0.9999566078186035), ('d0', 0.9999411106109619)]
[('d3', 0.9999698400497437), ('d1', 0.9999565482139587), ('d0', 0.9999375343322754)]
[('d2', 0.9999698400497437), ('d1', 0.9999696016311646), ('d0', 0.9999417066574097)]
