In [15]:
import zipfile
import os.path
import urllib.request as req
import MeCab
from gensim import models

# MeCabの初期化
mecab = MeCab.Tagger()
mecab.parse("")

# 保存したDoc2ver学習モデル読み込み
model = models.Doc2Vec.load('aozora.model')

# 分類用のzipファイル開き、中の文書取得
def read_book(url, zipname):
    # Zipファイルがなければ取得
    if not os.path.exists(zipname):
        # urllib.request.urlretrieve(目的のURL, 保存先のファイル名) ダウンロードに使う
        req.urlretrieve(url, zipname)
    # Zipファイル展開
    with zipfile.ZipFile(zipname, "r") as zf:
        # ZIpファイルに含まれるファイルを展開
        for filename in zf.namelist():
            with zf.open(filename, "r") as f:
                # ファイルがshift-jisなので形式指定でデコード
                return f.read().decode("shift-jis")
            
# 引数のテキストを分かち書きにして配列に格納する
def split_words(text):
    node = mecab.parseToNode(text)
    wakati_words = []
    while node is not None:
        hinshi = node.feature.split(",")[0]
        # 名詞であれば文字列をそのまま格納
        if hinshi in ["名詞"]:
            wakati_words.append(node.surface)
        # 形容詞、動詞は原型を格納
        elif hinshi in ["動詞","形容詞"]:
            wakati_words.append(node.feature.split(",")[6])
        node = node.next
    return wakati_words

def similar(title,url):
    # [-1]一番後ろの要素取得　.../*.zip
    zipname = url.split("/")[-1]
    words = read_book(url,zipname)
    wakati_words = split_words(words)
    # '文書名',ベクトルを返す
    vector = model.infer_vector(wakati_words)
    print("---[" + title + ']と似た作品は？---')
    # topnの数だけ TaggedDocumentのタグ作者：作品名,ベクトルのリスト返す
    # model.docvecs.most_similar((positive=)[文書名], topn=N)
    print(model.docvecs.most_similar([vector],topn = 3))
    print("")

# 各作家の作品を一つずつ分類
similar("宮沢 賢治：よだかの星",
        "https://www.aozora.gr.jp/cards/000081/files/473_ruby_467.zip")
similar("芥川　龍之介：犬と笛",
        "https://www.aozora.gr.jp/cards/000879/files/56_ruby_845.zip")
similar("太宰 治：五所川原",
        "https://www.aozora.gr.jp/cards/000035/files/45688_ruby_21351.zip")
similar("夏目 漱石：一夜",
        "https://www.aozora.gr.jp/cards/000148/files/1086_ruby_5742.zip")

---[宮沢 賢治：よだかの星]と似た作品は？---
[('宮沢賢治:どんぐりと山猫', 0.9997031092643738), ('芥川龍之介:老年', 0.999675989151001), ('宮沢賢治:やまなし', 0.9996281862258911)]

---[芥川　龍之介：犬と笛]と似た作品は？---
[('芥川龍之介:羅生門', 0.9998209476470947), ('宮沢賢治:やまなし', 0.9997440576553345), ('夏目漱石:吾輩は猫である', 0.9996716976165771)]

---[太宰 治：五所川原]と似た作品は？---
[('夏目漱石:吾輩は猫である', 0.9977449774742126), ('芥川龍之介:羅生門', 0.9976843595504761), ('夏目漱石:草枕', 0.9972745180130005)]

---[夏目 漱石：一夜]と似た作品は？---
[('夏目漱石:虜美人草', 0.9981018304824829), ('夏目漱石:草枕', 0.9979110360145569), ('宮沢賢治:注文の多い料理店', 0.997637152671814)]



  if np.issubdtype(vec.dtype, np.int):
