■ Janomeのインストール：

In [None]:
!pip install janome

Collecting janome
  Downloading Janome-0.4.1-py2.py3-none-any.whl (19.7 MB)
[K     |████████████████████████████████| 19.7 MB 6.6 MB/s 
[?25hInstalling collected packages: janome
Successfully installed janome-0.4.1


■ 三国志の文章から名詞と動詞と形容詞を抽出：


In [None]:
# Janomeのロード
from janome.tokenizer import Tokenizer

# Tokenizerインスタンスの生成
tokenizer = Tokenizer()

# 名詞、動詞原形、形容詞を配列で抽出する関数
def extract_words(text):
  tokens = tokenizer.tokenize(text)
  return [token.base_form for token in tokens
          if token.part_of_speech.split(',')[0] in['名詞', '動詞', '形容詞']]

# 例文で結果を確かめてみる
sampletext = u"劉備と関羽と張飛の三人は桃園で義兄弟の契りを結んだ"
print(extract_words(sampletext))


['劉', '備', '関', '羽', '張', '飛', '三', '人', '桃園', '義兄弟', '契り', '結ぶ']


■  GoogleDriveのマウントコマンド：

In [None]:
from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


■ 武将名簿のダウンロード：

In [None]:
# KITERETU フォルダをマウントしたGoogleDriveフォルダ(MyDrive)内に作成する
!mkdir -p /content/drive/MyDrive/KITERETU

# 武将名簿ファイルのダウンロード：
!curl -o /content/drive/MyDrive/KITERETU/sangokusi_jinbutu_list.csv https://storage.googleapis.com/nlp_youwht/san/sangokusi_jinbutu_list.csv

# 名簿の冒頭部分を眺めてみる
!head "/content/drive/MyDrive/KITERETU/sangokusi_jinbutu_list.csv"


  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 27008  100 27008    0     0  59098      0 --:--:-- --:--:-- --:--:-- 58969
阿会喃
阿貴
阿羅槃
阿騖
逢紀
伊夷模
伊健妓妾
伊声耆
伊籍
位宮


 武将名簿をユーザ辞書に変換して保存：

In [None]:
#人物の名前が列挙してあるテキストをリスト形式で読み込む
import codecs
def getKeyWordList(input_file_path):
  input_file = codecs.open(input_file_path, 'r', 'utf-8')
  # ファイルの読み込み。各行ごとが格納されたリストになる
  line_list = input_file.readlines()
  # 改行コードを消去するstrip()をそれぞれにほどこす
  return [line.strip() for line in line_list]

keyword_list = getKeyWordList('/content/drive/MyDrive/KITERETU/sangokusi_jinbutu_list.csv')

userdict_str = ""
# コストや品詞の設定などを行い、ユーザ辞書形式にする
for keyword in keyword_list:
  userdict_one_str = keyword + ",-1,-1,-5000,名詞,一般,*,*,*,*," + keyword + ",*,*"
  userdict_str += userdict_one_str+"\n"

#作成したユーザ辞書形式をcsvで保存しておく
with open("/content/drive/MyDrive/KITERETU/sangokusi_userdic.csv", "w", encoding="utf8") as f:
  f.write(userdict_str)


■ 用意したユーザ辞書を使って形態素解析：


In [None]:
# Janomeのロード
from janome.tokenizer import Tokenizer

# Tokenizerインスタンスの生成
tokenizer = Tokenizer("/content/drive/MyDrive/KITERETU/sangokusi_userdic.csv", udic_enc='utf8')
# 変更前は以下であった。
# tokenizer = Tokenizer()

# 名詞・動詞原形のみを配列で抽出する関数
def extract_words(text):
  tokens = tokenizer.tokenize(text)
  return [token.base_form for token in tokens
          if token.part_of_speech.split(',')[0] in['名詞', '動詞', '形容詞']]

# 例文で結果を確かめてみる
sampletext = u"劉備と関羽と張飛の三人は桃園で義兄弟の契りを結んだ"
print(extract_words(sampletext))


['劉備', '関羽', '張飛', 'の', '三', '人', '桃園', '義兄弟', '契り', '結ぶ']


■ 反董卓連合軍でも試してみる：


In [None]:
sampletext = u"第一鎮として後将軍南陽の太守袁術、字は公路を筆頭に、\
第二鎮、冀州の刺史韓馥、第三鎮、予州の刺史孔伷、\
第四鎮、兗州の刺史劉岱、第五鎮、河内郡の太守王匡、\
第六鎮、陳留の太守張邈、第七鎮、東郡の太守喬瑁"
print(extract_words(sampletext))


['一', '鎮', '後', '将軍', '南陽', '太守', '袁術', '字', '公', '路', '筆頭', '二', '鎮', '冀州', '刺史', '韓馥', '三', '鎮', '予州', '刺史', '孔伷', '四', '鎮', '兗州', '刺史', '劉岱', '五', '鎮', '河内', '郡', '太守', '王匡', '六', '鎮', '陳', '留', '太守', '張邈', '七', '鎮', '東', '郡', '太守', '喬瑁']


■ 字リストのダウンロード：

In [None]:
# 字リストのダウンロード
!curl -o /content/drive/MyDrive/KITERETU/sangokusi_azana_list.csv https://storage.googleapis.com/nlp_youwht/san/sangokusi_azana_list.csv

# 冒頭部の内容確認
!head "/content/drive/MyDrive/KITERETU/sangokusi_azana_list.csv"


  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  3202  100  3202    0     0  15103      0 --:--:-- --:--:-- --:--:-- 15032
安国,関興
安世,司馬炎
威公,楊儀
異度,蒯越
雲長,関羽
益徳,張飛
演長,郭攸之
漢升,黄忠
漢瑜,陳珪
機伯,伊籍


■ 字（あざな）の名寄せ用変換データ作成：

In [None]:
import csv
# 字（あざな）の一覧ファイルを読み込む
csv_file = open("/content/drive/MyDrive/KITERETU/sangokusi_azana_list.csv", "r", encoding="utf8")
# CSVファイルをリスト形式で読み出す
csv_reader = csv.reader(csv_file, delimiter=",")
AZANA_LIST = [ e for e in csv_reader ]
csv_file.close()

# 字(あざな)と本名を入れると、３パターンの呼び⽅＆本名の組を作成する関数
def make_yobikata_list(azana, name):
  result_list = []

  # ①["関羽雲長","関羽"] や、["諸葛亮孔明","諸葛亮"]の形を作る
  result_list.append([name + azana, name])

  # ②["関雲長","関羽"] や、["諸葛孔明","諸葛亮"]の形を作る
  result_list.append([name[:-1] + azana, name])

  # ③["雲長","関羽"] や、["孔明","諸葛亮"]の形を作る
  result_list.append([azana, name])

  # なお、最後の字のみの変換は、①の実行後に行うので③は最後に追加した
  return result_list

# 全武将の呼び方＋本名の組み合わせを作成する
ALL_YOBIKATA_LIST = []
for azana_name in AZANA_LIST:
  # １武将ずつ、３パターンの呼び方＆本名の組を作成し追加していく
  ALL_YOBIKATA_LIST += make_yobikata_list(azana_name[0], azana_name[1])

# 結果は２重リスト（リストのリスト）であり、最初の９個の結果を見る
print(ALL_YOBIKATA_LIST[0:9])


[['関興安国', '関興'], ['関安国', '関興'], ['安国', '関興'], ['司馬炎安世', '司馬炎'], ['司馬安世', '司馬炎'], ['安世', '司馬炎'], ['楊儀威公', '楊儀'], ['楊威公', '楊儀'], ['威公', '楊儀']]


■ 字（あざな）変換用関数の作成と実行：

In [None]:
def azana_henkan(input_text):
  result_text = input_text
  # ループで、全部の変換パターンの置換処理を行う
  for yobikata_name in ALL_YOBIKATA_LIST:
    # yobikata_name もリストであり、[0]に呼び方、[1]に本名が入っている
    result_text = result_text.replace(yobikata_name[0], yobikata_name[1])
  return result_text

sampletext = u"趙子龍は、白馬を飛ばして、馬上から一気に彼を槍で突き殺した。"
print(azana_henkan(sampletext))
sampletext = u"子龍は、なおも進んで敵の文醜、顔良の二軍へぶつかって行った。"
print(azana_henkan(sampletext))
sampletext = u"趙雲子龍も、やがては、戦いつかれ、玄徳も進退きわまって、すでに自刃を覚悟した時だった。"
print(azana_henkan(sampletext))


趙雲は、白馬を飛ばして、馬上から一気に彼を槍で突き殺した。
趙雲は、なおも進んで敵の文醜、顔良の二軍へぶつかって行った。
趙雲も、やがては、戦いつかれ、劉備も進退きわまって、すでに自刃を覚悟した時だった。


【※ ここで付録を参照し、記載のコードを実行してください。】  
の、付録のコード  
■ 青空文庫からのダウンロード＆加工用共通コード：  


In [None]:
# 青空文庫からのダウンロードzip展開＆テキスト抽出

import re
import zipfile
import urllib.request
import os.path,glob
# 青空文庫のURLから小説テキストデータを得る関数
def get_flat_text_from_aozora(zip_url):
  # zipファイル名の取得
  zip_file_name = re.split(r'/', zip_url)[-1]
  print(zip_file_name)

  # 既にダウンロード済みか確認後、URLからファイルを取得
  if not os.path.exists(zip_file_name):
    print('Download URL = ',zip_url)
    data = urllib.request.urlopen(zip_url).read()
    with open(zip_file_name, mode="wb") as f:
      f.write(data)
  else:
    print('May be already exists')

  # 拡張子を除いた名前で、展開用フォルダを作成
  dir, ext = os.path.splitext(zip_file_name)
  if not os.path.exists(dir):
    os.makedirs(dir)

  # zipファイルの中身を全て、展開用フォルダに展開
  unzipped_data = zipfile.ZipFile(zip_file_name, 'r')
  unzipped_data.extractall(dir)
  unzipped_data.close()

  # zipファイルの削除
  os.remove(zip_file_name)
  # 注：展開フォルダの削除は入れていない

  # テキストファイル(.txt)の抽出
  wild_path = os.path.join(dir,'*.txt')
  # テキストファイルは原則1つ同梱。最初の1つを取得
  txt_file_path = glob.glob(wild_path)[0]

  print(txt_file_path)
  # 青空文庫はshift_jisのためデコードしてutf8にする
  binary_data = open(txt_file_path, 'rb').read()
  main_text = binary_data.decode('shift_jis')

  # 取得したutf8のテキストデータを返す
  return main_text


# 青空文庫のデータを加工して扱いやすくするコード

# 外字データ変換のための準備
# 外字変換のための対応表（jisx0213対応表）のダウンロード
# ※事前にダウンロード済みであれば飛ばしてもよい
!wget http://x0213.org/codetable/jisx0213-2004-std.txt

import re

# 外字変換のための対応表（jisx0213対応表）の読み込み
with open('jisx0213-2004-std.txt') as f:
  #ms = (re.match(r'(\d-\w{4})\s+U\+(\w{4})', l) for l in f if l[0] != '#')
  # 追加：jisx0213-2004-std.txtには5桁のUnicodeもあるため対応
  ms = (re.match(r'(\d-\w{4})\s+U\+(\w{4,5})', l) for l in f if l[0] != '#')
  gaiji_table = {m[1]: chr(int(m[2], 16)) for m in ms if m}

# 外字データの置き換えのための関数
def get_gaiji(s):
  # ※［＃「弓＋椁のつくり」、第3水準1-84-22］の形式を変換
  m = re.search(r'第(\d)水準\d-(\d{1,2})-(\d{1,2})', s)
  if m:
    key = f'{m[1]}-{int(m[2])+32:2X}{int(m[3])+32:2X}'
    return gaiji_table.get(key, s)
  # ※［＃「身＋單」、U+8EC3、56-1］の形式を変換
  m = re.search(r'U\+(\w{4})', s)
  if m:
    return chr(int(m[1], 16))
  # ※［＃二の字点、1-2-22］、［＃感嘆符二つ、1-8-75］の形式を変換
  m = re.search(r'.*?(\d)-(\d{1,2})-(\d{1,2})', s)
  if m:
    key = f'{int(m[1])+2}-{int(m[2])+32:2X}{int(m[3])+32:2X}'
    return gaiji_table.get(key, s)
  # 不明な形式の場合、元の文字列をそのまま返す
  return s

# 青空文庫の外字データ置き換え＆注釈＆ルビ除去などを行う加工関数
def flatten_aozora(text):
  # textの外字データ表記を漢字に置き換える処理
  text = re.sub(r'※［＃.+?］', lambda m: get_gaiji(m[0]), text)
  # 注釈文や、ルビなどの除去
  text = re.split(r'\-{5,}', text)[2]
  text = re.split(r'底本：', text)[0]
  text = re.sub(r'《.+?》', '', text)
  text = re.sub(r'［＃.+?］', '', text)
  text = text.strip()
  return text


# 複数ファイルのダウンロードや加工を一括実行する関数

import time
# ZIP-URLのリストから全てのデータをダウンロード＆加工する関数
def get_all_flat_text_from_zip_list(zip_list):
  all_flat_text = ""
  for zip_url in zip_list:
    # ダウンロードや解凍の失敗があり得るためTry文を使う
    # 十分なデータ量があるため数件の失敗はスキップでよい
    try:
      # 青空文庫からダウンロードする関数を実行
      aozora_dl_text = get_flat_text_from_aozora(zip_url)
      # 青空文庫のテキストを加工する関数を実行
      flat_text = flatten_aozora(aozora_dl_text)
      # 結果を追記して改行。
      all_flat_text += flat_text + ("\n")
      print(zip_url+" : 取得＆加工完了")
    except:
      # エラー時の詳細ログが出るおまじない
      import traceback
      traceback.print_exc()
      print(zip_url+" : 取得or解凍エラーのためスキップ")

    # 青空文庫サーバに負荷をかけすぎないように１秒待ってから次の小説へ
    time.sleep(1)

  # 全部がつながった大きなテキストデータを返す
  return all_flat_text


--2021-10-25 05:35:04--  http://x0213.org/codetable/jisx0213-2004-std.txt
Resolving x0213.org (x0213.org)... 59.106.19.103
Connecting to x0213.org (x0213.org)|59.106.19.103|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 311997 (305K) [text/plain]
Saving to: ‘jisx0213-2004-std.txt’


2021-10-25 05:35:05 (394 KB/s) - ‘jisx0213-2004-std.txt’ saved [311997/311997]



■ URLを指定してダウンロード＆加工を実行：

In [None]:
import time

sangokusi_zip_list = [
"https://www.aozora.gr.jp/cards/001562/files/52410_ruby_51060.zip",
"https://www.aozora.gr.jp/cards/001562/files/52411_ruby_50077.zip",
"https://www.aozora.gr.jp/cards/001562/files/52412_ruby_50316.zip",
"https://www.aozora.gr.jp/cards/001562/files/52413_ruby_50406.zip",
"https://www.aozora.gr.jp/cards/001562/files/52414_ruby_50488.zip",
"https://www.aozora.gr.jp/cards/001562/files/52415_ruby_50559.zip",
"https://www.aozora.gr.jp/cards/001562/files/52416_ruby_50636.zip",
"https://www.aozora.gr.jp/cards/001562/files/52417_ruby_50818.zip",
"https://www.aozora.gr.jp/cards/001562/files/52418_ruby_50895.zip",
"https://www.aozora.gr.jp/cards/001562/files/52419_ruby_51044.zip",
"https://www.aozora.gr.jp/cards/001562/files/52420_ruby_51054.zip",
]

# 三国志の全データを取得する
sangokusi_org_text = get_all_flat_text_from_zip_list(sangokusi_zip_list)
# 得た結果をファイルに書き込む
with open('/content/drive/MyDrive/KITERETU/sangokusi_org_text.txt', 'w') as f:
  print(sangokusi_org_text, file=f)
  print("★三国志ALLファイル出力完了")


52410_ruby_51060.zip
Download URL =  https://www.aozora.gr.jp/cards/001562/files/52410_ruby_51060.zip
52410_ruby_51060/02toenno_maki.txt
https://www.aozora.gr.jp/cards/001562/files/52410_ruby_51060.zip : 取得＆加工完了
52411_ruby_50077.zip
Download URL =  https://www.aozora.gr.jp/cards/001562/files/52411_ruby_50077.zip
52411_ruby_50077/03gunseino_maki.txt
https://www.aozora.gr.jp/cards/001562/files/52411_ruby_50077.zip : 取得＆加工完了
52412_ruby_50316.zip
Download URL =  https://www.aozora.gr.jp/cards/001562/files/52412_ruby_50316.zip
52412_ruby_50316/04somono_maki.txt
https://www.aozora.gr.jp/cards/001562/files/52412_ruby_50316.zip : 取得＆加工完了
52413_ruby_50406.zip
Download URL =  https://www.aozora.gr.jp/cards/001562/files/52413_ruby_50406.zip
52413_ruby_50406/05shidono_maki.txt
https://www.aozora.gr.jp/cards/001562/files/52413_ruby_50406.zip : 取得＆加工完了
52414_ruby_50488.zip
Download URL =  https://www.aozora.gr.jp/cards/001562/files/52414_ruby_50488.zip
52414_ruby_50488/06komeino_maki.txt
https://www

■ 字（あざな）の変換を実施：

In [None]:
%%time
import codecs
# 取得してあった原文を開く
with codecs.open("/content/drive/MyDrive/KITERETU/sangokusi_org_text.txt", 'r', encoding='utf-8') as f:
  org_text = f.read()

# 全テキストに字変換処理をほどこして新しいファイルに書き込む
with open("/content/drive/MyDrive/KITERETU/sangokusi_henkango_text.txt", "w", encoding="utf8") as f:
  f.write(azana_henkan(org_text))


CPU times: user 597 ms, sys: 16.8 ms, total: 614 ms
Wall time: 643 ms


■ 全文に対してキーワードの抽出、リスト化：

In [None]:
%%time

# Janomeのロード
from janome.tokenizer import Tokenizer

# Tokenizerインスタンスの生成
#tokenizer = Tokenizer()
tokenizer = Tokenizer("/content/drive/MyDrive/KITERETU/sangokusi_userdic.csv", udic_enc='utf8')

# テキストを引数として、形態素解析の結果、名詞・動詞原形のみを配列で抽出する関数
def extract_words(text):
  tokens = tokenizer.tokenize(text)
  #どの品詞を採用するかも重要な調整要素
  return [token.base_form for token in tokens
          if token.part_of_speech.split(',')[0] in['名詞', '動詞', '形容詞']]

import codecs
# ['趙雲', '白馬', '飛ばす', '馬上', '彼', '槍', '突き', '殺す']
# このようなリストのリスト（二次元リスト）を作る関数
# Word2Vecでは、分かち書きされた１文ずつのリストを引数として使うため
def textfile2wordlist(input_file_path):
  input_file  = codecs.open(input_file_path, 'r', 'utf-8')
  # ファイルの読み込み。各行ごとが格納されたリストになる
  line_list = input_file.readlines()
  result_word_list_list = []
  for line in line_list:
    # 1行ずつ、形態素解析した結果をリストに変換
    tmp_word_list = extract_words(line)
    result_word_list_list.append(tmp_word_list)
  return result_word_list_list

# 実行
sangokusi_wordlist = textfile2wordlist('/content/drive/MyDrive/KITERETU/sangokusi_henkango_text.txt')

# 作成したワードリストは、pickleを使って、GoogleDriveに保存しておく
import pickle
with open('/content/drive/MyDrive/KITERETU/sangokusi_wordlist.pickle', 'wb') as f:
  pickle.dump(sangokusi_wordlist, f)


CPU times: user 3min 13s, sys: 596 ms, total: 3min 14s
Wall time: 3min 14s


■ 作成したキーワードリストの内容確認：


In [None]:
# なお、保存したpickleファイルは、以下のようにすれば復元出来る
with open('/content/drive/MyDrive/KITERETU/sangokusi_wordlist.pickle', 'rb') as f:
  sangokusi_wordlist = pickle.load(f)

# 結果の確認用①行数の表示
print(len(sangokusi_wordlist))

# ２重のリストをフラット（１重）にする関数
# ネストしたリスト内包表記を用いている。コピペでよく、理解する必要はない。
def flatten(nested_list):
  return [e for inner_list in nested_list for e in inner_list]

# 結果の確認用②キーワード数の表示
print(len(flatten(sangokusi_wordlist)))

# 結果の確認用③最初の５０個の内容確認
print(sangokusi_wordlist[0:50])


41720
475171
[['黄', '巾', '賊'], [], ['一'], [], ['漢', '建', '寧', '元年', 'ころ'], ['今', '千', '七', '百', '八', '十', '年', '前', 'こと'], ['一', '人', '旅人', 'ある'], ['腰', '一', '剣', '佩く', 'いる', 'ほか', '身なり', '見る', 'す', 'ぼる', '眉', '秀でる', '唇', '紅い', '聡明', 'そう', '眸', '豊か', '頬', 'する', 'いる', 'どこ', '微笑', 'ふくむ', '賤', 'しげ', '容子', 'ない'], ['年', '頃', '二', '十', '四', '五'], ['草むら', '中', '坐る', '膝', 'かかえこむ', 'いる'], ['悠久', '水', '行く'], ['微風', '爽やか', '鬢', 'なでる'], ['涼秋', '八月'], ['そこ', '黄河', '畔', '黄土', '層', '低い', '断り', '岸'], [], ['誰', '河', 'よぶ'], ['そこ', '若い', '者', 'ウ', 'なに', '見る', 'いる', 'ん', 'だい', '待つ', 'いる', 'そこ', '渡し舟', '着く', '所'], ['漁船', '漁夫', 'いう', 'の'], ['青年', '笑', 'くる', 'ぼる', '送る'], ['頭', '下げる'], ['漁船', '下流', '流れる', '去る', '青年', '所', '姿', 'する', 'いる', '膝', 'かかえる', '坐る', 'まま', '遠心', '的', '眼', 'うごかす'], ['旅', '者'], ['こんど', '後ろ', '通る', '人間', '呼びかける', '近村', '百姓', 'ひとり', '鶏', '足', 'つかむ', 'さげる', 'ひとり', '農具', 'かつぐ', 'いる'], ['所', '今朝', 'なに', '待つ', 'いる', 'ん', 'このごろ', '黄', '巾', '賊', '徒', '立つ', '廻る', '役人', '衆', '怪しむ', 'れる'], ['青年', '

■ キーワードリストから、機械学習を行いモデルを作る：

※2023年06月修正  
gensimのライブラリのバージョンがアップされ、  
それに伴いパラメータの名称が変更されたようで、  
size ⇒ vector_size  
iter ⇒ epochs  
に変更しました。  
また、ログの出方も変更されているようで、
出力例に記載のような沢山のログは出ないようです。

In [None]:
%%time
import logging
from gensim.models import word2vec
import pickle

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

#ワードリストをpickleから復元
with open('/content/drive/MyDrive/KITERETU/sangokusi_wordlist.pickle', 'rb') as f:
  word_list = pickle.load(f)

# Word2Vecの学習実施
model = word2vec.Word2Vec(word_list,
                          vector_size = 50,
                          min_count = 5,
                          window = 6,
                          epochs = 100)

model.save("/content/drive/MyDrive/KITERETU/w2v_sangokusi.model")


2021-10-25 05:40:35,143 : INFO : collecting all words and their counts
2021-10-25 05:40:35,148 : INFO : PROGRESS: at sentence #0, processed 0 words, keeping 0 word types
2021-10-25 05:40:35,184 : INFO : PROGRESS: at sentence #10000, processed 98660 words, keeping 12256 word types
2021-10-25 05:40:35,231 : INFO : PROGRESS: at sentence #20000, processed 205688 words, keeping 17437 word types
2021-10-25 05:40:35,272 : INFO : PROGRESS: at sentence #30000, processed 320532 words, keeping 21175 word types
2021-10-25 05:40:35,319 : INFO : PROGRESS: at sentence #40000, processed 451286 words, keeping 24483 word types
2021-10-25 05:40:35,331 : INFO : collected 25208 word types from a corpus of 475171 raw words and 41720 sentences
2021-10-25 05:40:35,333 : INFO : Loading a fresh vocabulary
2021-10-25 05:40:35,372 : INFO : effective_min_count=5 retains 9767 unique words (38% of original 25208, drops 15441)
2021-10-25 05:40:35,374 : INFO : effective_min_count=5 leaves 447427 word corpus (94% of or

CPU times: user 2min 42s, sys: 1.32 s, total: 2min 43s
Wall time: 1min 31s


■ ベクトルにされた魏延を見る：

In [None]:
from gensim.models import word2vec

# 保存したモデルファイルの読み込み
model = word2vec.Word2Vec.load("/content/drive/MyDrive/KITERETU/w2v_sangokusi.model")

print(model.__dict__['wv']['魏延'])

2021-10-25 05:42:17,102 : INFO : loading Word2Vec object from /content/drive/MyDrive/KITERETU/w2v_sangokusi.model
2021-10-25 05:42:17,430 : INFO : loading wv recursively from /content/drive/MyDrive/KITERETU/w2v_sangokusi.model.wv.* with mmap=None
2021-10-25 05:42:17,433 : INFO : setting ignored attribute vectors_norm to None
2021-10-25 05:42:17,440 : INFO : loading vocabulary recursively from /content/drive/MyDrive/KITERETU/w2v_sangokusi.model.vocabulary.* with mmap=None
2021-10-25 05:42:17,442 : INFO : loading trainables recursively from /content/drive/MyDrive/KITERETU/w2v_sangokusi.model.trainables.* with mmap=None
2021-10-25 05:42:17,448 : INFO : setting ignored attribute cum_table to None
2021-10-25 05:42:17,450 : INFO : loaded /content/drive/MyDrive/KITERETU/w2v_sangokusi.model


[ 1.9173474  -1.0230975   0.06126198 -0.8606647  -0.59247524  0.9046677
  3.6038902  -1.3582361  -0.1701527  -2.1396217   0.73873496  2.0876312
 -0.82896316  3.978466    0.28275532 -2.7107244   0.7575259  -2.3788888
 -2.3934102  -1.3135936  -2.477519   -2.1020873  -1.6193115   0.8280694
  4.222766   -1.4305112  -3.337515    2.2531846   0.17241049  3.8921204
 -1.0577265   1.8311344  -1.9672191   1.2837371  -0.41926852 -4.044712
 -2.283916   -1.9041662  -2.682838    6.26683     1.856547    1.5368447
  1.9137437   0.7854431   0.7145208  -0.3574764   0.37720707  2.2849395
  1.8181916   0.28917187]


■ 「関羽」に近いTop7の表示：


In [None]:
out = model.wv.most_similar(positive=[u'関羽'], topn=7)
print(out)

2021-10-25 05:42:34,572 : INFO : precomputing L2-norms of word weight vectors


[('劉備', 0.6847494840621948), ('孫乾', 0.6572052240371704), ('趙雲', 0.656166672706604), ('関平', 0.6153693795204163), ('張飛', 0.5775683522224426), ('糜芳', 0.5612915754318237), ('張苞', 0.5470471382141113)]


■ 「諸葛亮」に近いTop7の表示：


In [None]:
out = model.wv.most_similar(positive=[u'諸葛亮'], topn=7)
print(out)

[('姜維', 0.6670064330101013), ('司馬懿', 0.6474563479423523), ('陸遜', 0.5527200698852539), ('魯粛', 0.5498932600021362), ('魏延', 0.5379550457000732), ('劉備', 0.5064989924430847), ('楊儀', 0.5034860968589783)]


■ 「甘寧」＋「曹操」－「孫権」：

In [None]:
# 「甘寧」＋「曹操」－「孫権」（孫権にとっての甘寧は、曹操にとって誰？）
print(model.wv.most_similar(positive=['甘寧','曹操'], negative=['孫権'],topn=5))
# 「甘寧」＋「劉備」－「孫権」（孫権にとっての甘寧は、劉備にとって誰？）
print(model.wv.most_similar(positive=['甘寧','劉備'], negative=['孫権'],topn=5))

[('董卓', 0.6380791068077087), ('于禁', 0.5751194953918457), ('許褚', 0.5576584339141846), ('徐晃', 0.5471183061599731), ('なだれ', 0.5273633003234863)]
[('張飛', 0.6829030513763428), ('関羽', 0.5843572020530701), ('ふたり', 0.5489971041679382), ('張遼', 0.5309637188911438), ('張南', 0.5244684219360352)]


■ 曹操にとっての張遼は誰か？：


In [None]:
# 「張遼」＋「孫権」－「曹操」（曹操にとっての張遼は、孫権にとって誰？）
print(model.wv.most_similar(positive=['張遼','孫権'], negative=['曹操'],topn=5))
# 「張遼」＋「劉備」－「曹操」（曹操にとっての張遼は、劉備にとって誰？）
print(model.wv.most_similar(positive=['張遼','劉備'], negative=['曹操'],topn=5))


[('周泰', 0.63219153881073), ('韓当', 0.5516380071640015), ('陸遜', 0.5214964151382446), ('救い出す', 0.5210177898406982), ('張翼', 0.5080519914627075)]
[('趙雲', 0.6857954859733582), ('関羽', 0.6301696300506592), ('張飛', 0.6163004040718079), ('張翼', 0.5853250026702881), ('孫乾', 0.5549824237823486)]


■ 劉備にとっての諸葛亮は誰か？：

In [None]:
print(model.wv.most_similar(positive=['諸葛亮','曹操'], negative=['劉備'],topn=5))
print(model.wv.most_similar(positive=['諸葛亮','孫権'], negative=['劉備'],topn=5))


[('曹真', 0.6516969799995422), ('司馬懿', 0.6263272762298584), ('来す', 0.5622915029525757), ('すくない', 0.5175493359565735), ('首脳', 0.5147556066513062)]
[('陸遜', 0.7475038170814514), ('周瑜', 0.6595892310142517), ('張昭', 0.6433579921722412), ('呉', 0.5949150323867798), ('魯粛', 0.5883411765098572)]


■ キーワードリストから「劉備」と「曹操」の数を数える：

In [None]:
import pickle
with open('/content/drive/MyDrive/KITERETU/sangokusi_wordlist.pickle', 'rb') as f:
  sangokusi_wordlist = pickle.load(f)

# ２重のリストをフラット（１重）にする関数
def flatten(nested_list):
  return [e for inner_list in nested_list for e in inner_list]

flat_wordlist = flatten(sangokusi_wordlist)

print("劉備の登場回数：", flat_wordlist.count('劉備'))
print("曹操の登場回数：", flat_wordlist.count('曹操'))


劉備の登場回数： 2656
曹操の登場回数： 2856
