In [1]:
"""
参考リスト
http://mocobeta.github.io/janome/
-> Janomeの公式ドキュメント、用法が載っている
http://www.jp.undp.org/content/tokyo/ja/home/sustainable-development-goals.html
-> Sustainable Development Goals（データ出展）
"""
import codecs
from gensim import corpora, matutils
from janome.tokenizer import Tokenizer
import numpy as np

In [2]:
stop_words = ['持続', '可能', '開発', 'ため', 'アジェンダ', '構成', 'グローバル', '目標', '一つ', '複数', '目標',
              '達成', 'ため', '包括', 'アプローチ', '必要', '不可欠']
#stop_words = []

In [3]:
def token_generator(text):
    tokenizer = Tokenizer()
    for text_line in text.split('\n'):
        for token in tokenizer.tokenize(text_line):
            if token.part_of_speech.split(',')[0] == '名詞' and token.surface not in stop_words:
                if len(token.surface) > 1 and not(token.surface.isdigit()):
                    yield token.surface

In [4]:
# データの読み込み
# split sentences into words(separated by white-space)
text_processed = []
t = Tokenizer()
for i in range(17):
    file_path = "./files_step4/data/SDGs"+str(i+1)+".txt"
    with codecs.open(file_path, "r", "utf-8") as f:
        txt = f.read()
        text_processed.append(list(token_generator(txt)))

print(text_processed[0])

['形態', '貧困', '根絶', '人類', '直面', '重要', '課題', '世界', '極度', '貧困', '半分', '以下', '減少', '多く', '人間', '基本', 'ニーズ', '世界', '以上', 'ドル', 'セント', '未満', '十分', '食料', 'きれい', '衛生', '施設', '利用', '人々', '中国', 'インド', '国々', '経済', '成長', '貧困', '進捗', '男女', '一様', '女性', '雇用', '教育', '資産', 'アクセス', '平等', '貧困', '状態', '確率', '男性', '世界', '極度', '貧困', '人々', 'アジア', 'サハラ', '以南', 'アフリカ', '地域', '進捗', '気候', '変動', '紛争', '食料', '不安', '新た', '脅威', '割合', '今後', '上昇', 'SDGs', 'たち', '開始', '取り組み', '完了', '形態', '貧困', '終止符', '大胆', 'コミットメント', '脆弱', '状況', '人々', '対象', '基本', '資源', 'サービス', 'アクセス', '改善', '紛争', '気候', '変動', '関連', '災害', '被災', 'コミュニティ', '支援', 'こと', '貧困', '解消']


In [5]:
# 辞書の作成と保存
dictionary = corpora.Dictionary(text_processed)
dictionary.save('./files_step4/dictionary.dict')

In [6]:
dictionary.token2id

{'SDGs': 0,
 'きれい': 1,
 'こと': 2,
 'たち': 3,
 'アクセス': 4,
 'アジア': 5,
 'アフリカ': 6,
 'インド': 7,
 'コミットメント': 8,
 'コミュニティ': 9,
 'サハラ': 10,
 'サービス': 11,
 'セント': 12,
 'ドル': 13,
 'ニーズ': 14,
 '一様': 15,
 '上昇': 16,
 '不安': 17,
 '世界': 18,
 '中国': 19,
 '人々': 20,
 '人間': 21,
 '人類': 22,
 '今後': 23,
 '以上': 24,
 '以下': 25,
 '以南': 26,
 '利用': 27,
 '割合': 28,
 '十分': 29,
 '半分': 30,
 '取り組み': 31,
 '国々': 32,
 '地域': 33,
 '基本': 34,
 '変動': 35,
 '多く': 36,
 '大胆': 37,
 '女性': 38,
 '完了': 39,
 '対象': 40,
 '平等': 41,
 '形態': 42,
 '成長': 43,
 '支援': 44,
 '改善': 45,
 '教育': 46,
 '新た': 47,
 '施設': 48,
 '未満': 49,
 '根絶': 50,
 '極度': 51,
 '気候': 52,
 '減少': 53,
 '災害': 54,
 '状態': 55,
 '状況': 56,
 '男女': 57,
 '男性': 58,
 '直面': 59,
 '確率': 60,
 '紛争': 61,
 '終止符': 62,
 '経済': 63,
 '脅威': 64,
 '脆弱': 65,
 '衛生': 66,
 '被災': 67,
 '解消': 68,
 '課題': 69,
 '貧困': 70,
 '資源': 71,
 '資産': 72,
 '進捗': 73,
 '重要': 74,
 '開始': 75,
 '関連': 76,
 '雇用': 77,
 '食料': 78,
 'MDGs': 79,
 'いずれ': 80,
 'これら': 81,
 'すべて': 82,
 'まま': 83,
 'よう': 84,
 'インフラ': 85,
 'カリブ': 86,
 'ミレニアム': 87,
 'ラテン

In [7]:
#BoW matrixの作成
corpus = [dictionary.doc2bow(doc) for doc in text_processed]
doc_matrix = matutils.corpus2csc(corpus).transpose()

In [8]:
type(doc_matrix)

scipy.sparse.csr.csr_matrix

In [9]:
print(doc_matrix[0:10])

  (0, 0)	1.0
  (0, 1)	1.0
  (0, 2)	1.0
  (0, 3)	1.0
  (0, 4)	2.0
  (0, 5)	1.0
  (0, 6)	1.0
  (0, 7)	1.0
  (0, 8)	1.0
  (0, 9)	1.0
  (0, 10)	1.0
  (0, 11)	1.0
  (0, 12)	1.0
  (0, 13)	1.0
  (0, 14)	1.0
  (0, 15)	1.0
  (0, 16)	1.0
  (0, 17)	1.0
  (0, 18)	3.0
  (0, 19)	1.0
  (0, 20)	3.0
  (0, 21)	1.0
  (0, 22)	1.0
  (0, 23)	1.0
  (0, 24)	1.0
  :	:
  (9, 373)	2.0
  (9, 377)	1.0
  (9, 378)	1.0
  (9, 379)	1.0
  (9, 380)	1.0
  (9, 381)	1.0
  (9, 382)	1.0
  (9, 383)	6.0
  (9, 384)	1.0
  (9, 385)	1.0
  (9, 386)	1.0
  (9, 387)	1.0
  (9, 388)	1.0
  (9, 389)	1.0
  (9, 390)	1.0
  (9, 391)	1.0
  (9, 392)	1.0
  (9, 393)	1.0
  (9, 394)	1.0
  (9, 395)	1.0
  (9, 396)	1.0
  (9, 397)	1.0
  (9, 398)	1.0
  (9, 399)	1.0
  (9, 400)	1.0


In [10]:
doc_matrix.shape

(17, 580)

In [11]:
# cos_similarityの作成
cos_sim = np.zeros([17, 17])
var_SDGs = doc_matrix.dot(doc_matrix.transpose()).toarray()
for i in range(17):
    for j in range(17):
        cos_sim[i,j] = var_SDGs[i,j]/(np.sqrt(var_SDGs[i, i])*np.sqrt(var_SDGs[j, j]))
print(cos_sim[:6,:6])

[[1.         0.22439704 0.1339179  0.23424391 0.20888534 0.23048861]
 [0.22439704 1.         0.16157535 0.19915099 0.24427604 0.17440789]
 [0.1339179  0.16157535 1.         0.28441636 0.17725017 0.16667937]
 [0.23424391 0.19915099 0.28441636 1.         0.27963377 0.12372835]
 [0.20888534 0.24427604 0.17725017 0.27963377 1.         0.10942203]
 [0.23048861 0.17440789 0.16667937 0.12372835 0.10942203 1.        ]]


In [12]:
# 類似度の出力
np.savetxt('./files_step4/cos_similarity.csv', cos_sim, delimiter=',')

In [13]:
# cos_similarityの作成
cos_sim = np.zeros([580, 580])
var_SDGs = doc_matrix.transpose().dot(doc_matrix).toarray()
for i in range(580):
    for j in range(580):
        cos_sim[i,j] = var_SDGs[i,j]/(np.sqrt(var_SDGs[i, i])*np.sqrt(var_SDGs[j, j]))

In [14]:
print(cos_sim[:6,:6])

[[1.         0.2981424  0.73299434 0.4        0.45074894 0.18257419]
 [0.2981424  1.         0.18731716 0.2981424  0.62994079 0.40824829]
 [0.73299434 0.18731716 1.         0.60733817 0.53099424 0.28676967]
 [0.4        0.2981424  0.60733817 1.         0.22537447 0.18257419]
 [0.45074894 0.62994079 0.53099424 0.22537447 1.         0.3086067 ]
 [0.18257419 0.40824829 0.28676967 0.18257419 0.3086067  1.        ]]
