In [None]:
# プログラムを実行前に pip コマンドで以下をインストール
# (google colab の場合は以下のコメントアウトを外す)
#!pip install ja-ginza

In [7]:
# Spacy/Ginza の初期化し、入力文の分かち書きし、品詞を出力
import spacy
nlp = spacy.load('ja_ginza')
doc = nlp('さいたま市は、埼玉県南部にある政令市です。')
for token in doc:
  print(token.text, token.pos_)

print('入力文内の固有表現を可視化')
spacy.displacy.render(doc, style="ent")

print('入力文内の係り受け関係を可視化')
spacy.displacy.render(doc, style="dep", options={"compact":True})

さいたま市 PROPN
は ADP
、 PUNCT
埼玉県 PROPN
南部 NOUN
に ADP
ある VERB
政令市 NOUN
です AUX
。 PUNCT
入力文内の固有表現


入力文内の係り受け関係


In [13]:
import spacy
nlp = None
def init_ginza():
    '''Spacy/Ginza の初期化'''
    global nlp
    nlp = spacy.load('ja_ginza')

def get_ginza_embedding(_sentence):
    '''# Spacy/Ginza で入力文から文ベクトルを抽出'''
    _doc = nlp(_sentence)
    return _doc.vector

import numpy as np
def cos_sim(x, y):
    return float(np.dot(x, y) / (np.sqrt(np.sum(x ** 2)) * np.sqrt(np.sum(y ** 2))))

In [14]:
_answers = [{'ans_text': 'さいたま市は、埼玉県南部にある政令市です。', 'vector': []},
            {'ans_text': 'さいたま市は、埼玉県北部にある政令市です。', 'vector': []},
            {'ans_text': 'さいたま市は、埼玉県南部にある都市です。', 'vector': []},]

init_ginza()
for _answer in _answers:
    _answer['vector'] = get_ginza_embedding(_answer['ans_text'])

for _answer_1 in _answers:
    for _answer_2 in _answers:
        print(_answer_1['ans_text'], _answer_2['ans_text'], cos_sim(_answer_1['vector'], _answer_2['vector']))

さいたま市は、埼玉県南部にある政令市です。 さいたま市は、埼玉県南部にある政令市です。 0.9999998807907104
さいたま市は、埼玉県南部にある政令市です。 さいたま市は、埼玉県北部にある政令市です。 0.9937516450881958
さいたま市は、埼玉県南部にある政令市です。 さいたま市は、埼玉県南部にある都市です。 0.963867723941803
さいたま市は、埼玉県北部にある政令市です。 さいたま市は、埼玉県南部にある政令市です。 0.9937516450881958
さいたま市は、埼玉県北部にある政令市です。 さいたま市は、埼玉県北部にある政令市です。 1.0000001192092896
さいたま市は、埼玉県北部にある政令市です。 さいたま市は、埼玉県南部にある都市です。 0.956177830696106
さいたま市は、埼玉県南部にある都市です。 さいたま市は、埼玉県南部にある政令市です。 0.963867723941803
さいたま市は、埼玉県南部にある都市です。 さいたま市は、埼玉県北部にある政令市です。 0.956177830696106
さいたま市は、埼玉県南部にある都市です。 さいたま市は、埼玉県南部にある都市です。 1.0000001192092896
