<a href="https://colab.research.google.com/github/mashyko/NLP_BERT_Transformers/blob/master/Ginza_SpaCy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# GiNZA + SpaCy で日本語処理

最初に、spaCyをインストールします。spaCyの公式サイトはhttps://spacy.io　です。


In [0]:
# Colabではすでにデフォルトでインストールされています。
#!pip install spacy

次に、GiNZAをインストールします。

In [2]:
#!pip install "https://github.com/megagonlabs/ginza/releases/download/latest/ginza-latest.tar.gz"
!pip install -U ginza

Requirement already up-to-date: ginza in /usr/local/lib/python3.6/dist-packages (3.1.2)


spaCyで日本語処理を実行してみます。 spaCy をインポートして、GiNZA のモデルをロードします。また、慣例としてロードしたモデルは nlp という変数名で保持します。

実際に日本語の文章をトークン化してみます。

In [0]:
import spacy
nlp = spacy.load('ja_ginza')

In [4]:
doc = nlp('恵比寿にあるあのイタリアンにはよく行く。美味しいんだ。')
for sent in doc.sents:
    for token in sent:
        info = [
            token.i,         # トークン番号
            token.text,     # テキスト
            token._.reading, # 読みカナ
            token.lemma_,    # 基本形
            token.pos_,      # 品詞
            token.tag_,      # 品詞詳細
            token._.inf      # 活用情報
        ]
        print(info)
        

[0, '恵比寿', 'エビス', '恵比寿', 'PROPN', '名詞-固有名詞-地名-一般', '*,*']
[1, 'に', 'ニ', 'に', 'ADP', '助詞-格助詞', '*,*']
[2, 'ある', 'アル', '有る', 'VERB', '動詞-非自立可能', '五段-ラ行,連体形-一般']
[3, 'あの', 'アノ', 'あの', 'INTJ', '感動詞-フィラー', '*,*']
[4, 'イタリアン', 'イタリアン', 'イタリアン', 'NOUN', '名詞-普通名詞-形状詞可能', '*,*']
[5, 'に', 'ニ', 'に', 'ADP', '助詞-格助詞', '*,*']
[6, 'は', 'ハ', 'は', 'ADP', '助詞-係助詞', '*,*']
[7, 'よく', 'ヨク', '良く', 'ADV', '副詞', '*,*']
[8, '行く', 'イク', '行く', 'VERB', '動詞-非自立可能', '五段-カ行,終止形-一般']
[9, '。', '。', '。', 'PUNCT', '補助記号-句点', '*,*']
[10, '美味しい', 'オイシイ', '美味しい', 'ADJ', '形容詞-一般', '形容詞,連体形-一般']
[11, 'ん', 'ン', 'の', 'SCONJ', '助詞-準体助詞', '*,*']
[12, 'だ', 'ダ', 'だ', 'AUX', '助動詞', '助動詞-ダ,終止形-一般']
[13, '。', '。', '。', 'PUNCT', '補助記号-句点', '*,*']


In [5]:
doc = nlp("1976年、ジョブズは友人のスティーブ・ウォズニアックが自作したマイクロコンピュータ「Apple I」を販売するために起業することを決意し、\
同年4月1日にウォズニアックおよびロナルド・ウェインと共同で「アップルコンピュータ・カンパニー」を創業した。")
 
for token in doc:
    print(token.text, token.pos_, token.vector[:2]) # 単語ベクトルの最初の2次元のみ出力
 

1976 NUM [0. 0.]
年 NOUN [ 0.620315  -0.4152714]
、 PUNCT [-0.13570154  0.03189861]
ジョブズ PROPN [0.8202456  0.20616409]
は ADP [-0.05453783  0.24504063]
友人 NOUN [1.3353887  0.12673263]
の ADP [-0.15094382 -0.08154755]
スティーブ PROPN [-0.03989342  0.54386944]
・ PUNCT [-0.3316787  1.6892753]
ウォズニアック PROPN [0. 0.]
が ADP [-0.4157958   0.29251373]
自作 VERB [ 1.0381305 -2.1053782]
し AUX [ 0.49752328 -0.49136245]
た AUX [ 0.66177905 -0.2524343 ]
マイクロコンピュータ NOUN [-0.25982904 -0.6955822 ]
「 PUNCT [ 0.01591846 -0.05320641]
Apple NOUN [0. 0.]
I NOUN [0. 0.]
」 PUNCT [-0.10184797  0.06876247]
を ADP [ 0.14823031 -0.36073384]
販売 VERB [ 0.23586828 -2.3058503 ]
する AUX [-0.42045692 -0.4962955 ]
ため NOUN [0.6051109  0.03168863]
に ADP [-0.3364834 -0.3304015]
起業 VERB [ 0.60642695 -1.3447245 ]
する AUX [-0.42045692 -0.4962955 ]
こと NOUN [ 0.2582989 -0.5639797]
を ADP [ 0.14823031 -0.36073384]
決意 VERB [4.2441387 0.165775 ]
し AUX [ 0.49752328 -0.49136245]
、 PUNCT [-0.13570154  0.03189861]
同年 NOUN [ 1.5659472 -0.3075389]
4 N

形態素解析した文章を文単位に分割するときは、doc.sents を用いて

In [6]:
doc =nlp('spaCy はオープンソースの自然言語処理ライブラリです。学習済みの統計モデルと単語ベクトルが付属しています。')
for s in doc.sents:
    print(s)

spaCy はオープンソースの自然言語処理ライブラリです。
学習済みの統計モデルと単語ベクトルが付属しています。


名詞句のみ抽出するときは、以下のようにします。doc.noun_chunks を用います。

In [7]:
for np in doc.noun_chunks:
    print(np)

spaCy
オープンソース
自然言語処理ライブラリ
学習済み
統計モデル
単語ベクトル


In [8]:
for token in doc:
  print(token.text)

spaCy
は
オープンソース
の
自然
言語
処理
ライブラリ
です
。
学習
済み
の
統計
モデル
と
単語
ベクトル
が
付属
し
て
い
ます
。


In [9]:
for token in doc:
  print("token[%2d] = %-10s, pos:%-6s, dep:%-10s, head=%d" % (token.i, token.text, token.pos_, token.dep_, token.head.i))



token[ 0] = spaCy     , pos:NOUN  , dep:nsubj     , head=7
token[ 1] = は         , pos:ADP   , dep:case      , head=0
token[ 2] = オープンソース   , pos:PROPN , dep:nmod      , head=7
token[ 3] = の         , pos:ADP   , dep:case      , head=2
token[ 4] = 自然        , pos:NOUN  , dep:compound  , head=7
token[ 5] = 言語        , pos:NOUN  , dep:compound  , head=7
token[ 6] = 処理        , pos:NOUN  , dep:compound  , head=7
token[ 7] = ライブラリ     , pos:NOUN  , dep:ROOT      , head=7
token[ 8] = です        , pos:AUX   , dep:cop       , head=7
token[ 9] = 。         , pos:PUNCT , dep:punct     , head=7
token[10] = 学習        , pos:NOUN  , dep:compound  , head=11
token[11] = 済み        , pos:NOUN  , dep:nmod      , head=14
token[12] = の         , pos:ADP   , dep:case      , head=11
token[13] = 統計        , pos:NOUN  , dep:compound  , head=14
token[14] = モデル       , pos:NOUN  , dep:nmod      , head=17
token[15] = と         , pos:ADP   , dep:case      , head=14
token[16] = 単語        , pos:NOUN  , dep:compound  

文章のトークン化で生成された単語のベクトル表現を見るときは、以下のように入力します。

In [10]:
token = doc[6]
print(token)
print(token.vector)

処理
[-0.20311877 -1.358977    0.24872515 -0.23106259  1.3038377  -1.4496866
  0.40794867  0.15513091  2.0505989  -0.94636154 -1.7535685   0.53737295
 -1.5613228  -0.2857393   0.78408945  1.5640978  -0.3332419  -0.38211027
  0.48222083 -1.1883434  -0.85445374 -0.87986547 -2.2032619   0.26650086
 -1.4900254  -0.3996739  -1.331075   -1.4302186  -0.6631059   1.9077436
  1.2608107   0.9047042  -1.3817195  -0.58531326  0.3410195  -1.158211
  1.4832613  -1.4990202  -0.26505744 -0.04570812  2.418461    1.8889856
 -2.1903641  -0.32540825  0.5353871  -0.43971512  0.9029108   1.3683398
 -0.9120034  -0.77578264  1.9488457  -0.06035174  1.0917805   0.10184424
  0.76855266 -1.4134537  -1.3950531  -1.9409499   0.41531262  0.9787794
 -0.51770973 -1.0257689  -3.2245076  -1.2388592   0.6637681  -1.152241
  1.7347922  -0.65216476 -1.7757593  -0.88769454  1.9090078   0.67685235
 -2.4857562   0.8740013   0.7177352   0.569689   -0.18773565  2.520089
 -0.8133031   0.6890889  -1.7569395  -0.6143321   0.1176042

In [11]:
doc2 = nlp('2018年の夏にフランスに行った。ジベルニー村のジャン・クロード・モネの家で池に浮かぶ睡蓮を見た。')
for ent in doc2.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

2018年 0 5 Date
夏 6 7 Date
フランス 8 12 Country
ジベルニー村 17 23 City
ジャン・クロード・モネ 24 35 Person
睡蓮 43 45 Flora


spaCyでは出力の可視化機能が豊富にあります。
Jupyter環境で可視化するには、以下のspacy.displacyを使います。

In [12]:
spacy.displacy.render(doc2, style="ent", jupyter=True)

In [13]:
from spacy import displacy
displacy.render(doc2, style="dep", jupyter=True, options={"compact":True})
 

次に、文章の類似度の計算をしましょう。

In [14]:
doc3 = nlp("これまで様々なセミナーに参加してきましたが、個人的に一番満足できたセミナーでした。プログラミング関係に疎い私でも理解でき、逆にプログラミングに興味を持ち、自分でもプログラミングに携わりたい・作りたいと思いました。")
doc4 = nlp("難しいように見えますが仕組みは簡単につくれる環境があって誰でもできるところが素晴らしいと思いました。AIに関して全く知識が無く、漠然としていましたが、このセミナーを受けて少し霧が晴れた気がすると同時に、AIへの興味が強くなりました。")

doc3.similarity(doc4)

0.9442715000977079

以上
