In [1]:
import spacy
nlp = spacy.load('ja_ginza')

In [2]:
for p in nlp.pipeline:
    print(p)

('parser', <spacy.pipeline.pipes.DependencyParser object at 0x7f92e438ee50>)
('ner', <spacy.pipeline.pipes.EntityRecognizer object at 0x7f92e438ede0>)
('JapaneseCorrector', <ginza.japanese_corrector.JapaneseCorrector object at 0x7f92d77a9090>)


In [3]:
doc = nlp('spaCy はオープンソースの自然言語処理ライブラリです。学習済みの統計モデルと単語ベクトルが付属しています。')

In [4]:
doc

spaCy はオープンソースの自然言語処理ライブラリです。学習済みの統計モデルと単語ベクトルが付属しています。

In [5]:
texts = ['本日は晴天なり。', '吾輩は猫である']
docs = list(nlp.pipe(texts))

In [6]:
docs

[本日は晴天なり。, 吾輩は猫である]

In [7]:
docs = list(nlp.pipe(texts, disable=['ner']))

In [8]:
docs

[本日は晴天なり。, 吾輩は猫である]

In [10]:
#文単位に分割 
for s in doc.sents:
    print(s)

spaCy はオープンソースの自然言語処理ライブラリです。
学習済みの統計モデルと単語ベクトルが付属しています。


In [11]:
for np in doc.noun_chunks:
    print(np)

spaCy
オープンソース
自然言語処理ライブラリ
学習済み
統計モデル
単語ベクトル


In [12]:
for token in doc:
    print(token.text)

spaCy
は
オープンソース
の
自然
言語
処理
ライブラリ
です
。
学習
済み
の
統計
モデル
と
単語
ベクトル
が
付属
し
て
い
ます
。


In [15]:
from spacy import displacy
displacy.render(doc, style='dep', options={'compact': True})

In [16]:
doc = nlp('2018年の夏にフランスに行った。ジベルニー村のジャン・クロード・モネの家で池に浮かぶ睡蓮を見た。')

In [17]:
for ent in doc.ents:
    print(ent.text, ent.label_)

2018年 DATE
夏 DATE
フランス LOC
ジベルニー村 LOC
ジャン・クロード・モネ PERSON


In [18]:
displacy.render(doc, style='ent')

In [21]:
token = doc[5]
print(token)
print(token.vector.shape)
print(token.vector)

フランス
(100,)
[-1.8482111e-01 -1.4538746e-01 -1.7175280e+00  4.6958008e-01
 -4.5021373e-01 -1.0789571e+00 -5.5978662e-01  1.0635048e+00
  8.0301279e-01 -4.6534860e-01  5.7746607e-01 -4.1957068e-01
  4.3903831e-01  1.3740962e+00  1.7036986e+00 -1.4325552e+00
 -1.3362174e+00 -2.6336935e+00 -2.2485626e-01  9.9312216e-01
  5.6238598e-01  1.4189256e+00  4.6435905e-01 -1.5055668e+00
 -7.9730475e-01 -1.1898736e+00  5.9205371e-01 -3.1073397e-01
  1.5609291e+00  7.4679577e-01 -1.7725601e+00  7.5918156e-01
 -8.3084297e-01 -1.0554338e+00 -4.9300814e-01 -1.8822047e+00
  4.0689778e-01  1.2179197e+00  2.2390331e-01 -1.0111157e+00
  5.0060362e-01  1.0345092e+00 -2.6290452e-01 -5.5334646e-01
 -5.9242058e-01 -1.9505157e-01  1.1206743e+00  2.9740116e-01
  5.9019405e-01  2.6311156e-01 -2.6286969e-01  9.0575097e-03
  9.9736404e-01 -1.8221676e+00  5.6215721e-01  2.2554176e-01
  8.1922668e-01 -1.1669250e+00 -1.5753677e+00 -5.9075058e-01
 -3.0490223e-03 -2.1165743e-01  1.6681631e+00 -5.4196209e-01
  9.2630595e

In [23]:
for token in doc:
    print('similality between {0} and {1} is {2}'.format(doc[13], token, token.similarity(doc[13])))

similality between ジャン and 2018 is 0.0
similality between ジャン and 年 is 0.023434042930603027
similality between ジャン and の is 0.15485209226608276
similality between ジャン and 夏 is -0.11547508090734482
similality between ジャン and に is 0.06590826064348221
similality between ジャン and フランス is 0.6142158508300781
similality between ジャン and に is 0.06590826064348221
similality between ジャン and 行っ is 0.016062168404459953
similality between ジャン and た is 0.07229085266590118
similality between ジャン and 。 is 0.04375385120511055
similality between ジャン and ジベルニー is 0.0
similality between ジャン and 村 is 0.018616419285535812
similality between ジャン and の is 0.15485209226608276
similality between ジャン and ジャン is 1.0
similality between ジャン and ・ is 0.38225889205932617
similality between ジャン and クロード is 0.8045619130134583
similality between ジャン and ・ is 0.38225889205932617
similality between ジャン and モネ is 0.6251201629638672
similality between ジャン and の is 0.15485209226608276
similality between ジャン and 家 is 0.12523183

  "__main__", mod_spec)
  "__main__", mod_spec)


In [24]:
nlp.vocab.vectors.shape

(117951, 100)

In [25]:
!pip install chakin gensim

Collecting chakin
  Downloading https://files.pythonhosted.org/packages/ca/3f/ca2f63451c0ab47970a6ab1d39d96118e70b6e73125529cea767c31368a3/chakin-0.0.8-py3-none-any.whl
Collecting gensim
[?25l  Downloading https://files.pythonhosted.org/packages/44/93/c6011037f24e3106d13f3be55297bf84ece2bf15b278cc4776339dc52db5/gensim-3.8.1-cp37-cp37m-manylinux1_x86_64.whl (24.2MB)
[K     |████████████████████████████████| 24.2MB 670kB/s  eta 0:00:01   |█                               | 737kB 5.8MB/s eta 0:00:05     |██████████                      | 7.6MB 5.8MB/s eta 0:00:03     |███████████                     | 8.3MB 5.8MB/s eta 0:00:03     |███████████▍                    | 8.6MB 5.8MB/s eta 0:00:03     |███████████████████▌            | 14.8MB 29.1MB/s eta 0:00:01     |█████████████████████████▌      | 19.3MB 29.1MB/s eta 0:00:01
[?25hCollecting progressbar2>=3.20.0
  Downloading https://files.pythonhosted.org/packages/16/68/adc395e0a3c86571081c8a2e2daaa5b58270f6854276a089a0e9b5fa2c33/progressb

In [1]:
import chakin
chakin.search(lang='Japanese')

                         Name  Dimension     Corpus VocabularySize  \
6                fastText(ja)        300  Wikipedia           580K   
22  word2vec.Wiki-NEologd.50d         50  Wikipedia           335K   

                Method  Language                 Author  
6             fastText  Japanese               Facebook  
22  word2vec + NEologd  Japanese  Shiroyagi Corporation  


In [2]:
chakin.download(number=6, save_dir='../models')

Test: 100% ||                                      | Time:  0:01:46  11.4 MiB/s


'../models/cc.ja.300.vec.gz'

In [None]:
!gunzip -d ../models/cc.ja.300.vec.gz

In [1]:
from gensim.models import KeyedVectors
wv = KeyedVectors.load_word2vec_format('../models/cc.ja.300.vec', binary=False)

KeyboardInterrupt: 

In [None]:
import spacy
nlp = spacy.load('ja_ginza')
nlp.vocab.reset_vectors(width=wv.vectors.shape[1])
for word in wv.vocab.keys():
    nlp.vocab[word]
    nlp.vocab.set_vector(word, wv[word])
