# まずは動かしてみる（英語・日本語）

In [1]:
import stanfordnlp

# 
# 以下、初回のみ実行（30分ほどかかるので注意）
# 
# stanfordnlp.download('en')
# stanfordnlp.download('ja')

## 英文のtokenizationと依存構造解析

In [2]:
nlp = stanfordnlp.Pipeline()

Use device: gpu
---
Loading: tokenize
With settings: 
{'model_path': 'C:\\Users\\lisa/stanfordnlp_resources/en_ewt_models/en_ewt_tokenizer.pt', 'lang': 'en', 'shorthand': 'en_ewt', 'mode': 'predict'}
---
Loading: pos
With settings: 
{'model_path': 'C:\\Users\\lisa/stanfordnlp_resources/en_ewt_models/en_ewt_tagger.pt', 'pretrain_path': 'C:\\Users\\lisa/stanfordnlp_resources/en_ewt_models/en_ewt.pretrain.pt', 'lang': 'en', 'shorthand': 'en_ewt', 'mode': 'predict'}
---
Loading: lemma
With settings: 
{'model_path': 'C:\\Users\\lisa/stanfordnlp_resources/en_ewt_models/en_ewt_lemmatizer.pt', 'lang': 'en', 'shorthand': 'en_ewt', 'mode': 'predict'}
Building an attentional Seq2Seq model...
Using a Bi-LSTM encoder
Using soft attention for LSTM.
Finetune all embeddings.
[Running seq2seq lemmatizer with edit classifier]
---
Loading: depparse
With settings: 
{'model_path': 'C:\\Users\\lisa/stanfordnlp_resources/en_ewt_models/en_ewt_parser.pt', 'pretrain_path': 'C:\\Users\\lisa/stanfordnlp_resources

In [3]:
doc = nlp("I like tea.")
doc.sentences[0].print_dependencies()

('I', '2', 'nsubj')
('like', '0', 'root')
('tea', '2', 'obj')
('.', '2', 'punct')


`nsubj`: 主語になっている名詞句。このrelationを持っている`I`は2番目の語`like`に依存している。

`root`: 文の主辞 (head)。このrelationを持っている`like`はこの文の依存構造木のrootになっているため、依存先のIDが0になっている。

`obj`: 目的語になっている名詞句。このrelationを持っている`tea`は2番目の語`like`に依存している。

`punct`: 句読点。このrelationを持っている`.`は2番目の語`like`に依存している。

In [4]:
doc = nlp("Barack Obama was born in Hawaii.  He was elected president in 2008.")
doc.sentences[0].print_dependencies()

('Barack', '4', 'nsubj:pass')
('Obama', '1', 'flat')
('was', '4', 'aux:pass')
('born', '0', 'root')
('in', '6', 'case')
('Hawaii', '4', 'obl')
('.', '4', 'punct')


`nsubj:pass`: Passive nominal subject 受動態になっている動詞の主語（4というのは、4番目の`born`に依存 (depend) していることを示している）

`flat`: Flat multiword expression 複合語の一部であることを示すrelationの一つ。headが無い名詞句（人名や日付など）の一部を構成する語に付与される。なお、複合語に付与される他のrelationにfixedとcompoundがある。

`aux:pass`: Auxiliary テンスや事実性などを表現する機能語

`case`: Case marking 前置詞や格助詞など。6番目の`Hawaii`に依存している。

`obl`: Oblique nominal Subjectでもobjectでもない名詞句。

In [5]:
# 手元のGPUでは2つのpipelineをいちどにロードするとメモリが不足するため、いったん英語のpipelineを削除してリソースを解放

import gc

# Pipelineの削除
del nlp

# Pipelineが利用していたリソースの解放
gc.collect()

59

## 和文のtokenizationと依存構造解析

In [6]:
nlp = stanfordnlp.Pipeline(lang='ja')
doc = nlp("バラク・オバマはハワイで生まれた")
doc.sentences[0].print_dependencies()

Use device: gpu
---
Loading: tokenize
With settings: 
{'model_path': 'C:\\Users\\lisa/stanfordnlp_resources/ja_gsd_models/ja_gsd_tokenizer.pt', 'lang': 'ja', 'shorthand': 'ja_gsd', 'mode': 'predict'}
---
Loading: pos
With settings: 
{'model_path': 'C:\\Users\\lisa/stanfordnlp_resources/ja_gsd_models/ja_gsd_tagger.pt', 'pretrain_path': 'C:\\Users\\lisa/stanfordnlp_resources/ja_gsd_models/ja_gsd.pretrain.pt', 'lang': 'ja', 'shorthand': 'ja_gsd', 'mode': 'predict'}
---
Loading: lemma
With settings: 
{'model_path': 'C:\\Users\\lisa/stanfordnlp_resources/ja_gsd_models/ja_gsd_lemmatizer.pt', 'lang': 'ja', 'shorthand': 'ja_gsd', 'mode': 'predict'}
Building an attentional Seq2Seq model...
Using a Bi-LSTM encoder
Using soft attention for LSTM.
Finetune all embeddings.
[Running seq2seq lemmatizer with edit classifier]
---
Loading: depparse
With settings: 
{'model_path': 'C:\\Users\\lisa/stanfordnlp_resources/ja_gsd_models/ja_gsd_parser.pt', 'pretrain_path': 'C:\\Users\\lisa/stanfordnlp_resources

In [7]:
doc = nlp("バラクオバマはハワイで生まれた。")
doc.sentences[0].print_dependencies()

('バラクオバマ', '5', 'nsubj')
('は', '1', 'case')
('ハワイ', '5', 'obl')
('で', '3', 'case')
('生まれ', '0', 'root')
('た', '5', 'aux')
('。', '5', 'punct')


In [8]:
doc = nlp("東京スカイツリーへの行き方を教えてください")
doc.sentences[0].print_dependencies()

('東京', '2', 'compound')
('スカイツリー', '6', 'nmod')
('へ', '2', 'case')
('の', '2', 'case')
('行き', '6', 'amod')
('方', '8', 'obj')
('を', '6', 'case')
('教え', '0', 'root')
('て', '8', 'mark')
('ください', '8', 'aux')
