### 自然言語の基本処理
#### 2020/12/01 Oracle Big Data Jam Sessionで実施したNLP基本処理の簡易デモ

In [None]:
# 事前準備
# pip install ginza
# pip install spacy

In [1]:
#ライブラリのimport
import ginza
import spacy
from spacy import displacy

In [2]:
#GiNZAのロード
nlp = spacy.load('ja_ginza')

In [3]:
#入力文章の定義
doc =nlp('太郎は花子と珍しい動物を見るために動物園に行きました。')

In [4]:
# 単語分割
for token in doc:
  print(token.text)

太郎
は
花子
と
珍しい
動物
を
見る
ため
に
動物園
に
行き
まし
た
。


In [5]:
#品詞情報の付与
#Universal Dependencies
#品詞例) PROPN：固有名詞
#文法例) nsubj：主語(nominal subject)
for token in doc:
  print(token.i, token.text, token.pos_, token.dep_)


0 太郎 PROPN nsubj
1 は ADP case
2 花子 PROPN nmod
3 と ADP case
4 珍しい ADJ acl
5 動物 NOUN obj
6 を ADP case
7 見る VERB advcl
8 ため NOUN mark
9 に ADP mark
10 動物園 NOUN obl
11 に ADP case
12 行き VERB ROOT
13 まし AUX aux
14 た AUX aux
15 。 PUNCT punct


In [6]:

#UDの確認
spacy.explain("nsubj")

'nominal subject'

In [7]:
#名詞抽出
for np in doc.noun_chunks:
    print(np)

太郎
花子
珍しい動物
動物園


In [8]:
# 係り受け(ビジュアル表示)
displacy.render(doc, style="dep", options={"compact":True})

In [9]:
# 固有表現抽出
doc2 = nlp('2020年11月22日 23時48分　プロ野球、日本シリーズの第2戦が22日夜、京セラドーム大阪で行われ、ソフトバンクが巨人に13対2で勝って、対戦成績を2勝0敗としました。試合は、ソフトバンクが1回、3番の柳田悠岐選手のタイムリーツーベースなどで3点を奪ったあと、2回には甲斐拓也選手がソロホームランを打つなど、3回までに6対0とリードを広げました。さらに7回にはデスパイネ選手が満塁ホームランを打って突き放すなど、15本のヒットで13点を挙げました。')
displacy.render(doc2, style="ent")

In [10]:
# 文単位に分割
for s in doc2.sents:
    print(s)

2020年11月22日 23時48分　
プロ野球、日本シリーズの第2戦が22日夜、京セラドーム大阪で行われ、ソフトバンクが巨人に13対2で勝って、対戦成績を2勝0敗としました。
試合は、ソフトバンクが1回、3番の柳田悠岐選手のタイムリーツーベースなどで3点を奪ったあと、2回には甲斐拓也選手がソロホームランを打つなど、3回までに6対0とリードを広げました。
さらに7回にはデスパイネ選手が満塁ホームランを打って突き放すなど、15本のヒットで13点を挙げました。
