<a href="https://colab.research.google.com/github/otanet/hannari_NLP_hands_on_2022/blob/main/chapter3_NLP_part1_20220131.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### GiNZAを用いた自然言語処理
1. 形態素解析
2. 係り受け解析
3. 固有表現抽出
4. NLPでよく用いられるルールベースマッチングや正規表現

#### GiNZA
1. GiNZAはspaCy, SudachiPy,をベースに構築されている。

#### spaCy
1. spaCyは多言語対応の深層学習ベースのライブラリで、プロダクト向けに設計されており、大量の文章の自然言語処理を扱える。

#### SudachiPy
- トークン単位の切り替え
- 日本語収録語彙の多さ
- 日本語の同義語辞書との連携
- 機能にプラグイン

In [1]:
# GiNZAのインストール
!pip install ginza==4.0.5

Collecting ginza==4.0.5
  Downloading ginza-4.0.5.tar.gz (20 kB)
Collecting spacy<3.0.0,>=2.3.2
  Downloading spacy-2.3.7-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (10.4 MB)
[K     |████████████████████████████████| 10.4 MB 5.2 MB/s 
[?25hCollecting ja_ginza<4.1.0,>=4.0.0
  Downloading ja_ginza-4.0.0.tar.gz (51.5 MB)
[K     |████████████████████████████████| 51.5 MB 1.1 MB/s 
[?25hCollecting SudachiPy>=0.4.9
  Downloading SudachiPy-0.6.2-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (2.2 MB)
[K     |████████████████████████████████| 2.2 MB 41.1 MB/s 
[?25hCollecting SudachiDict-core>=20200330
  Downloading SudachiDict-core-20211220.tar.gz (9.1 kB)
Collecting thinc<7.5.0,>=7.4.1
  Downloading thinc-7.4.5-cp37-cp37m-manylinux2014_x86_64.whl (1.0 MB)
[K     |████████████████████████████████| 1.0 MB 60.8 MB/s 
Building wheels for collected packages: ginza, ja-ginza, SudachiDict-core
  Building wheel for ginza (setup.

### (注意)メニュー「ランタイム → ランタイムを再起動」で「Google Colab」を再起動。

In [1]:
import spacy

nlp = spacy.load('ja_ginza')
doc = nlp('銀座でランチをご一緒しましょう！')

for token in doc:
    print(token)

銀座
で
ランチ
を
ご
一緒
し
ましょう
！


In [None]:
# 形態素解析
# トークン化：文章を言葉の最小単位に分割する処理のこと。
# 品詞タグ付け：トークンの品詞を判別する処理のこと。
# レンマ化：トークンを辞書の見出し語に変換する処理のこと。

In [2]:
import spacy
nlp = spacy.load('ja_ginza')
doc = nlp('青い大きな目の猫')

for token in doc:
    print(token)

青い
大きな
目
の
猫


In [3]:
# 分割単位Aで分割する場合
import spacy
import ginza
nlp = spacy.load('ja_ginza')
ginza.set_split_mode(nlp, 'A') # 分割単位A
doc = nlp('私は国家公務員です')

for token in doc:
    print(token)

私
は
国家
公務
員
です


In [4]:
# 分割単位Bで分割する場合
import spacy
import ginza
nlp = spacy.load('ja_ginza')
ginza.set_split_mode(nlp, 'B') # 分割単位B
doc = nlp('私は国家公務員です')

for token in doc:
    print(token)

私
は
国家
公務員
です


In [5]:
# 分割単位Cで分割する場合
import spacy
import ginza
nlp = spacy.load('ja_ginza')
ginza.set_split_mode(nlp, 'C') # 分割単位C
doc = nlp('私は国家公務員です')

for token in doc:
    print(token)

私
は
国家公務員
です


In [6]:
# 品詞タグ付け
import spacy
nlp = spacy.load('ja_ginza')
doc = nlp('銀座に行きます。')

for token in doc:
    print(
        token.text+', '+ # テキスト
        token.tag_+', '+ # SudachiPyの品詞タグ
        token.pos_) # Universal Dependenciesの品詞タグ

銀座, 名詞-固有名詞-地名-一般, PROPN
に, 助詞-格助詞, ADP
行き, 動詞-非自立可能, VERB
ます, 助動詞, AUX
。, 補助記号-句点, PUNCT


In [7]:
# レンマ化：トークンを辞書の見出し語に変換する処理のこと
import spacy
nlp = spacy.load('ja_ginza')
doc = nlp('銀座に行きます。')

for token in doc:
    print(
        token.text+', '+ # テキスト
        token.lemma_) # レンマ化 

銀座, 銀座
に, に
行き, 行く
ます, ます
。, 。


In [8]:
# 文境界解析
import spacy
nlp = spacy.load('ja_ginza')
doc = nlp('銀座でランチをご一緒しましょう。今度の日曜日はどうですか。')

# 文境界解析
for span in doc.sents:
    print(span)

銀座でランチをご一緒しましょう。
今度の日曜日はどうですか。


In [9]:
# 文境界問題＋トークン化
import spacy
nlp = spacy.load('ja_ginza')
doc = nlp('銀座でランチをご一緒しましょう。今度の日曜日はどうですか。')

# 文境界解析+トークン化
for span in doc.sents:
    for token in span:
        print(token)

銀座
で
ランチ
を
ご
一緒
し
ましょう
。
今度
の
日曜日
は
どう
です
か
。


In [10]:
import spacy
import ginza
nlp = spacy.load('ja_ginza')
doc = nlp('銀座でランチをご一緒しましょう。今度の日曜日はどうですか。')

# 文節分割
for sent in doc.sents:
    for span in ginza.bunsetu_spans(sent):
        print(span)

銀座で
ランチを
ご一緒しましょう。
今度の
日曜日は
どうですか。


In [11]:
# 文節分割
import spacy
import ginza
nlp = spacy.load('ja_ginza')
doc = nlp('銀座でランチをご一緒しましょう。今度の日曜日はどうですか。')

# 文節分割+トークン化
for sent in doc.sents:
    for span in ginza.bunsetu_spans(sent):
        for token in span:
            print(token)

銀座
で
ランチ
を
ご
一緒
し
ましょう
。
今度
の
日曜日
は
どう
です
か
。


In [17]:
# ユーザー辞書への単語の追加(未知語の対応)
import spacy
nlp = spacy.load('ja_ginza')
doc = nlp('となりのトトロが好き')

#「となりのトトロ」が標準辞書で未対応であることを確認。
for token in doc:
    print(token)

となり
の
トトロ
が
好き


In [18]:
# 「user_dic.csv」のアップロード

# ユーザー辞書のビルド
!sudachipy ubuild -s /usr/local/lib/python3.7/dist-packages/sudachidict_core/resources/system.dic user_dic.csv

Input file user_dic.csv does not exists
usage: sudachipy ubuild [-h] [-d string] [-o file] [-s file] file [file ...]


In [14]:
# Pythonパッケージのパスの確認
import sys
print(sys.path)

['', '/content', '/env/python', '/usr/lib/python37.zip', '/usr/lib/python3.7', '/usr/lib/python3.7/lib-dynload', '/usr/local/lib/python3.7/dist-packages', '/usr/lib/python3/dist-packages', '/usr/local/lib/python3.7/dist-packages/IPython/extensions', '/root/.ipython']


In [19]:
# 「/usr/local/lib/python3.7/dist-packages/sudachipy/resources/sudachi.json」に「"userDict" : ["/content/user.dic"],」を追加
!sudachipy ubuild -s /usr/local/lib/python3.7/dist-packages/sudachidict_core/resources/system.dic user_dic.csv

Input file user_dic.csv does not exists
usage: sudachipy ubuild [-h] [-d string] [-o file] [-s file] file [file ...]


In [20]:
import spacy
nlp = spacy.load('ja_ginza')
doc = nlp('となりのトトロが好き')

# ユーザー辞書で対応できたことを確認
for token in doc:
    print(token)

となり
の
トトロ
が
好き


# 要対応 Sudachiの辞書の追加をgithubで調べておくこと！

# 係り受け解析
1. 文節の係り受け解析
2. 単語の係り受け解析