#### 参考資料
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜  
https://www.slideshare.net/MegagonLabs/ginza-cabocha-udpipe-stanford-nlp

言語処理学会第24回年次大会ワークショップ   
形態素解析の今とこれから  
https://sites.google.com/view/nlp2018ws/

UD係り受けタグ一覧  
https://qiita.com/kei_0324/items/400f639b2f185b39a0cf

spaCy/GiNZA を用いた自然言語処理  
https://www.ogis-ri.co.jp/otc/hiroba/technical/similar-document-search/part4.html

janome  
https://mocobeta.github.io/janome/

Sentencepiece : ニューラル言語処理向けトークナイザ  
https://qiita.com/taku910/items/7e52f1e58d0ea6e7859c

# 要約
* pip install xxxxの一行で始められる形態素解析
* 2019年4月にようやくUniversal Dependenciesの日本語対応ライブラリが登場
* **spaCy(GiNZA)**, **SudachiPy**, **janome**, **SentencePiece**の4つの形態素解析器の紹介

# spaCy(GiNZA)

### 概要
mecab, juman, chasenなどと同じ形態素解析器。UniDicベース。  
Universal Dependencies（UD）に準拠。
Sudachiという形態素解析器をベースに、spaCyで利用可能な日本語言語モデルを提供。

>リクルートと国立国語研究所から、Universal Dependencyに基づいた係り受け解析が可能なライブラリGiNZAが公開されました！今までcabochaでは関係がわからない、KNPはちょっと遅い、といろいろ問題があったところですが、spaCyベースという共通＋モダンな形で解析が可能になりました。
*（twitter）*

### 特徴
* Universal Dependenciesのルールで文の構造を解析。
* 固有表現抽出（NER）や句構造の抽出が可能
* 単語ベクトルをモデルに内包できる

In [None]:
!pip install "https://github.com/megagonlabs/ginza/releases/download/latest/ginza-latest.tar.gz"

In [None]:
import spacy
nlp = spacy.load('ja_ginza')

In [None]:
text1 = '''モバイル決済サービスを手掛けるスクエア（@SQ/U）株が冴えない。25日の終値は72.65ドルと相場上昇に歩調を合わせて回復しているものの、昨年10月につけた上場来高値（101.15ドル）の７割程度にとどまる。2019年１～３月期決算で赤字幅が拡大することが上値を重くしている。決算発表は５月１日の大引け後（日本時間28日）に予定されている。

▼市場予想 
                19年１～３月期　　　　　 
売上高　　　　　４億8000万ドル（56％増）
純利益　　　　  4300万ドルの赤字(2400万ドルの赤字)
ＥＰＳ　 　　　 0.08（0.06ドルの赤字）　　　    
※QUICK FactSet Workstationの４月25日時点のデータを使用。（）内は前年同期比。

▼赤字体質への懸念で株価は市場平均を下回る
　2018年10～12月期の純損益は2800万円の赤字と、前年同期（1600万円の赤字）から赤字幅が拡大した。19年１～３月期決も赤字が続く見通し。将来の成長に向けた研究費や販管費の増加が収益を圧迫する見込みだが、赤字体質の定着が懸念される。市場予想によると、１～３月期は決済サービスや中小企業向け少額貸し付サービスが堅調だったようだ。決済取扱高は230億ドルと３割近く増えたもよう。

　年初からの株価をみてもスクエア株はＳ＆Ｐ500種株価指数やダウ工業株30種平均を下回って推移している。ただ、野村インスティネットは３月末のリポートで「18年10～12月期決算で大型加盟店の決済処理額の伸び率が鈍化したことは懸念材料。しかし投資家は大局観を見失っている。マーケティングの効果や調整後の手数料率といった、カギとなるデータを見過ごしている」と指摘。投資判断は「ＢＵＹ」、目標株価を105ドルとした。
　一方、ウェドブッシュ証券はバリュエーションを総合的に判断したうえで、目標株価を75ドルとしており、現水準程度が妥当とみている。
'''
text1

### 形態素解析

In [None]:
doc = nlp(text1)
for sent in doc.sents:
    for token in sent:
        print('{:<5}{:<10}{:<10}{:<10}{:<20}{:<10}{:<10}{:<5}{}'.format(
            token.i,          # 単語の位置
            token.orth_,      # 単語
            token.lemma_,     # 単語の原型
            token.pos_,       # 品詞
            token.tag_,       # 品詞分類
            token.dep_,       # 係り受け関係
            token.ent_type_,  # 固有表現
            token._.bunsetu_bi_label, # 文節
            token.head.i      # 係り受け先の単語の位置
        ))

In [None]:
from spacy import displacy
displacy.render(doc, style="dep", options={"compact":True, "bg": "#09a3d5", "color":"white"})

***
### 固有表現抽出
いわゆるタグ付け。

固有表現抽出では**Flair**というライブラリが有名。  
github：https://github.com/zalandoresearch/flair  
日本語の情報：https://hironsan.hatenablog.com/entry/implementing-contextual-string-embeddings-for-named-entity-recognition?utm_campaign=piqcy&utm_medium=email&utm_source=Revue%20newsletter

In [None]:
for ent in doc.ents:
    print('{:<30}{}'.format(ent.text, ent.label_))

In [None]:
displacy.render(doc, style='ent')

***
### 名詞句の抽出
未知語の抽出などで使えるかも（ngramの共起ベースで未知語を抽出する場合、単純な分かち書きの結果にgensimのPhrasesというクラスで共起スコアを計算できます。）

In [None]:
for np in doc.noun_chunks:
    print(np, np.ent_id_)

### 関係認識(Entity relations)

In [None]:
def filter_spans(spans):
    # 文字列の長さ（より長いもの）、文中の位置（より後ろのもの）でソート
    get_sort_key = lambda span: (span.end - span.start, span.start)
    sorted_spans = sorted(spans, key=get_sort_key, reverse=True)
    result = []
    seen_tokens = set()
    for span in sorted_spans:
        if span.start not in seen_tokens and span.end - 1 not in seen_tokens:
            result.append(span)
            seen_tokens.update(range(span.start, span.end))
    return result

In [None]:
text_ = '当期の経営成績を分析しますと、次のとおりであります。収益は、石炭などの資源価格の上昇や取扱数量増加による金属・資源での増収や、国内外自動車ディーラー事業などの新規取得による自動車での増収などにより、1兆8,561億90百万円と前期比2.19％の増収となりました。売上総利益は、収益の増加などにより、前期比85億76百万円増加の2,409億56百万円となりました。\u3000税引前利益は、売上総利益の増益に加え、LNG事業会社の増益などによる持分法による投資損益の増益などにより、前期比145億39百万円増加の948億82百万円となりました。\u3000当期純利益は、税引前利益948億82百万円から、法人所得税費用196億62百万円を控除した結果、前期比135億25百万円増加の752億19百万円となりました。また、親会社の所有者に帰属する当期純利益（以下、当期純利益という）は前期比135億77百万円増加し、704億19百万円となりました。\u3000在外営業活動体の換算差額やその他の包括利益を通じて公正価値で測定する金融資産の減少がありましたが、当期純利益の増益などにより、当期包括利益は前期比36億22百万円増加し、549億48百万円となりました。また、親会社の所有者に帰属する当期包括利益は前期比35億8百万円増加し、509億38百万円となりました。次に、これをセグメント別に分析しますと、以下のとおりであります。'
text_

In [None]:
doc1 = nlp(text_)
[t for sent in doc1.sents for t in sent]

In [None]:
displacy.render(doc1, style='ent')

In [None]:
spans = list(doc1.ents) + list(doc1.noun_chunks)
spans = filter_spans(spans)

# 単語の区切りを、固有表現や名詞句の塊で置き換える
with doc1.retokenize() as retokenizer:
    for span in spans:
        retokenizer.merge(span)

In [None]:
[t for sent in doc1.sents for t in sent]

In [None]:
# nmod : 名詞修飾語
# nsumg : 主語名詞
for money in filter(lambda w: w.ent_type_ == "MONEY", doc1):
    if money.dep_ in ("nmod"):
        subject = [w for w in money.head.lefts if w.dep_ == "nsubj"]
        if subject:
            subject = subject[0]
            print("{:<10}\t--->\t{}\t--->\t{}".format(subject.text, money.ent_type_, money.text))

In [None]:
displacy.render(doc1, style="dep", options={"compact":True, "bg": "#09a3d5", "color":"white"})

### text_with_ws
空白文字の情報を保持

In [None]:
text3 = '今回のコラボレーションは、2019年9月14日（土）に表参道・青山・原宿エリアで開催される「VOGUE FASHION’S NIGHT OUT2019」に参加する「The SHEL’TTER TOKYO」とコラボレーションを記念して実現しました。'
text3

In [None]:
d = nlp(text3)
for sent in d.sents:
    for token in sent:
        print(token.orth_)

In [None]:
print(''.join([t.text_with_ws for s in d.sents for t in s]))

### 文書・文・単語などのベクトル化

In [None]:
doc.vector

In [None]:
for sent in doc.sents:
    print(sent.similarity(doc))
    print(sent)
    print('')

In [None]:
for ent in doc.ents:
    print('{:.5f}  {}'.format(ent.similarity(doc), ent.text))

***
# SudachiPy
GiNZAのベースになっているライブラリ。  
Sudachi(Java)はElasticSearchと組合わせて利用

In [None]:
from sudachipy import tokenizer
from sudachipy import dictionary

tokenizer_obj = dictionary.Dictionary().create()
mode = tokenizer.Tokenizer.SplitMode.C

for i in tokenizer_obj.tokenize(text1, mode):
    print(i.surface(), i.part_of_speech(), i.normalized_form())

***
# janome

### 概要
依存ライブラリなしで書かれた辞書内包の形態素解析器です。  
辞書としてmecab-ipadic-2.7.0-20070801を内包（mecabとだいたい同じ）。

### 特徴
* 依存ライブラリ無し、pythonのみで実装されてるので、pythonが動けば確実に動きます。
* 実行速度が遅い。
* 特にこだわりが無ければ、一番手軽に使える形態素解析器です。

In [None]:
!pip install janome

In [None]:
from janome.tokenizer import Tokenizer
t = Tokenizer()

In [None]:
for token in t.tokenize(text1):
    print(token)

### 分かち書きモード

In [None]:
t.tokenize(text1, wakati=True)

### 複合名詞の抽出（filter）

In [None]:
from janome.analyzer import Analyzer
from janome.tokenfilter import *

token_filters = [CompoundNounFilter()]
a = Analyzer(token_filters=token_filters)

In [None]:
for token in a.analyze(text1):
    print(token)

***
# SentencePiece
### 概要
DeepLearning向けの（機械のための）形態素解析。  
End to Endで利用することを前提に、効率よく文字列を分割する。

### 特徴
* subwordベースでの分かち書き
* 語彙数を少なくできる（メモリ節約）

In [None]:
!pip install sentencepiece

In [None]:
import sentencepiece as spm

In [None]:
sp = spm.SentencePieceProcessor()

In [None]:
# 手元のデータでモデルを学習させる場合
spm.SentencePieceTrainer.Train(
    "--input=train_text.txt --model_prefix=trained_model --vocab_size=16000")

In [None]:
# 日本語の学習済みモデル(wikipedia)
# https://drive.google.com/drive/folders/1Zsm9DD40lrUVu6iAnIuTH2ODIkh-WM-O
# wiki-ja.model

sp.Load('wiki-ja.model')

In [None]:
text4 = '個人向け資産運用コンサルティング営業の業務最適化を実現し、金融商品購買プロセスにおけるお客様満足度の向上を支援するソリューションを提供します。'
text4

In [None]:
splitted_list = sp.EncodeAsPieces(text4)
splitted_list

In [None]:
d = nlp(text4)
for sent in d.sents:
    for token in sent:
        print(token.orth_)

# まとめ

* spaCy(GiNZA) : 今後に期待  

* janome : とりあえず分かち書きしたいときに  

* SentencePiece : DeepLearningで使えるかも