<a href="https://colab.research.google.com/github/taishi-i/toiro/blob/develop/PyConJP2020/PyConJP2020_Online.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PyConJP 2020：最先端自然言語処理ライブラリの最適な選択と有用な利用方法
トークの詳細は[こちら](https://pycon.jp/2020/timetable/?id=203164)です。

この notebook では、発表スライドのサンプルコードを実行しています。

GPU を利用する場合（BERT モデルを学習する)は **ランタイム→ランタイムのタイプ変更→GPU** をオンにしてください。

本発表で説明する機能を全て利用できるよう、次のライブラリをインストールします。

In [1]:
!pip install toiro[all]

Collecting toiro[all]
[?25l  Downloading https://files.pythonhosted.org/packages/48/92/7fe694c3877272491f148de2d0d617c6420cc33786d3b7fb9e50a0cf6207/toiro-0.0.6-py3-none-any.whl (625kB)
[K     |████████████████████████████████| 634kB 6.4MB/s 
[?25hCollecting py-cpuinfo
[?25l  Downloading https://files.pythonhosted.org/packages/f6/f5/8e6e85ce2e9f6e05040cf0d4e26f43a4718bcc4bce988b433276d4b1a5c1/py-cpuinfo-7.0.0.tar.gz (95kB)
[K     |████████████████████████████████| 102kB 11.6MB/s 
Collecting janome
[?25l  Downloading https://files.pythonhosted.org/packages/a9/ed/b2b072c1d53388931e626ca0816cdb8e03416ad9a440c8d9e0e060859f41/Janome-0.4.0-py2.py3-none-any.whl (19.7MB)
[K     |████████████████████████████████| 19.7MB 7.3MB/s 
Collecting sentencepiece; extra == "all"
[?25l  Downloading https://files.pythonhosted.org/packages/d4/a4/d0a884c4300004a78cca907a6ff9a5e9fe4f090f5d95ab341c53d28cbc58/sentencepiece-0.1.91-cp36-cp36m-manylinux1_x86_64.whl (1.1MB)
[K     |█████████████████████████

# 1. Python を利用した日本語自然言語処理

## [Janome](https://github.com/mocobeta/janome) の利用方法



インストール方法

In [2]:
!pip install Janome



実装方法

In [3]:
from janome.tokenizer import Tokenizer
t = Tokenizer() # Initialize Janome
text = "Python で前処理を実行する"
for token in t.tokenize(text):
    print(token)

Python	名詞,固有名詞,組織,*,*,*,Python,*,*
 	記号,空白,*,*,*,*, ,*,*
で	接続詞,*,*,*,*,*,で,デ,デ
前	接頭詞,名詞接続,*,*,*,*,前,ゼン,ゼン
処理	名詞,サ変接続,*,*,*,*,処理,ショリ,ショリ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
実行	名詞,サ変接続,*,*,*,*,実行,ジッコウ,ジッコー
する	動詞,自立,*,*,サ変・スル,基本形,する,スル,スル


## [mecab-python3](https://github.com/SamuraiT/mecab-python3) の利用方法

インストール方法

In [4]:
!pip install mecab-python3==0.996.5



実装方法

In [5]:
import MeCab

tagger = MeCab.Tagger()
text = 'Python で前処理を実行する'
print(tagger.parse(text))

Python	名詞,一般,*,*,*,*,*
で	助詞,格助詞,一般,*,*,*,で,デ,デ
前	接頭詞,名詞接続,*,*,*,*,前,ゼン,ゼン
処理	名詞,サ変接続,*,*,*,*,処理,ショリ,ショリ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
実行	名詞,サ変接続,*,*,*,*,実行,ジッコウ,ジッコー
する	動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
EOS



## [SudachiPy](https://github.com/WorksApplications/SudachiPy) の利用方法

インストール方法

In [6]:
!pip install sudachipy sudachidict_core



実装方法

In [7]:
import imp
import pkg_resources
imp.reload(pkg_resources)

from sudachipy import tokenizer
from sudachipy import dictionary

tokenizer_obj = dictionary.Dictionary().create() # Initialize sudachipy
mode = tokenizer.Tokenizer.SplitMode.C # C: 固有表現相当

text = "Python で前処理を実行する"
ms = tokenizer_obj.tokenize(text, mode)
for m in ms:
    print(m.surface(), m.dictionary_form(), m.reading_form(), m.part_of_speech())

Python python python ['名詞', '普通名詞', '一般', '*', '*', '*']
    キゴウ ['空白', '*', '*', '*', '*', '*']
で で デ ['接続詞', '*', '*', '*', '*', '*']
前処理 前処理 マエショリ ['名詞', '普通名詞', '一般', '*', '*', '*']
を を ヲ ['助詞', '格助詞', '*', '*', '*', '*']
実行 実行 ジッコウ ['名詞', '普通名詞', 'サ変可能', '*', '*', '*']
する する スル ['動詞', '非自立可能', '*', '*', 'サ行変格', '終止形-一般']


## [GiNZA](https://github.com/megagonlabs/ginza) の利用方法

インストール方法

In [8]:
!pip install spacy ginza



実装方法

In [9]:
import imp
import pkg_resources
imp.reload(pkg_resources)

import spacy
nlp = spacy.load('ja_ginza')
text = 'Python で前処理を実行する'
tokens = nlp(text)
for token in tokens:
    print(token, token.tag_,  token.dep_, token.head.i)

Python 名詞-普通名詞-一般 obl 4
で 接続詞 case 0
前処理 名詞-普通名詞-一般 obj 4
を 助詞-格助詞 case 2
実行 名詞-普通名詞-サ変可能 ROOT 4
する 動詞-非自立可能 aux 4


## [Juman++ v2](https://github.com/ku-nlp/jumanpp) の利用方法（本体のインストールが必要）

インストール方法

In [10]:
pip install pyknp



実装方法

In [11]:
# from pyknp import Juman
# jumanpp = Juman() # default is JUMAN++
# text = 'Python で前処理を実行する'
# tokens = jumanpp.analysis(text)
# for mrph in tokens.mrph_list():
#   print(mrph.midasi, mrph.yomi, mrph.genkei, mrph.hinsi, mrph.bunrui, mrph.katuyou1, mrph.katuyou2, mrph.imis, mrph.repname)

## [nagisa](https://github.com/taishi-i/nagisa) の利用方法

インストール方法

In [12]:
!pip install nagisa



実装方法

In [13]:
import nagisa
text = 'Python で前処理を実行する'
tokens = nagisa.tagging(text)
print(tokens)
print(tokens.words)
print(tokens.postags)

Python/名詞 　/空白 で/助詞 前/名詞 処理/名詞 を/助詞 実行/名詞 する/動詞
['Python', '\u3000', 'で', '前', '処理', 'を', '実行', 'する']
['名詞', '空白', '助詞', '名詞', '名詞', '助詞', '名詞', '動詞']


## [KyTea](https://github.com/neubig/kytea) の利用方法（本体のインストールが必要）

インストール方法

In [14]:
pip install kytea



実装方法

In [15]:
# import Mykytea
# mk = Mykytea.Mykytea('')
# text = 'Python で前処理を実行する'
# tokens = mk.getTagsToString(text)
# print(tokens)

## [SentencePiece](https://github.com/google/sentencepiece) の利用方法


インストール方法

In [16]:
!pip install sentencepiece



モデルのダウンロード

In [17]:
!wget https://github.com/taishi-i/toiro/raw/master/toiro/tokenizers/data/ja.text8.txt.spm.model
!wget https://github.com/taishi-i/toiro/blob/master/toiro/tokenizers/data/ja.text8.txt.spm.vocab

--2020-08-24 18:16:32--  https://github.com/taishi-i/toiro/raw/master/toiro/tokenizers/data/ja.text8.txt.spm.model
Resolving github.com (github.com)... 192.30.255.113
Connecting to github.com (github.com)|192.30.255.113|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/taishi-i/toiro/master/toiro/tokenizers/data/ja.text8.txt.spm.model [following]
--2020-08-24 18:16:32--  https://raw.githubusercontent.com/taishi-i/toiro/master/toiro/tokenizers/data/ja.text8.txt.spm.model
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 352418 (344K) [application/octet-stream]
Saving to: ‘ja.text8.txt.spm.model’


2020-08-24 18:16:33 (11.6 MB/s) - ‘ja.text8.txt.spm.model’ saved [352418/352418]

--2020-08-24 18:16:33--  h

実装方法

In [18]:
import sentencepiece as spm
sp = spm.SentencePieceProcessor()
sp.load(f"ja.text8.txt.spm.model")
text = 'Python で前処理を実行する'
pieces = sp.encode_as_pieces(text)
print(pieces)
ids = sp.encode_as_ids(text)
print(ids)

['▁', 'P', 'y', 'th', 'on', '▁', 'で', '前', '処理', 'を', '実行', 'する']
[5, 0, 210, 1040, 905, 5, 14, 144, 2828, 7, 3749, 22]


## [形態素解析器比較ライブラリ toiro](https://github.com/taishi-i/toiro) の利用方法

インストール方法

In [19]:
!pip install toiro[all_tokenizers]



実装方法

In [20]:
from toiro import tokenizers
from toiro import datadownloader

corpus = 'livedoor_news_corpus'
datadownloader.download_corpus(corpus)
train_df, dev_df, test_df = datadownloader.load_corpus(corpus)
texts = train_df[1]

report = tokenizers.compare(texts)
print(report)

PyTorch version 1.6.0+cu101 available.
TensorFlow version 2.3.0 available.
Downloading ldcc-20140209.tar.gz from https://www.rondhuit.com/download/ldcc-20140209.tar.gz: 31.6MB [00:02, 14.7MB/s]
100%|██████████| 5900/5900 [00:00<00:00, 39099.08it/s]
  0%|          | 0/5900 [00:00<?, ?it/s]

[1/7] Tokenizer: mecab-python3
[2/7] Tokenizer: janome


100%|██████████| 5900/5900 [00:11<00:00, 522.41it/s]
  0%|          | 27/5900 [00:00<00:22, 265.80it/s]

[3/7] Tokenizer: nagisa


100%|██████████| 5900/5900 [00:22<00:00, 267.07it/s]
  1%|          | 58/5900 [00:00<00:10, 579.81it/s]

[4/7] Tokenizer: sudachipy


100%|██████████| 5900/5900 [00:12<00:00, 473.15it/s]
  1%|          | 39/5900 [00:00<00:15, 383.31it/s]

[5/7] Tokenizer: spacy


100%|██████████| 5900/5900 [00:15<00:00, 374.59it/s]
  1%|          | 39/5900 [00:00<00:15, 384.96it/s]

[6/7] Tokenizer: ginza


100%|██████████| 5900/5900 [00:16<00:00, 360.08it/s]
100%|██████████| 5900/5900 [00:00<00:00, 56677.97it/s]

[7/7] Tokenizer: sentencepiece
{'execution_environment': {'python_version': '3.6.9.final.0 (64 bit)', 'arch': 'X86_64', 'brand_raw': 'Intel(R) Xeon(R) CPU @ 2.20GHz', 'count': 2}, 'data': {'number_of_sentences': 5900, 'average_length': 37.54610169491525}, 'mecab-python3': {'elapsed_time': 0.15147662162780762}, 'janome': {'elapsed_time': 11.294330358505249}, 'nagisa': {'elapsed_time': 22.091914892196655}, 'sudachipy': {'elapsed_time': 12.469998598098755}, 'spacy': {'elapsed_time': 15.751247644424438}, 'ginza': {'elapsed_time': 16.386006832122803}, 'sentencepiece': {'elapsed_time': 0.10578584671020508}}





# 2. 映画レビューを利用したテキスト分類モデルの実装方法

## 検証用データセット：Yahoo Movie Reviews

ライブラリのインストール

In [21]:
!pip install toiro



コーパスのダウンロード

In [22]:
from toiro import datadownloader
corpus = 'yahoo_movie_reviews'
datadownloader.download_corpus(corpus)
train_df, dev_df, test_df = datadownloader.load_corpus(corpus, n=12500)
print(train_df)

Downloading yahoo-movie-reviews.json.tar.gz from https://media.githubusercontent.com/media/dennybritz/sentiment-analysis/master/data/yahoo-movie-reviews.json.tar.gz: 100%|██████████| 37.6M/37.6M [00:00<00:00, 79.6MB/s]


      0                                                  1
0     0  笠原郁(榮倉奈々)は、高校時代に助けてくれた図書隊員の“王子様”に憧れて入隊する。顔を憶えて...
1     0  原作を読んでいないので、映画を見た批評です。出会い系サイトでの出会い現代社会ではそういったネ...
2     0                             CGは相当すごいが筋や演出は期待はずれかな。
3     0  「ギャグを散りばめるのはいいけど、一本筋くらい通せよ。真面目なとこは真面目に、笑わせるとこは...
4     0  一体、この映画に感動し涙を流した観客は、この映画の何処に感動したのだろうか？史実としての大東...
...  ..                                                ...
9995  1  今となればちょっと鮮度は落ちたけど、話題になったので一度は見ておきたいなーという方が多いと思...
9996  1  前作の「京都大火編」が助走といえるほど、本作は最初から最後までアクションが満載です。原作を全...
9997  0           腐れ反日思想の腐った駄作。恥を知れ！クズのボケが。ゴキブリがウヨウヨ気持ち悪い。
9998  1  人の集中力は、90分しか持たないと聞いたことがある。騙し騙しでがんばっても、せいぜい2時間が...
9999  1  これまで観た映画の中で最も恐ろしい映画だ。ホラー映画（嫌いだからほとんど観たことはない）とは...

[10000 rows x 2 columns]


## [scikit-learn](https://github.com/scikit-learn/scikit-learn) の利用方法


インストール方法

In [23]:
!pip install scikit-learn



コーパスダウンロード用ライブラリのインストール

In [24]:
!pip install toiro



実装方法

In [25]:
from toiro import tokenizers
from toiro import datadownloader
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = 'yahoo_movie_reviews'
train_df, dev_df, test_df = datadownloader.load_corpus(corpus, n=12500)
tokenize_janome = tokenizers.tokenize_janome
tfidf_extracter = TfidfVectorizer(ngram_range=(1, 2), tokenizer=tokenize_janome, max_df=0.9, min_df=3, sublinear_tf=1)
train_texts = train_df[1]
train_X = tfidf_extracter.fit_transform(train_texts)

text = "とても良い作品でした。"
x = tfidf_extracter.transform([text])
print(x.toarray())
print(x)

[[0. 0. 0. ... 0. 0. 0.]]
  (0, 82076)	0.514308329463325
  (0, 82033)	0.28160641839600237
  (0, 55430)	0.38687226972136557
  (0, 55412)	0.19207036483503126
  (0, 26101)	0.5550955457160239
  (0, 26030)	0.28642855817395746
  (0, 23958)	0.1805941673948253
  (0, 23957)	0.18013775937766935
  (0, 18920)	0.11994723745704498


## [toiro](https://github.com/taishi-i/toiro) によるテキスト文書モデル（SVM）の学習

インストール方法

In [26]:
!pip install toiro
!pip install mecab-python3==0.996.5



実装方法

In [27]:
from toiro import classifiers
from toiro import datadownloader

corpus = 'yahoo_movie_reviews'
train_df, dev_df, test_df = datadownloader.load_corpus(corpus, n=12500)
model = classifiers.SVMClassificationModel(tokenizer='mecab-python3')                                                                                                                                   
model.fit(train_df, dev_df)

text = "とても良い作品でした。"                                                                                            
pred_y = model.predict(text)
print(pred_y)

1


## [Transformers](https://github.com/huggingface/transformers) の利用方法

インストール方法

In [28]:
!pip install torch transformers



実装方法

In [29]:
import torch                                                                    

from transformers.tokenization_bert_japanese import BertJapaneseTokenizer          
from transformers import BertModel                                                                                                                    

model_name = "cl-tohoku/bert-base-japanese-whole-word-masking"                  
tokenizer = BertJapaneseTokenizer.from_pretrained(model_name)                   
model = BertModel.from_pretrained(model_name)                                                        
input_batch = ["とても良い作品でした。"]                                                                                                                      
encoded_data = tokenizer.batch_encode_plus(input_batch, pad_to_max_length=True, add_special_tokens=True)                                                                
input_ids = torch.tensor(encoded_data["input_ids"])                             
outputs = model(input_ids)                                                      
last_hidden_states = outputs[0]                                                 
sentence_vec = last_hidden_states[:, 0, :]
print(sentence_vec)

Lock 139765597706504 acquired on /root/.cache/torch/transformers/72ee6ecba54b20bba483760db4f23b836f27a6afda54ede38c488e8514bb3705.5fac9da4d8565963664ed9744688dc7008ff5ec4045f604e9515896f9fe46d9c.lock
https://s3.amazonaws.com/models.huggingface.co/bert/cl-tohoku/bert-base-japanese-whole-word-masking/vocab.txt not found in cache or force_download set to True, downloading to /root/.cache/torch/transformers/tmpj2x902wb


HBox(children=(FloatProgress(value=0.0, description='Downloading', max=257706.0, style=ProgressStyle(descripti…

storing https://s3.amazonaws.com/models.huggingface.co/bert/cl-tohoku/bert-base-japanese-whole-word-masking/vocab.txt in cache at /root/.cache/torch/transformers/72ee6ecba54b20bba483760db4f23b836f27a6afda54ede38c488e8514bb3705.5fac9da4d8565963664ed9744688dc7008ff5ec4045f604e9515896f9fe46d9c
creating metadata file for /root/.cache/torch/transformers/72ee6ecba54b20bba483760db4f23b836f27a6afda54ede38c488e8514bb3705.5fac9da4d8565963664ed9744688dc7008ff5ec4045f604e9515896f9fe46d9c
Lock 139765597706504 released on /root/.cache/torch/transformers/72ee6ecba54b20bba483760db4f23b836f27a6afda54ede38c488e8514bb3705.5fac9da4d8565963664ed9744688dc7008ff5ec4045f604e9515896f9fe46d9c.lock
loading file https://s3.amazonaws.com/models.huggingface.co/bert/cl-tohoku/bert-base-japanese-whole-word-masking/vocab.txt from cache at /root/.cache/torch/transformers/72ee6ecba54b20bba483760db4f23b836f27a6afda54ede38c488e8514bb3705.5fac9da4d8565963664ed9744688dc7008ff5ec4045f604e9515896f9fe46d9c





Lock 139765597707288 acquired on /root/.cache/torch/transformers/c96f5e731b9f4dc2e8263336947ec74b6f93917c0b9db6e9cf974a8a945dd313.48bc8d0b377948cc990335b8cccbcce084039c1b792bea3d0da671abfc6a3fe5.lock
https://s3.amazonaws.com/models.huggingface.co/bert/cl-tohoku/bert-base-japanese-whole-word-masking/config.json not found in cache or force_download set to True, downloading to /root/.cache/torch/transformers/tmpzcagfo4z


HBox(children=(FloatProgress(value=0.0, description='Downloading', max=433.0, style=ProgressStyle(description_…

storing https://s3.amazonaws.com/models.huggingface.co/bert/cl-tohoku/bert-base-japanese-whole-word-masking/config.json in cache at /root/.cache/torch/transformers/c96f5e731b9f4dc2e8263336947ec74b6f93917c0b9db6e9cf974a8a945dd313.48bc8d0b377948cc990335b8cccbcce084039c1b792bea3d0da671abfc6a3fe5
creating metadata file for /root/.cache/torch/transformers/c96f5e731b9f4dc2e8263336947ec74b6f93917c0b9db6e9cf974a8a945dd313.48bc8d0b377948cc990335b8cccbcce084039c1b792bea3d0da671abfc6a3fe5
Lock 139765597707288 released on /root/.cache/torch/transformers/c96f5e731b9f4dc2e8263336947ec74b6f93917c0b9db6e9cf974a8a945dd313.48bc8d0b377948cc990335b8cccbcce084039c1b792bea3d0da671abfc6a3fe5.lock
loading configuration file https://s3.amazonaws.com/models.huggingface.co/bert/cl-tohoku/bert-base-japanese-whole-word-masking/config.json from cache at /root/.cache/torch/transformers/c96f5e731b9f4dc2e8263336947ec74b6f93917c0b9db6e9cf974a8a945dd313.48bc8d0b377948cc990335b8cccbcce084039c1b792bea3d0da671abfc6a3fe5
Mo




Lock 139765597707904 acquired on /root/.cache/torch/transformers/4801b91bfd2de0a4478e02e4a2404e982bd3d6773bc2935eea468f9c644fb593.fbee186ac33c194356f35147fe415d5392623f762cc279e97cecc31b90238cb3.lock
https://cdn.huggingface.co/cl-tohoku/bert-base-japanese-whole-word-masking/pytorch_model.bin not found in cache or force_download set to True, downloading to /root/.cache/torch/transformers/tmpyk8zhb6m


HBox(children=(FloatProgress(value=0.0, description='Downloading', max=445021143.0, style=ProgressStyle(descri…

storing https://cdn.huggingface.co/cl-tohoku/bert-base-japanese-whole-word-masking/pytorch_model.bin in cache at /root/.cache/torch/transformers/4801b91bfd2de0a4478e02e4a2404e982bd3d6773bc2935eea468f9c644fb593.fbee186ac33c194356f35147fe415d5392623f762cc279e97cecc31b90238cb3
creating metadata file for /root/.cache/torch/transformers/4801b91bfd2de0a4478e02e4a2404e982bd3d6773bc2935eea468f9c644fb593.fbee186ac33c194356f35147fe415d5392623f762cc279e97cecc31b90238cb3
Lock 139765597707904 released on /root/.cache/torch/transformers/4801b91bfd2de0a4478e02e4a2404e982bd3d6773bc2935eea468f9c644fb593.fbee186ac33c194356f35147fe415d5392623f762cc279e97cecc31b90238cb3.lock
loading weights file https://cdn.huggingface.co/cl-tohoku/bert-base-japanese-whole-word-masking/pytorch_model.bin from cache at /root/.cache/torch/transformers/4801b91bfd2de0a4478e02e4a2404e982bd3d6773bc2935eea468f9c644fb593.fbee186ac33c194356f35147fe415d5392623f762cc279e97cecc31b90238cb3





All model checkpoint weights were used when initializing BertModel.

All the weights of BertModel were initialized from the model checkpoint at cl-tohoku/bert-base-japanese-whole-word-masking.
If your task is similar to the task the model of the ckeckpoint was trained on, you can already use BertModel for predictions without further training.


tensor([[ 2.6584e-01,  1.5733e-02, -5.5184e-01, -2.6881e-01, -3.3179e-01,
          3.7371e-01, -5.9107e-02, -2.2306e-01,  4.1955e-01, -5.0272e-01,
         -5.1751e-01, -1.0767e-01,  1.1715e-02,  4.1104e-01,  3.6833e-01,
          8.5412e-01, -1.4727e-03,  3.8684e-01, -2.3235e-01, -5.9253e-01,
          7.5186e-01, -6.9910e-01, -8.3287e-01,  3.9897e-01, -4.2666e-02,
         -3.5826e-01,  4.5544e-02, -4.8805e-01, -1.6543e-02, -4.3459e-02,
          2.5553e-01,  7.1770e-02, -5.0605e-01, -6.4106e-01,  2.5535e-01,
         -2.2166e-01,  9.8571e-02, -1.3150e-01,  4.7107e-01, -1.2239e+00,
          4.3229e-01,  2.3325e-01, -7.4172e-01,  4.9757e-01,  4.4506e-01,
          3.7730e-02,  3.7232e-01,  5.0082e-01,  3.1939e-01,  8.3069e-03,
          7.7963e-01,  3.7240e-01,  4.2830e-02, -4.9044e-01,  2.6482e-01,
          1.8851e-01, -2.1430e-02,  2.7918e-01, -2.3981e-01,  2.3239e-01,
          1.0654e-02, -1.6651e-01, -7.4854e-01,  1.5518e-02, -1.0087e-01,
         -5.2183e-01, -5.3295e-01, -3.

## [toiro](https://github.com/taishi-i/toiro) によるテキスト文書モデル（BERT）の学習

インストール方法

In [30]:
!pip install toiro[all]



実装方法

In [31]:
from toiro import classifiers
from toiro import datadownloader

corpus = 'yahoo_movie_reviews'
train_df, dev_df, test_df = datadownloader.load_corpus(corpus, n=12500)
model = classifiers.BERTClassificationModel()                                                                                                                                   
model.fit(train_df, dev_df, verbose=True)
text = "とても良い作品でした。"                                                                                            
pred_y = model.predict(text)
print(pred_y)

loading configuration file https://s3.amazonaws.com/models.huggingface.co/bert/cl-tohoku/bert-base-japanese-whole-word-masking/config.json from cache at /root/.cache/torch/transformers/c96f5e731b9f4dc2e8263336947ec74b6f93917c0b9db6e9cf974a8a945dd313.48bc8d0b377948cc990335b8cccbcce084039c1b792bea3d0da671abfc6a3fe5
Model config BertConfig {
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "gradient_checkpointing": false,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "type_vocab_size": 2,
  "vocab_size": 32000
}

loading file https://s3.amazonaws.com/models.huggingface.co/bert/cl-tohoku/bert-base-japanese-whole-word-masking/vocab.txt from cache at /root/.cache/torch/transformers/72ee6ecba54b20bba483760

[2020-08-24 18:31:15,343] 
1/1 * Epoch 1 (_base): lr=5.000e-05 | momentum=0.9000
1/1 * Epoch 1 (train): accuracy01=0.8506 | loss=0.3400
1/1 * Epoch 1 (valid): accuracy01=0.8912 | loss=0.2837



1/1 * Epoch 1 (_base): lr=5.000e-05 | momentum=0.9000
1/1 * Epoch 1 (train): accuracy01=0.8506 | loss=0.3400
1/1 * Epoch 1 (valid): accuracy01=0.8912 | loss=0.2837


1
