# ニューストピック分類 Base Modelの評価 with CPU



## Google ドライブの接続  
以下を実行。表示されるurlからGoogleアカウントにサイン。表示される認証用のコードを以下に表示されるテキストボックスにコピペ。  
→ サインインしたGoogleアカウントのGoogleドライブがマウントされる。

In [None]:
from google.colab import drive
drive.mount("/content/drive/")

Mounted at /content/drive/


## 主な設定

In [None]:
data_path = '/content/drive/My Drive/Colab Notebooks/data'   # 作業用フォルダ

## ライブラリのインストール

In [None]:
!pip install transformers==4.10
!pip install datasets==1.11
!pip install fugashi==1.1
!pip install ipadic==1.0

Collecting transformers==4.10
  Downloading transformers-4.10.0-py3-none-any.whl (2.8 MB)
[K     |████████████████████████████████| 2.8 MB 7.3 MB/s 
Collecting tokenizers<0.11,>=0.10.1
  Downloading tokenizers-0.10.3-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (3.3 MB)
[K     |████████████████████████████████| 3.3 MB 38.0 MB/s 
[?25hCollecting pyyaml>=5.1
  Downloading PyYAML-5.4.1-cp37-cp37m-manylinux1_x86_64.whl (636 kB)
[K     |████████████████████████████████| 636 kB 54.7 MB/s 
Collecting sacremoses
  Downloading sacremoses-0.0.45-py3-none-any.whl (895 kB)
[K     |████████████████████████████████| 895 kB 34.2 MB/s 
Collecting huggingface-hub>=0.0.12
  Downloading huggingface_hub-0.0.16-py3-none-any.whl (50 kB)
[K     |████████████████████████████████| 50 kB 5.2 MB/s 
Installing collected packages: tokenizers, sacremoses, pyyaml, huggingface-hub, transformers
  Attempting uninstall: pyyaml
    Found existing installation: Py

In [None]:
import os
import torch
import pandas as pd
from transformers import BertForSequenceClassification, BertJapaneseTokenizer

## モデルの読み込み


In [None]:
loaded_model = BertForSequenceClassification.from_pretrained(data_path) 
# loaded_model.cuda()
loaded_tokenizer = BertJapaneseTokenizer.from_pretrained(data_path)

## テストデータの読み込み

In [None]:
cat_info = pd.read_csv(os.path.join(data_path, "cat_info.csv"), index_col=False)
cat_names = cat_info['name']
cat_names

0    dokujo-tsushin
1    livedoor-homme
2     kaden-channel
3              smax
4        topic-news
5            peachy
6       movie-enter
7      it-life-hack
8      sports-watch
Name: name, dtype: object

In [None]:
news_test = pd.read_csv(
    os.path.join(data_path, "news_test.csv" ), index_col=False)
news_test.head()

Unnamed: 0,text,label
0,2008年、”鉄の女”のニックネームを持つ元英国首相マーガレット・サッチャーが、実は認知症に...,5
1,箱根駅伝に出場し、4区を走った東京農業大学・内藤寛人選手の部屋の様子が日本テレビ系情報番組「...,4
2,キヤノンが女子に大人気の小物ブランド「Samantha Thavasa Petit Choi...,5
3,アレクサンドル・デュマの名作文学『三銃士』が、現代の壮大なエンタテインメント作品として生まれ...,5
4,悪質なコンピュータウイルスが氾濫しているWindowsに対して「Macは安全」とされる。Ma...,7


## サンプルデータの予測

In [None]:
# 形態素解析
MAX_LENGTH = 512
def tokenize(text):
    words = loaded_tokenizer.tokenize(text)
    word_ids = loaded_tokenizer.convert_tokens_to_ids(words)  # インデックスに変換
    word_tensor = torch.tensor([word_ids[:MAX_LENGTH]])  # テンソルに変換
    return word_tensor

In [None]:
index = 30
sample_text  = news_test.loc[index, 'text']
sample_label = news_test.loc[index, 'label']
print('text :', sample_text)
print('true label:', sample_label, cat_names[sample_label])

x = tokenize(sample_text)
# x = x.cuda()  # GPU対応
y = loaded_model(x)  # 予測
pred = y[0].argmax(-1).item()  # 最大値のインデックス
print("pred label:", pred, cat_names[pred])

text : 「ゴルフ婚活」や「料理婚活」など、ただ食事やお酒を共にするだけでは無く、イベント性をプラスした"婚活"はもはや定番。共通の話題が生まれやすく、自然と仲良くなれるので、女性からもアプローチがしやすい所が魅力的です。そんな中、結婚情報サイト「youbride（ユーブライド）」が3日、代々木公園の清掃を通して交流を深める、地球にやさしいエコと婚活のイベント「クリーンアップ婚活イベント」を開催しました。エコと婚活の融合なんて、新鮮でイマドキ！清々しい秋晴れの日、集まった「youbride」会員は男性20名、女性20名の計40名。「清掃活動って疲れそう…」と思う方が多いかもしれませんが、「クリーンアップ婚活イベント」はあくまで、外の気持ちの良い空気を楽しみながら、街をキレイにしていく"プチ"エコ活動。高すぎるヒールでなければ、ブーツやパンプスでお洒落をして参加できるのが魅力的です。代々木公園の入口から、それぞれチームを作ってイベントがスタート。男性がゴミをつかむトングを、女性がゴミ袋を持つので自然と連携がとれ、2人は急接近。タバコの吸いがらが道に落ちている事が多かった事から「タバコは吸いますか？」「吸いますが、携帯灰皿を持ち歩いています」等と、普通の婚活パーティでは出ない話題も飛び出し、お互いの事をよく知る事が出来ました。エコ活動終了後は、ワインやお料理が楽しめるカフェバーに移動してパーティがスタート。「お疲れ様でした！」の乾杯の後、自由に会話を楽しみました。温泉旅行やギフト券が当たるゲームは、エコ活動で気が合ったパートナー、その時には話せなかった参加者の垣根を越えて大盛り上がり。終始和やかで楽しいパーティに。気の合った者同士はアドレス交換するなど、しっかり婚活の主旨も忘れていませんでした。イベントに参加した方々からは終了後、参加者に感想を聞いたアンケートでは、ほとんどの方が「こういったイベント型の婚活パーティははじめてだったので楽しかったです」「皆さん、自然に関心がある方で色々とお話が出来ました」と好感触。椅子に座ってテーブル越しにお話をするだけでは分からない、人柄を知ることが出来る新鮮な体験だった様です。普通の婚活じゃつまらない、仲良くなれないと嘆く婚活女子の皆さんは今回の「クリーンアップ婚活」の様な“進化型婚活”をチェックしてみてはいかが？・youbrid

# 精度評価と性能評価

In [None]:
from sklearn.metrics import accuracy_score
from tqdm import tqdm
test_texts  = news_test['text']
test_labels = news_test['label']

In [None]:
%%time
preds = []
for text in tqdm(test_texts):
    x = tokenize(text)
    # x = x.cuda()  # GPU対応
    y = loaded_model(x)  # 予測
    pred = y[0].argmax(-1).item()  # 最大値のインデックス
    preds.append(pred)

100%|██████████| 1842/1842 [49:49<00:00,  1.62s/it]

CPU times: user 49min 21s, sys: 40.6 s, total: 50min 1s
Wall time: 49min 49s





In [None]:
print(accuracy_score(test_labels, preds))

0.9381107491856677
