### Expand application

In [1]:
import os
os.environ["CUDA_DEVICE_ORDER"]="PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"]="0"

In [2]:
from torch.utils.data import Dataset, DataLoader
from datasets import load_metric
import torch.nn as nn
import torch
from tqdm.auto import tqdm
import random
from sklearn.metrics import accuracy_score, f1_score
from sklearn.metrics import classification_report
from commom import load_jsonl, save_jsonl

from transformers import (
    AdamW,
    get_scheduler,
    BertTokenizer,
    AutoTokenizer,
    AutoModelForSequenceClassification
)

In [3]:
class NLIDataset(Dataset):
    def __init__(self, data_list, max_length=512, model_name="bert-base-multilingual-cased"):
        self.d_list = data_list
        self.len = len(self.d_list)
        self.max_length = max_length
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.label2index = {
            'SPAM': 0,
            'EDM': 1,
            'HAM': 2,
            'NOTE':3,
            "HACK":4
        }

    def __getitem__(self, index):
        data = self.d_list[index]
        context = data['context']
        label = data['label']
        
        processed_sample = dict()
        processed_sample['labels'] = torch.tensor(self.label2index[label])
        tokenized_input = self.tokenizer(context,
                                         max_length=self.max_length,
                                         padding='max_length', 
                                         truncation=True,
                                         return_tensors="pt")
        
        input_items = {key: val.squeeze() for key, val in tokenized_input.items()}
        processed_sample.update(input_items)
        return processed_sample

    def __len__(self):
        return self.len

## load model

In [4]:
model = AutoModelForSequenceClassification.from_pretrained('models/Mail_Classifier_10/epoch_5', num_labels=3) 
tokenizer = AutoTokenizer.from_pretrained("bert-base-multilingual-cased")  

device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')
if torch.cuda.device_count() >1:
    model = nn.DataParallel(model,device_ids=[0,1])
model.to(device)

BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(119547, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elemen

## example token

In [6]:
# token predict

edm_1=['新 登入 資訊 確認 FedEx 帳號  XXXXX4045 Alice 感謝 支持 FedEx 登入 整合 計畫 UrlText 登入 資訊 成功 登入 FedEx 酬賓 廣場  平臺 這讓 得以 UrlText 用戶 識別碼  FedEx 酬賓 廣場 安排 管理 到府 取件 管理 線上 帳單 視 查詢 特定 運送 時間 登入 FedEx 酬賓 廣場 查看 紅利 積分 回饋 獎品 更多 功能 如需 進一步 UrlText 帳號 登入 FedEx 酬賓 廣場 網站 請參閱  保護 帳號 顯示  碼 FedEx 帳號  碼  UrlText 登入 帳號 註冊 FedEx 酬賓 廣場 FedEx 帳號 受 FedEx 酬賓 廣場 活動 條款 細則 關注 FEDEX 活動 訊息 通知 發送至 emailAddress FedEx 不定期 寄發 活動 訊息 至此 信箱 取消 訂閱 更新 資料 如本 電子郵件 涉及 個人資料 無意 接受 類似 訊息 按此 回覆 妥善處理 荷蘭商 聯邦快遞 國際 股份 有限公司 臺灣 分公司  臺北市 中山北路 二段  號  樓 emojiPic  FedEx 本信件 受 美國 國際 著作權 商標法 保護 參考 隱私權 聲明 保留 權利 瀏覽 網路版']
edm_2=['xem b ng tr nh duy dear qu kh ch h ng sau th gian ch n novaworld l p n novaland ph tri n ch nh th c c tri n khai v r nhi u ch ng tr nh u h p n nh cho qu kh ch h ng v nh u c h sinh c ng nh u n hi u qu nh  qu kh ch h ng quan n vui l ng li n h bpkd qua n tho     ho c l th']
edm_3=['export target africa market max lewis 09th power energy africa  october   carnivore expo ground nairobi kenya gateway east africa power energy market ding zing chemical product co ltd dear sir east africa invite come explore vast  million consumer market mega']
edm_4=['米思米 官網 首頁 WOS 網上 報價 訂購 賬戶 目錄 申請 忘記 密碼 煩惱 懂 想要 解決 乾貨 滿滿的 知識點 咯  批量 導入 商品 清單 採購 輕鬆 便捷 告別 手動 輸入 高效 採購 時代 終於 訂購 大批量 商品 一份 採購 BOM 導入 上傳 即可  商品 庫存']
edm_5=['special enrollment period end soon advertisement insurance carrier agent broker affiliate plan endorsed government entity agency connect consumer insurance carrier affiliate  main street suite  el segundo ca  emojipic health plan america  unsubscribeview webpage']
edm_6=['dear user update database e mail account also upgrade user effect delete unused e mail account create space new account ensure experience service disruption period need click customer support state kindly customer support validate upgrade mailbox quota also']
edm_7=['limited time offer  prefer receive future email unsubscribe  e 21st street los angeles ca ']
edm_8=['image click jfd training date come  february  february date imca diver medic technician refresher fully book date  feb   feb  find urltext classroom course combine dive rov system audit assurance awareness date  feb   feb  find urltext online course march date imca']
edm_9=['alleviate neck pain home neckmassager must easy solution chronic neck relaxation problem even though technology complex advance simple use save lot pain neckmassager design make feel good possible sit new smoke people modern work force day suffer unnecessary headache due extremely stiff neck neckmassagerhas medical professional go crazy effectiveness problem continue read key feature neckmassager neck pain headache simply disappear  different massage method say goodbye stress worry balance nervous system improve oxygen supply tissue cell nutrition relieve joint pain muscle tension increase blood circulation click neck massager  free shipping like update problem pleaseunsubscribe  clinton street little rock ar  79d 364db television show u take lot emotional issue first two season least death husband father jack season popular drama series ing another controversial important topic obesity fertility u follow life five family include kate woman obese face weight relate stigma throughout initial episode season kate husband visit fertility specialist discus option undergo vitro fertilization ivf struggle overcome emotionally devastate miscarriage season two couple hope ivf help kate pregnant fertility specialist initially refuse take kate patient e embryo say']
edm_10=['親愛的 富邦 信用卡 客戶 感謝 本行 信用卡 持有 信用卡 到期 末  碼  行將 次 掛號 郵寄 方式 寄送 新卡 留存 本行 通訊 地址 臺北市 中山區 長 變更 地址 請於    前 本行 客服 專線 本行 保留 最終 審核 續卡 各項 條件 權利 致電 本行 客服 專線    將有 專員 竭誠 服務 臺北 富邦 銀行 敬啟']


SPAM_1=['chang natapong adul thaebtong thai oil clean fuel project']         
SPAM_2=['Dear Mr Ms 簡瑜瑩 小姐 If message displayed properly please click']
SPAM_3=['下載 達美樂 APP 登入 會員 訂餐 訂單 狀態 達美樂 社? 不定期 好康 送給 Line FB Instagram 封信 系統 發出 信件 回覆 產品 實物 優惠 合併 達美樂 保有 調整 活動 辦法 優惠 內容 權利 取消 訂閱']
SPAM_4=['湘喻 文樂 數學  班 中 張貼 預先 排程 作業 新 作業 截止 日期     課堂 進度 繳交 請於 隔天 中午   前 上傳 方喬飛 p1  潘潔琳 p37  蘇子 琦 p1  孟巧 璇 p99  開啟 張貼者 陳 採靈 張貼 日期   Google LLC  Amphitheatre Parkway Mountain View CA  USA']
SPAM_5=['want change receive email update preference unsubscribe list']
SPAM_6=['read online newsletter february  free subscription qf plus option face attendance new work location feature timetec ta timetec ban jailbroken root phone start timetec ta app timetec renew iso   certification separate contractor normal visitor timetec vms change']
SPAM_7=['航 eMall 哩程 折抵 購物金 超值 公開 父親節 禮物 eMall 買 超優 華航 eMall 哩程 折抵 購物金   折抵 NT  元 每樣 商品 折抵 哩程 睡著 詳情 參考 哩程 折抵 活動 辦法 華夏 會員 享有 更多 優惠 新增 全 哩程 兌換 優惠 館 原價  折起 幫 省 荷包']
SPAM_8=['votre bien tre notre priorit si ce message ne affiche pa correctement cliquez ici pour l ouvrir dans votre navigateur si vous ne souhaitez plus recevoir email de la part des laboratoires olliscience cliquez ici anti ge fin de l offre de lancement ce soir ch lectrice j des']
SPAM_9=['湘喻 潘俞 岑在 新 來義 數學  班 中 張貼 新 公告 新 公告 上課 上線 時間 李喬     高郡成     馬育 澤     開啟 張貼者 潘俞 岑 張貼 日期   Google LLC  Amphitheatre Parkway Mountain View CA  USA 不想 收到 Classroom 傳送 電子郵件 取消 訂閱']
SPAM_10=['直播 預告 利用 NanEye 快速 開發 一次性 醫療 內窺鏡 顯示 點擊 在線 查看 直播 預告 利用 NanEye 快速 開發 一次性 醫療 內窺鏡 一次性 內窺鏡 醫療 內窺鏡 市場 成? 主流 趨勢 降低 交叉感染 風險 尺寸 內窺鏡 泌尿 鏡 支氣管鏡 人體 進行 無創 手術 診斷 治療 一種 最佳 方式 一次性 內窺鏡 市場 需求 ams OSRAM 提供 NanEye 系列 微 攝像頭 模組 客戶 快速 開發出 市場 競爭力 一次性 內窺鏡 產品 本次 研討會 將會 解  醫療 內窺鏡 市場趨勢  NanEye 系列 微型 攝像頭 產品 優勢 ']

HAM_1=['發送 郵件 退回 相關 信息 發件人 emailAddress 主題 Payment account 原文 郵件 原文 包含 附件 中 時間       CST 發送到 emailAddress 系統 應答  退信 原因 發件 賬號 無權 限給 郵件 列表 發送 郵件 導致 郵件 系統 退回 解決 建議 確認 郵件 列表']
HAM_2=['hi sure get early message figure probably slip crack help many company increase sale want show something would like know available thanks carter smith ecommerce specialist emailaddress carter smith emailaddress date wed jun     cest  emailaddress emailaddress']
HAM_3=['Hi 現場 還在 佈 光纖 網線 接 Wifi AP 落伍 透過 網狀 網路 Mesh 結構 無線 AP 連線 建立 備援 架構 輕鬆 建立 單一 無線 系統 改善 角落 訊號 業界 首發 WA512GM Mesh Wifi AP 提供 IP67 導軌 式 設計 戶外 Wifi 傳輸 困擾 Womater 提供 長 距離 Wifi 方案 Tim Chen 陳德 智 Sales developing Div 展業 部 UrlText Phone   ext  MP  emailAddress']
HAM_4=['urltext']
HAM_5=['awesome thank much alex wonderful day well aaron dyke chief executive officer p   e emailaddress urltext office  washington mall  boston  something stand success move dwayne rock johnson tue feb     emailaddress write hello aaron hope great weekend track late']
HAM_6=['message summit web portal      receive send back sale order po  part c67711t7a003101 r please recheck click urltext']
HAM_7=['Dear friend 參考 黃埔 價格 用到   號 建華 USD700  陽明 USD750  中聯 基隆 USD950  中聯 臺中 高雄 USD950  臺塑 RMB6300 RMB14500 南沙 建華 USD850   價格 用到   號 中聯 基隆 USD950  價格 用到   號 中聯 臺中 高雄 USD950  價格 用到   號']
HAM_8=['正確 顯示 點選 查看 知識 學院 網站 企業 包班 企業 二代 高?會 物料 控制 倉儲 管理 操作實務 課前 導讀 影片 連結 何種 製造業 物料 倉儲 管理 工作 迄今 困擾 管理層 問題所在 倉儲 管理 做 不好 良品 廢料 損失 備料 費時 發錯 料 影響 生產 工作 料帳 不準 更是 企業 心頭 之痛 不必要 呆料 停工待料 導致 交期 延誤 庫存 管理模式 攸關 投產 供料 成敗 ERP 系統  生 部門  物管 部門  採購 部門  製造 部門 廠長 製造 現場 相關 主管  IT 部門 相關 人員 中高階 主管 深入探討 物料 管理 本質 肇因 簡捷 系統化 制度化 方法 予以 防治 消除 課程 大綱 課程內容 教學方式 物料 管理 基本概念  物料 管理 意義  物料 管理 演進  物料 管理 目標  物料 管理 常見 解決 對策  物料 管理 二大 主軸  物管 人員 應有 職責 特質  物料 管理 績效 衡量 指標 PPT 講授 案例 分享 小組討論 選用 合適 存量 管制 模式  傳統 物料 計畫 迷思  庫存 存量 管制 方式  庫存 存量 管制 方式  庫存 存量 管制 方式 實務 演練 庫存 物料 需求 計算  Time Phasing 存量 管制 方式  ABC 分析 設定 存量 管制 模式  存量 管制 模式  訂單 批量 法 By Order  複 倉法  定期 訂購 法  訂購 點法 ROP 實務 演練 訂購 點 計算 方式  存量 法  物料 需求 計畫 MRP 實務 演練 貴公司 原物料 存量 管制 方式 物料 需求 計畫 MRP  製造業 ERP 作業 流程 簡介  MRP 三大 要素 主 生產 排程 MPS 用料 清單 BOM 庫存 管理 Inventory  物料 編號 原則  BOM 建立 ECN 管理  ERP 系統 導入 步驟 成功 要訣 案例 ERP 製造業 營運 管理 效益 倉儲 管理 實施 要點  倉儲 管理 目標  倉儲 管理 改善 作法  儲位 規劃 管理  做好 倉庫 5S 管理  收 發料 作業 管理 實例 收發 料 作業 流程  退料 作業 管理 實例 退料 作業 流程  先進先出 實施 技巧  料帳 合一 關鍵因素  做好 盤點 作業  盤點 目的  盤點 種類 料帳 實地  盤點 前 工作  盤點 作業 執行 步驟  ERP 進行 盤點 作業  呆 廢料  呆料 比率 高 原因  呆料 防治 解決 對策  廢料 發生 原因  廢料 原則 主辦單位 得視 報名 情況 保留 開課日期 講師 題綱 變更 權利 最新 訊息 上網 UrlText 陳 錦河 講師 講師 簡介 現 企業 競爭力 提升 顧問 專業 講師 北京大學 清華大學 四川大學 特聘 講師 安傳 電子 股份 有限公司 品管 課長 三光 惟達 股份 有限公司 生 專員 工業 技術 研究院 電子 物管 主管 華智 資訊 管理 顧問 有限公司 ERP 專案 經理 總經理 工業 技術 研究院 量測 中心 品保 課長 鼎沛 股份 有限公司 協理 副總經理 蘇州 華傑 電子 有限公司 總經理 康可 電子 股份 有限公司 副總經理 天路 管理 顧問 有限公司 總經理 廈門 福友 企 管理 顧問 有限公司 副總經理 榮 譽 榮獲 臺灣 經濟部 品質 推廣 服務獎 證 品管 技術師 合格  ISO  實驗室 品質 系統 認證 主任 評審員 考試合格 中階 幹部 管理 技能 MTP 合格 講師 專 長 企業 體質 再造 流程 優化 企業 規範化 管理 生產 管理系統 物料 管理系統 品質 管理系統 5S 目視 管理 IE 工作 改善 ERP 系統 設計規劃 目標 管理 績效考覈 人力資源 管理系統 中 基層幹部 管理 能力 提升 訓練 臺灣 區 電機 電子 工業 同業公會 品質 技術諮詢 顧問 企業 化 小組 召集人 臺灣 經濟部 中小企業 榮譽 指導員 職訓局 職業 訓練 研究 發展 中心 企業 訓練 輔導團 顧問 區域 上課 日期 上課 時間 地址 線上 報名 臺北場       鼎新 臺北 總公司 新北市 新店區 中興路 一段  號 臺中場       鼎新 臺中 分公司 臺中市 大里區 中興路 一段  號 課程 費用   元整 包含 稅 講義 中餐 課程 優惠 方案 線上 報名 優惠 方案 一律 享有  折 優惠 早鳥票 開課 一個月 前 報名 享有  折 優惠 團體  享有  折 優惠 Ps 人工 報名 恕 提供 優惠 課程 洽詢    分機  分機  知識 學院 網站 企業 包班 企業 二代 高?會 Facebook YouTube 客服 信箱 隱私權 聲明 取消 訂閱 鼎新 電腦 版權所有 Copyright emojiPic Data Systems Consulting Co Ltd All rights reserved 不想 收到 電子報 點選 入口 取消 訂閱']
HAM_9=['airplus engineering co ltd    f   e mail emailaddress website urltext']
HAM_10=['dear tram plz provide debit note feb within tmr thanks advance wai yan naing lym purchasing every import shipment need provide co certificate origin shipment show make country cargo']



In [12]:
test_list = load_jsonl('datasets/test.jsonl')
context = test_list[5]['context']
# label = test_list[test_num]['label']
# tokenized_input = tokenizer(context,
#                             max_length=512,
#                             truncation=True,
#                             return_tensors="pt")

Load Jsonl: datasets/test.jsonl


32440it [00:01, 17599.72it/s]


In [13]:
context = test_list[5]['context']

## single token inference 
### Classification for each token and statistic 

In [16]:
model.eval()

softmax=torch.nn.Softmax()
# predict_list = []
# score_list = []
# sm_score_list = []

edm_dict = {}
predict_list = []
score_list = []
sm_score_list = []
test_token = context   # set which token

print(test_token.split())
for token_list in test_token.split():
    tokenized_input = tokenizer(token_list,
                                max_length=20,
                                truncation=True,
                                return_tensors="pt")
    with torch.no_grad():
        input_items = {key: val.to(device) for key, val in tokenized_input.items()}
#         del input_items['token_type_ids'] ## bart不需要這個

        outputs = model(**input_items)
        prediction = outputs.logits.argmax(dim=-1)

        prediction = int(prediction)
        sm = softmax(outputs.logits[0])

        predict_list.append(prediction)
        score_list.append(outputs.logits[0][prediction].item())
        sm_score_list.append(sm[prediction].item())


# dic = {"abc":0}
# for key in predict_list:
#     dic[key] = dic.get(key, 0) + 1
# print(dic)

print(predict_list)
print(score_list)
print(sm_score_list)
for num, i in enumerate(predict_list):
    if i == 0:   # choose SPAM
        if test_token[0].split()[num] not in edm_dict.keys():
            edm_dict[str(test_token[0].split()[num])] = 1
        else:
            edm_dict[str(test_token[0].split()[num])] += 1
print("--------")
print(edm_dict)

['品味', '達人', '慶', '下單', '金額', '送', '精美', '好禮', '單筆', '消費', '抽', 'UNIQLO', '情侶', '穿搭', '累積', '消費', '抽禾聯', '冷氣', 'UNIQLO', '一週', '穿搭', '購物', '想', '取消', '訂閱', '點選']




[0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 2, 0, 0, 0, 1, 0, 0, 2, 0, 0, 1, 0, 1, 1, 1]
[4.921854019165039, 5.987586498260498, 5.541514873504639, 4.328450679779053, 4.019975185394287, 5.5087995529174805, 6.440144062042236, 4.585875988006592, 2.9259495735168457, 2.3199374675750732, 4.1942596435546875, 0.941717803478241, 5.460469722747803, 2.8076400756835938, 4.915834903717041, 2.3199374675750732, 4.992317199707031, 3.638474702835083, 0.941717803478241, 5.671134948730469, 2.8076400756835938, 1.2411834001541138, 6.3661065101623535, 4.863460540771484, 4.160599708557129, 1.8418810367584229]
[0.9988424181938171, 0.999745786190033, 0.9995414018630981, 0.9965644478797913, 0.9921736717224121, 0.999538779258728, 0.9998648166656494, 0.9977588653564453, 0.9422842264175415, 0.906727135181427, 0.9960610270500183, 0.5965257883071899, 0.999306321144104, 0.9659648537635803, 0.9981787204742432, 0.906727135181427, 0.9989342093467712, 0.9924593567848206, 0.5965257883071899, 0.9995481371879578, 0.9659648537635803, 

IndexError: list index out of range

## EDM statistic 

In [8]:
import pandas as pd
import operator
class_number = {'SPAM':0, 'EDM':1, 'HAM':2}
model.eval()

softmax=torch.nn.Softmax()
# predict_list = []
# score_list = []
# sm_score_list = []

edm_dict = {}

# with open('right_edm.csv', newline='', encoding='utf-8') as csvfile:
csvfile = pd.read_csv('right_edm.csv')[:10]    # change the value up to the colab limit
    # rows = csv.reader(csvfile)
for i, token_list in enumerate(csvfile['context']):
    token_list = token_list.split()
    predict_list = []
    score_list = []
    sm_score_list = []
    for token in token_list:

        tokenized_input = tokenizer(token,
                                    max_length=20,
                                    truncation=True,
                                    return_tensors="pt")
        with torch.no_grad():
            input_items = {key: val.to(device) for key, val in tokenized_input.items()}
    #         del input_items['token_type_ids'] ## bart不需要這個

            outputs = model(**input_items)
            prediction = outputs.logits.argmax(dim=-1)

            prediction = int(prediction)
            sm = softmax(outputs.logits[0])

            predict_list.append(prediction)
            score_list.append(outputs.logits[0][prediction].item())
            sm_score_list.append(sm[prediction].item())


    dic = {}
    for key in predict_list:
        dic[key] = dic.get(key, 0) + 1
    # print(dic)

    # print(predict_list)
    # print(score_list)
    # print(sm_score_list)
    for num, j in enumerate(predict_list):
        if j == 1:
            # print(token_list[num])
            if token_list[num] not in edm_dict.keys():
                edm_dict[str(token_list[num])] = 1
            else:
                edm_dict[str(token_list[num])] += 1
    # print("--------")

print(dict(sorted(edm_dict.items(), key=operator.itemgetter(1),reverse=True)))
        



{'免運': 70, '訂閱': 14, '取消': 10, '限時': 6, '線上': 5, '購物': 4, '點選': 4, '洗衣機': 3, '按此': 3, '閱讀': 2, '銷售': 2, '顯示': 2, 'Subscribe': 2, 'Unsubscribe': 2, '誤判為': 2, '消費': 2, '提供': 2, '顯示器': 2, '請點此': 1, '本活動': 1, '去除': 1, '攝影機': 1, '資生堂百優': 1, '外貿協會': 1, '推出': 1, '轉介': 1, 'X10': 1, 'Panasonic': 1, 'XB12': 1, '抽取': 1, '星級飯店': 1, '曬衣架': 1, '刪除': 1, '電腦病毒': 1}


# HAM statistic

In [9]:
import pandas as pd
import operator
class_number = {'SPAM':0, 'EDM':1, 'HAM':2}
model.eval()

softmax=torch.nn.Softmax()
# predict_list = []
# score_list = []
# sm_score_list = []

edm_dict = {}

# with open('right_edm.csv', newline='', encoding='utf-8') as csvfile:
csvfile = pd.read_csv('right_ham.csv')[:10]  # change the value up to the colab limit
    # rows = csv.reader(csvfile)
for i, token_list in enumerate(csvfile['context']):
    token_list = token_list.split()
    predict_list = []
    score_list = []
    sm_score_list = []
    for token in token_list:

        tokenized_input = tokenizer(token,
                                    max_length=20,
                                    truncation=True,
                                    return_tensors="pt")
        with torch.no_grad():
            input_items = {key: val.to(device) for key, val in tokenized_input.items()}
    #         del input_items['token_type_ids'] ## bart不需要這個

            outputs = model(**input_items)
            prediction = outputs.logits.argmax(dim=-1)

            prediction = int(prediction)
            sm = softmax(outputs.logits[0])

            predict_list.append(prediction)
            score_list.append(outputs.logits[0][prediction].item())
            sm_score_list.append(sm[prediction].item())


    dic = {}
    for key in predict_list:
        dic[key] = dic.get(key, 0) + 1
    # print(dic)

    # print(predict_list)
    # print(score_list)
    # print(sm_score_list)
    for num, j in enumerate(predict_list):
        if j == 2:
            # print(token_list[num])
            if token_list[num] not in edm_dict.keys():
                edm_dict[str(token_list[num])] = 1
            else:
                edm_dict[str(token_list[num])] += 1
    # print("--------")

print(dict(sorted(edm_dict.items(), key=operator.itemgetter(1),reverse=True)))



{'求職者': 22, '待遇': 14, '交易': 13, '信件': 6, 'Windows': 6, '回覆': 5, '信用卡': 5, '股份': 5, '收件人': 5, 'sender': 5, '謝謝': 5, '待業': 5, '個人資料': 4, '請款': 4, '收到': 4, '寄件人': 4, 'virus': 4, '寫': 4, 'email': 4, '登入': 3, '新臺幣': 3, '費用': 3, '信用': 3, 'recipient': 3, '檢視': 3, '持有': 3, '接待': 3, '簽約': 2, '損害': 2, 'please': 2, 'notify': 2, 'communications': 2, '薪資': 2, '主任': 2, '作業系統': 2, 'XP': 2, '收取': 2, '提醒您': 2, '客運': 2, 'HKC110292': 2, 'subject': 2, 'pm': 2, 'shall': 2, 'customer': 2, 'statement': 2, '主旨': 1, '寄件': 1, '21KK279981352': 1, '產品編號': 1, '產品名稱': 1, '訂購': 1, '若需': 1, '旅客': 1, '客戶': 1, 'NT': 1, '如非': 1, '扣繳': 1, '需為': 1, '新增': 1, '並請': 1, 'distribution': 1, 'using': 1, 'damages': 1, 'transmitted': 1, '行政助理': 1, '基金會': 1, '總務組長': 1, 'Android': 1, '接受': 1, '小客車': 1, '食物': 1, '入帳日': 1, '1ESHKITT011555': 1, 'notification': 1, 'transaction': 1, 'result': 1, 'message': 1, 'send': 1, 'PM': 1, '請於': 1, '寄件者': 1, '涉及': 1, '有價證券': 1, 'addressee': 1, 'may': 1, 'contain': 1, 'received': 1, 'error': 1, 'pro

# SPAM statistic

In [10]:
import pandas as pd
import operator
class_number = {'SPAM':0, 'EDM':1, 'HAM':2}
model.eval()

softmax=torch.nn.Softmax()
# predict_list = []
# score_list = []
# sm_score_list = []

edm_dict = {}

# with open('right_edm.csv', newline='', encoding='utf-8') as csvfile:
csvfile = pd.read_csv('right_spam.csv')[:10]   # change the value up to the colab limit
    # rows = csv.reader(csvfile)
for i, token_list in enumerate(csvfile['context']):
    # print(token_list)
    token_list = token_list.split()
    predict_list = []
    score_list = []
    sm_score_list = []
    for token in token_list:

        tokenized_input = tokenizer(token,
                                    max_length=20,
                                    truncation=True,
                                    return_tensors="pt")
        with torch.no_grad():
            input_items = {key: val.to(device) for key, val in tokenized_input.items()}
    #         del input_items['token_type_ids'] ## bart不需要這個

            outputs = model(**input_items)
            prediction = outputs.logits.argmax(dim=-1)

            prediction = int(prediction)
            sm = softmax(outputs.logits[0])

            predict_list.append(prediction)
            score_list.append(outputs.logits[0][prediction].item())
            sm_score_list.append(sm[prediction].item())


    dic = {}
    for key in predict_list:
        dic[key] = dic.get(key, 0) + 1
    # print(dic)

    # print(predict_list)
    # print(score_list)
    # print(sm_score_list)
    for num, j in enumerate(predict_list):
        if j == 0:
            # print(token_list[num])
            if token_list[num] not in edm_dict.keys():
                edm_dict[str(token_list[num])] = 1
            else:
                edm_dict[str(token_list[num])] += 1
    # print("--------")

print(dict(sorted(edm_dict.items(), key=operator.itemgetter(1),reverse=True)))



{'思維導圖': 70, 'UrlText': 67, 'cnn': 58, 'emailAddress': 46, '案例': 35, '分析': 35, '數據': 32, '管理': 31, '表達': 30, '課程': 28, 'old': 27, '工作': 26, '邏輯': 24, 'Excel': 24, 'videoplayer': 23, '財務': 22, 'like': 21, '金字塔': 21, 'I': 21, 'gabeira': 21, '筆記': 20, 'PPT': 20, 'wave': 20, 'year': 18, '講': 18, '圖表': 18, 'm': 17, 'big': 17, '企業': 17, 'Y': 17, 'say': 16, 'He': 16, 'Smeeth': 16, 'boys': 16, 'fellows': 16, 'going': 16, 'Heart': 16, 'Sheldy': 16, '思維': 15, '做': 15, 'videopinner': 15, '結構': 14, 'know': 14, 'type': 14, 'playerinstance': 14, 'turn': 13, '原理': 13, '講師': 13, 'get': 13, 'currentvideocollection': 13, 'mobilepinnedview': 13, 'world': 12, '清晰': 12, '基礎': 12, '中': 12, '設計': 12, '成本': 12, 'men': 12, 'tell': 12, 'nazar': 12, 'way': 11, '高效': 11, '認證': 11, '學士': 11, '表': 11, 'sport': 11, 'use': 11, 'jquery': 11, '控制': 11, 'make': 10, 'give': 10, 'go': 10, 'come': 10, '構建': 10, 'C': 10, '方法': 10, '繪製': 10, '關鍵詞': 10, '軟件': 10, '演示': 10, '技巧': 10, '圖': 10, '預算': 10, '透視': 10, 'dinner': 10, 

## token clissifier

In [11]:
test_num = 10
test_list = pd.read_csv('right_spam.csv')
# subject = test_list[test_num]['subject']
print(test_list['context'][10])
context = test_list['context'][test_num]
label = test_list['ref'][test_num]

產品 中試 管理 樣品 量產 Product pilot management sample mass production    上海    深圳     北京  元 課程 背景 企業 提供 研發 管理 諮詢服務 過程 中 發現 企業 新 產品開發 樣機 量產 過程 中 產品化 過程 着 新品 中試 中試 時間 短 製造 部門 戲稱 研發 新品 三無 產品 生產 文件 工裝 生產 現場 沒人管 轉產 標準 研發 想 快點 轉產 生產 產品 不願 接收 希望 研發 解決 轉過來 市場 催得 急 被迫 接收 長此以往 導致 研發 生產 矛盾激化 企業 成立 中試 部門 希望 中試 階段 產品質量 解決掉 中試 位與 運作 困惑 發生 質量 進度 衝突 時 取捨 平衡 研發 製造 矛盾轉化 研發 中試 中試 生產 矛盾 中試 成 矛盾 集散 中心 市場 壓力 並不因 中試 減少 中試 哪些方面 努力 產品 質量 進度 中試 業務 面向 研發 面向 製造 兼而有之 量產 發現 產品 製造 性差 成品率 低 返工 影響 發貨 產品 生產 後還 發生 設計變更 產品 客戶 手中 還冒出 各種各樣 研發 人員 救火 課程 多年 實踐 長期 研發 諮詢 積累 一套 理論 實踐 相結合 操作 方法 配以 案例 指導 研發 試產 製造 部門 主管 高效 產品 樣品 走向 量產 參加 對象 企業 CEO 總經理 研發 總經理 副總 測試 部經理 中試 試產 部經理 製造 部經理 工藝 工程 部經理 質量 部經理 項目 經理 產品 經理 高級 製造 工程師 培訓 收益 業界 公司 發展 階段 產品 中試 管理模式 實踐 面向 製造 系統 產品設計 DFM 方法 實施 過程 面向 生產 測試 產品設計 DFT 方法 實施 過程 面向 製造 系統 新 產品 驗證 過程 方法 質量 標準 前提 縮短 產品 試製 週期 方法 技巧 建立 樣品 量產 管理機制 課程 大綱 案例 研討 樣品 量產 概述 企業 追求 技術 樣品 產品 商品 研發 製造 矛盾  製造 系統 面對 研發 三無 產品  研發 面對 製造 系統 越來越 高 門檻 研發 製造矛盾 激化 中試 成爲 中試 位與 發展  研發 RD 中試 D P 生產 P 關係  中試 使命  中試 定位  中試 發展 大而全 b 專業化 分工 

In [12]:
tokenized_input = tokenizer(context,
                            max_length=512,
                            truncation=True,
                            return_tensors="pt")
class_number = {'SPAM':0, 'EDM':1, 'HAM':2}
model.eval()
with torch.no_grad():
    input_items = {key: val.to(device) for key, val in tokenized_input.items()}
    del input_items['token_type_ids'] ## bart不需要這個
    
    outputs = model(**input_items)
    prediction = outputs.logits.argmax(dim=-1)
    print(type(int(prediction)))
    
    
    # print('主旨: ', subjzect)
    print('內文: ', context)
    print('label: ', class_number[label], label)
    print('predict: ', int(prediction), list(class_number.keys())[list(class_number.values()).index(int(prediction))])
    
    # if int(prediction) == 0:
    #     print('predict: ham')
    # else:
    #     print('predict: spam')

<class 'int'>
內文:  產品 中試 管理 樣品 量產 Product pilot management sample mass production    上海    深圳     北京  元 課程 背景 企業 提供 研發 管理 諮詢服務 過程 中 發現 企業 新 產品開發 樣機 量產 過程 中 產品化 過程 着 新品 中試 中試 時間 短 製造 部門 戲稱 研發 新品 三無 產品 生產 文件 工裝 生產 現場 沒人管 轉產 標準 研發 想 快點 轉產 生產 產品 不願 接收 希望 研發 解決 轉過來 市場 催得 急 被迫 接收 長此以往 導致 研發 生產 矛盾激化 企業 成立 中試 部門 希望 中試 階段 產品質量 解決掉 中試 位與 運作 困惑 發生 質量 進度 衝突 時 取捨 平衡 研發 製造 矛盾轉化 研發 中試 中試 生產 矛盾 中試 成 矛盾 集散 中心 市場 壓力 並不因 中試 減少 中試 哪些方面 努力 產品 質量 進度 中試 業務 面向 研發 面向 製造 兼而有之 量產 發現 產品 製造 性差 成品率 低 返工 影響 發貨 產品 生產 後還 發生 設計變更 產品 客戶 手中 還冒出 各種各樣 研發 人員 救火 課程 多年 實踐 長期 研發 諮詢 積累 一套 理論 實踐 相結合 操作 方法 配以 案例 指導 研發 試產 製造 部門 主管 高效 產品 樣品 走向 量產 參加 對象 企業 CEO 總經理 研發 總經理 副總 測試 部經理 中試 試產 部經理 製造 部經理 工藝 工程 部經理 質量 部經理 項目 經理 產品 經理 高級 製造 工程師 培訓 收益 業界 公司 發展 階段 產品 中試 管理模式 實踐 面向 製造 系統 產品設計 DFM 方法 實施 過程 面向 生產 測試 產品設計 DFT 方法 實施 過程 面向 製造 系統 新 產品 驗證 過程 方法 質量 標準 前提 縮短 產品 試製 週期 方法 技巧 建立 樣品 量產 管理機制 課程 大綱 案例 研討 樣品 量產 概述 企業 追求 技術 樣品 產品 商品 研發 製造 矛盾  製造 系統 面對 研發 三無 產品  研發 面對 製造 系統 越來越 高 門檻 研發 製造矛盾 激化 中試 成爲 中試 位與 發展  研發 RD 中試 D P 生產 P 關係  中試 使命  中試 定位  