In [1]:
import pandas as pd
data = pd.read_csv('traindata2')

In [2]:
import torch
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
device

device(type='cpu')

In [3]:
from transformers import BertTokenizer

# 載入 BERT 分詞器
print('Loading BERT tokenizer...')
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese', do_lower_case=True)

Loading BERT tokenizer...


In [4]:
max_len = 512

print('Max sentence length: ', max_len)

Max sentence length:  512


In [5]:
input_ids = []
attention_masks = []

for sent in data['text']:
    encoded_dict = tokenizer.encode_plus(
                        sent,                      # 輸入文字
                        add_special_tokens = True, # 新增 '[CLS]' 和 '[SEP]'
                        max_length = max_len,           # 填充 & 截斷長度
                        pad_to_max_length = True,
                        return_attention_mask = True,   # 返回 attn. masks.
                        return_tensors = 'pt',     # 返回 pytorch tensors 格式的資料
                   )
    
    # 將編碼後的文字加入到列表  
    input_ids.append(encoded_dict['input_ids'])
    
    # 將文字的 attention mask 也加入到 attention_masks 列表
    attention_masks.append(encoded_dict['attention_mask'])

# 將列表轉換為 tensor
input_ids = torch.cat(input_ids, dim=0)
attention_masks = torch.cat(attention_masks, dim=0)
labels = torch.tensor(data['y'])

# 輸出第 1 行文字的原始和編碼後的資訊
print('Original: ', data['text'][0])
print('Token IDs:', input_ids[0])

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


Original:  請 老大 喜歡 吃 甜食 吃 甜點 老大 心情 忘記 煩惱 同時 控制 亮 發胖 稀有沒有 開箱 20 21年 網路 人氣 甜點 好吃 實至名歸 雷聲 大雨 名過其實 公平 公正 開箱 巴哈 品項 肉桂 捲 肉桂 麵包 害 肉桂 味道 唱 感覺 楓糖 厲害 搭配到 甜 甜味 焦糖 楓糖 味霸肉桂 味道 壓過去 脫 褲子 放屁 買 指數 汽車線 初戀 初戀 國中 弄 二手 麵包店 檸檬塔 441 55 台中 有名 幹掉 名不虛傳 乳酪 味道 檸檬 酸澀感 整體 搭配 聯盟 週年 婚姻 酷教 男人 算 甜 網路 紅 網美 拍照 限動 對 做 拉麵 造型 布丁 對 對 荷包 蛋 醬油 造型 教堂 低進去 容易 拉麵 做 口感 教堂 甜 整體 味道 強調 晚 吃下去 忘記 味道 特別 盒子 僅存 特點 買回家 吃 龍雪 專注 龍雪 穿 選 包裝 好看 文青 掛 不錯 可愛 包裝 雷同區 俱到 意涵 妹 蔓越莓 口味 對 對 家 隔壁 老闆娘 做 拍 死掉 好吃 扎實 紮實 吃進去 熟 奶油 糖霜 溢出來 經驗 講 說 買 好吃 對 對 蔓越莓 奶油 餅乾 搭配 味道 想 撥給 妹 酸 事 香氣 足 熱量 算 頂高 價錢 1881 算 ok 買 買回去 好吃 老大 富 買 指數 星 請 聯絡 條件 薪水 代表 好看 分成 單程 舞落為 濃厚 餅乾 斷輸出 好吃 蛋糕 綿密 衣服 酸味 整體 說 不錯 缺點 強 驚喜感 100 蛋糕 買 200 蛋糕 三峽 中獎 買 買 指數 拿破 放型 彈簧 餡 綿密 棒 港式 飲茶 茶流 沙包 感覺 致命 缺點 病皮 普通 好吃 製 蘋果 好吃 對 對 好吃 外皮 整體 269 長大 老大 工作 時數 7.5 分區 餅乾 曲奇 餅乾 靈魂 綿密度 咬下去 聲 餅乾 吃進去 散掉 解 穠纖 合度 地方 顯色 覺察 鐵 茶 威脅 感覺 講 說 厲害 吃完 嘴巴 顆粒感 厲害 可可曲 甜點 乾乾 乾乾 苦苦 咖啡 豐年 離婚 獨自 孩子 找到 真愛 感覺 甜甜 喜歡 說 生產 可愛 做 品牌 進行式 差 用料 事實 證明 關係 講 話 買 指數 喝下 蛋糕界 愛馬仕 代表 高級 講 開箱 買 買 人體 層次感 不錯 吃 田地 分成 嘴巴 皮 薄 用到 吃進去 吃 感覺 吃 瓦楞紙 感覺 老大 建議 說 女孩子 約會 吃 店 

In [6]:
from torch.utils.data import TensorDataset, random_split

# 將輸入資料合併為 TensorDataset 物件
dataset = TensorDataset(input_ids, attention_masks, labels)

# 計算訓練集和驗證集大小
train_size = int(0.7*0.9 * len(dataset))
val_size = int(0.7*0.1 * len(dataset))
test_size = len(dataset) - train_size - val_size

# 按照資料大小隨機拆分訓練集和測試集
train_dataset, val_dataset, test_dataset = random_split(dataset, [train_size, val_size, test_size])

print('{:>5,} training samples'.format(train_size))
print('{:>5,} validation samples'.format(val_size))
print('{:>5,} testing samples'.format(test_size))

  262 training samples
   29 validation samples
  125 testing samples


In [7]:
from torch.utils.data import DataLoader, RandomSampler, SequentialSampler

# 在 fine-tune 的訓練中，BERT 作者建議小批量大小設為 16 或 32
batch_size = 32

# 為訓練和驗證集建立 Dataloader，對訓練樣本隨機洗牌
train_dataloader = DataLoader(
            train_dataset,  # 訓練樣本
            sampler = RandomSampler(train_dataset), # 隨機小批量
            batch_size = batch_size # 以小批量進行訓練
        )

# 驗證集不需要隨機化，這裡順序讀取就好
validation_dataloader = DataLoader(
            val_dataset, # 驗證樣本
            sampler = SequentialSampler(val_dataset), # 順序選取小批量
            batch_size = batch_size 
        )

In [8]:
from transformers import BertForSequenceClassification, AdamW, BertConfig

# 載入 BertForSequenceClassification, 預訓練 BERT 模型 + 頂層的線性分類層 
model = BertForSequenceClassification.from_pretrained(
    "bert-base-chinese", # 小寫的 12 層預訓練模型
    num_labels = 4, # 分類數 --2 表示二分類
                    # 你可以改變這個數字，用於多分類任務  
    output_attentions = False, # 模型是否返回 attentions weights.
    output_hidden_states = False, # 模型是否返回所有隱層狀態.
)

Some weights of the model checkpoint at bert-base-chinese were not used when initializing BertForSequenceClassification: ['cls.seq_relationship.bias', 'cls.seq_relationship.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at

In [9]:
# 將所有模型引數轉換為一個列表
params = list(model.named_parameters())

print('The BERT model has {:} different named parameters.\n'.format(len(params)))

print('==== Embedding Layer ====\n')

for p in params[0:5]:
    print("{:<55} {:>12}".format(p[0], str(tuple(p[1].size()))))

print('\n==== First Transformer ====\n')

for p in params[5:21]:
    print("{:<55} {:>12}".format(p[0], str(tuple(p[1].size()))))

print('\n==== Output Layer ====\n')

for p in params[-4:]:
    print("{:<55} {:>12}".format(p[0], str(tuple(p[1].size()))))

The BERT model has 201 different named parameters.

==== Embedding Layer ====

bert.embeddings.word_embeddings.weight                  (21128, 768)
bert.embeddings.position_embeddings.weight                (512, 768)
bert.embeddings.token_type_embeddings.weight                (2, 768)
bert.embeddings.LayerNorm.weight                              (768,)
bert.embeddings.LayerNorm.bias                                (768,)

==== First Transformer ====

bert.encoder.layer.0.attention.self.query.weight          (768, 768)
bert.encoder.layer.0.attention.self.query.bias                (768,)
bert.encoder.layer.0.attention.self.key.weight            (768, 768)
bert.encoder.layer.0.attention.self.key.bias                  (768,)
bert.encoder.layer.0.attention.self.value.weight          (768, 768)
bert.encoder.layer.0.attention.self.value.bias                (768,)
bert.encoder.layer.0.attention.output.dense.weight        (768, 768)
bert.encoder.layer.0.attention.output.dense.bias              (

In [10]:
optimizer = AdamW(model.parameters(),
                  lr = 2e-5, # args.learning_rate - default is 5e-5
                  eps = 1e-8 # args.adam_epsilon  - default is 1e-8
                )

In [11]:
from transformers import get_linear_schedule_with_warmup

# 訓練 epochs。 BERT 作者建議在 2 和 4 之間，設大了容易過擬合 
epochs = 4

# 總的訓練樣本數
total_steps = len(train_dataloader) * epochs

# 建立學習率排程器
scheduler = get_linear_schedule_with_warmup(optimizer, 
                                            num_warmup_steps = 0, 
                                            num_training_steps = total_steps)

In [12]:
import numpy as np

# 根據預測結果和標籤資料來計算準確率
def flat_accuracy(preds, labels):
    pred_flat = np.argmax(preds, axis=1).flatten()
    labels_flat = labels.flatten()
    return np.sum(pred_flat == labels_flat) / len(labels_flat)

In [13]:
import time
import datetime

def format_time(elapsed):
    '''
    Takes a time in seconds and returns a string hh:mm:ss
    '''
    # 四捨五入到最近的秒
    elapsed_rounded = int(round((elapsed)))
    
    # 格式化為 hh:mm:ss
    return str(datetime.timedelta(seconds=elapsed_rounded))

In [16]:
import random
import numpy as np

# 以下訓練程式碼是基於 `run_glue.py` 指令碼:
# https://github.com/huggingface/transformers/blob/5bfcd0485ece086ebcbed2d008813037968a9e58/examples/run_glue.py#L128

# 設定隨機種子值，以確保輸出是確定的
seed_val = 42

random.seed(seed_val)
np.random.seed(seed_val)
torch.manual_seed(seed_val)
torch.cuda.manual_seed_all(seed_val)

# 儲存訓練和評估的 loss、準確率、訓練時長等統計指標, 
training_stats = []

# 統計整個訓練時長
total_t0 = time.time()

for epoch_i in range(0, epochs):
    
    # ========================================
    #               Training
    # ========================================
    

    print("")
    print('======== Epoch {:} / {:} ========'.format(epoch_i + 1, epochs))
    print('Training...')

    # 統計單次 epoch 的訓練時間
    t0 = time.time()

    # 重置每次 epoch 的訓練總 loss
    total_train_loss = 0

    # 將模型設定為訓練模式。這裡並不是呼叫訓練介面的意思
    # dropout、batchnorm 層在訓練和測試模式下的表現是不同的 (source: https://stackoverflow.com/questions/51433378/what-does-model-train-do-in-pytorch)
    model.train()

    # 訓練集小批量迭代
    for step, batch in enumerate(train_dataloader):

        # 每經過40次迭代，就輸出進度資訊
        if step % 40 == 0 and not step == 0:
            elapsed = format_time(time.time() - t0)
            print('  Batch {:>5,}  of  {:>5,}.    Elapsed: {:}.'.format(step, len(train_dataloader), elapsed))

        # 準備輸入資料，並將其拷貝到 gpu 中
        b_input_ids = batch[0].to(device)
        b_input_mask = batch[1].to(device)
        b_labels = batch[2].to(device)

        # 每次計算梯度前，都需要將梯度清 0，因為 pytorch 的梯度是累加的
        model.zero_grad()        

        # 前向傳播
        # 文件參見: 
        # https://huggingface.co/transformers/v2.2.0/model_doc/bert.html#transformers.BertForSequenceClassification
        # 該函式會根據不同的引數，會返回不同的值。 本例中, 會返回 loss 和 logits -- 模型的預測結果
        output = model(b_input_ids,
                       token_type_ids=None,
                       attention_mask=b_input_mask,
                       labels=b_labels)
        loss, logits = output[:2]
        # 累加 loss
        total_train_loss += loss.item()

        # 反向傳播
        loss.backward()

        # 梯度裁剪，避免出現梯度爆炸情況
        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)

        # 更新引數
        optimizer.step()

        # 更新學習率
        scheduler.step()

    # 平均訓練誤差
    avg_train_loss = total_train_loss / len(train_dataloader)            
    
    # 單次 epoch 的訓練時長
    training_time = format_time(time.time() - t0)

    print("")
    print("  Average training loss: {0:.2f}".format(avg_train_loss))
    print("  Training epcoh took: {:}".format(training_time))
        
    # ========================================
    #               Validation
    # ========================================
    # 完成一次 epoch 訓練後，就對該模型的效能進行驗證

    print("")
    print("Running Validation...")

    t0 = time.time()

    # 設定模型為評估模式
    model.eval()

    # Tracking variables 
    total_eval_accuracy = 0
    total_eval_loss = 0
    nb_eval_steps = 0

    # Evaluate data for one epoch
    for batch in validation_dataloader:
        
        # 將輸入資料載入到 gpu 中
        b_input_ids = batch[0].to(device)
        b_input_mask = batch[1].to(device)
        b_labels = batch[2].to(device)
        
        # 評估的時候不需要更新引數、計算梯度
        with torch.no_grad():
            output = model(b_input_ids,
                           token_type_ids=None,
                           attention_mask=b_input_mask,
                           labels=b_labels)
        loss, logits = output[:2]            
        # 累加 loss
        total_eval_loss += loss.item()

        # 將預測結果和 labels 載入到 cpu 中計算
        logits = logits.detach().cpu().numpy()
        label_ids = b_labels.to('cpu').numpy()

        # 計算準確率
        total_eval_accuracy += flat_accuracy(logits, label_ids)
        

    # 列印本次 epoch 的準確率
    avg_val_accuracy = total_eval_accuracy / len(validation_dataloader)
    print("  Accuracy: {0:.2f}".format(avg_val_accuracy))

    # 統計本次 epoch 的 loss
    avg_val_loss = total_eval_loss / len(validation_dataloader)
    
    # 統計本次評估的時長
    validation_time = format_time(time.time() - t0)
    
    print("  Validation Loss: {0:.2f}".format(avg_val_loss))
    print("  Validation took: {:}".format(validation_time))

    # 記錄本次 epoch 的所有統計資訊
    training_stats.append(
        {
            'epoch': epoch_i + 1,
            'Training Loss': avg_train_loss,
            'Valid. Loss': avg_val_loss,
            'Valid. Accur.': avg_val_accuracy,
            'Training Time': training_time,
            'Validation Time': validation_time
        }
    )

print("")
print("Training complete!")
print("Total training took {:} (h:mm:ss)".format(format_time(time.time()-total_t0)))


Training...

  Average training loss: 1.45
  Training epcoh took: 0:21:53

Running Validation...
  Accuracy: 0.21
  Validation Loss: 1.44
  Validation took: 0:00:33

Training...

  Average training loss: 1.39
  Training epcoh took: 0:19:16

Running Validation...
  Accuracy: 0.21
  Validation Loss: 1.42
  Validation took: 0:00:48

Training...

  Average training loss: 1.36
  Training epcoh took: 0:19:25

Running Validation...
  Accuracy: 0.21
  Validation Loss: 1.43
  Validation took: 0:00:36

Training...

  Average training loss: 1.32
  Training epcoh took: 0:19:23

Running Validation...
  Accuracy: 0.17
  Validation Loss: 1.40
  Validation took: 0:00:34

Training complete!
Total training took 1:22:28 (h:mm:ss)
