In [1]:
import numpy as np
import pandas as pd
import torch 

from run_bert.bert_dataset import BertDatset
from run_bert.trainer import BertPredictor
from run_bert.optim import increase_head_lr
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from torch.optim import Adam
from torch.utils.data import DataLoader
from transformers import BertModel, BertTokenizer, BertForSequenceClassification


pd.options.display.max_columns=500
pd.options.display.max_rows=500
pd.options.display.max_colwidth=500
np.set_printoptions(precision=3)

In [2]:
DEVICE = torch.device('cuda')

df = pd.read_pickle('../data/input/300K_yelp_text_df.pickle')
print(df.shape)

(300000, 9)


In [3]:
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')
model = BertForSequenceClassification.from_pretrained('bert-base-cased', num_labels=1).to(DEVICE)

### Model

In [4]:
model_params = {
    'lr': 5e-6
}

kfold_params = {
    'split_rand_state': 42,
    'split_ratio': .99
}

In [5]:
LEN = 512
text_columns = ['text']
label_column = 'useful'
batch_size = 4
shuffle = False

N_FIRST = int(2e2)

train_df, val_df = train_test_split(df.iloc[:N_FIRST],
                                    test_size=(1-kfold_params['split_ratio']), 
                                    random_state=kfold_params['split_rand_state'])


train_ds = BertDatset(df=train_df,
                      tokenizer=tokenizer,
                      max_seq_len=LEN,
                      label_column=label_column,
                      text_columns=text_columns)


val_ds = BertDatset(df=val_df,
                      tokenizer=tokenizer,
                      max_seq_len=LEN,
                      label_column=label_column,
                      text_columns=text_columns)

train_loader = DataLoader(train_ds,
                          batch_size=batch_size,
                          shuffle=shuffle)
train_loader.num = train_df.shape[0]

    
val_loader = DataLoader(val_ds,
                        batch_size=batch_size,
                        shuffle=shuffle)
val_loader.num = val_df.shape[0]

In [6]:
groupped_params = increase_head_lr(model,
                                   model_params['lr'],
                                   50)

optimizer = Adam(groupped_params,
                lr=model_params['lr'])

In [7]:
description = 'first_try'
trainer = BertPredictor(model=model,
                       train_loader=train_loader,
                       optimizer=optimizer,
                       split_rand_state=kfold_params['split_rand_state'],
                       metric=mean_absolute_error,
                       description=description,
                       device=DEVICE,
                       val_loader=val_loader,
                       epochs_count=50,
                       result_dir='../data/result/bert_output',
                       num_labels=1)


trainer.fit()

  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

../data/result/bert_output/10-29-17


[1 / 50] Train: Loss = 16.06486: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.75it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.79it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 1.1767890055974324


[2 / 50] Train: Loss = 15.22083: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.80it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11.48it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 1.1911209026972454


[3 / 50] Train: Loss = 14.79842: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.83it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11.32it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 1.3343948523203533


[4 / 50] Train: Loss = 14.21291: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.83it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 12.21it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 1.8500937819480896


[5 / 50] Train: Loss = 13.04692: 100%|██████████████████████████████████████████████████| 50/50 [00:12<00:00,  3.92it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 15.83it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 2.0116679271062217


[6 / 50] Train: Loss = 12.30780: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.82it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11.80it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 1.9026388625303905


[7 / 50] Train: Loss = 11.82664: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.82it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11.10it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 1.6328363517920177


[8 / 50] Train: Loss = 11.16504: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.75it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.21it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 1.8015364830692608


[9 / 50] Train: Loss = 11.04096: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.68it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.75it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.8814271986484528


[10 / 50] Train: Loss = 10.40492: 100%|█████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.78it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 14.81it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 1.0122380778193474


[11 / 50] Train: Loss = 9.68688: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.81it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.26it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 1.377591222524643


[12 / 50] Train: Loss = 8.82904: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.78it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 14.69it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 1.1489426838234067


[13 / 50] Train: Loss = 9.05409: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.77it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.32it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.3979580029845238


[14 / 50] Train: Loss = 8.84602: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.77it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.43it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.4157468577226003


[15 / 50] Train: Loss = 8.28988: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.80it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.72it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.752503901720047


[16 / 50] Train: Loss = 7.51404: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.78it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 14.77it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.5456606845060984


[17 / 50] Train: Loss = 7.22869: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.78it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.82it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.5969912111759186


[18 / 50] Train: Loss = 7.08110: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.79it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 13.27it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.5932930111885071


[19 / 50] Train: Loss = 6.79513: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.78it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.66it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.2669382467865944


[20 / 50] Train: Loss = 6.63261: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.78it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 14.50it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.5176444351673126


[21 / 50] Train: Loss = 5.99604: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.77it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 14.47it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.5110532144705454


[22 / 50] Train: Loss = 5.95686: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.79it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 14.52it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.35741909593343735


[23 / 50] Train: Loss = 5.37987: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.81it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 14.61it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.268416387339433


[24 / 50] Train: Loss = 5.39954: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.78it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 14.59it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.4974517698089282


[25 / 50] Train: Loss = 5.09232: 100%|██████████████████████████████████████████████████| 50/50 [00:12<00:00,  3.88it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 13.50it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.5690421362717947


[26 / 50] Train: Loss = 4.61363: 100%|██████████████████████████████████████████████████| 50/50 [00:12<00:00,  3.86it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.59it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.5118148525555929


[27 / 50] Train: Loss = 4.09912: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.83it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.76it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.43169549604256946


[28 / 50] Train: Loss = 4.04929: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.66it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 12.22it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.44155870626370114


[29 / 50] Train: Loss = 3.98252: 100%|██████████████████████████████████████████████████| 50/50 [00:14<00:00,  3.54it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 14.61it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.40688469509283703


[30 / 50] Train: Loss = 4.09757: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.80it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  9.47it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.7582187453905741


[31 / 50] Train: Loss = 4.50821: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.79it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.37it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.4701359172662099


[32 / 50] Train: Loss = 3.75793: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.72it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11.28it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.5040313601493835


[33 / 50] Train: Loss = 3.58611: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.62it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 13.83it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.9405558705329895


[34 / 50] Train: Loss = 3.37020: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.66it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11.10it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.9182094236214956


[35 / 50] Train: Loss = 2.84868: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.68it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  8.21it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.801216741402944


[36 / 50] Train: Loss = 2.65149: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.71it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.31it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.6828767657279968


[37 / 50] Train: Loss = 2.29482: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.76it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  7.96it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.8805030087629954


[38 / 50] Train: Loss = 2.38133: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.72it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.56it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.9804227749506632


[39 / 50] Train: Loss = 2.27189: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.71it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11.26it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.8285700877507528


[40 / 50] Train: Loss = 2.07497: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.63it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 15.11it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 1.1298446655273438


[41 / 50] Train: Loss = 1.95007: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.61it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11.07it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 1.0800521671772003


[42 / 50] Train: Loss = 1.84723: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.76it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.99it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.9790698488553365


[43 / 50] Train: Loss = 1.83986: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.68it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11.18it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.986594021320343


[44 / 50] Train: Loss = 1.60017: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.75it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 12.36it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.7198197444279989


[45 / 50] Train: Loss = 1.63740: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.76it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.89it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 1.0307862361272175


[46 / 50] Train: Loss = 1.49450: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.74it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.50it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 0.9306039412816366


[47 / 50] Train: Loss = 1.79520: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.72it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 12.21it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 1.052627146244049


[48 / 50] Train: Loss = 1.34733: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.68it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 12.92it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 1.2170763115088146


[49 / 50] Train: Loss = 1.17035: 100%|██████████████████████████████████████████████████| 50/50 [00:13<00:00,  3.62it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11.86it/s]
  0%|                                                                                            | 0/50 [00:00<?, ?it/s]

val_metric_score --> 1.3360638817151387


[50 / 50] Train: Loss = 1.29845: 100%|██████████████████████████████████████████████████| 50/50 [00:14<00:00,  3.56it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  9.49it/s]

val_metric_score --> 0.9201756219069163





In [8]:
true_trains = trainer.logger.np_train_targets
predictions = trainer.logger.np_train_preds

In [13]:
mean_absolute_error(true_trains, predictions[:, :, -1])

0.6428776288093044