In [1]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')

In [8]:
import os
import random
import time
from contextlib import contextmanager
import numpy as np
import torch

@contextmanager
def simple_timer(message, logger=None):
    start_time = time.time()
    yield
    timer_message = f'{message}: {time.time() - start_time:.3f}  [s]'
    if logger is None:
        print(timer_message)
    else:
        logger.info(timer_message)
        
def seed_everything(seed):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.backends.cudnn.deterministic = True

def compute_weights(y, target_positive_ratio):
    positive_ratio = y.mean()
    positive_weight = target_positive_ratio / positive_ratio
    negative_weight = (1 - target_positive_ratio) / (1 - positive_ratio)
    weights = np.full(len(y), negative_weight)
    weights[y == 1] = positive_weight
    return weights

In [10]:
import datasets
import pandas as pd

df = pd.read_csv('~/src/kaggle/train.csv',na_filter=False)
df['weight'] = compute_weights(df.is_duplicate, 0.174)
raw_dataset = datasets.Dataset.from_pandas(df)

In [16]:
raw_dataset.column_names

['id', 'qid1', 'qid2', 'question1', 'question2', 'is_duplicate', 'weight']

In [17]:
raw_dataset.shape

(404290, 7)

In [18]:
type(raw_dataset)

datasets.arrow_dataset.Dataset

In [19]:
raw_dataset[0]

{'id': 0,
 'qid1': 1,
 'qid2': 2,
 'question1': 'What is the step by step guide to invest in share market in india?',
 'question2': 'What is the step by step guide to invest in share market?',
 'is_duplicate': 0,
 'weight': 1.3094438628066831}

In [24]:
def preprocess(examples):
    return tokenizer(
        examples['question1'],
        examples['question2'],
        truncation='longest_first',
        max_length=max_length,
    )
max_length=83
remove_columns = ['id','qid1','qid2','question1','question2']    

In [26]:
dataset = raw_dataset.map(
    preprocess, batched=True, remove_columns=remove_columns
    )

Map:   0%|          | 0/404290 [00:00<?, ? examples/s]

In [28]:
dataset[0]

{'is_duplicate': 0,
 'weight': 1.3094438628066831,
 'input_ids': [101,
  2054,
  2003,
  1996,
  3357,
  2011,
  3357,
  5009,
  2000,
  15697,
  1999,
  3745,
  3006,
  1999,
  2634,
  1029,
  102,
  2054,
  2003,
  1996,
  3357,
  2011,
  3357,
  5009,
  2000,
  15697,
  1999,
  3745,
  3006,
  1029,
  102],
 'token_type_ids': [0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1],
 'attention_mask': [1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1]}

トークナイザは、通常、特別なトークン（BERTベースのモデルにおける[SEP]のような）でそれらを分離しながら、これら2つのテキストを内部的に連結します。この分離トークンは、1つの質問がどこで終わり、もう1つの質問がどこで始まるかをモデルが理解するのに役立つため、非常に重要です。
トークン化：連結された文字列は、トークンのシーケンスに変換されます。トークン化は、トークナイザーの設定に応じて、テキストを単語、サブワード、または文字に分割します。
トークンIDに変換します：各トークンは、トークナイザーの語彙から一意の整数IDにマッピングされます。これが input_id と呼ばれるものです。
切り捨て：トークンの総数がmax_lengthを超えた場合、指定された戦略（この場合はlongest_first）に基づいてシーケンスが切り捨てられます。
パディング：シーケンスがmax_lengthより短い場合、指定された最大長に達するまで特別なパディングトークン（[PAD]など）でパディングされます。

In [29]:
from transformers import DataCollatorWithPadding

collater_fn = DataCollatorWithPadding(tokenizer=tokenizer,padding='longest')


2024-04-30 18:58:28.001086: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-04-30 18:58:28.001162: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-04-30 18:58:28.002429: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


In [33]:
from torch.utils.data import DataLoader

data_loader = DataLoader(
    trn_dataset,
    batch_size,
    shuffle=True,
    drop_last=True,
    num_workers=num_workers,
    collate_fn = collater_fn
)

NameError: name 'trn_dataset' is not defined