Poniższy notebook pokazuje jak wykorzystać darmowe GPU na Google Colab aby wyliczyć predykcje z modelu BERT. Przed uruchomieniem notebooka warto upewnić się, że włączyliśmy GPU w Colabie wybierając ścieżkę `Runtime`, `Change runtime type`, `GPU` i kilkając przycisk `Save`.

# Parametry

Najpierw wprowadzamy szczegóły modelu BERT, którego chcemy użyć (jest kilka rodzajów BERTa, które różnią się złożonością architektury). Im większy BERT tym większa moc obliczeniowa (i czas) potrzebny do wyliczenia predykcji.
Szczegóły możemy przeczytać na [repo BERTA na git-hub](https://github.com/google-research/bert). Po kliknięciu PPM na wybrany model można skopiować link, który zawiera info na temat daty (`date`) i nazwy (`name`) modelu.

In [None]:
bert_model_name = 'uncased_L-12_H-128_A-2'
bert_model_date = '2018_10_18'
bert_model_path = f'https://storage.googleapis.com/bert_models/{bert_model_date}/{bert_model_name}.zip'
uncased=False

Następnie należy określić ścieżki dostępu, które będą używane w notebooku:
- ścieżka z parametrami modelu (model data),
- ścieżka z danymi wejściowymi (input),
- ścieżka gdzie zapisywane będą wyniki predykcji (output)

Ścieżka `./drive/My Drive/` wskazuje na miejsce na Twoim dysku Google Drive gdzie można stworzyć odpowiednie foldery do przechowywania danych wejściowych i wyjściowych.

In [None]:
model_dir = f'./{bert_model_name}'

data_dir = './drive/My Drive/Colab Notebooks/input'
train_dir = f'{data_dir}/train_fake.csv'
test_dir = f'{data_dir}/test_fake.csv'

out_dir = './drive/My Drive/Colab Notebooks/output'

# Setup

## Montaż google drive

Aby uzyskać dostęp do folderów znajdujących się w środku, musisz zamontować dysk Google Drive. Po uruchomieniu tej komórki zobaczysz link umożliwiający autoryzację dostępu.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

## Pobranie plików z parametrami modelu

In [None]:
!wget {bert_model_path}
!unzip the file
!unzip {bert_model_name}.zip

## Instalacja potrzebnych bibliotek Python

In [None]:
!pip install keras_bert
!pip install transformers

# Import bibliotek

In [None]:
import numpy as np
import pandas as pd

In [None]:
from keras_bert import load_trained_model_from_checkpoint
from transformers import BertTokenizer

# Funkcje pomocnicze

In [None]:
#funkcja wyświetlająca pełny dataframe
def display_all(df, num_rows=10000, num_cols=10000, col_width=-1):
    with pd.option_context('display.max_rows', num_rows, 'display.max_columns', num_cols, 'display.max_colwidth', -1):
        display(df)
        
#funcja do inicjalizacji modelu BERT
def init_tokenizer_and_load_bert_model(model_dir, model_name, model_trainable=True, lowercase=True):

    vocab_path = f'{model_dir}/vocab.txt'
    config_path = f'{model_dir}/bert_config.json'
    checkpoint_path = f'{model_dir}/bert_model.ckpt'
    
    tokenizer = BertTokenizer(vocab_path, do_lower_case=lowercase)
    model = load_trained_model_from_checkpoint(config_path, checkpoint_path, trainable=model_trainable)
    
    print('vocab_size:', len(tokenizer.vocab))
    print('loaded model: ', model_name)
    
    return tokenizer, model

#funckja wyliczająca wektory input_ids, token_type_ids, attention_mask specyficzne dla modelu BERT (tokenizacja)
#funkcja zwraca wektory w postaci słownika
def get_bert_vectors(tokenizer, df, col_name, vector_length=512):
    tokenize = lambda sentence: tokenizer.encode_plus(sentence, max_length=vector_length, padding='max_length', truncation=True)
    df[f'{col_name}_tokens'] = df[col_name].map(tokenize)

    df[f'{col_name}_input_ids'] = df[f'{col_name}_tokens'].map(lambda x: x['input_ids'])
    df[f'{col_name}_token_type_ids'] = df[f'{col_name}_tokens'].map(lambda x: x['token_type_ids'])
    df[f'{col_name}_attention_mask'] = df[f'{col_name}_tokens'].map(lambda x: x['attention_mask'])
    
    input_ids = np.stack(df[f'{col_name}_input_ids'])
    token_type_ids = np.stack(df[f'{col_name}_token_type_ids'])
    attention_mask = np.stack(df[f'{col_name}_attention_mask'])
    vectors = {'input_ids': input_ids, 'token_type_ids': token_type_ids, 'attention_mask': attention_mask}
    
    return vectors

#funkcja wyliczająca predykcje klasyfikacji modelu BERT w batchach, aby nie wyczerpać pamięci RAM
def bert_predict_in_batches(vectors, num_batches, output_shape):

  vector_input_ids_batches = np.array_split(vectors['input_ids'], num_batches)
  vector_token_type_ids_batches = np.array_split(vectors['token_type_ids'], num_batches)
  vector_attention_mask_batches = np.array_split(vectors['attention_mask'], num_batches)

  X = np.array([]).reshape((0, output_shape))

  input_vectors = zip(vector_input_ids_batches, vector_token_type_ids_batches, vector_attention_mask_batches)
  for input_ids, token_type_ids, attention_mask in input_vectors:
    all_vectors = (input_ids, token_type_ids, attention_mask)
    predictions = bert_model.predict(all_vectors, verbose=1)

    X_batch = predictions[:, 0, :]
    print('current predictions shape: ', X_batch.shape)
    X = np.concatenate([X, X_batch])
    print('all predictions shape: ', X.shape)

  return X

# Wczytanie danych treningowych i testowych

In [None]:
train_fake = pd.read_csv(train_dir)
train_fake['is_fake'] = train_fake['is_fake'].astype('int8')
test_fake = pd.read_csv(test_dir)

train_fake.shape, test_fake.shape

Niektóre dane są puste (nan), więc zamieniamy je na string 'unknown', aby móc wyliczyć predykcje

In [None]:
train_fake.fillna('unknown', inplace=True)
test_fake.fillna('unknown', inplace=True)

# Model BERT

In [None]:
tokenizer, bert_model = init_tokenizer_and_load_bert_model(model_dir, bert_model_name, model_trainable=True, lowercase=uncased)

## Tokenizacja

In [None]:
%%time
train_title_vectors = get_bert_vectors(tokenizer, train_fake, 'title', vector_length=512)
[vec.shape for vec in train_title_vectors.values()]

In [None]:
%%time
train_text_vectors = get_bert_vectors(tokenizer, train_fake, 'text', vector_length=512)
[vec.shape for vec in train_text_vectors.values()]

In [None]:
%%time
test_title_vectors = get_bert_vectors(tokenizer, test_fake, 'title', vector_length=512)
[vec.shape for vec in test_title_vectors.values()]

In [None]:
%%time
test_text_vectors = get_bert_vectors(tokenizer, test_fake, 'text', vector_length=512)
[vec.shape for vec in test_text_vectors.values()]

## Wyliczenie predykcji i zapisanie wyników

In [None]:
bert_output_shape = bert_model.layers[-1].output_shape[2]

In [None]:
train_X_title = bert_predict_in_batches(train_title_vectors, 5, bert_output_shape)
np.save(f'{out_dir}/train_X_title_{bert_model_name}.npy', train_X_title)

In [None]:
train_X_text = bert_predict_in_batches(train_text_vectors, 15, bert_output_shape)
np.save(f'{out_dir}/train_X_text_{bert_model_name}.npy', train_X_text)

In [None]:
test_X_title = bert_predict_in_batches(test_title_vectors, 5, bert_output_shape)
np.save(f'{out_dir}/test_X_title_{bert_model_name}.npy', test_X_title)

In [None]:
test_X_text = bert_predict_in_batches(test_text_vectors, 15, bert_output_shape)
np.save(f'{out_dir}/test_X_text_{bert_model_name}.npy', test_X_text)