<a href="https://colab.research.google.com/github/agrudkow/xlnet/blob/master/notebooks/colab_imdb_gpu.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Modyfikacja XLNet dla określania podobieństwa semantycznego (iSTS) dwóch zdań w języku angielskim 

Notebooke ten zawiera wszystkie wywołania finalnego rozwiązania pozwalające zreprodukować wyniki osiągnięte przez nas podczas trwania projektu. Plik ten opiera się na pliku stworzonym przez twórców XLNet-a dostępnym na ich oficjalnym [repozytorium](https://github.com/zihangdai/xlnet), którego to nasze rozwiązanie jest "*forkiem*". Parametry użyte podczas procesu douczania (ang. finetuiningu) zostały zapużyczone z oficjalnego [artykułu](https://arxiv.org/abs/1906.08237) prezentującego XLNet-a.

## Setup
Instalacja zależności

In [None]:
! pip install sentencepiece

Pobranie pre-trenowanego modelu i rozpakowanie go.

Duży model - ze względu na ograniczone zasoby i relatywnie mały zbiór danych do fine-funingu nie został on użyty.

In [None]:
#! wget https://storage.googleapis.com/xlnet/released_models/cased_L-24_H-1024_A-16.zip
#! unzip cased_L-24_H-1024_A-16.zip 

Podstawowy model - wybrany jako baza rozwiązania

In [None]:
! wget https://storage.googleapis.com/xlnet/released_models/cased_L-12_H-768_A-12.zip
! unzip cased_L-12_H-768_A-12.zip
! rm cased_L-12_H-768_A-12.zip

Pobranie repzytorium z modyfikacajmi mającymi na celu rozwiązanie zadania iSTS

In [None]:
! git clone https://github.com/agrudkow/xlnet.git

In [None]:
%cd /content/xlnet
! git pull
%cd /content

Downgrade tensorflow do v1 - wymagane do poprawniego działania kodu w repozytroium

In [None]:
%tensorflow_version 1.x

Sprawdzenie dostępnego GPU - ważne ze względu na dobór wielkości liczby przykładów trenujących podczas jednej iteracji

In [None]:
!nvidia-smi

Tue Jun  1 01:13:51 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 465.19.01    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   38C    P8     9W /  70W |      0MiB / 15109MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

## Definiowanie zmiennych



In [None]:
SCRIPTS_DIR = 'xlnet' #@param {type:"string"} # Folder docelowy zawierający repozytorium wraz ze skryptami
DATASET_NAME = 'answers-students' #@param ["answers-students", "headlines", "images"] {type:"string"}
TASK_NAME = 'ists' #@param {type:"string"}
DATA_DIR = 'xlnet/' + TASK_NAME + '/' + DATASET_NAME
OUTPUT_DIR = 'proc_data/' + TASK_NAME
PRETRAINED_MODEL_DIR = 'xlnet_cased_L-12_H-768_A-12' #@param {type:"string"}
CHECKPOINT_DIR = 'exp/' + TASK_NAME
PREDICIT_DIR = 'xlnet/pred/' + TASK_NAME + '/' + DATASET_NAME
METRICS_DIR = 'xlnet/metrics/' + TASK_NAME

## Wstępne przetwarzanie danych
[UWAGA]: uruchomienie tego kroku nie jest konieczne, ponieważ przetworzone dane już znajdują się w repozytorium.

Wstępne przetwarzanie ma na celu ekstrakcję danych udostępnionych prze twórców konkursu w postaci tzw. złotego standardu do postaci wyekstrahowanych par zdań wraz z ocenami. W przypadku naszego rozwiązania ocena w postaci oceny w skali liczbowej i typu dopasowania jest łączona w jedną klasę. Dodatkowo usuwane są zestawienia zdań posiadające typ dopasowania NOALI i ALIC, które to nie dotyczą naszego rozwiązania. 

In [None]:
preprocess_data_command = "python xlnet/preprocess_data.py \
  --input_path=/content/xlnet/data/task2/semeval/answers-students/answers_students_test_gs.wa \
  --output_path=/content/"+ DATA_DIR + "/test_2.tsv"

! {preprocess_data_command}

## Trenowanie modelu
Faza ta przeprowadza finetuning pretrenowanego modelu dla zadania ists.


W przypadku niedostępności GPU o VRAM ~ 15 GB należy zmiejszyć wielkość *batch-a* (train_batch_size) o połowe oraz zwiększyć liczbę kroków (train_steps) wraz odstępem między *checkpoint-ami* (save_steps)





In [None]:
train_command = "CUDA_VISIBLE_DEVICES=0 python xlnet/run_classifier.py \
  --do_train=True \
  --task_name="+TASK_NAME+" \
  --data_dir="+DATA_DIR+" \
  --output_dir="+OUTPUT_DIR+" \
  --model_dir="+CHECKPOINT_DIR+" \
  --spiece_model_file="+PRETRAINED_MODEL_DIR+"/spiece.model \
  --model_config_path="+PRETRAINED_MODEL_DIR+"/xlnet_config.json \
  --init_checkpoint="+PRETRAINED_MODEL_DIR+"/xlnet_model.ckpt \
  --max_seq_length=128 \
  --train_batch_size=32 \
  --eval_batch_size=8 \
  --num_hosts=1 \
  --num_core_per_host=1 \
  --learning_rate=2e-5 \
  --train_steps=1500 \
  --warmup_steps=250 \
  --save_steps=250"

! {train_command}


## Predykcja klas przy użyciu wytrenowanego modelu

In [None]:
predict_command = "CUDA_VISIBLE_DEVICES=0 python xlnet/run_classifier.py \
  --do_predict=True \
  --pred_all_ckpt=True \
  --eval_split=test \
  --task_name="+TASK_NAME+" \
  --data_dir="+DATA_DIR+" \
  --output_dir="+OUTPUT_DIR+" \
  --model_dir="+CHECKPOINT_DIR+" \
  --predict_dir="+PREDICIT_DIR+" \
  --spiece_model_file="+PRETRAINED_MODEL_DIR+"/spiece.model \
  --model_config_path="+PRETRAINED_MODEL_DIR+"/xlnet_config.json \
  --init_checkpoint="+PRETRAINED_MODEL_DIR+"/xlnet_model.ckpt \
  --max_seq_length=128 \
  --predict_batch_size=8 \
  --num_hosts=1 \
  --num_core_per_host=1"

! {predict_command}

## Wyznaczanie metryk dla zadania iSTS (określonych w specyfikacji konkursu SemVal)

In [None]:
calc_metrics_command = "python xlnet/run_classifier.py \
  --calc_ists_metrics=True \
  --data_dir="+DATA_DIR+" \
  --metrics_dir="+METRICS_DIR+" \
  --predict_dir="+PREDICIT_DIR

! {calc_metrics_command}

## Push-owanie (ewentulanych) zmian/wyników na repozytorium

Sekcja ta opisuję proces commitowania zmian wprowadzonych w repozytorium

#### Sprawdzenie statusu repozytorium

In [None]:
%cd /content/xlnet
!git status
%cd /content

#### Sprawdzenie różnic w plikach w repozytorium

In [None]:
%cd /content/xlnet
!git diff
%cd /content

#### Ustawienie zmiennych pomocniczych

In [None]:
%cd /content/xlnet

files = '.' #@param {type:"string"}
branch = 'master' #@param {type:"string"}

%cd /content

#### Commit-owanie zmian

In [None]:
# &> /dev/null - hide output
%cd /content/xlnet

from getpass import getpass

uname = getpass('User name:')
email = getpass('Email:')
# token -> https://docs.github.com/en/github/authenticating-to-github/keeping-your-account-and-data-secure/creating-a-personal-access-token
# Wystarczy zaznaczyć opcje 'Access public repositories'
token = getpass('Token:')

!git config --global user.email $email 

# Zmień nazwę
!git config --global --replace-all user.name '<your name>'
!git remote set-url origin https://{uname}:{token}@github.com/agrudkow/xlnet.git &> /dev/null

# create a file, then add it to stage
!git checkout $branch
!git add $files
!git commit -m '<commit message>' -m "<long commit message>" 
!git pull --rebase 
!git push origin $branch

uname = ''
email = ''
token = ''
!git remote set-url origin '' &> /dev/null

%cd /content


## Kopiowanie plików z/do Google Drive-a

Sekcja ta opisuję proces pobierania/wysyłania checkpointów zapisanych na Google Drive-ie

##### Montowanie dysku

In [None]:
from google.colab import drive
drive.mount('/content/drive')

##### Kompresja checkpoint-ów modelu

In [None]:
%cd /content/exp/ists/
!zip -r  /content/answers-students-1500-ckpt.zip *.ckpt-*

In [None]:
! rm *.ckpt-*
%cd /content

/content/exp/ists
/content


##### Kopiowanie wybranych plików

In [None]:
%cp -av "/content/answers-students-1500-ckpt.zip" "/content/drive/MyDrive/nlp"

##### Pobieranie wybranych plików

In [None]:
%cp -av "/content/drive/MyDrive/nlp/answers-students-4000-ckpt.zip" "/content/exp/ists"

##### Dekompresja checkpoint-ów

In [None]:
! unzip  /content/exp/ists/answers-students-4000-ckpt.zip -d /content/exp/ists


In [None]:
! rm /content/exp/ists/answers-students-4000-ckpt.zip