# ELECTRA for Question Answering on SQUAD
Trong notebook này ta sẽ làm quen với mô hình Electra ứng dụng cho bài toán Question Answering. Electra là một phương pháp học biểu diễn ngôn ngữ (language  representation learning) được ứng dụng cho nhiều bài toán khác nhau, ví dụ như Classification, QA, Text chunking. Đây là một phương pháp học biểu diễn mới, cho phép chúng ta đạt được hiệu năng cao với các Benchmark task trong NLP như SQUAD và GLUE (chi tiết xem tại paper [ ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators](https://openreview.net/pdf?id=r1xMH1BtvB)).

Stanford Question Answering Dataset (SQuAD) là một dataset cho bài toán đọc hiểu và trả lời câu hỏi được phát triển bởi đại học Stanford. Trong đó, với mỗi bản ghi, một hệ thống AI sẽ được cung cấp một đoạn văn bản để đọc hiểu và một câu hỏi, nhiệm vụ của hệ thống AI đó là trả lời câu hỏi đó bằng một đoạn trích từ đoạn văn bản được cung cấp nếu có thể, hoặc báo lại là không thể trả lời nếu đoạn văn cung cấp không thể dùng để trả lời câu hỏi.

ELECTRA được công bố với ba phiên bản theo kích thước tăng dần như sau: Small, Base, Large. Vì giới hạn về thời gian cũng như khả năng tính toán, trong notebook này ta sẽ tiến hành thử nghiệm với mô hình ELECTRA Small. Học viên nên chạy bài thực hành này trên notebook nếu không có server để hỗ trợ


## Bước 1: Setup môi trường trên Google Colab
Học viên sử dụng nền tảng tính toán khác ngoài Google Colan có thể bỏ qua bước này. Trước khi chạy những câu lệnh dưới, ta chọn cấu hình GPU bằng cách ấn: **Runtime** -> **Change runtime type** -> **GPU**

### 1.1. Mount máy ảo vào drive của chúng ta

In [None]:
from google.colab import drive
drive.mount("/content/drive")

### 1.2. Cài đặt thư viện và tải mã nguồn ELECTRA

Trong bài thực hành này, ta sẽ sử dụng mã nguồn ELECTRA do bên Google Research phát triển. Để sử dụng mã nguồn này ta sẽ phải cài thư viện tensorflow==1.15 và

***Đầu tiên ta cài đặt tensorflow phiên bản 1.15***

In [None]:
!pip install tensorflow==1.15

***Sau đó, ta clone git repo của ELECTRA về không gian làm việc và cd và thư mục `electra`***

In [None]:
!git clone https://github.com/google-research/electra.git

In [None]:
cd electra/

***Tiếp theo, ta download và unzip file mô hình của phiên bản ELECTRA Small***

In [None]:
!wget https://storage.googleapis.com/electra-data/electra_small.zip
!unzip electra_small.zip

## Bước 2: Download và quan sát dữ liệu

### 2.1. Download training và validation data của bộ Squad 2.0

In [None]:
!wget https://rajpurkar.github.io/SQuAD-explorer/dataset/train-v2.0.json
!wget https://rajpurkar.github.io/SQuAD-explorer/dataset/dev-v2.0.json

### 2.2. Tạo thư mục để chứa dữ liệu huấn luyện và chuyển data vào thư mục đó
***Đầu tiên, ta tạo một thư mục tên là `data` để chứa dữ liệu và file models***

*Trong đó, theo quy ước của mã nguồn:*
 - `finetuning_data/<tên tác vụ>` là thư mục chứa data cho tác vụ tương ứng, vì chúng ta đang làm bài toán Question Answering, nên tên thư mục con sẽ để là `squad`.
 - `models` là thư mục chứa model của electra mà ta muốn sử dụng

Sau khi tạo hai thư mục này rồi, ta chuyển hai file json chứa dữ liệu của SQuAD 2.0 vào thư mục `squad`

In [None]:
!mkdir -p data/finetuning_data/squad
!mkdir -p data/models/
!mv dev-v2.0.json data/finetuning_data/squad/dev.json
!mv train-v2.0.json data/finetuning_data/squad/train.json

Tiếp theo, ta copy file vocab.txt từ thư mục `electra_small` sang thư mục `data`

In [None]:
!cp electra_small/vocab.txt data/vocab.txt

Cuối cùng, ta copy thư mục `electra_small` vào trong thư mục `data/models`

In [None]:
import shutil
shutil.copytree('electra_small', 'data/models/electra_small', copy_function = shutil.copy) 

### 2.3. Quan sát dữ liệu

Bây giờ, ta sẽ thực hiện một vài thao tác thống kê để hiểu thêm về dữ liệu của Squad

In [None]:
import os
os.listdir("data/finetuning_data/squad")

In [None]:
import json
from pprint import pprint
import numpy as np


def view_squad_info(subset = 'train', get_impossible_exp = False):
    with open("data/finetuning_data/squad/{}.json".format(subset), "r") as f:
      data = json.load(f)
    
    # Thống kê số văn bản
    numOfParagraph = 0
    # YOUR CODE HERE


    # YOUR CODE HERE
    
    
    # Thống kê số cặp câu hỏi câu trả lời
    numOfQaPair = 0
     # YOUR CODE HERE



    # YOUR CODE HERE      

    
    # Thống kê độ dài của context
    ContextLen = []
    # YOUR CODE HERE



    maxContextLen = None
    # YOUR CODE HERE
    

    # Thống kê độ dài của query và answer
    queryLen = [] # Độ dài của các query
    ansLen = [] # Độ dài của các câu trả lời

    # YOUR CODE HERE
    


    
    # YOUR CODE HERE


    avgQueLen = np.mean(queryLen)
    avgAnsLen = np.mean(ansLen)


    print("Phiên bản SQuAd là {}".format(data["version"]))
    print("Số văn bản trong dataset là {}".format(len(data["data"])))
    print("Mỗi văn bản có những key sau: {}".format(data["data"][0].keys()))
    print("Số đoạn văn trong dataset là: {}".format(numOfParagraph))
    print("Số cặp câu hỏi và trả lời trong dataset là: {}".format(numOfQaPair))
    print("Độ dài tối đa của một đoạn văn là: {}".format(maxContextLen))
    print("Độ dài trung bình của một câu hỏi là: {}".format(avgQueLen))
    print("Độ dài trung bình của một trả lời là: {}".format(avgAnsLen))
    
    print("------MỘT SỐ CẶP CÂU VÍ DỤ-----")
    pprint(data["data"][0]['paragraphs'][0]["qas"][0:2])
    print("-------------------------------")
    pprint(data["data"][-1]['paragraphs'][0]["qas"][0:2])

    if get_impossible_exp:
      for i in range(len(data["data"])):
        for j in range(len(data["data"][i]['paragraphs'])):
          for k in range(len(data["data"][i]['paragraphs'][j]["qas"])):
            if data["data"][i]['paragraphs'][j]["qas"][k]['is_impossible']:
              pprint(data["data"][i]['paragraphs'][j]["qas"][k])

Ta sử dụng hàm `view_squad_info` để xem thông tin của dataset:

In [None]:
view_squad_info(subset = 'train')

In [None]:
view_squad_info(subset = 'dev', get_impossible_exp= False)

Bên trên là một vài thông số cơ bản của SQuAD dataset. Nếu như ta muốn sử dụng lại mô hình ELECTRA cho bài toán Question-Answering, ta có thể làm hai việc sau:
- Xây dựng ngữ liệu cho ngôn ngữ mà bạn muốn xây dựng mô hình từ đó và tạo file vocab.txt tương ứng, sau đó chạy file run_finetuning.py trong mã nguồn để có được mô hình electra custom của bạn
- Thiết kế một dataset có cấu trúc giống như trên và lắp ghép với mã nguồn trong bài thực hành này.

Và đương nhiên, là phải có một server thật khỏe để chạy!

## Bước 3: Training

Ta chạy dòng lệnh dưới đây để thực hiện training, chúng ta có thể thay đổi các tham số trong hparams và theo dõi sự khác biệt trong quá trình huấn luyện

In [None]:
# YOUR CODE HERE
# gọi thông qua !python3 run_finetuning.py
# Tham số: model_size="small", task_names=["squad"], eval_batch_size=16, beam_size=20, train_batch_size=32

# YOUR CODE HERE

In [None]:
# YOUR CODE HERE
#đọc và in kết quả prediction



# YOUR CODE HERE

Mô hình đang đạt được độ chính xác tầm 65% và f1 là 67% trên tập test của Squad, ta có thể cải thiện mô hình bằng cách chỉnh các tham số cho phù hợp và chạy mô hình với số epoch lớn hơn. Nếu như bạn có hệ thống máy mạnh hơn, bạn có thể thử nghiệm với các phiên bản lớn hơn của electra

Sau khi chạy xong mô hình chúng ta có thể test bài toán bằng 1 pretrain model của transformer để hiểu rõ cũng như tối giản việc code. 

Tham khảo tài liệu ở [đây](https://huggingface.co/deepset/electra-base-squad2)

Dữ liệu test sẽ là:



```
'question': 'How does this work?',
'context' : 'This works fine.',
'context': 'This works perfectly.',
'context': 'Its not working at all.'
```
Hoặc bạn có thẻ thay đổi bất lỳ câu hỏi và trả lời bằng tiếng anh nào nếu muốn.

In [None]:
!pip install transformer

In [None]:
from transformers import AutoModelForQuestionAnswering, AutoTokenizer, pipeline

model_name = "deepset/electra-base-squad2"
### YOUR CODE HERE ###


### END YOUR CODE ###

# b) Load model & tokenizer
model = AutoModelForQuestionAnswering.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)