# Импортирање на потребните библиотеки

In [None]:
!pip install transformers
!pip install datasets

Collecting transformers
  Downloading transformers-4.10.0-py3-none-any.whl (2.8 MB)
[K     |████████████████████████████████| 2.8 MB 5.2 MB/s 
[?25hCollecting pyyaml>=5.1
  Downloading PyYAML-5.4.1-cp37-cp37m-manylinux1_x86_64.whl (636 kB)
[K     |████████████████████████████████| 636 kB 53.2 MB/s 
[?25hCollecting tokenizers<0.11,>=0.10.1
  Downloading tokenizers-0.10.3-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (3.3 MB)
[K     |████████████████████████████████| 3.3 MB 39.2 MB/s 
Collecting huggingface-hub>=0.0.12
  Downloading huggingface_hub-0.0.16-py3-none-any.whl (50 kB)
[K     |████████████████████████████████| 50 kB 7.4 MB/s 
Collecting sacremoses
  Downloading sacremoses-0.0.45-py3-none-any.whl (895 kB)
[K     |████████████████████████████████| 895 kB 48.3 MB/s 
Installing collected packages: tokenizers, sacremoses, pyyaml, huggingface-hub, transformers
  Attempting uninstall: pyyaml
    Found existing installation: Py

In [None]:
from transformers import BertTokenizerFast, TFBertModel
from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.models import Model
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.losses import mean_squared_error
from datasets import load_dataset
import pandas as pd
import numpy as np

# Вчитување податоци

In [None]:
# го вчитуваме податочното множество SQuAD кое е составено од прашања
# контекст според кој треба да се одговорат прашањата и одговори
data = load_dataset('squad')

# за полесно користење на податоците, ги трансформираме
# во pandas DataFrame објекти
train = pd.DataFrame().from_dict(data['train'])
test = pd.DataFrame().from_dict(data['validation'])

# за побрзо извршување на показните примери, користиме само дел
# од податочното множество
train = train[:2000]
test = test[:1000]

Downloading:   0%|          | 0.00/1.97k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.02k [00:00<?, ?B/s]

Downloading and preparing dataset squad/plain_text (download: 33.51 MiB, generated: 85.63 MiB, post-processed: Unknown size, total: 119.14 MiB) to /root/.cache/huggingface/datasets/squad/plain_text/1.0.0/d6ec3ceb99ca480ce37cdd35555d6cb2511d223b9150cce08a837ef62ffea453...


Downloading:   0%|          | 0.00/8.12M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.05M [00:00<?, ?B/s]

0 examples [00:00, ? examples/s]

0 examples [00:00, ? examples/s]

Dataset squad downloaded and prepared to /root/.cache/huggingface/datasets/squad/plain_text/1.0.0/d6ec3ceb99ca480ce37cdd35555d6cb2511d223b9150cce08a837ef62ffea453. Subsequent calls will reuse this data.


In [None]:
# приказ на дел од записите во податочното множество
train.head()

Unnamed: 0,id,title,context,question,answers
0,5733be284776f41900661182,University_of_Notre_Dame,"Architecturally, the school has a Catholic cha...",To whom did the Virgin Mary allegedly appear i...,"{'text': ['Saint Bernadette Soubirous'], 'answ..."
1,5733be284776f4190066117f,University_of_Notre_Dame,"Architecturally, the school has a Catholic cha...",What is in front of the Notre Dame Main Building?,"{'text': ['a copper statue of Christ'], 'answe..."
2,5733be284776f41900661180,University_of_Notre_Dame,"Architecturally, the school has a Catholic cha...",The Basilica of the Sacred heart at Notre Dame...,"{'text': ['the Main Building'], 'answer_start'..."
3,5733be284776f41900661181,University_of_Notre_Dame,"Architecturally, the school has a Catholic cha...",What is the Grotto at Notre Dame?,{'text': ['a Marian place of prayer and reflec...
4,5733be284776f4190066117e,University_of_Notre_Dame,"Architecturally, the school has a Catholic cha...",What sits on top of the Main Building at Notre...,{'text': ['a golden statue of the Virgin Mary'...


In [None]:
# за полесно користење на податоците, ги сместуваме во посебни низи
# прашањата, одговорите и контекстот според кој се одговараат прашањата
train_contexts = train['context'].values.tolist()
train_questions = train['question'].values.tolist()
train_answers = train['answers'].values.tolist()

# за потребите на моделот кој ќе се тренира, за секој одговор е потребно
# да го знаеме индексот на почетниот и крајниот знак
# бидејќи во податочното множество е достапен само индексот на почетниот знак
# потребно е да го пресметаме индексот на крајниот знак 
for answer, context in zip(train_answers, train_contexts):
    gold_text = answer['text'][0]
    start_idx = answer['answer_start'][0]
    end_idx = start_idx + len(gold_text)

    answer['text'] = gold_text

    # понекогаш индексот на почетниот знак може да се разликува за 1 или 2
    # позиции од вистинската и во таквите случаи потребно е да промениме
    # индексот на почетниот знак
    if context[start_idx:end_idx] == gold_text:
        answer['answer_start'] = start_idx
        answer['answer_end'] = end_idx
    elif context[start_idx-1:end_idx-1] == gold_text:
        answer['answer_start'] = start_idx - 1
        answer['answer_end'] = end_idx - 1 
    elif context[start_idx-2:end_idx-2] == gold_text:
        answer['answer_start'] = start_idx - 2
        answer['answer_end'] = end_idx - 2

In [None]:
# за полесно користење на податоците, ги сместуваме во посебни низи
# прашањата, одговорите и контекстот според кој се одговараат прашањата
test_contexts = test['context'].values.tolist()
test_questions = test['question'].values.tolist()
test_answers = test['answers'].values.tolist()

# за потребите на моделот кој ќе се тренира, за секој одговор е потребно
# да го знаеме индексот на почетниот и крајниот знак
# бидејќи во податочното множество е достапен само индексот на почетниот знак
# потребно е да го пресметаме индексот на крајниот знак 
for answer, context in zip(test_answers, test_contexts):
    gold_text = answer['text'][0]
    start_idx = answer['answer_start'][0]
    end_idx = start_idx + len(gold_text)

    answer['text'] = gold_text

    # понекогаш индексот на почетниот знак може да се разликува за 1 или 2
    # позиции од вистинската и во таквите случаи потребно е да промениме
    # индексот на почетниот знак
    if context[start_idx:end_idx] == gold_text:
        answer['answer_start'] = start_idx
        answer['answer_end'] = end_idx
    elif context[start_idx-1:end_idx-1] == gold_text:
        answer['answer_start'] = start_idx - 1
        answer['answer_end'] = end_idx - 1 
    elif context[start_idx-2:end_idx-2] == gold_text:
        answer['answer_start'] = start_idx - 2
        answer['answer_end'] = end_idx - 2

# BERT

## Претпроцесирање на податоци

In [None]:
# за трансформација на текстуалните податоци во формат соодветен за моделот
# BERT ќе користиме BertTokenizerFast
bert_tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased')

Downloading:   0%|          | 0.00/232k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/466k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/28.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/570 [00:00<?, ?B/s]

In [None]:
# секој запис се трансформира во потребниот формат
# со аргументот max_length се дефинира максималната должина
# со аргументот pad_to_max_length се означува дека ако записот е пократок од
# максималната должина, тогаш се дополнува со токени до посакуваната должина
# со аргументот truncation се означува дека ако записот е подолг од
# максималната должина, тогаш се отстрануваат токени се додека не ја 
# добие посакуваната должина
train_encodings = bert_tokenizer(train_contexts, train_questions, max_length=100, truncation=True, pad_to_max_length=True)
train_input_ids = train_encodings['input_ids']
train_attention_masks = train_encodings['attention_mask']

# дефинираме празни листи за почетните и крајните позиции на одговорите
train_start_positions, train_end_positions = [], []
for i in range(len(train_answers)):
    # секоја почетна и крајна позиција се трансформира индексот на токенот
    # на соодветната позиција
    train_start_positions.append(train_encodings.char_to_token(i, train_answers[i]['answer_start']))
    train_end_positions.append(train_encodings.char_to_token(i, train_answers[i]['answer_end'] - 1))

    # доколку некоја почетна или крајна позиција е поголема од максималната
    # должина, тогаш вредноста се поставува на максималната должина
    if train_start_positions[-1] is None:
        train_start_positions[-1] = bert_tokenizer.model_max_length
    if train_end_positions[-1] is None:
        train_end_positions[-1] = bert_tokenizer.model_max_length

In [None]:
# секој запис се трансформира во потребниот формат
# со аргументот max_length се дефинира максималната должина
# со аргументот pad_to_max_length се означува дека ако записот е пократок од
# максималната должина, тогаш се дополнува со токени до посакуваната должина
# со аргументот truncation се означува дека ако записот е подолг од
# максималната должина, тогаш се отстрануваат токени се додека не ја 
# добие посакуваната должина
test_encodings = bert_tokenizer(test_contexts, test_questions, max_length=100, truncation=True, pad_to_max_length=True)
test_input_ids = test_encodings['input_ids']
test_attention_masks = test_encodings['attention_mask']

# дефинираме празни листи за почетните и крајните позиции на одговорите
test_start_positions, test_end_positions = [], []
for i in range(len(test_answers)):
    # секоја почетна и крајна позиција се трансформира во индексот 
    # на токенот на соодветната позиција
    test_start_positions.append(test_encodings.char_to_token(i, test_answers[i]['answer_start']))
    test_end_positions.append(test_encodings.char_to_token(i, test_answers[i]['answer_end'] - 1))

    # доколку некоја почетна или крајна позиција е поголема од максималната
    # должина, тогаш вредноста се поставува на максималната должина
    if test_start_positions[-1] is None:
        test_start_positions[-1] = bert_tokenizer.model_max_length
    if test_end_positions[-1] is None:
        test_end_positions[-1] = bert_tokenizer.model_max_length

## Креирање модели

In [None]:
# за проблемот на одговарање прашања инстанцираме објект од генеричката
# класа за моделот BERT
# при инстанцирање на моделот се дефинира која верзија на моделот BERT ќе се
# користи (bert-base-uncased - верзија на BERT моделот со 12 слоеви тренирана 
# без правење разлика помеѓу мали и големи букви)
bert_model = TFBertModel.from_pretrained('bert-base-uncased')

# влезни слоеви со димензија (100,) и тип int32 за индексите 
# на зборови и маските на внимание
input_ids = Input(shape=(100,), name='input_token', dtype='int32')
att_masks = Input(shape=(100,), name='masked_token', dtype='int32')

# спојување на влезните слоеви со слоевите од моделот BERT
bert_in = bert_model(input_ids, attention_mask=att_masks)[1]

# излезни слоеви за индексите на почетните и крајните позиции на одговорот
start = Dense(1, activation='relu', name='start')(bert_in)
end = Dense(1, activation='relu', name='end')(bert_in)

# креирање објект кој ќе го претставува моделот со соодветните 
# влезни и излезни слоеви
bert_qa_model = Model(inputs=[input_ids, att_masks], outputs=[start, end])

# пред да се тренира, потребно е моделот да се компајлира
# со поставување на аргументот loss дефинираме средна квадратна грешка
# како функција на загуба
# со поставување на аргументот optimizer дефинираме Adam оптимизатор со рата
# на учење еднаква на 0.01
# со поставување на аргументот metrics дефинираме точност како метрика за 
# следење на перформансите на моделот при тренирање
bert_qa_model.compile(optimizer=Adam(learning_rate=0.01), loss=mean_squared_error, metrics=['accuracy'])

## Тренирање и евалуација

In [None]:
# при тренирање на моделот покрај влезните и излезните податоци, потребно е
# да се постави вредност за аргументот epochs што претставува број на епохи
bert_qa_model.fit([np.array(train_input_ids), np.array(train_attention_masks)], 
                  [np.array(train_start_positions), np.array(train_end_positions)], 
                  epochs=3)

Epoch 1/3
Epoch 2/3
Epoch 3/3


<keras.callbacks.History at 0x7f36ecfc6190>

In [None]:
# евалуација на моделот со што се добиваат вредности за
# функцијата на загуба и точноста
bert_qa_model.evaluate([np.array(test_input_ids), np.array(test_attention_masks)],
                       [np.array(test_start_positions), np.array(test_end_positions)])



[84015.9921875,
 41453.234375,
 42562.7578125,
 0.020999999716877937,
 0.010999999940395355]