In [1]:
import nlp
import datasets
import torch
from transformers import T5Tokenizer, BartTokenizer, HfArgumentParser, AutoModel, AutoTokenizer

In [86]:
tokenizer = T5Tokenizer.from_pretrained("t5-base")
tokenizer.add_tokens(['<sep>', '<hl>'])

class DataProcessor:
    def __init__(self, tokenizer, model_type="t5", max_source_length=512, max_target_length=32, translate=False):
        self.tokenizer = tokenizer
        self.max_source_length = max_source_length
        self.max_target_length = max_target_length
        self.model_type = model_type
        self.translate = translate
        self.hl_token = "<hl>"
        
        if model_type == "t5":
            self.sep_token = "<sep>"
        elif model_type == "bart":
            self.sep_token = "<sep>"
        else:
            self.sep_token = "[SEP]"
  
    def process(self, dataset):
        if self.translate:
            dataset = dataset.map(self._translate_to_vietnamese)
        if self.model_type == "t5":
            dataset = dataset.map(self._add_eos_examples)
        
        dataset = dataset.map(self._add_special_tokens)
        dataset = dataset.map(self._convert_to_features, batched=True)
        
        return dataset
        
    
    def _translate_to_vietnamese(self, example):
        example['source_text'] = translator.translate(example['source_text'], lang_tgt='vi')
        example['target_text'] = translator.translate(example['target_text'], lang_tgt='vi')
#         print(translator.translate(example['source_text'], dest='vi').text)
        return example

    def _add_eos_examples(self, example):
        example['source_text'] = example['source_text'] + " </s>"
        example['target_text'] = example['target_text'] + " </s>"
        return example
  
    def _add_special_tokens(self, example):
        example['source_text'] = example['source_text'].replace("{hl_token}", self.hl_token)    
        example['target_text'] = example['target_text'].replace("{sep_token}", self.sep_token)
        return example
  
    # tokenize the examples
    def _convert_to_features(self, example_batch):
        source_encoding = self.tokenizer.batch_encode_plus(
            example_batch['source_text'],
            max_length=self.max_source_length,
            padding='max_length',
            pad_to_max_length=True,
            truncation=True, 
        )
        target_encoding = self.tokenizer.batch_encode_plus(
            example_batch['target_text'],
            max_length=self.max_target_length,
            padding='max_length',
            pad_to_max_length=True,
            truncation=True, 
        )

        encodings = {
            'source_ids': source_encoding['input_ids'], 
            'target_ids': target_encoding['input_ids'],
            'attention_mask': source_encoding['attention_mask'],
        }

        return encodings

In [117]:
train_dataset = nlp.load_dataset("data/squad_multitask/", name="highlight_qg_format", split=nlp.Split.TRAIN)
# valid_dataset = nlp.load_dataset(data_args.dataset_path, name=data_args.qg_format, split=nlp.Split.VALIDATION)

In [139]:
def filter_qg(example):
    return (example['task'] != 'e2e_qg') and (example['task'] != 'qa')
train = train_dataset.filter(filter_qg)
train

HBox(children=(FloatProgress(value=0.0, max=254.0), HTML(value='')))




Dataset(features: {'source_text': Value(dtype='string', id=None), 'target_text': Value(dtype='string', id=None), 'task': Value(dtype='string', id=None)}, num_rows: 146781)

In [183]:
train[1000]

{'source_text': 'generate question: In an interview published by Vogue in April 2013, Beyoncé was asked if she considers herself a feminist, to which she said, "that word can be very extreme... But I guess I am a modern-day feminist. I do believe in equality". She would later align herself more publicly with the movement, sampling "We should all be feminists", a speech delivered by Nigerian author Chimamanda Ngozi Adichie at a TEDxEuston conference in April 2013, in her song "Flawless", released later that year. She has also contributed to the  {hl_token} Ban Bossy {hl_token}  campaign, which uses television and social media to encourage leadership in girls.',
 'target_text': 'Which campaign does Beyoncé contribute to that encourages leadership in females?',
 'task': 'qg'}

In [153]:
import json
import os

with open ("../Nanibot_ZaloAIChallenge2019_VietnameseWikiQA/Dataset/squad_vi.json", 'r', encoding='utf-8') as f:
    squad_vi = json.load(f)

data_squad = squad_vi['data'][0]['paragraphs']

train_squad = data_squad[:17000]
valid_squad = data_squad[17000:]

In [180]:
from tqdm import tqdm
from nlp import Dataset
from nltk import sent_tokenize

def convert_to_squad_format(data_squad):
    source_texts = []
    target_texts = []
    task = []
    for paragraph in tqdm(data_squad):
        for qas in paragraph['qas']:
            question = qas['question']
            answer = qas['answers'][0]['text']
            text = "generate question: " + paragraph['context'].replace(answer, '{hl_token} ' + answer + ' {hl_token}')

            source_texts.append(text)
            target_texts.append(question)
            task.append('qg')
            
        sents = sent_tokenize(paragraph['context'])
        for sent in sents:
            target_answer = ""
            text = "extract answers: " + paragraph['context'].replace(sent, '{hl_token} ' + sent + ' {hl_token}')
            for qas in paragraph['qas']:
                answer = qas['answers'][0]['text']
                if answer in sent:
                    target_answer += answer + " {sep_token}"
            if target_answer != "":
                source_texts.append(text)
                target_texts.append(target_answer)
                task.append('ans_ext')

    data_dict = {'source_text': source_texts,
             'target_text': target_texts,
             'task': task}
    dataset = Dataset.from_dict(data_dict)
    
    return dataset
    
train_dataset = convert_to_squad_format(train_squad)
valid_dataset = convert_to_squad_format(valid_squad)

100%|██████████| 17000/17000 [00:03<00:00, 4845.75it/s]
100%|██████████| 1925/1925 [00:00<00:00, 4609.22it/s]


In [220]:
train_dataset

Dataset(features: {'source_text': Value(dtype='string', id=None), 'target_text': Value(dtype='string', id=None), 'task': Value(dtype='string', id=None)}, num_rows: 128200)

In [221]:
valid_dataset

Dataset(features: {'source_text': Value(dtype='string', id=None), 'target_text': Value(dtype='string', id=None), 'task': Value(dtype='string', id=None)}, num_rows: 15012)

In [83]:
from googletrans import Translator
from google_trans_new import google_translator  

translator = google_translator()
# translator = Translator()

processor = DataProcessor(
    tokenizer=tokenizer,
    model_type='t5',
    max_source_length=1024,
    max_target_length=64,
    translate=False
)

test_ = train.select([i for i in range(10)])

train_dataset = processor.process(test_)

HBox(children=(FloatProgress(value=0.0, max=10.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=10.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=1.0), HTML(value='')))




In [84]:
train_dataset[0]['source_text']

'generate question: Architecturally, the school has a Catholic character. Atop the Main Building\'s gold dome is a golden statue of the Virgin Mary. Immediately in front of the Main Building and facing it, is a copper statue of Christ with arms upraised with the legend "Venite Ad Me Omnes". Next to the Main Building is the Basilica of the Sacred Heart. Immediately behind the basilica is the Grotto, a Marian place of prayer and reflection. It is a replica of the grotto at Lourdes, France where the Virgin Mary reputedly appeared to  <hl> Saint Bernadette Soubirous <hl>  in 1858. At the end of the main drive (and in a direct line that connects through 3 statues and the Gold Dome), is a simple, modern stone statue of Mary. </s>'

In [93]:
processor = DataProcessor(
    tokenizer=tokenizer,
    model_type='t5',
    max_source_length=1024,
    max_target_length=64,
    translate=False
)

train_dataset = processor.process(dataset)

HBox(children=(FloatProgress(value=0.0, max=78978.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=78978.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=79.0), HTML(value='')))




In [97]:
train_dataset[101]

{'source_text': 'Sự thành công của đội bóng đá của nó làm Notre Dame một cái tên quen thuộc. Sự thành công của Note Dame phản ánh tình trạng tăng số người Mỹ Ailen và người Công giáo trong những năm 1920. Công giáo tăng lên xung quanh đội bóng và lắng nghe những trò chơi trên đài phát thanh, đặc biệt là khi nó đánh bật khỏi trường mà biểu tượng thành lập Lành ở Mỹ - Harvard, Yale, Princeton, và quân đội. Tuy nhiên, vai trò này như tổ chức hàng đầu cấu hình cao của Công giáo đã làm cho nó một mục tiêu dễ dàng chống Công giáo. Tập đáng chú ý nhất của bạo lực là cuộc đụng độ giữa sinh viên Notre Dame và Ku Klux Klan vào năm 1924. Nativism và chống Công giáo, đặc biệt là khi hướng về những người nhập cư, là nền tảng của thuật hùng biện của KKK, và Notre Dame đã được xem như một biểu tượng của sự đe dọa từ Giáo Hội Công Giáo. Các Klan quyết định phải có một Klavern kéo dài một tuần trong South Bend. Cuộc đụng độ với các sinh viên bắt đầu vào ngày 17, khi học sinh, nhận thức được sự thù địch