# Merging different datasets for fine-tuning

1. chaii -- https://www.kaggle.com/c/chaii-hindi-and-tamil-question-answering/data
2. Squad_Translated_to_Tamil -- https://www.kaggle.com/msafi04/squad-translated-to-tamil-for-chaii
3. XQA - https://www.kaggle.com/mdhamani/preprocessed-xqa-tamil
4. xquad - https://github.com/deepmind/xquad -- xquad.hi.json 
       -  https://www.kaggle.com/rhtsingh/mlqa-hindi-processed?select=xquad.csv
5. mlqa -- https://github.com/facebookresearch/MLQA
       -  https://www.kaggle.com/rhtsingh/mlqa-hindi-processed?select=xquad.csv
6. mmqa -- https://github.com/deepaknlp/MMQA

In [None]:
# _importing required libraries
import os
import json
import uuid

# _external libraries
import pandas as pd

## Target/Interested columns in all datasets

1. context
2. question
3. answer_text
4. answer_start

In [None]:
target_cols = ['context', 'question', 'answer_text', 'answer_start']

In [None]:
def load_csvtodf(filepath):
    
    df = pd.read_csv(filepath)
    df = df[target_cols]
    
    return df

In [None]:
def load_jsontodf(filepath):
    
    data_dict = json.loads(filepath)
    df = pd.Dataframe.from_dict(data_dict)
    
    return df

## 1. Chaii dataset

In [None]:
chaii_df = load_csvtodf(os.getcwd() + '/../datasets/chaii/train.csv')
chaii_df.sample(1)

Unnamed: 0,context,question,answer_text,answer_start
650,नेस्ले या Nestlé S.A. एक बहुराष्ट्रीय कम्पनी ह...,नेस्ले कंपनी का मुख्यालय कहाँ स्थित है?,स्विटज़रलैंड के वेवे शहर,116


## 2. Squad_Translated_to_Tamil (stt)

In [None]:
stt_df = load_csvtodf(os.getcwd() + '/../datasets/Squad_Translated_to_Tamil/squad_translated_tamil.csv')
stt_df.sample(1)

Unnamed: 0,context,question,answer_text,answer_start
1924,நகரத்தின் நகராட்சி அரசாங்கம் சுமார் 12-15 வணிக...,எத்தனை குடிமக்கள் கார்க் முதலில் இருந்தார்கள்?,"சுமார் 2,100",284.0


## 3. XQA processed dataset

In [None]:
xqa_dataset_paths = ['/../datasets/xqa/XQA_tamil_dev_query.csv', '/../datasets/xqa/XQA_tamil_dev.csv', '/../datasets/xqa/XQA_tamil_test_query.csv', '/../datasets/xqa/XQA_tamil_test.csv']
xqa_df_list = []

for dataset_path in xqa_dataset_paths:
    xqa_df_list.append(load_csvtodf(os.getcwd()+dataset_path))
    
xqa_df = pd.concat(xqa_df_list, ignore_index=True)
xqa_df.sample(1)

Unnamed: 0,context,question,answer_text,answer_start
10200,"யூதம், கிறித்தவம், இசுலாம் என்பன எசேக்கியேலை எ...",உலக சனத்தொகையில் 54% மக்கள் (3.8 மில்லியன் மக்...,ஆபிரகாமிய சமயங்கள்,-1


## 4. Xquad dataset

In [None]:
xquad_df = load_csvtodf(os.getcwd() + '/../datasets/tamil_xquad/xquad.csv')
xquad_df.sample(1)

Unnamed: 0,context,question,answer_text,answer_start
807,यह विश्वविद्यालय ग्यारह अलग-अलग शैक्षणिक इकाइय...,अमेरिका के किस प्रमुख शहर में हार्वर्ड विश्ववि...,बोस्टन,138


## 5. Mlqa dataset

In [None]:
mlqa_df = load_csvtodf(os.getcwd() + '/../datasets/mlqa/mlqa_hindi.csv')
mlqa_df.sample(1)

Unnamed: 0,context,question,answer_text,answer_start
1226,"176,214 किमी2 (68,037 वर्ग मील) महाद्वीपीय भूम...",उरुग्वे का तट कितने मील की दूरी पर है?,(410,430


## Merging datasets

In [None]:
final_df = pd.concat([chaii_df, stt_df, xquad_df, mlqa_df], ignore_index=True)
final_df = final_df.astype({"answer_start": 'int64'})
final_df.sample(1)

Unnamed: 0,context,question,answer_text,answer_start
6517,स्वास्थ्य जोखिम के लिए दाताओं का परीक्षण किया ...,वास्तव में रक्तदान करने से पहले रक्तदाताओं की ...,स्वास्थ्य जोखिम,0.0


In [None]:
final_df['id'] = final_df.apply(lambda x:uuid.uuid1(), axis=1)
final_df.sample(3)

Unnamed: 0,context,question,answer_text,answer_start,id
2602,Monopole Antennas ஒரு உலோக கம்பி போன்ற ஒரு ஒற்...,செங்குத்து துருவமுனைப்பு என்ன?,மோனோபோல்,682,e2444a3a-28de-11ec-83f3-1e003a3c7126
11041,"आधुनिक टायर निर्माण में मूल रूप से रबड़, कपड़े...",कौनसे दो पहियों के वाहन अभी तक वायु से भरे हुए...,"साइकिल, मोटरसाइकिल",534,e24b93b2-28de-11ec-83f3-1e003a3c7126
108,"ஐசக் நியூட்டன் (டிசம்பர் 25, 1642 – மார்ச் 20,...",ஐசக் நியூட்டன் எப்பொழுது பிறந்தார்?,"டிசம்பர் 25, 1642",16,e240c252-28de-11ec-83f3-1e003a3c7126


In [None]:
def get_match_label(context, answer_text, answer_start):
    
    ans_len = len(answer_text)
    if answer_text == context[answer_start:answer_start+ans_len]:
        return 1
    else:
        return 0

In [None]:
final_df['label_match'] = final_df.apply(lambda x:get_match_label(x['context'], x['answer_text'], x['answer_start']), axis=1)
final_df.sample(2)

Unnamed: 0,context,question,answer_text,answer_start,id,label_match
11242,"ब्रिटिश सैनिकों ने उस दलदल को घेर लिया, जहां स...",जब ब्रिटिश सैनिक उन्हें घेर रहे थे तो कौन लौट ...,जापानी,48,e24bb5fe-28de-11ec-83f3-1e003a3c7126,1
7867,एलेन लुईस शलमन बेकर का जन्म २७ अप्रैल १९५३ को ...,उन्होंने अपना बैचलर ऑफ आर्ट्स कब प्राप्त किया?,१९७४,362,e2495b42-28de-11ec-83f3-1e003a3c7126,1


In [None]:
final_df.label_match.value_counts()

1    11295
Name: label_match, dtype: int64

In [None]:
final_df = final_df[final_df['label_match'] == 1]

In [None]:
final_target_cols = ['id', 'context', 'question', 'answer_text', 'answer_start']
final_df = final_df[final_target_cols]
final_df.sample(2)

Unnamed: 0,id,context,question,answer_text,answer_start
2070,e2439626-28de-11ec-83f3-1e003a3c7126,பிளாக்-உடல் சிக்கல் 1905 ஆம் ஆண்டில் Rayleigh ...,"யார் காலத்தோடு வந்தவர், ""புற ஊதா பேரழிவு""?",பால் Ehrenfest,274
8272,e249a5c0-28de-11ec-83f3-1e003a3c7126,"""रुपया"" शब्द का उद्गम संस्कृत के शब्द रुप् या ...",रुपया शब्द का अर्थ क्या है?,कच्ची चांदी,79


In [None]:
final_df.to_csv (os.getcwd() + '/../datasets/output/chaii_train_data.csv', index = None, header=True) 