Skip to content

Tamil & Hindi Question Answering using chaii-1 dataset | A4 for COL772 course (Fall 21)

Notifications You must be signed in to change notification settings

subhalingamd/nlp-chaii-multilingual-qa

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

chaii - Hindi and Tamil Question Answering

  1. Problem Statement
  2. Methodology
    1. Datasets used
    2. Model
  3. Running the code
    1. Training
    2. Inference
  4. Authors

Problem Statement

The goal is to predict answers to real questions about Wikipedia articles using chaii-1 dataset.

chaii-1 is a question answering dataset in Hindi and Tamil (without the use of translation). Given a context and question, the goal of question answering is to predict the answer to the question by selecting a span from the context. Consider the following example from the dataset:

Example:

Context: मानव कंकाल शरीर की आन्तरिक संरचना होती है। यह जन्म के समय 300 हड्डियों से बना होता है और यवाव ु स्था में कुछ हड्डियों के संगलित होने से यह २०६ तक सीमित हो जाती है।[1] तंत्रिका में हड्डियों का द्रव्यमान ३० वर्ष की आयु के लगभग अपने अधिकतम घनत्व पर पहुँचती है। मानव कंकाल को अक्षीय कंकाल और उपांगी कंकाल में विभाजित किया जाता है। अक्षीय कंकाल मेरूदण्ड, पसली पिजर ं और खोपड़ी से मिलकर बना होता है। उपांगी कंकाल अक्षीय कंकाल से जड़ुा हुआ होता है तथा असं मेखला, श्रोणि मेखला और अधः पाद एवं ऊपरी पाद की हड्डियों से मिलकर बना होता है। मानव कंकाल निम्नलिखित छः कार्य करता है: उपजीवन, गति, रक्षण, रुधिर कणिकाओं का निर्माण, आयनों का भंडारण और अतं : स्रावी विनियमन। मानव कंकाल अन्य प्रजातियों के समान लगिैं क द्विरूपता नहीं रखता लेकिन मस्तिष्क, दंत विन्यास, लम्बी हड्डियों और श्रोणियों में आकीरिकी के अनसार ु अल्प अन्तर होता है। सामान्यतः महिला कंकाल के अवयवों उसी तरह के परुुषों की की तलना ु में कुछ मात्रा में छोटे और कम मजबतू होते हैं। अन्य प्राणियों से भिन्न, मानव परुुष का लिगं स्तंभास्थि रहित होता है।[2] सन्दर्भ श्रेणी:कंकाल तंत्र

Question: जन्म के समय शिशुके शरीर में कितनी हड्डियाँ होती है?

Answer: 300

This work is based on a Kaggle competition: chaii - Hindi and Tamil Question Answering

Methodology

Datasets used

  • official chaii-1 dataset [Link]
  • MLQA/XQuAD for Hindi [Link]
  • SQuAD translated to Tamil [Link]

All these datasets can be found in one place: [here]

Model

We finetuned XLM-RoBERTa for QuestionAnswering from alon-albalak/xlm-roberta-large-xquad checkpoint.

For hyperparameters, look at args in train.py.

Running the code

Training

To train yourself, use the following command:

python train.py

While running the training script, the files mentioned in Section 2.i have to be placed under dataset/ directory (relative to the training script).

Inference

For inference you can use inference.ipynb.

You can either fine-tune your own version of the model (by following the steps mentioned in the previous section) or use our version which is available [here].

Authors


This README uses texts from the assignment problem document provided in the course.

About

Tamil & Hindi Question Answering using chaii-1 dataset | A4 for COL772 course (Fall 21)

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published