In [14]:
import pandas as pd
import numpy as np
import json
from typing import List, Dict, Optional
from pathlib import Path
import matplotlib.pyplot as plt
%matplotlib inline

In [32]:
def squad_v2_to_squad_format(path: Path, out_name: str) -> Path:
    squad_v2_dict = read_json(path)
    data = []
    for group in squad_v2_dict['data']:
        title = group['title']
        for passage in group['paragraphs']:
            context = passage['context']
            for qa in passage['qas']:
                question = qa['question']
                idx = qa['id']
                for answer in qa['answers']:
                    values_to_lists = {k: [v] for k, v in answer.items()}  
                    data.append(
                        {
                            'answers': values_to_lists,
                            'context': context,
                            'id': idx,
                            'question': question,
                            'title': title
                        }
                    )
                    
    df_as_squad = {'data': data, 'version': out_name}
    
    out_path = f'./{out_name}.json'
    write_json(df_as_squad, out_path)
    print('The data has been converted to SQuAD format and saved as a JSON object.')
    
    return out_path

In [33]:
# convert
i_mlqa_path = '/content/dev-context-hi-question-hi.json'
o_mlqa_path = squad_v2_to_squad_format(i_mlqa_path, 'mlqa_dev')

# check
read_json(o_mlqa_path)['data'][0]

The data has been converted to SQuAD format and saved as a JSON object.


{'answers': {'answer_start': [2267], 'text': ['कोलेन्काइमा']},
 'context': 'पैरेनकाइमा कोशिकाएं वे जीवित कोशिकाएं हैं जो संग्रह और सहारे से लेकर प्रकाश संश्लेषण और फ्लोएम लोडिंग तक के विभिन्न कार्य करती हैं। जाइलेम और फ्लोएम के अलावा पत्तियां मुख्यतः पैरेन्काइमा कोशिकाओं से बनी होती हैं। बाह्यत्वचा की तरह कुछ पैरेन्काइमा कोशिकाएं प्रकाश भेद्यता और गैस विनिमय के नियंत्रण की निशिष्यता रखती हैं, पर अन्य पौधे के ऊतक की सबसे कम विशेषज्ञ कोशिकाएं होती हैं और टोटीपोटेंट बनी रहती हैं जो जीवनपर्यंत विभाजित होकर नई अविभेदित कोशिकाओं का उत्पादन करती हैं। पैरेन्काइमा कोशिकाओं की प्राथमिक भित्तियां पतली और पारगम्य होती हैं जिनमें से छोटे अणुओं का परिवहन हो सकता है और उनका साइटोप्लाज्म विभिन्न जैवरसायनिक कार्यकलापों जैसे नेक्टर के स्राव या पत्ते खाने की आदत को अनुत्साहित करने वाले द्वितीयक पदार्थों का उत्पादन करने के लिये जिम्मेदार होता है। वे पैरेन्काइमा कोशिकाएं जिनमें कई क्लोरोप्लास्ट होते हैं और प्रकाश संश्लेषण का कार्य करते हैं उन्हें क्लोरेन्काइमा कोशिकाएं कहते हैं। आलू जैसे ट्यूबरों और फलियों

In [35]:
# !pip install datasets

In [30]:
import datasets

In [34]:
mlqa_dev_path = '/content/mlqa_dev_hindi.json'
mlqa_dev_dataset = datasets.load_dataset(
    'json',
    data_files=mlqa_dev_path,
    field='data',
    split="train"
)
mlqa_dev_dataset

Using custom data configuration default-78d7a64707dd2088


Downloading and preparing dataset json/default to /root/.cache/huggingface/datasets/json/default-78d7a64707dd2088/0.0.0/d75ead8d5cfcbe67495df0f89bd262f0023257fbbbd94a730313295f3d756d50...


  0%|          | 0/1 [00:00<?, ?it/s]

  0%|          | 0/1 [00:00<?, ?it/s]

0 tables [00:00, ? tables/s]

Dataset json downloaded and prepared to /root/.cache/huggingface/datasets/json/default-78d7a64707dd2088/0.0.0/d75ead8d5cfcbe67495df0f89bd262f0023257fbbbd94a730313295f3d756d50. Subsequent calls will reuse this data.


Dataset({
    features: ['answers', 'context', 'id', 'question', 'title'],
    num_rows: 507
})