In [1]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
from datasets import load_from_disk

import numpy as np
np.random.seed(42)

import json, copy, os, sys
from tqdm import tqdm

import logging
logger = logging.getLogger('logger')
logging.basicConfig(level=logging.INFO)
logger.setLevel(logging.INFO)

sys.path.append(os.path.abspath(os.getcwd()))
from annotation_utilities import *

phenomena_tobe_processed = input("enter the phenomena: ") 
if phenomena_tobe_processed not in ["coreference-based-on-commonsense", "hallucination-real-data-vs-ref-word",
                            "hallucination-real-data-vs-synonym", "lexical-overlap", "xnli-addition-contradiction",
                            "xnli-addition-neutral", "xnli-omission-contradiction", "xnli-omission-neutral"]:
        logger.error("{} should be one of these: {}".format(sys.argv[1], ["coreference-based-on-commonsense", "hallucination-real-data-vs-ref-word",
                            "hallucination-real-data-vs-synonym", "lexical-overlap", "xnli-addition-contradiction",
                            "xnli-addition-neutral", "xnli-omission-contradiction", "xnli-omission-neutral"]))
        exit()

folder = os.getcwd()
dataset_path = os.path.join(folder, '../../dataset')
if not os.path.exists(dataset_path):
    logger.error('No dataset path: %s' %(dataset_path))
    exit()

logger.info('Loading the dataset...')
dataset = load_from_disk(dataset_path)
logger.info('Dataset loaded.')

# this is the list of phenomena and which option they need to be annotated with:
phenomena = {
    'addition':'add-omit',
    'ambiguous-translation-wrong-discourse-connective-since-causal':'diff_flexible',
    'ambiguous-translation-wrong-discourse-connective-since-temporal':'diff_flexible',
    'ambiguous-translation-wrong-discourse-connective-while-contrast':'diff_flexible',
    'ambiguous-translation-wrong-discourse-connective-while-temporal':'diff_flexible',
    'ambiguous-translation-wrong-gender-female-anti':'diff_flexible',
    'ambiguous-translation-wrong-gender-female-pro':'diff_flexible',
    'ambiguous-translation-wrong-gender-male-anti':'diff_flexible',
    'ambiguous-translation-wrong-gender-male-pro':'diff_flexible',
    'ambiguous-translation-wrong-sense-frequent':'diff_flexible',
    'ambiguous-translation-wrong-sense-infrequent':'diff_flexible',
    'anaphoric_group_it-they:deletion':'annotate_word',
    'anaphoric_group_it-they:substitution':'annotate_word',
    'anaphoric_intra_non-subject_it:deletion':'annotate_word',
    'anaphoric_intra_non-subject_it:substitution':'annotate_word',
    'anaphoric_intra_subject_it:deletion':'annotate_word',
    'anaphoric_intra_subject_it:substitution':'annotate_word',
    'anaphoric_intra_they:deletion':'annotate_word',
    'anaphoric_intra_they:substitution':'annotate_word',
    'anaphoric_singular_they:deletion':'annotate_word',
    'anaphoric_singular_they:substitution':'annotate_word',
    'antonym-replacement':'REF_flexible',
    'commonsense-only-ref-ambiguous':'diff_flexible',
    'commonsense-src-and-ref-ambiguous':'diff_flexible',
    'copy-source':'whole_sentence',
    'coreference-based-on-commonsense':'mixed_flexible',
    'do-not-translate':'whole_sentence',
    'hallucination-date-time':'date',
    'hallucination-named-entity-level-1':'diff_flexible',
    'hallucination-named-entity-level-2':'REF_flexible',
    'hallucination-named-entity-level-3':'REF_flexible',
    'hallucination-number-level-1':'diff_flexible',
    'hallucination-number-level-2':'REF_flexible',
    'hallucination-number-level-3':'REF_flexible',
    'hallucination-real-data-vs-ref-word':'diff_flexible',
    'hallucination-real-data-vs-synonym':'diff_flexible',
    'hallucination-unit-conversion-amount-matches-ref':'units',
    'hallucination-unit-conversion-unit-matches-ref':'units',
    'hypernym-replacement':'REF_flexible',
    'hyponym-replacement':'REF_flexible',
    'lexical-overlap':'?',
    'modal_verb:deletion':'add-omit',
    'modal_verb:substitution':'diff_flexible',
    'nonsense':'REF_flexible',
    'omission':'add-omit',
    'ordering-mismatch':'swap',
    'overly-literal-vs-correct-idiom':'diff_flexible',
    'overly-literal-vs-explanation':'diff_flexible',
    'overly-literal-vs-ref-word':'diff_flexible',
    'overly-literal-vs-synonym':'diff_flexible',
    'pleonastic_it:deletion':'annotate_word',
    'pleonastic_it:substitution':'annotate_word',
    'punctuation:deletion_all':'add-omit',
    'punctuation:deletion_commas':'add-omit',
    'punctuation:deletion_quotes':'add-omit',
    'punctuation:statement-to-question':'add-omit',
    'real-world-knowledge-entailment':'diff_flexible',
    'real-world-knowledge-hypernym-vs-distractor':'diff_flexible',
    'real-world-knowledge-hypernym-vs-hyponym':'diff_flexible',
    'real-world-knowledge-synonym-vs-antonym':'diff_flexible',
    'similar-language-high':'whole_sentence',
    'similar-language-low':'whole_sentence',
    'untranslated-vs-ref-word':'diff_flexible',   # here add-omit can be used for getting character level replacements too
    'untranslated-vs-synonym':'diff_flexible',
    'xnli-addition-contradiction':'?',
    'xnli-addition-neutral':'?',
    'xnli-omission-contradiction':'?',
    'xnli-omission-neutral':'?'
}

# if there are already some annotations overwrite them and append new ones
annotated_dataset_path = os.path.join(folder, 'annotated.txt')
if os.path.exists(annotated_dataset_path):
    logger.info('Path {} already exists. Loading..'.format(annotated_dataset_path))
    with open(annotated_dataset_path, "r") as f:
        annotations = json.load(f)
    annotations = {int(k):v for k,v in annotations.items()}
else:
    logger.info('Creating new annotations.txt file at {}'.format(annotated_dataset_path))
    annotations = dict()

# calculate statistics about the annotations:
# for every mode, calculate no. of skipped, no. of unsure and ids, and no. of done.
stats_template = {
            'total':0,
            'success':0,
            'too_long':[],
            'no_change':[],
            'error':[],
            'skipped':[],
            'other':[]  
        }
stats_path = os.path.join(folder, 'stats.txt')
if os.path.exists(stats_path):
    logger.info('Path {} already exists. Loading..'.format(stats_path))
    with open(stats_path, "r") as f:
        stats = json.load(f)
    # we want to overwrite the statistics for the new phenomena
    for p in phenomena_tobe_processed:
        stats[p] = copy.deepcopy(stats_template)
else:
    logger.info('Creating new stats.txt file at {}'.format(stats_path))
    stats = {}
    for key in phenomena.keys():
        stats[key] = copy.deepcopy(stats_template)
logger.info("READY")

def manual_annotation_io(idx):
    sample = dataset['train'][idx]
    if idx in annotations:
        change = annotations[idx]['annotation']
        if len(change) == 1 and len(change[0]["in_good"]['token'].split()) == 1 and len(change[0]["in_bad"]['token'].split())==1:
            return 0

    if phenomena[sample["phenomena"]] in ['?', 'mixed_flexible']:
        print("-----> For this sample we can compare the Incorrect translation with either Reference or Good translation.")
    elif phenomena[sample["phenomena"]] in ['REF_flexible']:
        print("-----> For this sample we compare the Incorrect translation with the Reference.")
    else:
        print("-----> For this sample we compare the Incorrect translation with the Good translation.\n")
    if idx in annotations:
        print("Source sentence: ", sample['source'])
        print("Reference: ", sample['reference'])
        print("Good Translation: ", sample['good-translation'])
        print("Incorrect Translation: ", sample['incorrect-translation'])
        print('Suggested annotation:')
        print(annotations[idx]['annotation'], '\n')
        inp = input('To accept the suggested annotation click on enter. To skip this one enter skip. Otherwise enter anything else:')
        if inp == "skip":
            annotations.pop(idx)
            return 1  # this means, we are skipping, so should delete this annotation and then continue with the next.
        res = manual_annotation(idx, inp)
        if res == -1:
            # do not add the annotation if you stop at this point
            annotations.pop(idx)
            return -1
    else:
        print("No automatic translations for this sample.")
        res = manual_annotation(idx)
        if res == -1:
            return -1

def manual_annotation(idx, inp="."):
    while inp != "":
        sample = dataset['train'][idx]
        print("Source sentence: ", sample['source'])
        print("Reference: ", sample['reference'])
        print("Good Translation: ", sample['good-translation'])
        print("Incorrect Translation: ", sample['incorrect-translation'])
        inp = input("Enter the incorrect translation with the < and > to show the error spans (exit to stop): \n")
        bad = inp
        if bad == "exit":
            return -1
        inp = input("Enter the correct/reference translation with the < and > to show the error spans (exit to stop): \n")
        good = inp
        if good == "exit":
            return -1
        change = calculate_change(good, bad, sample)
        print("Annotation: ", change)
        inp = input("\n To accept it press enter or to annotate again enter any other string: ")
        if inp == "":
            sample['annotation'] = change
            sample['method'] = "manual annotation"
            annotations[idx] = sample
    return annotations[idx]

def calculate_change(good, bad, sample):  
    bad_id = 0
    span = False # False is when we are not inside a span, True is inside a span
    change = []
    for i, c in enumerate(bad):
        if c == "<":
            if span:
                logger.error("< not closed. Try again.\n")
                return manual_annotation(".", sample)
            else:
                start = bad_id
                start_annotate = i
                bad_id -= 1
                span = True
        elif c == ">":
            if not span:
                logger.error("No opening < Try again.\n")
                return manual_annotation(".", sample)
            else:
                change.append({"in_good":None, 
                    "in_bad":{'token_index':None, 
                    'character_span':(start,bad_id), 
                               'token':bad[start_annotate+1:i]}})
                bad_id -= 1
                span = False
        bad_id += 1
    good_id = 0
    span = False # False is when we are not inside a span, True is inside a span
    for i, c in enumerate(good):
        if c == "<":
            if span:
                logger.error("< not closed. Try again.\n")
                return manual_annotation(".", sample)
            else:
                start = good_id
                start_annotate = i
                good_id -= 1
                span = True
        elif c == ">":
            if not span:
                logger.error("No opening < Try again.\n")
                return manual_annotation(".", sample)
            else:
                change.append({"in_good":{'token_index':None, 
                    'character_span':(start,good_id), 
                               'token':good[start_annotate+1:i]}, 
                    "in_bad":None})
                good_id -= 1
                span = False
        good_id += 1
    return change

def process_phenomena(samples, manual=False):
    for idx,sample in tqdm(samples):
        # here don't worry about stats - it will be probably completely wrong
        if idx not in annotations.keys():
            stats[sample["phenomena"]]["total"] += 1
            if phenomena[sample["phenomena"]] == 'add-omit':
                try:
                    change = diff_char_level(sample["good-translation"], sample["incorrect-translation"])
                    if len(change) == 0:
                        logger.warning('No change in id {}'.format(idx))
                        stats[sample["phenomena"]]["no_change"].append((idx, sample['langpair']))
                    else:
                        stats[sample["phenomena"]]["success"] += 1
                    sample['annotation'] = change
                    sample['method'] = phenomena[sample["phenomena"]]
                    annotations[idx] = sample
                except:
                    logger.warning('error in char level annotate, id {}'.format(idx))
                    stats[sample["phenomena"]]["error"].append((idx, sample['langpair']))

            elif phenomena[sample["phenomena"]] == 'annotate_word':
                try:
                    change = annotate_word(sample["good-translation"], sample["incorrect-translation"])
                    if len(change) == 0:
                        logger.warning('No change in id {}'.format(idx))
                        stats[sample["phenomena"]]["no_change"].append((idx, sample['langpair']))
                    else:
                        stats[sample["phenomena"]]["success"] += 1
                    sample['annotation'] = change
                    sample['method'] = phenomena[sample["phenomena"]]
                    annotations[idx] = sample
                except:
                    logger.warning('error in word level annotate, id {}'.format(idx))
                    stats[sample["phenomena"]]["error"].append((idx, sample['langpair']))

            elif phenomena[sample["phenomena"]] in ['diff_flexible', 'REF_flexible', 'mixed_flexible']:
                if phenomena[sample["phenomena"]] == 'diff_flexible':
                    good = sample["good-translation"]
                elif phenomena[sample["phenomena"]] == 'mixed_flexible':
                    good, g, g_spans = ref_or_good(sample["reference"], sample["good-translation"], sample["incorrect-translation"])
                else: 
                    good = sample["reference"]
                bad = sample["incorrect-translation"]
                g, g_spans = tokenize(good)
                b, b_spans = tokenize(bad)

                # special treatment to japanese chinese and thailandish because they don't use spaces, so can't be split            
                if sample['langpair'][-2:] not in ['ja', 'zh', 'th']:      
                    if len(g) == len(b):   # if there are multiple one word replacements
                        change = diff(g, g_spans, b, b_spans, phenomena="replacement")
                    if len(g) != len(b) or len(change) == 0:
                        try:
                            change = diff_flexible(good, g, g_spans, bad, b, b_spans)
                            if len(change) == 0 and good != bad:
                                change = diff_char_level(good, bad) 
                        except:
                            logger.warning('error in id {}'.format(idx))
                            stats[sample["phenomena"]]["error"].append((idx, sample['langpair']))
                    if len(change) == 0:
                        logger.warning('No change in id {}'.format(idx,g,b,change))
                        stats[sample["phenomena"]]["no_change"].append((idx, sample['langpair']))
                    elif len(change) != 0 and ((change[0]['in_good'] != None and len(change[0]['in_good']['token']) > 50) or (change[0]['in_bad'] != None and len(change[0]['in_bad']['token']) > 50)):
                        logger.warning('check this - too long: %s' %idx)
                        stats[sample["phenomena"]]["too_long"].append((idx, sample['langpair']))
                    else:
                        stats[sample["phenomena"]]["success"] += 1
                    sample['annotation'] = change
                    sample['method'] = phenomena[sample["phenomena"]]
                    annotations[idx] = sample  
                else:
                    try:
                        change = diff_char_level(good, bad) 
                        if len(change) == 0 and good != bad:
                            logger.warning('No change in id {}'.format(idx,g,b,change))
                            stats[sample["phenomena"]]["no_change"].append((idx, sample['langpair']))
                        elif len(change) != 0 and ((change[0]['in_good'] != None and len(change[0]['in_good']['token']) > 30) or (change[0]['in_bad'] != None and len(change[0]['in_bad']['token']) > 30)):
                            logger.warning('check this - too long: %s' %idx)
                            stats[sample["phenomena"]]["too_long"].append((idx, sample['langpair']))
                        else:
                            stats[sample["phenomena"]]["success"] += 1
                        sample['annotation'] = change
                        sample['method'] = phenomena[sample["phenomena"]]
                        annotations[idx] = sample
                    except: 
                        logger.warning('error in id {}'.format(idx))
                        stats[sample["phenomena"]]["error"].append((idx, sample['langpair']))


            elif phenomena[sample["phenomena"]] == 'units':
                try:
                    g, b, change = annotate_units(sample["good-translation"],sample["incorrect-translation"])
                    if len(change) == 0 and g != b:
                        logger.warning('No change in id {}, \ng: {}, \nb: {},\nr: {}'.format(idx, g, b))
                        stats[sample["phenomena"]]["no_change"].append((idx, sample['langpair']))
                    elif len(change) > 1:
                        logger.warning('Multiple changes in {} id {}'.format(sample["phenomena"], idx))
                        stats[sample["phenomena"]]["other"].append((idx, sample['langpair']))
                    else:
                        stats[sample["phenomena"]]["success"] += 1
                    sample['annotation'] = change
                    sample['method'] = phenomena[sample["phenomena"]]
                    annotations[idx] = sample  
                except: 
                    logger.warning('error in id {}'.format(idx))
                    stats[sample["phenomena"]]["error"].append((idx, sample['langpair']))

            elif phenomena[sample["phenomena"]] == 'swap':
                try:
                    change = annotate_swap_word_lvl(sample["good-translation"],sample["incorrect-translation"])
                    if len(change) < 2 and sample["good-translation"] != sample["incorrect-translation"]:
                        logger.warning('No change in id {}, \ng: {}, \nb: {}'.format(idx, sample["good-translation"], sample["incorrect-translation"]))
                        stats[sample["phenomena"]]["no_change"].append((idx, sample['langpair']))
                    elif change[0]['in_good'] != None and change[1]['in_good'] != None and change[0]['in_good'] == change[1]['in_good']:
                        logger.warning('check this: %s - swapped words are the same!' %idx)
                        stats[sample["phenomena"]]["other"].append((idx, sample['langpair']))
                    elif (change[0]['in_good'] != None and len(change[0]['in_good']['token']) > 50) or (change[0]['in_bad'] != None and len(change[0]['in_bad']['token']) > 50):
                        logger.warning('check this: %s' %idx)
                        stats[sample["phenomena"]]["too_long"].append((idx, sample['langpair']))
                    else:
                        stats[sample["phenomena"]]["success"] += 1
                    sample['annotation'] = change
                    sample['method'] = phenomena[sample["phenomena"]]
                    annotations[idx] = sample
                except: 
                    logger.warning('error in id {}'.format(idx))
                    stats[sample["phenomena"]]["error"].append((idx, sample['langpair']))

            elif phenomena[sample["phenomena"]] == 'date':
                try:
                    change = diff_dates(sample["good-translation"],sample["incorrect-translation"])
                    stats[sample["phenomena"]]["success"] += 1
                    sample['annotation'] = change
                    sample['method'] = phenomena[sample["phenomena"]]
                    annotations[idx] = sample
                except: 
                    logger.warning('error in id {}'.format(idx))
                    stats[sample["phenomena"]]["error"].append((idx, sample['langpair']))
            elif phenomena[sample['phenomena']] == 'whole_sentence':
                change = whole_sentence(sample["good-translation"], sample["incorrect-translation"])
                stats[sample["phenomena"]]["success"] += 1
                sample['annotation'] = change
                sample['method'] = phenomena[sample["phenomena"]]
                annotations[idx] = sample

            if manual:
                res = manual_annotation_io(idx)
                # if exit, first save a new annotations file to save progress and then exit
                if res == 1:  # SKIPPING
                    continue 
                if res == -1:
                    with open(checkpoint, "w+") as f:
                        json.dump(annotations, f)  # encode dict into JSON
                    return -1


enter the phenomena: hallucination-real-data-vs-synonym


INFO:logger:Loading the dataset...
INFO:logger:Dataset loaded.
INFO:logger:Path /mnt/c/Users/user/OneDrive/Masaüstü/work/ACES_private/challenge_set_annotation/annotated.txt already exists. Loading..
INFO:logger:Path /mnt/c/Users/user/OneDrive/Masaüstü/work/ACES_private/challenge_set_annotation/stats.txt already exists. Loading..
INFO:logger:READY


In [2]:
samples = []
for idx, sample in enumerate(dataset['train']):
    if sample['phenomena'] in phenomena_tobe_processed:
        samples.append((idx, sample))
        
# if manual:
if not os.path.exists(os.path.join(folder, 'manual_annotations')):
    os.mkdir(os.path.join(folder, 'manual_annotations'))
checkpoint = os.path.join(folder, 'manual_annotations/annotated_checkpoint_{}.txt'.format(phenomena_tobe_processed))
if os.path.exists(checkpoint):
    logger.info('Path {} already exists. Loading..'.format(checkpoint))
    with open(checkpoint, "r") as f:
        annotations = json.load(f)
    annotations = {int(k):v for k,v in annotations.items()}
else:
    annotations = dict()

INFO:logger:Path /mnt/c/Users/user/OneDrive/Masaüstü/work/ACES_private/challenge_set_annotation/manual_annotations/annotated_checkpoint_hallucination-real-data-vs-synonym.txt already exists. Loading..


In [4]:
process_phenomena(samples, manual=True)

  0%|                                                                                              | 0/144 [00:00<?, ?it/s]

-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  After it became apparent that many families were seeking legal help to fight the evictions, a meeting was held on March 20 at the East Bay Community Law Center for the victims of the housing scam.
Reference:  ते स्पष्ट झाल्यानंतर अनेक कुटुंबे बेकायदेशीर कारवाईसाठी लढा देण्यासाठी कायदेशीर मदतीची मागणी करत होते, गृहनिर्माण घोटाळ्यातील पीडित व्यक्तींसाठी 20 मार्च रोजी पूर्व बे समुदाय कायदा केंद्र येथे एक बैठक आयोजित करण्यात आली होती.
Good Translation:  त्यानंतर स्पष्ट झाले की अनेक घरांनी बेदखलीच्या विरुद्ध लढण्यासाठी कानूनी मदत मागितली होती, 20 मार्चमध्ये आवासीय धोखाधड़ीच्या पीडितंसाठी East Bay Community Law Centerमध्ये एक बैठक करण्यात आली.
Incorrect Translation:  त्यानंतर स्पष्ट झाले की अनेक घरांनी अपघात लढण्यासाठी कानूनी मदत मागितली होती, 20 मार्चमध्ये आवासीय धोखाधड़ीच्या पीडितंसाठी East Bay Community Law Centerमध्ये एक बैठक करण्यात आली.
Suggested annotation:
[{'in_good': {'token_in

 81%|███████████████████████████████████████████████████████████████████▋                | 116/144 [00:08<00:02, 12.98it/s]

-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  "The country's supreme leader, Ayatollah Ali Khamenei, has described the dependency on oil as ""a trap"" dating from before Iran's Islamic revolution in 1979 and from which the country should free itself."
Reference:  "देशाचे सर्वोच्च नेते अयातुल्ला अली खमेनी यांनी 1979 मध्ये इराणची इस्लामिक क्रांती होण्याआधीपासून आणि त्यापासून देशाने मुक्त व्हावे यासाठी तेलावरील अवलंबित्वाचे वर्णन ""ट्रॅप"" म्हणून केले आहे."
Good Translation:  "देशाचे सर्वोच्च नेते, अयातुल्ला अली खामेनी यांनी तेलावरील अवलंबित्वाचे वर्णन 1979 मध्ये इराणच्या इस्लामिक क्रांतीपूर्वीपासूनचे ""सापळा"" असे केले आहे आणि ज्यातून देशाने स्वतःला मुक्त केले पाहिजे."
Incorrect Translation:  "देशाच्या सर्वोच्च नेता अयातोला अली खमनेईने तेल निर्भरताला 1979 मध्ये इराणच्या इस्लामिक क्रांतिच्या पूर्वावलोकनच्या ""एक तलवार"" म्हणून वर्णित केले आहे आणि इराण स्वतःला मुक्त करणार आहे."
Suggested annotation:
[{'in_good': {'token_index': 0,



-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  The PBS show has more than two-dozen Emmy awards, and its run is shorter only than Sesame Street and Mister Rogers' Neighborhood.
Reference:  PBS शो कडे 2 डझनाहून अधिक एमी पारितोषिके आहेत आणि त्याची धाव फक्त सेसमी स्ट्रीट आणि मिस्टर रॉजर्स नेबरहूड पेक्षाच कमी आहे.
Good Translation:  पीबीएस शोमध्ये दोन डझनहून अधिक एम्मी पुरस्कार आहेत आणि त्याची रन फक्त सेसम स्ट्रीट आणि मिस्टर रॉजर्स नेबरहुडपेक्षा कमी आहे.
Incorrect Translation:  पीबीएस प्रदर्शनीमध्ये दोन दहा से अधिक एम्मी पुरस्कार आहेत, आणि त्याची प्रक्षेपण सिसाम स्ट्रीट आणि मिस्टर रॉजर्सच्या घरी तुलनेत कमी आहे.
Suggested annotation:
[{'in_good': {'token_index': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17], 'character_span': (7, 114), 'token': 'शोमध्ये दोन डझनहून अधिक एम्मी पुरस्कार आहेत आणि त्याची रन फक्त सेसम स्ट्रीट आणि मिस्टर रॉजर्स नेबरहुडपेक्षा'}, 'in_bad': {'token_index': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12,



-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  The Il-76 has been a major component of both the Russian and Soviet military since the 1970s, and had already seen a serious accident in Russia last month.
Reference:  सन १९७० पासून आयएल-७६ रशिया आणि सोव्हिएत लष्करातील महत्त्वाचा भाग आहे आणि गेल्याच महिन्यात त्याला रशियामध्ये भयंकर अपघात झाला होता.
Good Translation:  Il-76 हे 1970 च्या दशकापासून रशियन आणि सोव्हिएत सैन्याचा एक प्रमुख घटक आहे आणि गेल्या महिन्यात रशियामध्ये यापूर्वीच एक गंभीर अपघात झाला होता.
Incorrect Translation:  इल-76 १९७० पर्यंत रशियन आणि सोवियत सैन्याचे एक प्रमुख घटक आहे आणि गेल्या महिन्यात रशियात एक गंभीर दुर्घटना घडली आहे.
Suggested annotation:
[{'in_good': {'token_index': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22], 'character_span': (0, 140), 'token': 'Il-76 हे 1970 च्या दशकापासून रशियन आणि सोव्हिएत सैन्याचा एक प्रमुख घटक आहे आणि गेल्या महिन्यात रशियामध्ये यापूर्वीच एक 



-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  British newspaper The Guardian suggested Deutsche Bank controlled roughly a third of the 1200 shell companies used to accomplish this.
Reference:  ब्रिटीश वृत्तपत्र द गार्डियन यांनी सुचवले की हे पूर्ण करण्यासाठी उपयोगात आलेल्या 1200 शेल कंपन्यापैकी जवळपास एक तृतीयांश कंपन्या या डॉईश बँक नियंत्रित करते.
Good Translation:  ब्रिटीश वृत्तपत्र द गार्डियनने असे सुचवले आहे की हे पूर्ण करण्यासाठी वापरल्या जाणार्‍या 1200 शेल कंपन्यांपैकी सुमारे एक तृतीयांश ड्यूश बँकेचे नियंत्रण आहे.
Incorrect Translation:  ब्रिटिश अखबार गार्जियन म्हणाल्या की Deutsche Bankने 1200 शेल कंपन्यांचा जवळपास एक तिहादा नियंत्रण घेतला आहे.
Suggested annotation:
[{'in_good': {'token_index': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21], 'character_span': (0, 150), 'token': 'ब्रिटीश वृत्तपत्र द गार्डियनने असे सुचवले आहे की हे पूर्ण करण्यासाठी वापरल्या जाणार्\u200dया 1200 शेल कंपन्यांपैक



-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  In its most recent monthly report, OPEC said exports of crude had fallen to their lowest level for two decades at 2.8 million barrels per day.
Reference:  OPEC ने त्यांच्या अगदी अलीकडच्या मासिक अहवालात म्हटले आहे की कच्च्या तेलाची निर्यात 2 दशकांतील सर्वात कमी पातळीवर गेली असून दररोज 2.8 दशलक्ष बॅरल्सपर्यंत घसरली आली आहे.
Good Translation:  आपल्या सर्वात अलीकडील मासिक अहवालात, ओपेकने म्हटले आहे की क्रूडची निर्यात 2.8 दशलक्ष बॅरल प्रतिदिन या दोन दशकांतील सर्वात कमी पातळीवर गेली आहे.
Incorrect Translation:  आपल्या नवीनतम मासिक रिपोर्टमध्ये, ओपेक म्हणाले की, कच्चे माल निर्यात दोन दशकांपासून 2.8 मिलियन बॅरेल प्रति दिवस कमी झाले होते.
Suggested annotation:
[{'in_good': {'token_index': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22], 'character_span': (7, 142), 'token': 'सर्वात अलीकडील मासिक अहवालात, ओपेकने म्हटले आहे की क्रूडची निर्यात 2.8 दशलक्ष बॅरल प्र



-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  Moreover, top judge Evangelos Kalousis is imprisoned as he found guilty of corruption and degenerate behaviour.
Reference:  याउपर, सर्वोच्च न्यायाधीश एवनजेलॉस कलौसिस यांना अटक झाली कारण ते भ्रष्टाचार आणि भ्रष्ट वर्तनासाठी दोषी आढळले.
Good Translation:  शिवाय, सर्वोच्च न्यायाधीश इव्हान्जेलोस कालोसिस यांना भ्रष्टाचार आणि अधोगती वर्तनासाठी दोषी आढळल्याने तुरुंगात टाकले आहे.
Incorrect Translation:  तसेच, उच्च न्यायाधीश Evangelos Kalousis जबाबदारी आणि भ्रष्टाचार म्हणून दोषी पाहिले म्हणून जेल करण्यात आले आहे.
Suggested annotation:
[{'in_good': {'token_index': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13], 'character_span': (0, 115), 'token': 'शिवाय, सर्वोच्च न्यायाधीश इव्हान्जेलोस कालोसिस यांना भ्रष्टाचार आणि अधोगती वर्तनासाठी दोषी आढळल्याने तुरुंगात टाकले'}, 'in_bad': {'token_index': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14], 'character_span': (0, 105), 'token': 'तसेच, उच्च न्



-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  "Its second claw was larger, giving rise to the name Hesperonychus which means ""western claw."""
Reference:  "त्याच्या दुसर्‍या नख्या अधिक मोठ्या होत्या, त्यामुळे त्याला हेस्पेरोनिकस असे नाव दिले गेले ज्याचा अर्थ ""वेस्टर्न क्लॉ"" असा आहे. "
Good Translation:  "त्याचा दुसरा पंजा मोठा होता, ज्यामुळे हेस्परोनीचस नावाचा उदय झाला ज्याचा अर्थ ""पश्चिमी पंजा"" आहे."
Incorrect Translation:  त्याची दुसरी कालावधी मोठी होती, ज्यामुळे हेस्पेरेनियस (Hesperonychus) म्हणतात, याचा अर्थ ‘पश्चिमी कालावधी’ आहे.
Suggested annotation:
[{'in_good': {'token_index': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13], 'character_span': (1, 93), 'token': 'त्याचा दुसरा पंजा मोठा होता, ज्यामुळे हेस्परोनीचस नावाचा उदय झाला ज्याचा अर्थ ""पश्चिमी पंजा'}, 'in_bad': {'token_index': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], 'character_span': (0, 106), 'token': 'त्याची दुसरी कालावधी मोठी होती, ज्यामुळे हेस्पेरेनियस 



-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  The commissioner sets bail, if granted, and formalizes the charges filed by the arresting officer. The charges are then entered into the state's computer system where the case is tracked.
Reference:  मंजूर झाला तर आयुक्त जामीन निश्चित करतात आणि अटक करणाऱ्या अधिकाऱ्याने निश्चित केलेल्या आरोपांना औपचारीक केले जाते. त्यानंतर आरोप राज्याच्या संगणक प्रणालीमध्ये नोंदवले जातात तिथून खटल्याकडे लक्ष ठेवले जाते.
Good Translation:  जामीन मंजूर झाल्यास आयुक्त जामीन देतात आणि अटक करणार्‍या अधिकाऱ्याने दाखल केलेल्या आरोपांची औपचारिकता करतात. त्यानंतर शुल्क राज्याच्या संगणक प्रणालीमध्ये प्रविष्ट केले जाते जेथे प्रकरणाचा मागोवा घेतला जातो.
Incorrect Translation:  कमांडर, अनुमोदित असेल तर बायल देतो आणि गिरफ्तारी अधिकारी द्वारा दावे आकार देतो. दावे त्यानंतर राज्यच्या कंप्यूटर सिस्टममध्ये प्रवेश करतात, ज्यात हा मामला निगरानी करण्यात आला आहे.
Suggested annotation:
[{'in_good': {'token_index': [0, 1, 2



-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  As the cars ahead of Alonso went in for fuel under the safety car, he moved up the pack to take victory.
Reference:  अलोन्सोच्या पुढे असणाऱ्या कार इंधन भरण्यासाठी सेफ्टी कारच्या खाली जाताच, त्याने विजय मिळवण्यासाठी वेग घेतला.
Good Translation:  अलोन्सोच्या पुढच्या गाड्या सेफ्टी कारच्या खाली इंधनासाठी गेल्यामुळे, त्याने विजय मिळविण्यासाठी पॅक वर केला.
Incorrect Translation:  एलनॉसच्या उपर्युक्त वाहन सुरक्षित गाडीत ईंधनसाठी प्रवेश केल्यास, त्याने विजयासाठी पैकेज उघडले.
Suggested annotation:
[{'in_good': {'token_index': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13], 'character_span': (0, 106), 'token': 'अलोन्सोच्या पुढच्या गाड्या सेफ्टी कारच्या खाली इंधनासाठी गेल्यामुळे, त्याने विजय मिळविण्यासाठी पॅक वर केला'}, 'in_bad': {'token_index': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11], 'character_span': (0, 93), 'token': 'एलनॉसच्या उपर्युक्त वाहन सुरक्षित गाडीत ईंधनसाठी प्रवेश केल्यास, त्याने 



-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  Apple CEO Steve Jobs unveiled the device by walking onto the stage and taking the iPhone out of his jeans pocket.
Reference:  अॅपल सीईओ स्टीव जॉब्ज मंचावर चालत आले आणि आपल्या जिन्सच्या खिशातून आयफोन काढून त्याचे अनावरण केले.
Good Translation:  ऍपलचे सीईओ स्टीव्ह जॉब्स यांनी स्टेजवर चालत आणि जीन्सच्या खिशातून आयफोन काढून डिव्हाइसचे अनावरण केले.
Incorrect Translation:  एप्पलच्या सीईओ स्टीव जॉब्सने डिवाइसला प्रदर्शित केले आणि त्याचे आईफोन त्याच्या जॅकमध्ये बाहेर काढले.
Suggested annotation:
[{'in_good': {'token_index': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14], 'character_span': (0, 100), 'token': 'ऍपलचे सीईओ स्टीव्ह जॉब्स यांनी स्टेजवर चालत आणि जीन्सच्या खिशातून आयफोन काढून डिव्हाइसचे अनावरण केले'}, 'in_bad': {'token_index': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13], 'character_span': (0, 99), 'token': 'एप्पलच्या सीईओ स्टीव जॉब्सने डिवाइसला प्रदर्शित केले आणि त्याचे आईफ



-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  The two sides would meet in the major semi final where Noosa ran out winners by 11 points.
Reference:  2 संघांचा प्रमुख उपांत्य सामन्यात सामना होणार असून नुसा 11 गुणांनी बाद झाला आहे.
Good Translation:  दोन्ही बाजू प्रमुख उपांत्य फेरीत आमनेसामने होतील जिथे नूसा 11 गुणांनी विजेतेपदावर पोहोचला.
Incorrect Translation:  दोन्ही पक्ष एकमेव अर्धशतकमध्ये भेटेल, ज्यामध्ये नोओसाने विजेतांना 11 अंक काढले.
Suggested annotation:
[{'in_good': {'token_index': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12], 'character_span': (7, 89), 'token': 'बाजू प्रमुख उपांत्य फेरीत आमनेसामने होतील जिथे नूसा 11 गुणांनी विजेतेपदावर पोहोचला'}, 'in_bad': {'token_index': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 'character_span': (7, 78), 'token': 'पक्ष एकमेव अर्धशतकमध्ये भेटेल, ज्यामध्ये नोओसाने विजेतांना 11 अंक काढले'}}] 

To accept the suggested annotation click on enter. To skip this one enter skip. Otherwise enter anything el

 90%|███████████████████████████████████████████████████████████████████████████▊        | 130/144 [00:26<00:05,  2.53it/s]

-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  Piquet Jr. was sacked after the 2009 Hungarian Grand Prix.
Reference:  पीकेट जूनियरला 2009 हंगेरियन ग्रँड प्रिक्स नंतर काढून टाकण्यात आले होते.
Good Translation:  पिकेट ज्युनियरला 2009 हंगेरियन ग्रांप्री नंतर काढून टाकण्यात आले.
Incorrect Translation:  Piquet Jr. हा 2009 वंगरी ग्रॅंड प्रीमियमचा परिणाम झाला.
Suggested annotation:
[{'in_good': {'token_index': 0, 'character_span': (0, 5), 'token': 'पिकेट'}, 'in_bad': {'token_index': 0, 'character_span': (0, 6), 'token': 'piquet'}}, {'in_good': {'token_index': 1, 'character_span': (6, 16), 'token': 'ज्युनियरला'}, 'in_bad': {'token_index': 1, 'character_span': (7, 9), 'token': 'jr'}}, {'in_good': {'token_index': 2, 'character_span': (17, 21), 'token': '2009'}, 'in_bad': {'token_index': 2, 'character_span': (11, 13), 'token': 'हा'}}, {'in_good': {'token_index': 3, 'character_span': (22, 30), 'token': 'हंगेरियन'}, 'in_bad': {'token_index'



-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  The amount and thickness of the pack ice, according to Pittman, is the worst it has been for sealers in the past 15 years.
Reference:  गेल्या 15 वर्षांमध्ये, पिट्टमॅन नुसार घट्ट बर्फाचे प्रमाण आणि जाडी ही सिलर्स करिता अत्यंत वाईट आहे.
Good Translation:  पिटमॅनच्या मते, घट्ट बर्फाचे प्रमाण आणि जाडी ही सीलर्ससाठी गेल्या 15 वर्षांतील सर्वात वाईट आहे.
Incorrect Translation:  पॅक आइसक्रीमची मात्रा आणि मोटाई, पिटमैननुसार, गेल्या 15 वर्षात साजरांसाठी सर्वात खराब आहे.
Suggested annotation:
[{'in_good': {'token_index': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13], 'character_span': (0, 90), 'token': 'पिटमॅनच्या मते, घट्ट बर्फाचे प्रमाण आणि जाडी ही सीलर्ससाठी गेल्या 15 वर्षांतील सर्वात वाईट'}, 'in_bad': {'token_index': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11], 'character_span': (0, 85), 'token': 'पॅक आइसक्रीमची मात्रा आणि मोटाई, पिटमैननुसार, गेल्या 15 वर्षात साजरांसाठी सर्वात खराब'}}] 

To a



-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  Tenants at Lockwood Gardens believe that there may be another 40 families or more to face eviction, since they learned that OHA police are also investigating other public housing properties in Oakland that may be caught up in the housing scam.
Reference:  लॉकवुड गार्डनमधील भाडेकरूंचा असा विश्वास करतात की तेथे आणखी 40 किंवा त्याहून अधिक कुटुंबीयांना हद्दपारीला सामोरे जावे लागण्याची शक्यता आहे कारण त्यांना हे समजले की OHA पोलिस गृहनिर्माण घोटाळ्यात अडकलेल्या ओकलँडमधील अन्य सार्वजनिक गृहनिर्माण मालमत्तांचीही चौकशी करीत आहेत.
Good Translation:  लॉकवुड गार्डन्समधील भाडेकरूंचा असा विश्वास आहे की कदाचित आणखी 40 किंवा त्याहून अधिक कुटुंबांना बेदखल करण्याचा सामना करावा लागेल, कारण त्यांना समजले की OHA पोलीस ओकलँडमधील इतर सार्वजनिक गृहनिर्माण मालमत्तांची देखील चौकशी करत आहेत ज्या गृहनिर्माण घोटाळ्यात अडकल्या जाऊ शकतात.
Incorrect Translation:  लॉकवुड गॅर्डेन्सच्या मालकांनी माहीत आहे की इतर 40



-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  On September 24, 1759, Arthur Guinness signed a 9,000 year lease for the St James' Gate Brewery in Dublin, Ireland.
Reference:  २४ सप्टेंबर १७५९ रोजी, आर्थर गिनसने डब्लिन, आयर्लंडमधील सेंट जेम्सच्या गेट ब्रीवरीसाठी ९००० वर्षांच्या भाडेपट्टीवर सही केली.
Good Translation:  24 सप्टेंबर 1759 रोजी आर्थर गिनीजने डब्लिन, आयर्लंड येथील सेंट जेम्स गेट ब्रुअरीसाठी 9,000 वर्षांच्या भाडेपट्टीवर स्वाक्षरी केली.
Incorrect Translation:  24 सप्टेंबर 1759 मध्ये आर्थर गिनीसने आयर्लियाच्या डबलिनमध्ये सेंट जेम्स गेट पायरीसाठी 9,000 वर्षांची किराया लिहिली.
Suggested annotation:
[{'in_good': {'token_index': [3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17], 'character_span': (17, 128), 'token': 'रोजी आर्थर गिनीजने डब्लिन, आयर्लंड येथील सेंट जेम्स गेट ब्रुअरीसाठी 9,000 वर्षांच्या भाडेपट्टीवर स्वाक्षरी केली'}, 'in_bad': {'token_index': [3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15], 'character_span': (



-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  It is not known at this time what charges will be laid or what led authorities to the boy but juvenile proceedings have begun in federal court.
Reference:  आता यावेळी माहित नाही की कोणते आरोप लावले जातील किंवा मुलाला अधिकाऱ्यांनी काय केले परंतु फेडरल न्यायालयात किशोरवयीन प्रक्रिया सुरु झालेली आहे.
Good Translation:  या वेळी कोणते आरोप लावले जातील किंवा त्या मुलावर अधिकार्‍यांना काय नेले जाईल हे माहित नाही परंतु फेडरल कोर्टात किशोरवयीन कार्यवाही सुरू झाली आहे.
Incorrect Translation:  यावेळी कोणते आरोपी या अधिकारकर्त्यांनी मुलीला काय करावे हे अज्ञात आहे, परंतु फेडरल अदालतमध्ये मुलीची प्रक्रिया सुरू झाली आहे.
Suggested annotation:
[{'in_good': {'token_index': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20], 'character_span': (0, 130), 'token': 'या वेळी कोणते आरोप लावले जातील किंवा त्या मुलावर अधिकार्\u200dयांना काय नेले जाईल हे माहित नाही परंतु फेडरल कोर्टात



-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  News spread in the Red Lake community today as funerals for Jeff Weise and three of the nine victims were held that another student was arrested in connection with the school shootings of March 21.
Reference:  आज रेड लेक समाजात बातम्या पसरल्या आहेत की 21 मार्च रोजी झालेल्या शाळेच्या येथील गोळीबार प्रकरणी जेफ वेइस आणि नऊ जणांपैकी तीन जणांवर अंत्यसंस्कार करण्यात आले आहेत तसेच दुसर्‍या विद्यार्थ्याला अटक करण्यात आली आहे.
Good Translation:  आज रेड लेक समुदायात बातमी पसरली कारण जेफ वेईस यांच्या अंत्यसंस्कारासाठी आणि नऊपैकी तीन पीडितांना 21 मार्चच्या शाळेत झालेल्या गोळीबाराच्या संदर्भात आणखी एका विद्यार्थ्याला अटक करण्यात आली होती.
Incorrect Translation:  रेड लेक सामुदायिकमध्ये आज जेफ वेझे आणि नौ जणांच्या दफनाने तीन जणांना पकडले होते की, 21 मार्चच्या शाळेत शूटिंगच्या संदर्भात एक दुसरा विद्यार्थी पकडला गेला आहे.
Suggested annotation:
[{'in_good': {'token_index': [0, 1, 2, 3, 4, 5, 6, 7, 8

 96%|████████████████████████████████████████████████████████████████████████████████▌   | 138/144 [00:30<00:03,  1.92it/s]

-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  Iraq's Abu Ghraib prison has been set alight during a riot.
Reference:  इराकचा अबु घरेब तुरुंग एका दंगलीदरम्यान पेटवून देण्यात आला आहे.
Good Translation:  इराकच्या अबु घरेब तुरुंगमध्ये एक विद्रोह झाला आहे.
Incorrect Translation:  इराकच्या अब्दुल गुरायबच्या जेलमध्ये एक विद्रोह झाला आहे.
Suggested annotation:
[{'in_good': {'token_index': 1, 'character_span': (9, 12), 'token': 'अबु'}, 'in_bad': {'token_index': 1, 'character_span': (9, 15), 'token': 'अब्दुल'}}, {'in_good': {'token_index': 2, 'character_span': (13, 17), 'token': 'घरेब'}, 'in_bad': {'token_index': 2, 'character_span': (16, 26), 'token': 'गुरायबच्या'}}, {'in_good': {'token_index': 3, 'character_span': (18, 29), 'token': 'तुरुंगमध्ये'}, 'in_bad': {'token_index': 3, 'character_span': (27, 35), 'token': 'जेलमध्ये'}}] 

To accept the suggested annotation click on enter. To skip this one enter skip. Otherwise enter anything el



-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  In addition to the crushing ice, extreme weather conditions have been hampering rescue efforts.
Reference:  तुटणाऱ्या बर्फाखेरीज, वाईट हवामानाच्या स्थितीमुळे बचाव कार्यात अडथळा येत आहे.
Good Translation:  तुटणाऱ्या बर्फासकट, अत्यंत हवामानामुळे बचाव कार्यात अडथळे येत आहेत.
Incorrect Translation:  जहाज उघडल्यानंतर अत्याधुनिक जलवायु परिस्थितीने बचाव प्रयत्न अवरुद्ध केले आहे.
Suggested annotation:
[{'in_good': {'token_index': [0, 1, 2, 3, 4, 5, 6, 7, 8], 'character_span': (0, 66), 'token': 'तुटणाऱ्या बर्फासकट, अत्यंत हवामानामुळे बचाव कार्यात अडथळे येत आहेत'}, 'in_bad': {'token_index': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9], 'character_span': (0, 76), 'token': 'जहाज उघडल्यानंतर अत्याधुनिक जलवायु परिस्थितीने बचाव प्रयत्न अवरुद्ध केले आहे'}}] 

To accept the suggested annotation click on enter. To skip this one enter skip. Otherwise enter anything else:skip




-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  Today's Player of the Day is Alex Ovechkin of the Washington Capitals.
Reference:  आजचा 'प्लेअर ऑफ द डे' हा वॉशिंग्टन कॅपिटल्सचा अ‍ॅलेक्स ओवेचकिन आहे.
Good Translation:  आजचा दिवसातील सर्वोत्तम खेळाडू वॉशिंग्टन कॅपिटल्सचा अॅलेक्स ओवेचकिन आहे.
Incorrect Translation:  आजचा अभिनेता अलेक्स ओवेचकिन (Alex Ovechkin) आहे.
Suggested annotation:
[{'in_good': {'token_index': [1, 2, 3, 4, 5, 6, 7], 'character_span': (5, 67), 'token': 'दिवसातील सर्वोत्तम खेळाडू वॉशिंग्टन कॅपिटल्सचा अॅलेक्स ओवेचकिन'}, 'in_bad': {'token_index': [1, 2, 3, 4, 5], 'character_span': (5, 42), 'token': 'अभिनेता अलेक्स ओवेचकिन (Alex Ovechkin'}}] 

To accept the suggested annotation click on enter. To skip this one enter skip. Otherwise enter anything else:skip




-----> For this sample we compare the Incorrect translation with the Good translation.

Source sentence:  The aircraft had been headed to Irkutsk and was being operated by interior troops.
Reference:  विमान इर्कुत्स्कच्या दिशेने जात होते आणि अंतर्गत सैन्याकडून चालवले जात होते.
Good Translation:  हे विमान इर्कुत्स्ककडे निघाले होते आणि ते अंतर्गत सैन्याने चालवले होते.
Incorrect Translation:  विमान आयर्कुट्स्कमध्ये चालवले होते आणि आंतरिक सैन्यांनी ऑपरेशन केले होते.
Suggested annotation:
[{'in_good': {'token_index': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9], 'character_span': (0, 65), 'token': 'हे विमान इर्कुत्स्ककडे निघाले होते आणि ते अंतर्गत सैन्याने चालवले'}, 'in_bad': {'token_index': [0, 1, 2, 3, 4, 5, 6, 7, 8], 'character_span': (0, 67), 'token': 'विमान आयर्कुट्स्कमध्ये चालवले होते आणि आंतरिक सैन्यांनी ऑपरेशन केले'}}] 

To accept the suggested annotation click on enter. To skip this one enter skip. Otherwise enter anything else:skip


100%|████████████████████████████████████████████████████████████████████████████████████| 144/144 [00:32<00:00,  4.38it/s]


In [6]:
count = 0
for sample in dataset["train"]:
    if sample["phenomena"] in ["lexical-overlap", 'xnli-omission-neutral', 'xnli-omission-contradiction', 'xnli-addition-neutral', 'xnli-addition-contradiction']:
        count += 1

In [7]:
count

5000