# Importing Libraries

In [1]:
import os
import torch
import random
import collections
import transformers
import numpy as np
import pandas as pd
from tqdm.auto import tqdm
from datasets import ClassLabel, Sequence, Dataset
from IPython.display import display, HTML
from transformers import AutoTokenizer
from transformers import AutoModelForQuestionAnswering, TrainingArguments, Trainer
from transformers import default_data_collator

# Setting Model Based Parameters

In [2]:
squad_v2 = False
model_checkpoint_name = r'models\deepset\xlm-roberta-large-squad2'
batch_size = 4

# Loading Train, Test and Sample data

In [3]:
train = pd.read_csv(r'input\train.csv')
test = pd.read_csv(r'input\test.csv')
sample_submission = pd.read_csv(r'input\sample_submission.csv')

# Loading Additonal Datasets

In [4]:
mlqa_train = pd.read_csv(r'extra_datasets\mlqa_hindi.csv')
xquad_train = pd.read_csv(r'extra_datasets\xquad_hindi.csv')

# Data Exploration

In [5]:
train

Unnamed: 0,id,context,question,answer_text,answer_start,language
0,903deec17,ஒரு சாதாரண வளர்ந்த மனிதனுடைய எலும்புக்கூடு பின...,மனித உடலில் எத்தனை எலும்புகள் உள்ளன?,206,53,tamil
1,d9841668c,காளிதாசன் (தேவநாகரி: कालिदास) சமஸ்கிருத இலக்கி...,காளிதாசன் எங்கு பிறந்தார்?,காசுமீரில்,2358,tamil
2,29d154b56,சர் அலெக்ஸாண்டர் ஃபிளெமிங் (Sir Alexander Flem...,பென்சிலின் கண்டுபிடித்தவர் யார்?,சர் அலெக்ஸாண்டர் ஃபிளெமிங்,0,tamil
3,41660850a,"குழந்தையின் அழுகையை நிறுத்தவும், தூங்க வைக்கவ...",தமிழ்நாட்டில் குழந்தைகளை தூங்க வைக்க பாடும் பா...,தாலாட்டு,68,tamil
4,b29c82c22,சூரியக் குடும்பம் \nசூரியக் குடும்பம் (Solar S...,பூமியின் அருகில் உள்ள விண்மீன் எது?,சூரியனும்,585,tamil
...,...,...,...,...,...,...
1109,26f356026,स्वामी निगमानन्द परमहंस (18 अगस्त 1880 - 29 नव...,स्वामी निगमानन्द परमहंस के तन्त्र गुरु कौन थे?,बामाक्षेपा,2691,hindi
1110,31179f1bb,भरत मुनि ने नाट्यशास्त्र नामक प्रसिद्ध ग्रन्थ ...,नित्यशास्त्र किसने लिखा है?,भरत मुनि,0,hindi
1111,0d35dc007,अग्नि पंचम (अग्नि-५) भारत की अन्तरमहाद्वीपीय ब...,अग्नि पंचम(५) मिसाइल की लम्बाई कितने मीटर है?,17,155,hindi
1112,7f997884d,"जलाल उद्दीन मोहम्मद अकबर () (१५ अक्तूबर, १५४२-...",मुगल सम्राट अकबर की मृत्यु किस वर्ष में हुई थी?,"२७ अक्तूबर, १६०५",46,hindi


In [6]:
test

Unnamed: 0,id,context,question,language
0,22bff3dec,"ज्वाला गुट्टा (जन्म: 7 सितंबर 1983; वर्धा, महा...",ज्वाला गुट्टा की माँ का नाम क्या है,hindi
1,282758170,गूगल मानचित्र (Google Maps) (पूर्व में गूगल लो...,गूगल मैप्स कब लॉन्च किया गया था?,hindi
2,d60987e0e,गुस्ताव रॉबर्ट किरचॉफ़ (१२ मार्च १८२४ - १७ अक्...,गुस्ताव किरचॉफ का जन्म कब हुआ था?,hindi
3,f99c770dc,அலுமினியம் (ஆங்கிலம்: அலுமினியம்; வட அமெரிக்க ...,அலுமினியத்தின் அணு எண் என்ன?,tamil
4,40dec1964,"கூட்டுறவு இயக்க வரலாறு, இங்கிலாந்து நாட்டில் ...",இந்தியாவில் பசுமை புரட்சியின் தந்தை என்று கருத...,tamil


In [7]:
train.language.value_counts()

hindi    746
tamil    368
Name: language, dtype: int64

In [8]:
train.iloc[0].context

'ஒரு சாதாரண வளர்ந்த மனிதனுடைய எலும்புக்கூடு பின்வரும் 206 (மார்பெலும்பு மூன்று பகுதிகளாகக் கருதப்பட்டால் 208) எண்ணிக்கையான எலும்புகளைக் கொண்டிருக்கும். இந்த எண்ணிக்கை உடற்கூட்டியல் வேறுபாடுகளைப் பொறுத்து மாறுபடக்கூடும். எடுத்துக்காட்டாக, மிகக் குறைந்த எண்ணிக்கையான மனிதர்களில், ஒரு மேலதிக விலா எலும்பு (கழுத்துவில்) அல்லது ஒரு மேலதிகமான கீழ் முதுகெலும்பு காணப்படுவதுண்டு; இணைந்த சில எலும்புகளைத் தனி எலும்பாகக் கருதாவிடின், ஐந்து இணைந்த திருவெலும்பு; மூன்று (3 - 5) குயிலலகு எலும்புகள் சேர்ந்து 26 எண்ணிக்கையிலான முதுகெலும்புகள் 33 ஆகக் கருதப்படலாம்.\nமனித மண்டையோட்டில் 22 எலும்புகள் (காதுச் சிற்றென்புகளைத் தவிர) உள்ளன; இவை எட்டு மண்டையறை (cranium) எலும்புகளாகவும் 14 முக எலும்புகளாகவும் (facial bones) பிரிக்கப்பட்டுள்ளன. (தடித்த எண்கள் அருகிலுள்ள படத்தில் காணும் எண்களைக் குறிக்கின்றன.)\n\n\n\nமண்டையறை எலும்புகள் (8)\n 1 நுதலெலும்பு (frontal bone) \n 2 சுவரெலும்பு (parietal bone) (2)\n 3 கடைநுதலெலும்பு (temporal bone) (2)\n 4 பிடர் எலும்பு (occipital bone)\n ஆப்புரு எலும்பு (sphenoid bone)\n 

In [9]:
def show_random_elements(dataset, num_examples=5):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    df = pd.DataFrame(dataset.iloc[picks])
    dtypes = df.dtypes.to_dict()
    for column, typ in dtypes.items():
        if isinstance(typ, ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
        elif isinstance(typ, Sequence) and isinstance(typ.feature, ClassLabel):
            df[column] = df[column].transform(lambda x: [typ.feature.names[i] for i in x])
    display(HTML(df.to_html()))

In [10]:
show_random_elements(train)

Unnamed: 0,id,context,question,answer_text,answer_start,language
962,f59bde866,"Coordinates: \n\n\nअक्साई चिन या अक्सेचिन (उईग़ुर: ur, सरलीकृत चीनी: 阿克赛钦, आकेसैचिन) चीन, पाकिस्तान और भारत के संयोजन में तिब्बती पठार के उत्तरपश्चिम में स्थित एक विवादित क्षेत्र है। यह कुनलुन पर्वतों के ठीक नीचे स्थित है।[1] ऐतिहासिक रूप से अक्साई चिन भारत को रेशम मार्ग से जोड़ने का ज़रिया था और भारत और हज़ारों साल से मध्य एशिया के पूर्वी इलाकों (जिन्हें तुर्किस्तान भी कहा जाता है) और भारत के बीच संस्कृति, भाषा और व्यापार का रास्ता रहा है। भारत से तुर्किस्तान का व्यापार मार्ग लद्दाख़ और अक्साई चिन के रास्ते से होते हुए काश्गर शहर जाया करता था।[2] १९५० के दशक से यह क्षेत्र चीन क़ब्ज़े में है पर भारत इस पर अपना दावा जताता है और इसे जम्मू और कश्मीर राज्य का उत्तर पूर्वी हिस्सा मानता है। अक्साई चिन जम्मू और कश्मीर के कुल क्षेत्रफल के पांचवें भाग के बराबर है। चीन ने इसे प्रशासनिक रूप से शिनजियांग प्रांत के काश्गर विभाग के कार्गिलिक ज़िले का हिस्सा बनाया है।\n नाम की उत्पत्ति \n'अक्साई चिन' (ur) का नाम उईग़ुर भाषा से आया है, जो एक तुर्की भाषा है। उईग़ुर में 'अक़' (ur) का मतलब 'सफ़ेद' होता है[3] और 'साई' (ur) का अर्थ 'घाटी' या 'नदी की वादी' होता है।[4] उईग़ुर का एक और शब्द 'चोअल' () है, जिसका अर्थ है 'वीराना' या 'रेगिस्तान', जिसका पुरानी ख़ितानी भाषा में रूप 'चिन' () था।[5][6] 'अक्साई चिन' के नाम का अर्थ 'सफ़ेद पथरीली घाटी का रेगिस्तान' निकलता है।[7] चीन की सरकार इस क्षेत्र पर अधिकार जतलाने के लिए 'चिन' का मतलब 'चीन का सफ़ेद रेगिस्तान' निकालती है, लेकिन अन्य लोग इसपर विवाद रखते हैं।\n विवरण \nअक्साई चिन एक बहुत ऊंचाई (लगभग ५,००० मीटर) पर स्थित एक नमक का मरुस्थल है। इसका क्षेत्रफल ४२,६८५ किमी² (१६,४८१ वर्ग मील) के आसपास है। भौगोलिक दृष्टि से अक्साई चिन तिब्बती पठार का भाग है और इसे 'खारा मैदान' भी कहा जाता है। यह क्षेत्र लगभग निर्जन है और यहां पर स्थायी बस्तियां नहीं है। इस क्षेत्र में 'अक्साई चिन' (अक्सेचिन) नाम की झील और 'अक्साई चिन' नाम की नदी है। यहां वर्षा और हिमपात ना के बराबर होता है क्योंकि हिमालय और अन्य पर्वत भारतीय मानसूनी हवाओं को यहां आने से रोक देते हैं।\n भारत-चीन विवाद \nचीन ने जब १९५० के दशक में तिब्बत पर क़ब्ज़ा किया तो वहाँ कुछ क्षेत्रों में विद्रोह भड़के जिनसे चीन और तिब्बत के बीच के मार्ग के कट जाने का ख़तरा बना हुआ था। चीन ने उस समय शिंजियांग-तिब्बत राजमार्ग का निर्माण किया जो अक्साई चिन से निकलता है और चीन को पश्चिमी तिब्बत से संपर्क रखने का एक और ज़रिया देता है। भारत को जब यह ज्ञात हुए तो उसने अपने इलाक़े को वापस लेने का यत्न किया। यह १९६२ के भारत-चीन युद्ध का एक बड़ा कारण बना। वह रेखा जो भारतीय कश्मीर के क्षेत्रों को अक्साई चिन से अलग करती है 'वास्तविक नियंत्रण रेखा' के रूप में जानी जाती है। अक्साई चिन भारत और चीन के बीच चल रहे दो मुख्य सीमा विवाद में से एक है। चीन के साथ अन्य विवाद अरुणाचल प्रदेश से संबंधित है।\n इन्हें भी देखें \n शिंजियांग-तिब्बत राजमार्ग\n काश्गर विभाग\n बाहरी जोड़ \n , यूट्यूब विडियो\n , यूट्यूब विडियो\n (प्रवक्ता)\n\n\n\n सन्दर्भ \n\nश्रेणी:अक्साई चिन\nश्रेणी:स्वतंत्र भारत\nश्रेणी:जम्मू और कश्मीर का इतिहास\nश्रेणी:कश्मीर\nश्रेणी:ख़ोतान विभाग\nश्रेणी:शिंजियांग\nश्रेणी:चीन के क्षेत्रीय विवाद\nश्रेणी:भारत के क्षेत्रीय विवाद\nश्रेणी:भारत-चीन युद्ध\nश्रेणी:विवादित क्षेत्र\nश्रेणी:हिन्दी विकि डीवीडी परियोजना\nश्रेणी:हिन्दी विकि डीवीडी परियोजना परीक्षित लेख\nश्रेणी:भारत के पारंपरिक क्षेत्र",अक्साई चिन का क्षेत्रफल लगभग कितने किमी(स्क्वायर) है?,"४२,६८५",1492,hindi
483,ce689632e,"भौतिकी में वेग का अर्थ किसी दिशा में चाल होता है। यह एक सदिश राशि है। एक वस्तु का वेग अलग-अलग दिशाओं में अलग अलग हो सकता है। किसी वस्तु के स्थिति बदलने की दर को वेग कहते हैं। चाल यदि दिशा के साथ लिखी जाए तो वो वेग के तुल्य ही होती है, उदाहरण के लिए 60 किमी/घण्टा उत्तर की तरफ। वेग गतिकी का एक महत्वपूर्ण भाग है, जो यांत्रिकी की एक शाखा है जिसमे वस्तुओ के गति का अध्ययन किया जाता है।\nवेग एक सदिश भौतिक मात्रा है ; दोनों परिमाण और दिशा इसे परिभाषित करने के लिए आवश्यक हैं। वेग के अदिश निरपेक्ष मूल्य ( परिमाण ) चाल को SI ( मैट्रिक ) प्रणाली में मीटर प्रति सेकेण्ड (मी/से॰) में मापा जाता है। उदाहरण के लिए , ""5 मीटर प्रति सेकेण्ड"" एक अदिश है, जबकि ""5 मीटर प्रति सेकेण्ड पूर्वी दिशा में"" सदिश राशि है।\nचाल और वेग श्रेणी:शब्दार्थ\nश्रेणी:भौतिकी\nश्रेणी:गतिविज्ञान",वेग की SI इकाई क्या है?,मीटर प्रति सेकेण्ड,543,hindi
718,c1801d667,"ईरान (جمهوری اسلامی ايران, जम्हूरीए इस्लामीए ईरान) जंबुद्वीप (एशिया) के दक्षिण-पश्चिम खंड में स्थित देश है। इसे सन १९३५ तक फारस नाम से भी जाना जाता है। इसकी राजधानी तेहरान है और यह देश उत्तर-पूर्व में तुर्कमेनिस्तान, उत्तर में कैस्पियन सागर और अज़रबैजान, दक्षिण में फारस की खाड़ी, पश्चिम में इराक (कुर्दिस्तान क्षेत्र) और तुर्की, पूर्व में अफ़ग़ानिस्तान तथा पाकिस्तान से घिरा है। यहां का प्रमुख धर्म इस्लाम है तथा यह क्षेत्र शिया बहुल है।\nप्राचीन काल में यह बड़े साम्राज्यों की भूमि रह चुका है। ईरान को १९७९ में इस्लामिक गणराज्य घोषित किया गया था। यहाँ के प्रमुख शहर तेहरान, इस्फ़हान, तबरेज़, मशहद इत्यादि हैं। राजधानी तेहरान में देश की १५ प्रतिशत जनता वास करती है। ईरान की अर्थव्यवस्था मुख्यतः तेल और प्राकृतिक गैस निर्यात पर निर्भर है। फ़ारसी यहाँ की मुख्य भाषा है।\nईरान में फारसी, अजरबैजान, कुर्द (क़ुर्दिस्तान) और लूर सबसे महत्वपूर्ण जातीय समूह हैं\n नाम \nईरान का प्राचीन नाम फ़ारस था। इस नाम की उत्पत्ति के पीछे इसके साम्राज्य का इतिहास शामिल है। बेबीलोन के समय (4000-700 ईसापूर्व) तक पार्स प्रान्त इन साम्राज्यों के अधीन था। जब 550 ईस्वी में कुरोश ने पार्स की सत्ता स्थापित की तो उसके बाद मिस्र से लकर आधुनिक अफ़गानिस्तान तक और बुखारा से फारस की खाड़ी तक ये साम्राज्य फैल गया। इस साम्राज्य के तहत मिस्री, अरब, यूनानी, आर्य (ईरान), यहूदी तथा अन्य कई नस्ल के लोग थे। अगर सबों ने नहीं तो कम से कम यूनानियों ने इन्हें, इनकी राजधानी पार्स के नाम पर, पारसी कहना आरंभ किया। इसी के नाम पर इसे पारसी साम्राज्य कहा जाने लगा। यहाँ का समुदाय प्राचीन काल में हिन्दुओ की तरह सूर्य पूजक था यहाँ हवन भी हुआ करते थे लेकिन सातवीं सदी में जब इस्लाम आया तो अरबों का प्रभुत्व ईरानी क्षेत्र पर हो गया। अरबों की वर्णमाला में (प) उच्चारण नहीं होता है। उन्होंने इसे पारस के बदले फारस कहना चालू किया और भाषा पारसी के बदले फ़ारसी बन गई। यह नाम फ़ारसी भाषा के बोलने वालों के लिए प्रयोग किया जाता था।\nईरान (या एरान) शब्द आर्य मूल के लोगों के लिए प्रयुक्त शब्द एर्यनम से आया है, जिसका अर्थ है आर्यों की भूमि। हख़ामनी शासकों के समय भी आर्यम तथा एइरयम शब्दों का प्रयोग हुआ है। ईरानी स्रोतों में यह शब्द सबसे पहले अवेस्ता में मिलता है। अवेस्ता ईरान में आर्यों के आगमन (दूसरी सदी ईसापूर्व) के बाद लिखा गया ग्रंथ माना जाता है। इसमें आर्यों तथा अनार्यों के लिए कई छन्द लिखे हैं और इसकी पंक्तियाँ ऋग्वेद से मेल खाती है। लगभग इसी समय भारत में भी आर्यों का आगमन हुआ था। पार्थियन शासकों ने एरान तथा आर्यन दोनों शब्दों का प्रयोग किया है। बाहरी दुनिया के लिए १९३५ तक नाम फ़ारस था। सन् १९३५ में रज़ाशाह पहलवी के नवीनीकरण कार्यक्रमों के तहत देश का नाम बदलकर फ़ारस से ईरान कर दिया गया थ।\n भौगोलिक स्थिति और विभाग \nईरान को पारंपरिक रूप से मध्यपूर्व का अंग माना जाता है क्योंकि ऐतिहासिक रूप से यह मध्यपूर्व के अन्य देशों से जुड़ा रहा है। यह अरब सागर के उत्तर तथा कैस्पियन सागर के बीच स्थित है और इसका क्षेत्रफल 16,48,000 वर्ग किलोमीटर है जो भारत के कुल क्षेत्रफल का लगभग आधा है। इसकी कुल स्थलसीमा ५४४० किलोमीटर है और यह इराक(१४५८ कि॰मी॰), अर्मेनिया(३५), तुर्की(४९९), अज़रबैजान(४३२), अफग़ानिस्तान(९३६) तथा पाकिस्तान(९०९ कि॰मी॰) के बीच स्थित है। कैस्पियन सागर के इसकी सीमा सगभग ७४० किलोमीटर लम्बी है। क्षेत्रफल की दृष्टि से यह विश्व में १८वें नंबर पर आता है। यहाँ का भूतल मुख्यतः पठारी, पहाड़ी और मरुस्थलीय है। वार्षिक वर्षा २५ सेमी होती है।\nसमुद्र तल से तुलना करने पर ईरान का सबसे निचला स्थान उत्तर में कैस्पियन सागर का तट आता है जो २८ मीटर की उचाई पर स्थित है जबकि कूह-ए-दमवन्द जो कैस्पियन तट से सिर्फ ७० किलोमीटर दक्षिण में है, सबसे ऊँचा शिखर है। इसकी समुद्रतल से ऊँचाई ५,६१० मीटर है।\n\nईरान तीस प्रांतों में बंटा है। इनमें से मुख्य क्षेत्रों का विवरण इस प्रकार है -\n अर्दाबिल\n अज़रबाजान\n खोरासान\n गोलेस्तान\n फार्स\n हमादान\n इस्फ़हान*करमान\n क़ुज़ेस्तान\n तेहरान\n क़ुर्दिस्तान\n माज़न्दरान\n क़ोम\n यज़्द\n सिस्तान और बलुचिस्तान\n इतिहास \n\nमाना जाता है कि ईरान में पहले पुरापाषाणयुग कालीन लोग रहते थे। यहाँ पर मानव निवास एक लाख साल पुराना हो सकता है। लगभग 5000 ईसापूर्व से खेती आरंभ हो गई थी। मेसोपोटामिया की सभ्यता के स्थल के पूर्व में मानव बस्तियों के होने के प्रमाण मिले हैं। ईरानी लोग (आर्य) लगभग 2000 ईसापूर्व के आसपास उत्तर तथा पूरब की दिशा से आए। इन्होंने यहाँ के लोगों के साथ एक मिश्रित संस्कृति की आधारशिला रखी जिससे ईरान को उसकी पहचान मिली। आधिनुक ईरान इसी संस्कृति पर विकसित हुआ। ये यायावर लोग ईरानी भाषा बोलते थे और धीरे धीरे इन्होंने कृषि करना आरंभ किया।\nआर्यों का कई शाखाए ईरान (तथा अन्य देशों तथा क्षेत्रों) में आई। इनमें से कुछ मिदि, कुछ पार्थियन, कुछ फारसी, कुछ सोगदी तो कुछ अन्य नामों से जाने गए। मीदी तथा फारसियों का ज़िक्र असीरियाई स्रोतों में 836 ईसापूर्व के आसपास मिलता है। लगभग यही समय ज़रथुश्त्र (ज़रदोश्त या ज़ोरोएस्टर के नाम से भी प्रसिद्ध) का काल माना जाता है। हालांकि कई लोगों तथा ईरानी लोककथाओं के अनुसार ज़रदोश्त बस एक मिथक था कोई वास्तविक आदमी नहीं। पर चाहे जो हो उसी समय के आसपास उसके धर्म का प्रचार उस पूरे प्रदेश में हुआ।\nअसीरिया के शाह ने लगभग 720 ईसापूर्व के आसपास इज़रायल पर अधिपत्य जमा लिया। इसी समय कई यहूदियों को वहाँ से हटा कर मीदि प्रदेशों में लाकर बसाया गया। 530 ईसापूर्व के आसपास बेबीलोन फ़ारसी नियंत्रण में आ गया। उसी समय कई यहूदी वापस इसरायल लौट गए। इस दोरान जो यहूदी मीदी में रहे उनपर जरदोश्त के धर्म का बहुत असर पड़ा और इसके बाद यहूदी धर्म में काफ़ी परिवर्तन आया।\n हखामनी साम्राज्य \nइस समय तक फारस मीदि साम्राज्य का अंग और सहायक रहा था। लेकिन ईसापूर्व 549 के आसपास एक फारसी राजकुमार सायरस (आधुनिक फ़ारसी में कुरोश) ने मीदी के राजा के खिलाफ़ विद्रोह कर दिया। उसने मीदी राजा एस्टिएज़ को पदच्युत कर राजधानी एक्बताना (आधुनिक हमादान) पर नियंत्रण कर लिया। उसने फारस में हखामनी वंश की नींव रखी और मीदिया और फ़ारस के रिश्तों को पलट दिया। अब फ़ारस सत्ता का केन्द्र और मीदिया उसका सहायक बन गया। पर कुरोश यहाँ नहीं रुका। उसने लीडिया, एशिया माइनर (तुर्की) के प्रदेशों पर भी अधिकार कर लिया। उसका साम्राज्य तुर्की के पश्चिमी तट (जहाँ पर उसके दुश्मन ग्रीक थे) से लेकर अफ़गानिस्तान तक फैल गया था। उसके पुत्र कम्बोजिया (केम्बैसेस) ने साम्राज्य को मिस्र तक फैला दिया। इसके बाद कई विद्रोह हुए और फिर दारा प्रथम ने सत्ता पर कब्जा कर लिया। उसने धार्मिक सहिष्णुता का मार्ग अपनाया और यहूदियों को जेरुशलम लौटने और अपना मंदिर फ़िर से बनाने की इजाज़त दी। यूनानी इतिहासकार हेरोडोटस के अनुसार दारा ने युवाओं का समर्थन प्राप्त करने की पूरी कोशिश की। उसने सायरस या केम्बैसेस की तरह कोई खास सैनिक सफलता तो अर्जित नहीं की पर उसने ५१२ इसापूर्व के आसपास य़ूरोप में अपना सैन्य अभियान चलाया था। डेरियस के काल में कई सुधार हुए, जैसे उसने शाही सिक्का चलाया और शाहंशाह (राजाओं के राजा) की उपाधि धारण की। उसने अपनी प्रजा पर पारसी संस्कृति थोपने का प्रयास नहीं किया जो उसकी सहिष्णुता को दिखाता है। अपने विशालकाय साम्राज्य की महिमा के लिए दारुश ने पर्सेलोलिस (तख़्त-ए-जमशेद) का भी निर्माण करवाया।\nउसके बाद पुत्र खशायर्श (क्ज़ेरेक्सेस) शासक बना जिसे उसके ग्रीक अभियानों के लिए जाना जाता है। उसने एथेन्स तथा स्पार्टा के राजा को हराया पर बाद में उसे सलामिस के पास हार का मुँह देखना पड़ा, जिसके बाद उसकी सेना बिखर गई। क्ज़ेरेक्सेस के पुत्र अर्तेक्ज़ेरेक्सेस ने ४६५ ईसा पूर्व में गद्दी सम्हाली। उसके बाद के प्रमुश शासको में अर्तेक्ज़ेरेक्सेस द्वितीय, अर्तेक्ज़ेरेक्सेस तृतीय और उसके बाद दारा तृतीय का नाम आता है। दारा तृतीय के समय तक (३३६ ईसा पूर्व) फ़ारसी सेना काफ़ी संगठित हो गी थी।\n सिकन्दर \nइसी समय मेसीडोनिया में सिकन्दर का प्रभाव बढ़ रहा था। ३३४ ईसापूर्व में सिकन्दर ने एशिया माईनर (तुर्की के तटीय प्रदेश) पर धावा बोल दिया। दारा को भूमध्य सागर के तट पर इसुस में हार का मुँह देखना पड़ा। इसके बाद सिकंदर ने तीन बार दारा को हराया। सिकन्दर इसापूर्व ३३० में पर्सेपोलिस (तख़्त-ए-जमशेद) आया और उसके फतह के बाद उसने शहर को जला देने का आदेश दिया। सिकन्दर ने ३२६ इस्वी में भारत पर आक्रमण किया और फिर वो वापस लौट गया। ३२३ इसापूर्व के आसपास, बेबीलोन में उसकी मृत्यु हो गई। उसकी मृत्यु के बाद उसके जीते फारसी साम्राज्य को इसके सेनापतियों ने आपस में विभाजित कर लिया।\nसिकन्दर के सबसे काबिल सेनापतियों में से एक सेल्युकस का नियंत्रण मेसोपोटामिया तथा इरानी पठारी क्षेत्रों पर था। लेकिन इसी समय से उत्तर पूर्व में पार्थियों का विद्रोह आरंभ हो गया था। पार्थियनों ने हखामनी शासकों की भी नाक में दम कर रखा था। मित्राडेट्स ने ईसापूर्व १२३ से ईसापूर्व ८७ तक अपेक्षाकृत स्थायित्व से शासन किया। अगले कुछ सालों तक शासन की बागडोर तो पार्थियनों के हाथ ही रही पर उनका नेतृत्व और समस्त ईरानी क्षेत्रों पर उनकी पकड़ ढीली ही रही। \n सासानी \nपर दूसरी सदी के बाद से सासानी लोग, जो प्राचीन हख़ामनी वंश से अपने को जोड़ते थे और उन्हीं प्रदेश (आज का फ़ार्स प्रंत) से आए थे, की शक्ति में उत्तरोत्तर वृद्धि हुई। उन्होंने रोमन साम्राज्य को चुनौती दी और कई सालों तक उनपर आक्रमण करते रहे। सन् २४१ में शापुर ने रोमनों को मिसिको के युद्ध में हराया। २४४ इस्वी तक आर्मेनिया फारसी नियंत्रण में आ गया। इसके अलावा भी पार्थियनों ने रोमनों को कई जगहों पर परेशान किया। सन् २७३ में शापुर की मृत्यु हो गई। सन् २८३ में रोमनों ने फारसी क्षेत्रों पर फिर से आक्रमण कर दिया। इसके फलस्वरूप आर्मेनिया के दो भाग हो गए - रोमन नियंत्रण वाले और फारसी नियंत्रण वाले। शापुर के पुत्रों को और भी समझौते करने पड़े और कुछ और क्षेत्र रोमनों के नियंत्रण में चले गए। सन् ३१० में शापुर द्वितीय गद्दी पर युवावस्था में बैठा। उसने ३७९ इस्वी तक शासन किया। उसका शासन अपेक्षाकृत शांत रहा। उसने धार्मिक सहिष्णुता की नीति अपनाई। उसके उत्तराधिकारियों ने वही शांति पूर्ण विदेश नीति अपनाई पर उनमें सैन्य सबलता की कमी रही। आर्दशिर द्वितीय, शापुर तृतीय तथा बहराम चतुर्थ सभी संदेहजनक परिस्थितियों में मारे गए। उनके वारिस यज़्देगर्द ने रोमनों के साथ शाति बनाए रखा। उसके शासनकाल में रोमनों के साथ सम्बंध इतने शांतिपूर्ण हो गए कि पूर्वी रोमन साम्राज्य के शासक अर्केडियस ने यज़्देगर्द को अपने बेटे का अभिभावक बना दिया। उसके बाद बहरम पंचम शासक बना जो जंगली जानवरों के शिकार का शौकिन था। वो ४३८ इस्वी के आसपास एक जंगली खेल देखते वक्त लापता हो गया, जिसके बाद उसके बारे में कुछ पता नहीं चल सका।\nइसके बाद की अराजकता में कावद प्रथम ४८८ इस्वी में शासक बना। इसके बाद खुसरो (५३१-५७९), होरमुज़्द चतुर्थ (५७९-५८९), खुसरो द्वितीय (५९० - ६२७) तथा यज्देगर्द तृतीय का शासन आया। जब यज़्देगर्द ने सत्ता सम्हाली, तब वो केवल ८ साल का था। इसी समय अरब, मुहम्मद साहब के नेतृत्व में काफी शक्तिशाली हो गए थे। सन् ६३४ में उन्होंने ग़ज़ा के निकट बेजेन्टाइनों को एक निर्णायक युद्ध में हरा दिया। फारसी साम्राज्य पर भी उन्होंने आक्रमण किए थे पर वे उतने सफल नहीं रहे थे। सन् ६४१ में उन्होने हमादान के निकट यज़्देगर्द को हरा दिया जिसके बाद वो पूरब की तरफ सहायता याचना के लिए भागा पर उसकी मृत्यु मर्व में सन् ६५१ में उसके ही लोगों द्वारा हुई। इसके बाद अरबों का प्रभुत्व बढ़ता गया। उन्होंने ६५४ में खोरासान पर अधिकार कर लिया और ७०७ इस्वी तक बाल्ख़।\n शिया इस्लाम \n\nमुहम्मद साहब की मृत्यु के उपरांत उनके वारिस को ख़लीफा कहा जाता था, जो इस्लाम का प्रमुख माना जाता था। चौथे खलीफा (सुन्नी समुदाय के अनुसार) हज़रत अली (शिया समुदाय इन्हें पहला इमाम मानता है), मुहम्मद साहब के फरीक थे और उनकी पुत्री फ़ातिमा के पति। पर उनके खिलाफत को चुनौती दी गई और विद्रोह भी हुए। सन् ६६१ में अली की हत्या कर उन्हें शहीद कर दिया गया। इसके बाद उम्मयदों का प्रभुत्व इस्लाम पर हो गया। सन् ६८० में करबला में हजरत अली के दूसरे पुत्र इमाम हुसैन ने उम्मयदों के अधर्म की नीति का समर्थन करने से इनकार कर दिया। उन्होंने बयत नहीं की। जिसे तत्कालीन शासक ने बगावत का नाम देते हुये उनको एक युद्ध में कत्ल कर शहीद कर दिया। इसी दिन की याद में शिया मुसलमान गम में मुहर्रम मनाते हैं। इस समय तक इस्लाम दो खेमे में बट गया था - उम्मयदों का खेमा और अली के खेमा। जो उम्मयदों को इस्लाम के वास्तविक उत्तराधिकारी समझते थे, वे सुन्नी कहलाए और जो अली को वास्तविक खलीफा (वारिस) मानते थे वो शिया। सन् ७४० में उम्मयदों को तुर्कों से मुँह की खानी पड़ी। उसी साल एक फारसी परिवर्तित - अबू मुस्लिम - ने मुहम्मद साहब के वंश के नाम पर उम्मयदों के खिलाफ एक बड़ा जनमानस तैयार किया। उन्होंने सन् ७४९-५० के बीच उम्मयदों को हरा दिया और एक नया खलीफ़ा घोषित किया - अबुल अब्बास। अबुल अब्बास अली और हुसैन का वंशज तो नही पर मुहम्मद साहब के एक और फरीक का वंशज था। उससे अबु मुस्लिम की बढ़ती लोकप्रियता देखी नहीं गई और उसको ७५५ इस्वी में फाँसी पर लटका दिया। इस घटना को शिया इस्लाम में एक महत्वपूर्ण दिन माना जाता है क्योंकि एक बार फिर अली के समर्थकों को हाशिये पर ला खड़ा किया गया था। अबुल अब्बास के वंशजों ने कई सदियों तक राज किया। उसका वंश अब्बासी (अब्बासिद) वंश कहलाया और उन्होंने अपनी राजदानी बगदाद में स्थापित की। तेरहवी सदी में मंगोलों के आक्रमण के बाद बगदाद का पतन हो गया और ईरान में फिर से कुछ सालों के लिए राजनैतिक अराजकता छाई रही।\n सूफीवाद \nअब्बासिद काल में ईरान की प्रमुख घटनाओं में से एक थी सूफी आंदोलन का विकास। सूफी वे लोग थे जो धार्मिक कट्टरता के खिलाफ थे और सरल जीवन पसन्द करते थे। इस आंदोलन ने फ़ारसी भाषा में नामचीन कवियों को जन्म दिया। रुदाकी, फिरदौसी, उमर खय्याम, नासिर-ए-खुसरो, रुमी, इराकी, सादी, हफीज आदि उस काल के प्रसिद्ध कवि हुए। इस काल की फारसी कविता को कई जगहों पर विश्व की सबसे बेहतरीन काव्य कहा गया है। इनमें से कई कवि सूफी विचारदारा से ओतप्रोत थे और अब्बासी शासन के अलावा कईयों को मंगोलों का जुल्म भी सहना पड़ा था।\nपंद्रहवीं सदी में जब मंगोलों की शक्ति क्षीण होने लगी तब ईरान के उत्तर पश्चिम में तुर्क घुड़सवारों से लैश एक सेना का उदय हुआ। इसके मूल के बारे में मतभेद है पर उन्होंने सफावी वंश की स्थापना की। वे शिया बन गए और आने वाली कई सदियों तक उन्होंने इरानी भूभाग और फ़ारस के प्रभुत्व वाले इलाकों पर राज किया। इस समय शिया इस्लाम बहुत फला फूला। १७२० के अफगान और पूर्वी विद्रोहों के बाद धीरे-धीरे साफावियों का पतन हो गया। १७२९ में नादिर कोली ने अफ़गानों के प्रभुत्व को कम किया और शाह बन बैठा। वह एक बहुत बड़ा विजेता था और उसने भारत पर भी सन् १७३९ में आक्रमण किया और भारी मात्रा में धन सम्पदा लूटकर वापस आ गया। भारत से हासिल की गई चीज़ों में कोहिनूर हीरा भी शामिल था। पर उसके बाद क़जार वंश का शासन आया जिसके काल में यूरोपीय प्रभुत्व बढ़ गया। उत्तर से रूस, पश्चिम से फ्रांस तथा पूरब से ब्रिटेन की निगाहें फारस पर पड़ गईं। सन् १९०५-१९११ में यूरोपीय प्रभाव बढ़ जाने और शाह की निष्क्रियता के खिलाफ एक जनान्दोलन हुआ। ईरान के तेल क्षेत्रों को लेकर तनाव बना रहा। प्रथम विश्वयुद्ध में तुर्की के पराजित होने के बाद ईरान को भी उसका फल भुगतना पड़ा। 1930 और 40 के दशक में रज़ा शाह पहलवी ने सुधारों की पहल की। 1979 में इस्लामिक क्रांति हुई और ईरान एक इस्लामिक गणतंत्र घोषित कर दिया गया। इसके बाद अयातोल्ला ख़ुमैनी, जिन्हें शाह ने देश निकाला दे दिया था, ईरान के प्रथम राष्ट्रपति बने। इराक़ के साथ युद्ध होने से देश की स्थिति खराब हो गई।\n आधुनिकीकरण \nरजा शाह पहलवी ने 1930 के दशक में इरान का आधुनिकीकरण प्रारंभ किया। पर वो अपने प्रेरणस्रोत तुर्की के कमाल पाशा की तरह सफल नहीं रह सका। उसने शिक्षा के लिए अभूतपूर्व बंदोबस्त किए तथा सेना को सुगठित किया। उसने ईरान की संप्रभुता को बरकरार रखते हुए ब्रिटेन और रूस के संतुलित प्रभावों को बनाए रखने की कोशिख की पर द्वितीय विश्वयुद्ध के ठीक पहले जर्मनी के साथ उसके बढ़ते ताल्लुकात से ब्रिटेन और रूस को गंभीर चिंता हुई। दोनों देशों ने रज़ा पहलवी पर दबाब बनाया और बाद में उसे उपने बेटे मोहम्मद रज़ा के पक्ष में गद्दी छोड़नी पड़ी। मोहम्मद रज़ा के प्रधानमंत्री मोहम्मद मोसद्देक़ को भी इस्तीफ़ा देना पड़ा।\n ईरानी इस्लामिक क्रांति \nबीसवीं सदी के ईरान की सबसे महत्वपूर्ण घटना थी ईरान की इस्लामिक क्रांति। शहरों में तेल के पैसों की समृद्धि और गांवों में गरीबी; सत्तर के दशक का सूखा और शाह द्वारा यूरोपीय तथा बाकी देशों के प्रतिनिधियों को दिए गए भोज जिसमें अकूत पैसा खर्च किया गया था ने ईरान की गरीब जनता को शाह के खिलाफ़ भड़काया। इस्लाम में निहित समानता को अपना नारा बनाकर लोगों ने शाह के शासन का विरोध करना आरंभ किया। आधुनिकीकरण के पक्षधर शाह को गरीब लोग पश्चिमी देशों का पिट्ठू के रूप में देखने लगे। 1979 में अभूतपूर्व प्रदर्शन हुए जिसमें हिसंक प्रदर्शनों की संख्या बढ़ती गई। अमेरिकी दूतावास को घेर लिया गया और इसके कर्मचारियों को बंधक बना लिया गया। शाह के समर्थकों तथा संस्थानों में हिसक झड़पें हुईं और इसके फलस्वरूप 1989 में फलस्वरूप पहलवी वंश का पतन हो गया और ईरान एक इस्लामिक गणराज्य बना जिसका शीर्ष नेता एक धार्मिक मौलाना होता था। अयातोल्ला खोमैनी को शीर्ष नेता का पद मिला और ईरान ने इस्लामिक में अपनी स्थिति मजबूत की। उनका देहांत 1989 में हुआ। इसके बाद से ईरान में विदेशी प्रभुत्व लगभग समाप्त हो गया।\n जनवृत्त \nईरान में भिन्न-भिन्न जाति के लोग रहते हैं। यहाँ ७० प्रतिशत जनता हिन्द-आर्य जाति की है और हिन्द ईरानी भाषाएँ बोलती है। जातिगत आँकड़ो को देखें तो ५४ प्रतिशत फारसी, २४ प्रतिशत अज़री, मज़ंदरानी और गरकी ८ प्रतिशत, कुर्द ७ प्रतिशत, अरबी ३ प्रतिशत, बलोची, लूरी और तुर्कमेन २ प्रतिशत (प्रत्येक) तथा कई अन्य जातिय़ाँ शामिल हैं।\nसात करोड़ की जनसंख्या वाला ईरान विश्व में शरणागतों के सबसे बड़े देशों में से एक है, जहाँ इराक़ तथा अफ़गानिस्तान से कई शरणार्थियों ने अपने देशों में चल रहे युद्धों के कारण शरण ले रखी है।\n धर्म \nईरान का प्राचीन नाम पार्स (फ़ारस) था और पार्स के रहने वाले लोग पारसी कहलाए, जो ज़रथुस्त्र के अनुयायी थे और सूर्य व अग्नि पूजक थे। सातवीं शताब्दी में अरबों ने पार्स पर विजय पाई और वहाँ जबरन इस्लाम का प्रसार हुआ। वहां की जनता को जबर से इस्लाम में मिलाया जा रहा था इसलिए जो पारसी इस्लाम अपना गए वो आगे चलकर शिया मुस्लमान कहलाय व उत्पीड़न से बचने के लिए बहुत से पारसी भारत आ गए। वे अपना मूल धर्म (सूर्य पूजन) नहीं छोड़ना चाहते थे| आज भी दक्षिण एशियाई देश भारत में पारसी मंदिर देखने को मिलते हैं |\nइस्लाम में ईरान का एक विशेष स्थान है। सातवीं सदी से पहले यहाँ जरथुस्ट्र धर्म के अलावा कई और धर्मों तथा मतों के अनुयायी थे। अरबों द्वारा ईरान विजय (फ़ारस) के बाद यहाँ शिया इस्लाम का उदय हुआ। आज ईरान के अलावा भारत, दक्षिणी इराक, अफ़ग़ानिस्तान, अजरबैजान तथा पाकिस्तान में भी शिया मुस्लिमों की आबादी निवास करती है। लगभग सम्पूर्ण अरब, मिस्र, तुर्की, उत्तरी तथा पश्चिमी इराक, लेबनॉन को छोड़कर लगभग सम्पूर्ण मध्यपूर्व, अफगानिस्तान, पाकिस्तान, उज्बेकिस्तान, ताज़िकिस्तान तुर्केमेनिस्तान तथा भारतोत्तर पूर्वी एशिया के मुसलमान मुख्यतः सुन्नी हैं।\n अर्थव्यवस्था \nईरान की अर्थव्यवस्था तेल और प्राकृतिक गैस से संबंधित उद्योगों तथा कृषि पर आधारित है। सन् 2006 में ईरान के बज़ट का 45 प्रतिशत तेल तथा प्राकृतिक गैस से मिले रकम से आया और 31 प्रतिशत करों और चुंगियों से। ईरान के पास क़रीब 70 अरब अमेरिकी डॉलर रिज़र्व में है और इसकी सालाना सकल घरेलू उत्पाद 206 अरब अमेरिकी डॉलर थी। इसकी वार्षिक विकास दर 6 प्रतिशत है। संयुक्त राष्ट्र के मुताबिक़ ईरान एक अर्ध-विकसित अर्थव्यवस्था है। सेवाक्षेत्र का योगदान सकल घरेलू उत्पाद में सबसे ज्यादा है। देश के रोज़गार में 1.8 प्रतिशत रोजगार पर्यटन के क्षेत्र में है। वर्ष 2004 में ईरान में 16,59,000 पर्यटक आए थे। ईरान का पर्यटन से होने वाली आय वाले देशों की सूची में 89वाँ स्थान है पर इसका नाम सबसे ज्यादा पर्यटकों की दृष्टि से 10वें स्थान पर आता है।\nप्राकृतिक गैसों के रिज़र्व (भंडार) की दृष्टि से ईरान विश्व का सबसे बड़ा देश है। तेल उत्पादक देशों के संगठन ओपेक का दूसरा सबसे बड़ा निर्यातक देश है।ईरान (Listeni/ɪˈrɑːn /, भी/ɪˈræn /; [ 10] [11] फ़ारसी: ایران Irān [ʔiːˈɾɒːn] (के बारे में यह ध्वनि सुनो)), भी रूप में फारस [12] (ˈpɜːrʒə /), [13] ईरान के इस्लामी गणराज्य की आधिकारिक तौर पर जाना जाता (फारसी: جمهوری اسلامی ایران Jomhuri-तु Eslāmi-तु Irān (के बारे में यह ध्वनि सुनो)), [14] पश्चिमी एशिया में एक संप्रभु राज्य है। [15] [16] यह पश्चिमोत्तर आर्मेनिया, Artsakh के वास्तविक स्वतंत्र गणराज्य, अज़रबैजान और exclave Nakhchivan के द्वारा bordered है; कैस्पियन सागर से उत्तर करने के लिए; तुर्कमेनिस्तान ने पूर्वोत्तर के लिए; करने के लिए पूर्वी अफगानिस्तान और पाकिस्तान द्वारा; फारस की खाड़ी और ओमान की खाड़ी से दक्षिण करने के लिए; और तुर्की और इराक द्वारा पश्चिम। (मार्च 2017) के रूप में पर 79.92 लाख निवासियों के साथ, ईरान दुनिया के 18-सबसे-अधिक आबादी वाला देश है। [17] 1,648,195 km2 (636,372 वर्ग मील), का एक भूमि क्षेत्र शामिल हैं यह दूसरा सबसे बड़ा देश मध्य पूर्व में और 18 वीं दुनिया में सबसे बड़ा है। यह दोनों एक कैस्पियन सागर और हिंद महासागर तट से केवल देश है। मध्य देश की महान geostrategic महत्व के यूरेशिया और पश्चिमी एशिया, और होर्मुज के लिए अपनी निकटता में स्थान बनाते। [18] तेहरान देश की राजधानी और सबसे बड़ा शहर है, साथ ही इसके प्रमुख आर्थिक और सांस्कृतिक केंद्र है।\nईरान है दुनिया की सबसे पुरानी सभ्यताओं, [19] [20] 4 सहस्राब्दी ई. पू. में Elamite राज्यों के गठन के साथ शुरुआत के एक घर। यह पहले ईरानी मीदि साम्राज्य द्वारा 7 वीं सदी ईसा पूर्व में, [21] एकीकृत और हख़ामनी साम्राज्य महान सिंधु घाटी करने के लिए, दुनिया के सबसे बड़े साम्राज्य बनने पूर्वी यूरोप से खींच 6 वीं सदी ई. पू., में अभी तक देखा था साइरस द्वारा की स्थापना के दौरान इसकी सबसे बड़ी सीमा तक पहुँच गया था। [22] ईरानी दायरे के लिए अलेक्जेंडर महान 4 शताब्दी ईसा पूर्व में गिर गया, लेकिन अंतिम ससानी साम्राज्य, जो अगले चार सदियों के लिए एक अग्रणी विश्व शक्ति बन गया के बाद साम्राज्य के रूप में कुछ ही समय बाद reemerged. [23] [24]\nअरब मुसलमानों साम्राज्य 7 शताब्दी ईसा में, मोटे तौर पर स्वदेशी धर्मों के पारसी धर्म और इस्लाम के साथ मानी थापन पर विजय प्राप्त की। कला और विज्ञान में कई प्रभावशाली आंकड़े उत्पादन ईरान इस्लामी स्वर्ण युग और उसके बाद, करने के लिए प्रमुख योगदान दिया। दो शताब्दियों के बाद, विभिन्न देशी मुस्लिम राजवंशों की अवधि, जो बाद में तुर्कों और मंगोलों द्वारा विजय प्राप्त थे शुरू कर दिया। 15 वीं सदी में Safavids के उदय का एक एकीकृत ईरानी राज्य और जो शिया इस्लाम, ईरानी और मुस्लिम इतिहास में एक मोड़ चिह्नित करने के लिए देश के रूपांतरण के बाद राष्ट्रीय पहचान, [4] के reestablishment करने के लिए नेतृत्व किया। [5] [25] द्वारा 18 वीं सदी, नादिर शाह, के तहत ईरान संक्षेप में क्या यकीनन उस समय सबसे शक्तिशाली साम्राज्य था पास। [26] 19 वीं सदी में रूसी साम्राज्य के साथ विरोध करता महत्वपूर्ण क्षेत्रीय नुकसान के लिए नेतृत्व किया। [27] [28] लोकप्रिय अशांति में संवैधानिक क्रांति 1906, जो एक संवैधानिक राजशाही और देश का पहला विधानमंडल की स्थापना का समापन हुआ। यूनाइटेड किंगडम और संयुक्त राज्य अमेरिका में 1953, ईरान द्वारा धीरे-धीरे उकसाया एक तख्तापलट के बाद पश्चिमी देशों के साथ बारीकी से गठबंधन बन गया, और तेजी से निरंकुश हो गया। [29] विदेशी प्रभाव और राजनीतिक दमन एक धर्म द्वारा 1979 क्रांति, जो संसदीय लोकतंत्र के तत्व भी शामिल है जो एक राजनीतिक प्रणाली संचालित और निगरानी की एक इस्लामी गणराज्य, [30] की स्थापना के बाद के नेतृत्व के खिलाफ असंतोष बढ़ रहा एक निरंकुश 'सर्वोच्च नेता' नियंत्रित होता। [31] के अनुसार अंतरराष्ट्रीय पर्यवेक्षकों, वर्तमान ईरानी सरकार के साथ मानवाधिकार हनन आम दमनकारी है। [32]\nईरान संयुक्त राष्ट्र, पर्यावरण, NAM, ओ, और ओपेक के एक संस्थापक सदस्य है। यह एक प्रमुख क्षेत्रीय और मध्य शक्ति, [33] [34] है और जीवाश्म ईंधन, जो दुनिया का सबसे बड़ा प्राकृतिक गैस की आपूर्ति और चौथा सबसे बड़ा तेल सिद्ध शामिल हैं-के अपने बड़े भंडार सुरक्षित रखता है [35] [36]-अंतरराष्ट्रीय ऊर्जा सुरक्षा और विश्व अर्थव्यवस्था में काफी प्रभाव डालती।\nदेश की समृद्ध सांस्कृतिक विरासत भाग में अपने 21 यूनेस्को विश्व धरोहर, दुनिया में तीसरी सबसे बड़ी संख्या एशिया में और 11 वीं सबसे बड़ी द्वारा परिलक्षित होता है। [37] ईरान कई जातीय और भाषाई समूहों, सबसे बड़ा होने के नाते फारसियों (61 प्रतिशत), जिसमें एक बहुसांस्कृतिक देश है Azeris (16 %), कुर्द (10 %), और Lurs (6 %). [ 36]\nसामग्री [छुपाने के]\n1 नाम\n2 इतिहास\n2.1 प्रागितिहास\n2.2 शास्त्रीय पुरातनता\n2.3 मध्ययुगीन काल\n2.4 प्रारंभिक आधुनिक काल\n1940 के दशक के लिए 1800 से 2.5\n2.6 समकालीन युग\n3 भूगोल\n3.1 जलवायु\n3.2 जीव\n3.3 क्षेत्र, प्रांत और शहर\n4 सरकार और राजनीति\n4.1 नेता\n4.2 राष्ट्रपति\n4.3 इस्लामी परामर्शक सभा (संसद)\n4.4 कानून\n4.5 विदेश संबंध\n4.6 सेना\n5 अर्थव्यवस्था\n5.1 पर्यटन\n5.2 ऊर्जा\n6 शिक्षा, विज्ञान और प्रौद्योगिकी\n7 जनसांख्यिकी\n7.1 भाषाएँ\n7.2 जातीय समूह\n7.3 धर्म\n8 संस्कृति\n8.1 कला\n8.2 वास्तुकला\n8.3 साहित्य\n8.4 दर्शन\n8.5 पौराणिक कथाओं\n8.6 पालन\n8.7 संगीत\n8.8 थियेटर\n8.9 सिनेमा और एनिमेशन\n8.10 मीडिया\n8.11 खेल\n8.12 भोजन\n9 यह भी देखें\n10 नोट्स\n11 संदर्भ\n12 ग्रंथ सूची\n13 बाह्य लिंक\nनाम\nमुख्य लेख: ईरान का नाम\nशब्द ईरान निकला\n यह भी देखिए \n पारस\n पह्लव\n पारद\n ईरानी चित्रकला\n पारसी\n wikt:ईरान (विक्षनरी)\n बाहरी कड़ियां \n असग़र वजाहत\n\n\nश्रेणी:इस्लामी गणराज्य\nश्रेणी:एशिया के देश\nश्रेणी:ईरान\nश्रेणी:पश्चिमी एशिया",ईरान की राजधानी क्या है?,तेहरान,165,hindi
539,51650c875,"डाइनामाइट (English: Dynamite) एक प्रमुख विस्फोटक है। इसका आविष्कार अल्फ्रेड नोबेल ने किया था।\n रासायनिक संरचना \nडायनामाइट के निर्माण में नाइट्रोग्लिसरीन प्रयुक्त होता है। नाइट्रोग्लिसरीन आवश्यकता से अधिक सुग्राही होता है। इसकी सुग्राहिता को कम करने के लिए कीज़लगर का उपयोग होता है। अमरीका में कीज़लगर के स्थान में काठ चूरा, या काठ समिता और सोडियम नाइट्रेट का उपयोग होता है। डायनामाइट में नाइट्रोग्लिसरीन की मात्रा 20, 40, या 60 75 प्रति शत रहती है। इसकी प्रबलता नाइट्रोग्लिसरीन की मात्रा पर निर्भर करती है। 75 प्रतिशत नाइट्रोग्लिसरीन वाला डायनामाइट प्रबलतम होता है। कीज़लगर, या काष्ठचूर्ण, या समिता के प्रयोग का उद्देश्य डायनामाइट का संरक्षण होता है, ताकि यातायात में वह विस्फुटित न हो जाए। नाइट्रोग्लिसरीन 13 डिग्री सें. पर जम जाता है। जम जाने पर यह विस्फुटित नहीं होता। अत: ठंढी जलवायु में जमकर वह निकम्मा न हो जाए, इससे बचाने के लिए उसमें 20 भाग ग्लिसरीन डाइनाइट्रोमोनोक्लो-रहाइड्रिन मिलाया जाता है। यह जमावरोधीकारक का काम करता है। इसससे नाइट्रोग्लिसरीन -30 डिग्री सें. तक द्रव रहता है। नाइट्रोग्लिसरीन के स्थान में नाइट्रोग्लाइकोल का उपयोग अब होने लगा है।\n इन्हें भी देखें \n अल्फ्रेड नोबेल\n नोबेल पुरस्कार\n बाहरी कड़ियाँ \n\nश्रेणी:विस्फोटक",डायनामाइट के आविष्कारक का नाम हैं ?,अल्फ्रेड नोबेल,67,hindi
570,22c8593ec,श्रीगुप्त (शासनकाल 240 – 280 ई)[1] गुप्त साम्राज्य का संस्थापक राजा था।\nश्रीगुप्त को प्रभावती गुप्ता के पूना ताम्रफलक में आदिराज और उसके प्रपौत्र समुद्रगुप्त को प्रयाग प्रशस्ति में महाराज कहा गया है। विद्वानों ने उसका समय प्राय: २६० और ३०० ई. के बीच निश्चित किया है। ७वीं सदी के अंमिम चरण में भारत आए चीनी यात्री इत्सिंग ने चि-लि-कि-तो (श्रीगुप्त) नामक एक शासक की चर्चा की है जो ५०० वर्ष पहले नालन्दा से लगभग ४० योजन पूर्व दिशा में शासन करता था।\nजिसने चीनी तीर्थयात्रियो के लिये मृगशिखा वन में एक बौद्ध मंदिर का निर्माण कराकर उसके व्यय हेतु २४ गाँव दान मे दिये थे ।\nसन्दर्भ\nश्रेणी:गुप्त राजवंश,गुप्त राजवंश का संस्थापक कौन थे?,श्रीगुप्त,0,hindi


# Extending train dataset with extra datasets

In [11]:
external_train = pd.concat([mlqa_train, xquad_train])
external_train['id'] = list(np.arange(1, len(external_train)+1))
train = pd.concat([train, external_train]).reset_index(drop=True)

In [12]:
train

Unnamed: 0,id,context,question,answer_text,answer_start,language
0,903deec17,ஒரு சாதாரண வளர்ந்த மனிதனுடைய எலும்புக்கூடு பின...,மனித உடலில் எத்தனை எலும்புகள் உள்ளன?,206,53,tamil
1,d9841668c,காளிதாசன் (தேவநாகரி: कालिदास) சமஸ்கிருத இலக்கி...,காளிதாசன் எங்கு பிறந்தார்?,காசுமீரில்,2358,tamil
2,29d154b56,சர் அலெக்ஸாண்டர் ஃபிளெமிங் (Sir Alexander Flem...,பென்சிலின் கண்டுபிடித்தவர் யார்?,சர் அலெக்ஸாண்டர் ஃபிளெமிங்,0,tamil
3,41660850a,"குழந்தையின் அழுகையை நிறுத்தவும், தூங்க வைக்கவ...",தமிழ்நாட்டில் குழந்தைகளை தூங்க வைக்க பாடும் பா...,தாலாட்டு,68,tamil
4,b29c82c22,சூரியக் குடும்பம் \nசூரியக் குடும்பம் (Solar S...,பூமியின் அருகில் உள்ள விண்மீன் எது?,சூரியனும்,585,tamil
...,...,...,...,...,...,...
7724,6611,विद्युत आवेश के परिवर्तन की समय दर के रूप में ...,इलेक्ट्रोस्टैटिक और चुंबकीय बल के योग के रूप क...,इलेक्ट्रोस्टैटिक बल,328,hindi
7725,6612,उस आयतन के लिए प्रासंगिक क्रॉस-सेक्शनल क्षेत्र...,संरचनाओं में तनाव का कारण क्या बनता है?,तनाव टेंसर,343,hindi
7726,6613,उस आयतन के लिए प्रासंगिक क्रॉस-सेक्शनल क्षेत्र...,किसी वस्तु के आयतन में क्रॉस सेक्शन क्षेत्र की...,दबाव की शर्तें,118,hindi
7727,6614,उस आयतन के लिए प्रासंगिक क्रॉस-सेक्शनल क्षेत्र...,सामान्य ताकतों से क्या जुड़ा है?,दबाव की शर्तें,118,hindi


# Preparing the Tokenization Pipeline

Before we can feed those texts to our model, we need to preprocess them. This is done by a 🤗 Transformers Tokenizer which will (as the name indicates) tokenize the inputs (including converting the tokens to their corresponding IDs in the pretrained vocabulary) and put it in a format the model expects, as well as generate the other inputs that model requires.

To do all of this, we instantiate our tokenizer with the AutoTokenizer.from_pretrained method, which will ensure:

we get a tokenizer that corresponds to the model architecture we want to use,
we download the vocabulary used when pretraining this specific checkpoint.

In [13]:
model_checkpoint_name

'models\\deepset\\xlm-roberta-large-squad2'

In [14]:
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint_name)

In [15]:
assert isinstance(tokenizer, transformers.PreTrainedTokenizerFast)

In [16]:
tokenizer("What is your name?", "My name is Sylvain.")

{'input_ids': [0, 4865, 83, 935, 9351, 32, 2, 2, 2646, 9351, 83, 100973, 21845, 5, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

Now one specific thing for the preprocessing in question answering is how to deal with very long documents. We usually truncate them in other tasks, when they are longer than the model maximum sentence length, but here, removing part of the the context might result in losing the answer we are looking for. To deal with this, we will allow one (long) example in our dataset to give several input features, each of length shorter than the maximum length of the model (or the one we set as a hyper-parameter). Also, just in case the answer lies at the point we split a long context, we allow some overlap between the features we generate controlled by the hyper-parameter doc_stride:

In [17]:
max_length = 384 # The maximum length of a feature (question and context)
doc_stride = 128 # The authorized overlap between two part of the context when splitting it is needed.

In [18]:
for row_index, row_data in train.iterrows():
    if len(tokenizer(row_data["question"], row_data["context"]) ["input_ids"]) > 384:
        break
example = train.loc[row_index]
print(example)

print('\n'+str(len(tokenizer(example["question"], example["context"])["input_ids"])))

print('\n'+str(len(tokenizer(example["question"], example["context"], max_length=max_length, truncation="only_second")["input_ids"])))

Token indices sequence length is longer than the specified maximum sequence length for this model (1504 > 512). Running this sequence through the model will result in indexing errors


id                                                      903deec17
context         ஒரு சாதாரண வளர்ந்த மனிதனுடைய எலும்புக்கூடு பின...
question                     மனித உடலில் எத்தனை எலும்புகள் உள்ளன?
answer_text                                                   206
answer_start                                                   53
language                                                    tamil
Name: 0, dtype: object

1504

384


## Lets Put everything in a single python function

In [19]:
pad_on_right = tokenizer.padding_side == "right"

def prepare_train_features(examples):
    # Some of the questions have lots of whitespace on the left, which is not useful and will make the
    # truncation of the context fail (the tokenized question will take a lots of space). So we remove that
    # left whitespace
    examples["question"] = [q.lstrip() for q in examples["question"]]

    # Tokenize our examples with truncation and padding, but keep the overflows using a stride. This results
    # in one example possible giving several features when a context is long, each of those features having a
    # context that overlaps a bit the context of the previous feature.
    tokenized_examples = tokenizer(
        examples["question" if pad_on_right else "context"],
        examples["context" if pad_on_right else "question"],
        truncation="only_second" if pad_on_right else "only_first",
        max_length=max_length,
        stride=doc_stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    # Since one example might give us several features if it has a long context, we need a map from a feature to
    # its corresponding example. This key gives us just that.
    sample_mapping = tokenized_examples.pop("overflow_to_sample_mapping")
    # The offset mappings will give us a map from token to character position in the original context. This will
    # help us compute the start_positions and end_positions.
    offset_mapping = tokenized_examples.pop("offset_mapping")

    # Let's label those examples!
    tokenized_examples["start_positions"] = []
    tokenized_examples["end_positions"] = []

    for i, offsets in enumerate(offset_mapping):
        # We will label impossible answers with the index of the CLS token.
        input_ids = tokenized_examples["input_ids"][i]
        cls_index = input_ids.index(tokenizer.cls_token_id)

        # Grab the sequence corresponding to that example (to know what is the context and what is the question).
        sequence_ids = tokenized_examples.sequence_ids(i)

        # One example can give several spans, this is the index of the example containing this span of text.
        sample_index = sample_mapping[i]
        answers = examples["answers"][sample_index]
        # If no answers are given, set the cls_index as answer.
        if len(answers["answer_start"]) == 0:
            tokenized_examples["start_positions"].append(cls_index)
            tokenized_examples["end_positions"].append(cls_index)
        else:
            # Start/end character index of the answer in the text.
            start_char = answers["answer_start"][0]
            end_char = start_char + len(answers["text"][0])

            # Start token index of the current span in the text.
            token_start_index = 0
            while sequence_ids[token_start_index] != (1 if pad_on_right else 0):
                token_start_index += 1

            # End token index of the current span in the text.
            token_end_index = len(input_ids) - 1
            while sequence_ids[token_end_index] != (1 if pad_on_right else 0):
                token_end_index -= 1

            # Detect if the answer is out of the span (in which case this feature is labeled with the CLS index).
            if not (offsets[token_start_index][0] <= start_char and offsets[token_end_index][1] >= end_char):
                tokenized_examples["start_positions"].append(cls_index)
                tokenized_examples["end_positions"].append(cls_index)
            else:
                # Otherwise move the token_start_index and token_end_index to the two ends of the answer.
                # Note: we could go after the last offset if the answer is the last word (edge case).
                while token_start_index < len(offsets) and offsets[token_start_index][0] <= start_char:
                    token_start_index += 1
                tokenized_examples["start_positions"].append(token_start_index - 1)
                while offsets[token_end_index][1] >= end_char:
                    token_end_index -= 1
                tokenized_examples["end_positions"].append(token_end_index + 1)

    return tokenized_examples

## Preprocessing the train data to tokenize them
1. Creating a unique answer column
2. Splitting train data by 95 % to be used for training and remaining 5 % to be utlized for validation

In [20]:
def preprocess_answers(answer_info):
    ans_start_index = answer_info[0]
    ans_text = answer_info[1]
    return {
        'answer_start': [int(ans_start_index)],
        'text': [ans_text]
    }

In [21]:
train = train.sample(frac=1, random_state=42)
train['answers'] = train[['answer_start', 'answer_text']].apply(preprocess_answers, axis=1)

In [22]:
train

Unnamed: 0,id,context,question,answer_text,answer_start,language,answers
2178,1065,वेब ट्रैफिक का विश्लेषण वेब सर्वर लॉग फाइल में...,किसी वेबसाइट पर मौजूद ट्रैफिक को आप किस प्रकार...,वेब सर्वर लॉग फाइल में पाए जाने वाले ट्रैफिक आ...,24,hindi,"{'answer_start': [24], 'text': ['वेब सर्वर लॉग..."
4051,2938,टारपीडो नाव विध्वंसक का विकास भी ड्रेडनॉट के स...,युद्धप्रेमियों के लिए समकालीन रूप से किस का वि...,विध्वंसक,12,hindi,"{'answer_start': [12], 'text': ['विध्वंसक']}"
7615,6502,एक और प्रकार की समिति आम तौर पर स्कॉटिश संसद क...,एडिनबर्ग ट्राम नेटवर्क के विकास पर किस प्रकार ...,निजी बिल,358,hindi,"{'answer_start': [358], 'text': ['निजी बिल']}"
263,e944bda7b,மதுரை (ஆங்கிலம்:\nMadurai) இந்தியாவின் தமிழ்நா...,தமிழ்நாடு மாநிலத்தில் உள்ள மதுரை மாவட்டத்தின் ...,147.99 கி.மீ,3175,tamil,"{'answer_start': [3175], 'text': ['147.99 கி.ம..."
4239,3126,1834 में द्विधातु पर आधारित मिस्री मुद्रा जारी...,पियास्त्रे को कितने पैरा में विभाजित किया गया था?,40,274,hindi,"{'answer_start': [274], 'text': ['40']}"
...,...,...,...,...,...,...,...
5226,4113,"पीटरसन सांता बारबरा, कैलिफोर्निया में बड़े हुए...",कैलिफ़ोर्निया विश्वविद्यालय कैंपस में पीटरसन क...,यूनिक्स और वी एम एस,649,hindi,"{'answer_start': [649], 'text': ['यूनिक्स और व..."
5390,4277,पाकिस्तान तहरीक-ए-इंसाफ पार्टी के नेता और प्रा...,एक सहायक प्रोफेसर द्वारा विश्वविद्यालय में अपन...,30,73,hindi,"{'answer_start': [73], 'text': ['30']}"
860,632812604,संयुक्त राष्ट्र संगठन का मुख्यालय [[[अमेरिका]]...,संयुक्त राष्ट्र का मुख्यालय कहाँ पर है?,न्युयॉर्क,50,hindi,"{'answer_start': [50], 'text': ['न्युयॉर्क']}"
7603,6490,"स्कॉटलैंड अधिनियम 1978 की शर्तों के तहत, एडिनब...",जनमत संग्रह पर इसके लिए स्कॉटिश मतदाताओं में स...,बहुमत,127,hindi,"{'answer_start': [127], 'text': ['बहुमत']}"


In [23]:
train.columns

Index(['id', 'context', 'question', 'answer_text', 'answer_start', 'language',
       'answers'],
      dtype='object')

In [24]:
for col_name in train.columns:
    if col_name in ['id', 'context', 'question', 'answer_text', 'language']:
        train[col_name] = train[col_name].astype(str)
    elif col_name in ['answer_start']:
        train[col_name] = train[col_name].astype('int64')
    print(train[col_name].dtype)

object
object
object
object
int64
object
object


In [25]:
df_train = train[:-386].reset_index(drop=True)
df_valid = train[-386:].reset_index(drop=True)

In [26]:
train_dataset = Dataset.from_pandas(df_train)
valid_dataset = Dataset.from_pandas(df_valid)

In [27]:
train_dataset

Dataset({
    features: ['id', 'context', 'question', 'answer_text', 'answer_start', 'language', 'answers'],
    num_rows: 7343
})

In [28]:
valid_dataset

Dataset({
    features: ['id', 'context', 'question', 'answer_text', 'answer_start', 'language', 'answers'],
    num_rows: 386
})

In [29]:
tokenized_train_dataset = train_dataset.map(prepare_train_features, batched=True, remove_columns=train_dataset.column_names)
tokenized_valid_dataset = valid_dataset.map(prepare_train_features, batched=True, remove_columns=train_dataset.column_names)

100%|██████████| 8/8 [00:21<00:00,  2.74s/ba]
100%|██████████| 1/1 [00:00<00:00,  1.07ba/s]


# Fine Tuning the Model


Now that our data is ready for training, we can download the pretrained model and fine-tune it. Since our task is question answering, we use the AutoModelForQuestionAnswering class. Like with the tokenizer, the from_pretrained method will download and cache the model for us:

In [30]:
model = AutoModelForQuestionAnswering.from_pretrained(model_checkpoint_name)

To instantiate a Trainer, we will need to define three more things. The most important is the TrainingArguments, which is a class that contains all the attributes to customize the training. It requires one folder name, which will be used to save the checkpoints of the model, and all other arguments are optional:

In [31]:
%env WANDB_DISABLED=True

env: WANDB_DISABLED=True


In [32]:
model_name = model_checkpoint_name.split("/")[-1]
args = TrainingArguments(
    f"output\chaii-qa-xlmroberta-mlqa-xquad",
    evaluation_strategy = "epoch",
    save_strategy = "epoch",
    learning_rate = 1.5e-5,
    per_device_train_batch_size = batch_size,
    per_device_eval_batch_size = batch_size,
    warmup_ratio = 0.1,
    gradient_accumulation_steps = 8,
    num_train_epochs = 1,
    weight_decay = 0.01
)

Using the `WAND_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).


We will need a data collator that will batch our processed examples together, here the default one will work

In [33]:
data_collator = default_data_collator

We just need to pass all of this along with our datasets to the Trainer

In [34]:
trainer = Trainer(
    model,
    args,
    train_dataset=tokenized_train_dataset,
    eval_dataset=tokenized_valid_dataset,
    data_collator=data_collator,
    tokenizer=tokenizer,
)

Run Fine tuning now

In [None]:
trainer.train()

In [None]:
os.makedirs(r'output\trained_models')
trainer.save_model(r"output\trained_models\chaii-qa-xlmroberta-mlqa-xquad-trained")

# Model Evaluation

Evaluating our model will require a bit more work, as we will need to map the predictions of our model back to parts of the context. The model itself predicts logits for the start and en position of our answers: if we take a batch from our validation datalaoder, here is the output our model gives us:

In [None]:
for batch in trainer.get_eval_dataloader():
    break
batch = {k: v.to(trainer.args.device) for k, v in batch.items()}
with torch.no_grad():
    output = trainer.model(**batch)
output.keys()

The output of the model is a dict-like object that contains the loss (since we provided labels), the start and end logits. We won't need the loss for our predictions, let's have a look a the logits:

In [None]:
output.start_logits.shape, output.end_logits.shape

In [None]:
def prepare_validation_features(examples):
    # Some of the questions have lots of whitespace on the left, which is not useful and will make the
    # truncation of the context fail (the tokenized question will take a lots of space). So we remove that
    # left whitespace
    examples["question"] = [q.lstrip() for q in examples["question"]]

    # Tokenize our examples with truncation and maybe padding, but keep the overflows using a stride. This results
    # in one example possible giving several features when a context is long, each of those features having a
    # context that overlaps a bit the context of the previous feature.
    tokenized_examples = tokenizer(
        examples["question" if pad_on_right else "context"],
        examples["context" if pad_on_right else "question"],
        truncation="only_second" if pad_on_right else "only_first",
        max_length=max_length,
        stride=doc_stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    # Since one example might give us several features if it has a long context, we need a map from a feature to
    # its corresponding example. This key gives us just that.
    sample_mapping = tokenized_examples.pop("overflow_to_sample_mapping")

    # We keep the example_id that gave us this feature and we will store the offset mappings.
    tokenized_examples["example_id"] = []

    for i in range(len(tokenized_examples["input_ids"])):
        # Grab the sequence corresponding to that example (to know what is the context and what is the question).
        sequence_ids = tokenized_examples.sequence_ids(i)
        context_index = 1 if pad_on_right else 0

        # One example can give several spans, this is the index of the example containing this span of text.
        sample_index = sample_mapping[i]
        tokenized_examples["example_id"].append(examples["id"][sample_index])

        # Set to None the offset_mapping that are not part of the context so it's easy to determine if a token
        # position is part of the context or not.
        tokenized_examples["offset_mapping"][i] = [
            (o if sequence_ids[k] == context_index else None)
            for k, o in enumerate(tokenized_examples["offset_mapping"][i])
        ]

    return tokenized_examples


In [None]:
validation_features = valid_dataset.map(
    prepare_validation_features,
    batched=True,
    remove_columns=valid_dataset.column_names
)

In [None]:
valid_feats_small = validation_features.map(lambda example: example, remove_columns=['example_id', 'offset_mapping'])
valid_feats_small

In [None]:
raw_predictions = trainer.predict(valid_feats_small)

For all features, we will need a map between examples and their corresponding features. Also, since one example can give several features, we will need to gather together all the answers in all the features generated by a given example, then pick the best one. The following code builds a map from example index to its corresponding features indices

In [None]:
examples = valid_dataset
features = validation_features

example_id_to_index = {k: i for i, k in enumerate(examples["id"])}
features_per_example = collections.defaultdict(list)
for i, feature in enumerate(features):
    features_per_example[example_id_to_index[feature["example_id"]]].append(i)

We're almost ready for our post-processing function. The last bit to deal with is the impossible answer (when squad_v2 = True). The code above only keeps answers that are inside the context, we need to also grab the score for the impossible answer (which has start and end indices corresponding to the index of the CLS token). When one example gives several features, we have to predict the impossible answer when all the features give a high score to the impossible answer (since one feature could predict the impossible answer just because the answer isn't in the part of the context it has access too), which is why the score of the impossible answer for one example is the minimum of the scores for the impossible answer in each feature generated by the example.

We then predict the impossible answer when that score is greater than the score of the best non-impossible answer. All combined together, this gives us this post-processing function

In [None]:
def postprocess_qa_predictions(examples, features, raw_predictions, n_best_size = 20, max_answer_length = 30):
    all_start_logits, all_end_logits = raw_predictions
    # Build a map example to its corresponding features.
    example_id_to_index = {k: i for i, k in enumerate(examples["id"])}
    features_per_example = collections.defaultdict(list)
    for i, feature in enumerate(features):
        features_per_example[example_id_to_index[feature["example_id"]]].append(i)

    # The dictionaries we have to fill.
    predictions = collections.OrderedDict()

    # Logging.
    print(f"Post-processing {len(examples)} example predictions split into {len(features)} features.")

    # Let's loop over all the examples!
    for example_index, example in enumerate(tqdm(examples)):
        # Those are the indices of the features associated to the current example.
        feature_indices = features_per_example[example_index]

        min_null_score = None # Only used if squad_v2 is True.
        valid_answers = []
        
        context = example["context"]
        # Looping through all the features associated to the current example.
        for feature_index in feature_indices:
            # We grab the predictions of the model for this feature.
            start_logits = all_start_logits[feature_index]
            end_logits = all_end_logits[feature_index]
            # This is what will allow us to map some the positions in our logits to span of texts in the original
            # context.
            offset_mapping = features[feature_index]["offset_mapping"]

            # Update minimum null prediction.
            cls_index = features[feature_index]["input_ids"].index(tokenizer.cls_token_id)
            feature_null_score = start_logits[cls_index] + end_logits[cls_index]
            if min_null_score is None or min_null_score < feature_null_score:
                min_null_score = feature_null_score

            # Go through all possibilities for the `n_best_size` greater start and end logits.
            start_indexes = np.argsort(start_logits)[-1 : -n_best_size - 1 : -1].tolist()
            end_indexes = np.argsort(end_logits)[-1 : -n_best_size - 1 : -1].tolist()
            for start_index in start_indexes:
                for end_index in end_indexes:
                    # Don't consider out-of-scope answers, either because the indices are out of bounds or correspond
                    # to part of the input_ids that are not in the context.
                    if (
                        start_index >= len(offset_mapping)
                        or end_index >= len(offset_mapping)
                        or offset_mapping[start_index] is None
                        or offset_mapping[end_index] is None
                    ):
                        continue
                    # Don't consider answers with a length that is either < 0 or > max_answer_length.
                    if end_index < start_index or end_index - start_index + 1 > max_answer_length:
                        continue

                    start_char = offset_mapping[start_index][0]
                    end_char = offset_mapping[end_index][1]
                    valid_answers.append(
                        {
                            "score": start_logits[start_index] + end_logits[end_index],
                            "text": context[start_char: end_char]
                        }
                    )
        
        if len(valid_answers) > 0:
            best_answer = sorted(valid_answers, key=lambda x: x["score"], reverse=True)[0]
        else:
            # In the very rare edge case we have not a single non-null prediction, we create a fake prediction to avoid
            # failure.
            best_answer = {"text": "", "score": 0.0}
        
        # Let's pick our final answer: the best one or the null answer (only for squad_v2)
        if not squad_v2:
            predictions[example["id"]] = best_answer["text"]
        else:
            answer = best_answer["text"] if best_answer["score"] > min_null_score else ""
            predictions[example["id"]] = answer

    return predictions

In [None]:
final_predictions = postprocess_qa_predictions(valid_dataset, validation_features, raw_predictions.predictions)

In [None]:
references = [{"id": ex["id"], "answer": ex["answers"]['text'][0]} for ex in valid_dataset]

In [None]:
def jaccard(row): 
    str1 = row[0]
    str2 = row[1]
    a = set(str1.lower().split()) 
    b = set(str2.lower().split())
    c = a.intersection(b)
    return float(len(c)) / (len(a) + len(b) - len(c))

In [None]:
res = pd.DataFrame(references)
res['prediction'] = res['id'].apply(lambda r: final_predictions[r])
res['jaccard'] = res[['answer', 'prediction']].apply(jaccard, axis=1)
res

In [None]:
res.jaccard.mean()

# Test Predictions

In [None]:
test_dataset = Dataset.from_pandas(test)

In [None]:
test_features = test_dataset.map(
    prepare_validation_features,
    batched=True,
    remove_columns=test_dataset.column_names
)

In [None]:
test_feats_small = test_features.map(lambda example: example, remove_columns=['example_id', 'offset_mapping'])
test_feats_small

In [None]:
test_predictions = trainer.predict(test_feats_small)

In [None]:
test_features.set_format(type=test_features.format["type"], columns=list(test_features.features.keys()))

In [None]:
final_test_predictions = postprocess_qa_predictions(test_dataset, test_features, test_predictions.predictions)

In [None]:
final_test_predictions

In [None]:
sample_submission

In [None]:
sub =  sample_submission.copy()
sub['PredictionString'] = sub['id'].apply(lambda r: final_test_predictions[r])
sub.head()

In [None]:
sub.to_csv('submission.csv', index=False)