# XNLI Data Exporation and Preprocessing

In [1]:
import pandas as pd

In [2]:
df_dev = pd.read_csv("./data/XNLI-1.0/xnli.dev.tsv", sep="\t")
df_dev = df_dev[["language", "gold_label", "sentence1", "sentence2"]]
df_dev

Unnamed: 0,language,gold_label,sentence1,sentence2
0,ar,neutral,وقال، ماما، لقد عدت للمنزل.,اتصل بأمه حالما أوصلته حافلة المدرسية.
1,ar,contradiction,وقال، ماما، لقد عدت للمنزل.,لم ينطق ببنت شفة.
2,ar,entailment,وقال، ماما، لقد عدت للمنزل.,أخبر أمه أنه قد عاد للمنزل.
3,ar,neutral,لم أعرف من أجل ماذا أنا ذاهب أو أي شىْ ، لذلك ...,لم أذهب إلى واشنطن من قبل، لذا عندما تم تكليفي...
4,ar,contradiction,لم أعرف من أجل ماذا أنا ذاهب أو أي شىْ ، لذلك ...,لقد عرفت بالضبط ما الذي احتجت أن أفعله عندما م...
...,...,...,...,...
37345,zh,neutral,Feisty就像fizzle一样，开始于中古英语的fysten，比如fisten `to f...,Fiesty已经面世100年了。
37346,zh,contradiction,Feisty就像fizzle一样，开始于中古英语的fysten，比如fisten `to f...,Fiesty与fisten无关。
37347,zh,neutral,虽然陈述更好，但答案给出了完成的心理图景。,声明给出了更多细节。
37348,zh,contradiction,虽然陈述更好，但答案给出了完成的心理图景。,声明未必更好。


In [3]:
df_test = pd.read_csv("./data/XNLI-1.0/xnli.test.tsv", sep="\t")
df_test = df_test[["language", "gold_label", "sentence1", "sentence2"]]
df_test

Unnamed: 0,language,gold_label,sentence1,sentence2
0,ar,contradiction,حسنا ، لم أكن أفكر حتى حول ذلك ، لكن كنت محبطا...,لم أتحدث معه مرة أخرى.
1,ar,entailment,حسنا ، لم أكن أفكر حتى حول ذلك ، لكن كنت محبطا...,كنت مستاء جدا لدرجة أنني بدأت بالحديث معه مرة ...
2,ar,neutral,حسنا ، لم أكن أفكر حتى حول ذلك ، لكن كنت محبطا...,دار بيننا حديث رائع.
3,ar,neutral,واعتقدت أن ذلك شرف لي ، ولا يزال ، ولايزال ، ك...,لم أكن على علم بأنني لم أكن الشخص الوحيد الذي ...
4,ar,entailment,واعتقدت أن ذلك شرف لي ، ولا يزال ، ولايزال ، ك...,كان لدي إنطباع أنني كنت الشخص الوحيد الذي لديه...
...,...,...,...,...
75145,zh,entailment,戴维森不应该用“scone”的发音来和“bone”押韵 - 无论如何不是因为维多利亚，而是他...,戴维森不应该以骨头和烤饼听起来一样的方式说话。
75146,zh,contradiction,戴维森不应该用“scone”的发音来和“bone”押韵 - 无论如何不是因为维多利亚，而是他...,"如果戴维森押韵饼和骨头的话, 那就更好了。"
75147,zh,neutral,20万字的小说平均每8000字25美元。,价值25美元的20万字小说价格合理。
75148,zh,contradiction,20万字的小说平均每8000字25美元。,"25美元的20万字的小说就是每美元4,000字。"


In [4]:
df_dev["language"].value_counts(dropna=True)

ar    2490
tr    2490
zh    2490
fr    2490
es    2490
vi    2490
en    2490
bg    2490
ru    2490
sw    2490
hi    2490
el    2490
th    2490
ur    2490
de    2490
Name: language, dtype: int64

In [5]:
df_test["language"].value_counts(dropna=True)

ar    5010
tr    5010
fr    5010
es    5010
en    5010
bg    5010
hi    5010
el    5010
zh    5010
vi    5010
ru    5010
sw    5010
th    5010
ur    5010
de    5010
Name: language, dtype: int64

In [6]:
df_dev["gold_label"].value_counts(dropna=True)

contradiction    12450
entailment       12450
neutral          12450
Name: gold_label, dtype: int64

In [7]:
df_test["gold_label"].value_counts(dropna=True)

entailment       25050
contradiction    25050
neutral          25050
Name: gold_label, dtype: int64

In [8]:
df_dev_de = df_dev[df_dev['language'] == "de"]
assert len(df_dev_de) == 2490
df_test_de = df_test[df_test['language'] == "de"]
assert len(df_test_de) == 5010


In [9]:
df_dev_en = df_dev[df_dev['language'] == "en"]
assert len(df_dev_en) == 2490
df_test_en = df_test[df_test['language'] == "en"]
assert len(df_test_en) == 5010


In [10]:
df_all_de = pd.concat([df_test_de, df_dev_de], ignore_index=True)
assert len(df_all_de) == 2490 + 5010

In [11]:
df_all_en = pd.concat([df_test_en, df_dev_en], ignore_index=True)
assert len(df_all_en) == 2490 + 5010

In [12]:
df_all_de["gold_label"].value_counts(dropna=True)


entailment       2500
neutral          2500
contradiction    2500
Name: gold_label, dtype: int64

In [13]:
df_all_en["gold_label"].value_counts(dropna=True)


entailment       2500
neutral          2500
contradiction    2500
Name: gold_label, dtype: int64

In [14]:
df_all_de.to_csv("./data/xnli-1.0-all-de.csv", index=False)


In [15]:
df_all_en.to_csv("./data/xnli-1.0-all-en.csv", index=False)
