# Installation

In [1]:
import pandas as pd
train = pd.read_csv('train.csv', encoding='utf-8')
test = pd.read_csv('test.csv')

print(train.shape)
print(test.shape)

(9368, 3)
(2342, 4)


In [2]:
train.head(7)

Unnamed: 0,hadith_text,subtext,Named_entity
0,حدثنا محمد بن المثنى ، حدثنا إسحاق بن يوسف ، ح...,الظهر,0
1,حدثنا أبو اليمان ، أخبرنا شعيب ، عن الزهري ، ق...,والمروة,1
2,حدثنا عبد الله بن عبد الوهاب ، حدثنا خالد بن ا...,عشاء,0
3,حدثنا موسى بن إسماعيل ، حدثنا جرير بن حازم ، ح...,الربا,2
4,حدثنا عبد الله بن يوسف ، أخبرنا مالك ، عن إسحا...,مالك,3
5,حدثنا محمد بن المثنى ، حدثنا خالد بن الحارث ، ...,محمد بن المثنى,3
6,حدثنا عبدان ، قال أخبرني أبي ، عن شعبة ، عن قت...,يزيد بن زريع,3


In [3]:
train.dropna(inplace=True)

In [4]:
test.head(7)

Unnamed: 0,IDs,hadith_text,subtext,Named_entity
0,0,حدثنا خلاد بن يحيى ، حدثنا نافع بن عمر ، عن اب...,نافع بن عمر,
1,1,حدثنا عمر بن حفص ، حدثنا أبي ، حدثنا الأعمش ، ...,صفية,
2,2,حدثنا الصلت بن محمد ، حدثنا عبد الواحد ، حدثنا...,ابن عباس,
3,3,حدثنا عبد الله بن يوسف ، أخبرنا مالك ، عن نافع...,نافع,
4,4,حدثني عبد الله بن محمد ، حدثنا إسحاق الأزرق ، ...,الظهر,
5,5,حدثنا حفص بن عمر ، حدثنا شعبة ، قال أخبرني عبد...,قزعة,
6,6,حدثنا مسدد ، حدثنا يزيد بن زريع ، قال حدثني ال...,أبي عثمان,


In [5]:
test.dropna(inplace=True)

In [6]:
tags = pd.read_csv('tags.csv')
print(tags.shape)
tags.head()

(17, 3)


Unnamed: 0,Name_entity,Meaning,label
0,plc,Names of places,1
1,rawy,Narrator,3
2,Crime,List of Crimes,2
3,Hell,Hell,11
4,Time,Time,0


In [7]:
len(tags.label)

17

# Prepare the data

In [8]:
import numpy as np
from camel_tools.utils.normalize import normalize_teh_marbuta_ar, normalize_alef_ar
import re

In [9]:
sample = train['hadith_text'][0]
sample

'حدثنا محمد بن المثنى ، حدثنا إسحاق بن يوسف ، حدثنا سفيان الثوري ، عن عبد العزيز بن رفيع ، قال سألت أنس بن مالك ، أخبرني بشيء عقلته، عن النبي صلى الله عليه وسلم، أين صلى الظهر يوم التروية؟، قال بمنى ، قلت فأين صلى العصر يوم النفر؟، قال بالأبطح ، افعل كما يفعل أمراؤك'

In [10]:
normalize_teh_marbuta_ar(sample)

'حدثنا محمد بن المثنى ، حدثنا إسحاق بن يوسف ، حدثنا سفيان الثوري ، عن عبد العزيز بن رفيع ، قال سألت أنس بن مالك ، أخبرني بشيء عقلته، عن النبي صلى الله عليه وسلم، أين صلى الظهر يوم الترويه؟، قال بمنى ، قلت فأين صلى العصر يوم النفر؟، قال بالأبطح ، افعل كما يفعل أمراؤك'

In [11]:
normalize_alef_ar(sample)

'حدثنا محمد بن المثنى ، حدثنا اسحاق بن يوسف ، حدثنا سفيان الثوري ، عن عبد العزيز بن رفيع ، قال سالت انس بن مالك ، اخبرني بشيء عقلته، عن النبي صلى الله عليه وسلم، اين صلى الظهر يوم التروية؟، قال بمنى ، قلت فاين صلى العصر يوم النفر؟، قال بالابطح ، افعل كما يفعل امراؤك'

In [12]:
normalized_train = pd.DataFrame()
normalized_train['normalized_text'] = train['hadith_text'].apply(normalize_teh_marbuta_ar).apply(normalize_alef_ar)
normalized_train['normalized_subtext'] = train['subtext'].apply(normalize_teh_marbuta_ar).apply(normalize_alef_ar)
normalized_train['Named_entity'] = train['Named_entity']
normalized_train.head(7)

Unnamed: 0,normalized_text,normalized_subtext,Named_entity
0,حدثنا محمد بن المثنى ، حدثنا اسحاق بن يوسف ، ح...,الظهر,0
1,حدثنا ابو اليمان ، اخبرنا شعيب ، عن الزهري ، ق...,والمروه,1
2,حدثنا عبد الله بن عبد الوهاب ، حدثنا خالد بن ا...,عشاء,0
3,حدثنا موسى بن اسماعيل ، حدثنا جرير بن حازم ، ح...,الربا,2
4,حدثنا عبد الله بن يوسف ، اخبرنا مالك ، عن اسحا...,مالك,3
5,حدثنا محمد بن المثنى ، حدثنا خالد بن الحارث ، ...,محمد بن المثنى,3
6,حدثنا عبدان ، قال اخبرني ابي ، عن شعبه ، عن قت...,يزيد بن زريع,3


In [13]:
normalized_test = pd.DataFrame()
normalized_test['IDs'] = test['IDs']
normalized_test['normalized_text'] = test['hadith_text'].apply(normalize_teh_marbuta_ar).apply(normalize_alef_ar)
normalized_test['normalized_subtext'] = test['subtext'].apply(normalize_teh_marbuta_ar).apply(normalize_alef_ar)
normalized_test.head(7)

Unnamed: 0,IDs,normalized_text,normalized_subtext
0,0,حدثنا خلاد بن يحيى ، حدثنا نافع بن عمر ، عن اب...,نافع بن عمر
1,1,حدثنا عمر بن حفص ، حدثنا ابي ، حدثنا الاعمش ، ...,صفيه
2,2,حدثنا الصلت بن محمد ، حدثنا عبد الواحد ، حدثنا...,ابن عباس
3,3,حدثنا عبد الله بن يوسف ، اخبرنا مالك ، عن نافع...,نافع
4,4,حدثني عبد الله بن محمد ، حدثنا اسحاق الازرق ، ...,الظهر
5,5,حدثنا حفص بن عمر ، حدثنا شعبه ، قال اخبرني عبد...,قزعه
6,6,حدثنا مسدد ، حدثنا يزيد بن زريع ، قال حدثني ال...,ابي عثمان


# Cleaning and Tokenization

In [14]:
import string

clean = lambda txt: txt.translate(str.maketrans('', '', '؟ً؟،'+string.punctuation))

In [15]:
normalized_train['normalized_text'][0]

'حدثنا محمد بن المثنى ، حدثنا اسحاق بن يوسف ، حدثنا سفيان الثوري ، عن عبد العزيز بن رفيع ، قال سالت انس بن مالك ، اخبرني بشيء عقلته، عن النبي صلى الله عليه وسلم، اين صلى الظهر يوم الترويه؟، قال بمنى ، قلت فاين صلى العصر يوم النفر؟، قال بالابطح ، افعل كما يفعل امراؤك'

In [16]:
cleaned_train = pd.DataFrame()
cleaned_train['cleaned_text'] = normalized_train['normalized_text'].apply(clean)
cleaned_train['cleaned_subtext'] = normalized_train['normalized_subtext'].apply(clean)
cleaned_train['Named_entity'] = normalized_train['Named_entity']

In [17]:
cleaned_train['cleaned_text'][0]

'حدثنا محمد بن المثنى  حدثنا اسحاق بن يوسف  حدثنا سفيان الثوري  عن عبد العزيز بن رفيع  قال سالت انس بن مالك  اخبرني بشيء عقلته عن النبي صلى الله عليه وسلم اين صلى الظهر يوم الترويه قال بمنى  قلت فاين صلى العصر يوم النفر قال بالابطح  افعل كما يفعل امراؤك'

In [18]:
cleaned_test = pd.DataFrame()
cleaned_test['IDs'] = normalized_test['IDs']
cleaned_test['cleaned_text'] = normalized_test['normalized_text'].apply(clean)
cleaned_test['cleaned_subtext'] = normalized_test['normalized_subtext'].apply(clean)

In [19]:
txts = cleaned_train['cleaned_text'].drop_duplicates()
len(txts)

1625

In [20]:
tokens = []

for txt in txts:
  tokens.extend(txt.split())
vocab = set(tokens)
len(vocab)

12604

In [21]:
token2id = {token:id for id, token in enumerate(vocab, 2)}
# token2id['<UNK>']=1
# token2id['<UNK>']

In [22]:
count=0
for k, v in token2id.items():
  print(k, '\t', v)
  count+=1
  if count==15: break

لوجه 	 2
فانها 	 3
الحازم 	 4
التمره 	 5
تؤدى 	 6
تموج 	 7
الزبيل 	 8
يلحقونا 	 9
يفرق 	 10
صاف 	 11
وللرمل 	 12
رجلي 	 13
يقدروا 	 14
والمائه 	 15
يعبدونها 	 16


In [23]:
id2token = {id:token for token, id in token2id.items()}
len(id2token)==len(token2id)

True

In [24]:
count=0
for k, v in id2token.items():
  print(k, '\t', v)
  count+=1
  if count==15: break

2 	 لوجه
3 	 فانها
4 	 الحازم
5 	 التمره
6 	 تؤدى
7 	 تموج
8 	 الزبيل
9 	 يلحقونا
10 	 يفرق
11 	 صاف
12 	 وللرمل
13 	 رجلي
14 	 يقدروا
15 	 والمائه
16 	 يعبدونها


In [25]:
def tokenize(sent, unk=1):
  tokenized_sent = []
  for word in sent.split():
    tokenized_sent.append(token2id.get(word, unk))
  return tokenized_sent

In [26]:
tokenized_train = cleaned_train['cleaned_text'].apply(tokenize).drop_duplicates()
len(tokenized_train)

1625

In [27]:
len(cleaned_test)

2341

In [28]:
tokenized_train = cleaned_test['cleaned_text'].apply(tokenize).drop_duplicates()
len(cleaned_test)

2341

In [29]:
tag2id = {tag:id for id, tag in zip(tags['Name_entity'].values, tags['label'].values)}
tag2id

{1: 'plc',
 3: 'rawy',
 2: 'Crime',
 11: 'Hell',
 0: 'Time',
 9: 'Day',
 10: 'Month',
 6: 'Mon',
 5: 'matn',
 4: 'fnarmetn',
 12: 'qpart',
 7: 'wem',
 8: 'pbuh',
 14: 'prophets',
 16: 'Sect',
 13: 'cmt',
 15: 'mlk_clean'}

# Prepare the lables and data

In [30]:
txts = cleaned_train['cleaned_text'].drop_duplicates().reset_index(drop=True)
len(txts)

1625

In [31]:
def find_indices(list_to_check, item_to_find):
    indices = []
    for idx, value in enumerate(list_to_check):
        if value == item_to_find:
            indices.append(idx)
    return indices

In [32]:
a_list = [1,2,3,4,1,2,1,2,3,4]
find_indices(a_list, 1)

[0, 4, 6]

In [33]:
data = []

for d in range(len(txts)):
  hadith_df = cleaned_train[cleaned_train['cleaned_text']==txts[d]]
  hadith, sub, ne = hadith_df['cleaned_text'].values[0], hadith_df['cleaned_subtext'].values, hadith_df['Named_entity'].values
  data.append([hadith, sub, ne])

len(data)

1625

In [34]:
labels = []

for sen, sub, ne in data:
  sub_ne = list(zip(sub, ne))
  tokens = sen.split()
  label = np.zeros(len(tokens))
  for toks, tag_id in sub_ne:
    for tok in toks.split():
      ids = find_indices(tokens, tok)
      label[ids] = tag_id
  labels.append(label)

len(labels)

1625

In [35]:
hadith = data[0][0]
subtext = data[0][1]
named_entity = data[0][2]
label = labels[0]

print(f'hadith:\n\t{hadith}', f'subtext:\n\t{subtext}', f'named_entity:\n\t{named_entity}', f'label:\n\t{label}', sep='\n\n')

hadith:
	حدثنا محمد بن المثنى  حدثنا اسحاق بن يوسف  حدثنا سفيان الثوري  عن عبد العزيز بن رفيع  قال سالت انس بن مالك  اخبرني بشيء عقلته عن النبي صلى الله عليه وسلم اين صلى الظهر يوم الترويه قال بمنى  قلت فاين صلى العصر يوم النفر قال بالابطح  افعل كما يفعل امراؤك

subtext:
	['الظهر' 'انس بن مالك' 'محمد بن المثنى' 'العصر' 'انس بن مالك' 'بالابطح'
 'اين صلى الظهر يوم الترويه قال بمنى  قلت فاين صلى العصر يوم النفر قال بالابطح  افعل كما يفعل امراؤك'
 'سفيان الثوري' 'اسحاق بن يوسف']

named_entity:
	[0 3 3 0 4 1 5 3 3]

label:
	[0. 3. 3. 3. 0. 3. 3. 3. 0. 3. 3. 0. 0. 0. 3. 0. 5. 0. 4. 3. 4. 0. 0. 0.
 0. 0. 5. 0. 0. 0. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5. 5.
 5.]


In [36]:
def encoding_text(hadith , sub_text , sub_lable):
    pattern = []
    idx = 0 
    while idx < len(hadith):
      founded = False
      for k, v in enumerate(sub_text):
        if hadith[idx]==v[0]:
          founded = True
          L= [f"B_{tag2id[sub_lable[k]]}"]
          L.extend([f"I_{tag2id[sub_lable[k]]}"]*(len(v)-1))
          pattern.extend(L)
          idx+=len(v)
          break

      if not founded:
        pattern.extend('O')
        idx+=1 
        
    return pattern

In [37]:
def extend_sub(sub):
    sub_tokens = [s.split() for s in sub]
    return sub_tokens

In [38]:
def sub_mapping(sub_tokens,ne):
    sub_lable = []
    sub_text = []
    for idx, sub_token in enumerate(sub_tokens):
        sub_text.append(sub_token)
        sub_lable.append(ne[idx])
    return sub_text,sub_lable

In [39]:
sub_tokens = extend_sub(data[1][1])
sub_tokens

[['والمروه'], ['الصفا'], ['عائشه'], ['بالبيت'], ['بالصفا']]

In [40]:
sub_text,sub_lable = sub_mapping(sub_tokens,data[1][2])
print(sub_text,sub_lable)

[['والمروه'], ['الصفا'], ['عائشه'], ['بالبيت'], ['بالصفا']] [1, 1, 7, 1, 1]


In [41]:
encoding_text(data[1][0].split() , sub_text , sub_lable )

['O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'B_wem',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'B_plc',
 'B_plc',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'B_plc',
 'B_plc',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'B_plc',
 'B_plc',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'B_plc',
 'B_plc',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'B_plc',
 'B_plc',
 'O',
 'O',
 'O',
 'O',
 'B_wem',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O'

In [42]:
data[1][0]

'حدثنا ابو اليمان  اخبرنا شعيب  عن الزهري  قال عروه سالت عائشه رضي الله عنها فقلت لها ارايت قول الله تعالى سوره البقره ايه ان الصفا والمروه من شعائر الله فمن حج البيت او اعتمر فلا جناح عليه ان يطوف بهما فوالله ما على احد جناح ان لا يطوف بالصفا والمروه  قالت بئس ما قلت يا ابن اختي ان هذه لو كانت كما اولتها عليه كانت لا جناح عليه ان لا يتطوف بهما ولكنها انزلت في الانصار كانوا قبل ان يسلموا يهلون لمناه الطاغيه التي كانوا يعبدونها عند المشلل فكان من اهل يتحرج ان يطوف بالصفا والمروه  فلما اسلموا ج ص سالوا رسول الله صلى الله عليه وسلم عن ذلك قالوا يا رسول الله انا كنا نتحرج ان نطوف بين الصفا والمروه  فانزل الله تعالى سوره البقره ايه ان الصفا والمروه من شعائر الله  قالت عائشه رضي الله عنها وقد سن رسول الله صلى الله عليه وسلم الطواف بينهما فليس لاحد ان يترك الطواف بينهما ثم اخبرت ابا بكر بن عبد الرحمن فقال ان هذا لعلم ما كنت سمعته ولقد سمعت رجالا من اهل العلم يذكرون ان الناس الا من ذكرت عائشه ممن كان يهل بمناه كانوا يطوفون كلهم بالصفا والمروه  فلما ذكر الله تعالى الطواف بالبيت ولم يذكر الصفا و

In [43]:
# train and dev text samples
train_hadith = []
# train_patten_tag
train_tags = []

In [44]:
for item in range(len(data)):
    sub_text,sub_lable = sub_mapping(extend_sub(data[item][1]),data[item][2])
    pattern = encoding_text(data[item][0].split() ,sub_text,sub_lable)
    train_hadith.append(data[item][0].split())
    train_tags.append(pattern)

In [45]:
train_tags[1]

['O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'B_wem',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'B_plc',
 'B_plc',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'B_plc',
 'B_plc',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'B_plc',
 'B_plc',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'B_plc',
 'B_plc',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'B_plc',
 'B_plc',
 'O',
 'O',
 'O',
 'O',
 'B_wem',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O',
 'O'

In [46]:
train_hadith[1]

['حدثنا',
 'ابو',
 'اليمان',
 'اخبرنا',
 'شعيب',
 'عن',
 'الزهري',
 'قال',
 'عروه',
 'سالت',
 'عائشه',
 'رضي',
 'الله',
 'عنها',
 'فقلت',
 'لها',
 'ارايت',
 'قول',
 'الله',
 'تعالى',
 'سوره',
 'البقره',
 'ايه',
 'ان',
 'الصفا',
 'والمروه',
 'من',
 'شعائر',
 'الله',
 'فمن',
 'حج',
 'البيت',
 'او',
 'اعتمر',
 'فلا',
 'جناح',
 'عليه',
 'ان',
 'يطوف',
 'بهما',
 'فوالله',
 'ما',
 'على',
 'احد',
 'جناح',
 'ان',
 'لا',
 'يطوف',
 'بالصفا',
 'والمروه',
 'قالت',
 'بئس',
 'ما',
 'قلت',
 'يا',
 'ابن',
 'اختي',
 'ان',
 'هذه',
 'لو',
 'كانت',
 'كما',
 'اولتها',
 'عليه',
 'كانت',
 'لا',
 'جناح',
 'عليه',
 'ان',
 'لا',
 'يتطوف',
 'بهما',
 'ولكنها',
 'انزلت',
 'في',
 'الانصار',
 'كانوا',
 'قبل',
 'ان',
 'يسلموا',
 'يهلون',
 'لمناه',
 'الطاغيه',
 'التي',
 'كانوا',
 'يعبدونها',
 'عند',
 'المشلل',
 'فكان',
 'من',
 'اهل',
 'يتحرج',
 'ان',
 'يطوف',
 'بالصفا',
 'والمروه',
 'فلما',
 'اسلموا',
 'ج',
 'ص',
 'سالوا',
 'رسول',
 'الله',
 'صلى',
 'الله',
 'عليه',
 'وسلم',
 'عن',
 'ذلك',
 'قالوا',
 'يا',
 'رسول',
 '

In [47]:
df = pd.DataFrame({'train_hadith': train_hadith, 'train_tags': train_tags})
df

Unnamed: 0,train_hadith,train_tags
0,"[حدثنا, محمد, بن, المثنى, حدثنا, اسحاق, بن, يو...","[O, B_rawy, I_rawy, I_rawy, O, B_rawy, I_rawy,..."
1,"[حدثنا, ابو, اليمان, اخبرنا, شعيب, عن, الزهري,...","[O, O, O, O, O, O, O, O, O, O, B_wem, O, O, O,..."
2,"[حدثنا, عبد, الله, بن, عبد, الوهاب, حدثنا, خال...","[O, B_rawy, I_rawy, I_rawy, I_rawy, I_rawy, O,..."
3,"[حدثنا, موسى, بن, اسماعيل, حدثنا, جرير, بن, حا...","[O, B_rawy, I_rawy, I_rawy, O, B_rawy, I_rawy,..."
4,"[حدثنا, عبد, الله, بن, يوسف, اخبرنا, مالك, عن,...","[O, B_rawy, I_rawy, I_rawy, I_rawy, O, B_rawy,..."
...,...,...
1620,"[حدثنا, محمود, اخبرنا, عبيد, الله, عن, اسرائيل...","[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ..."
1621,"[حدثنا, محمد, هو, ابن, سلام, اخبرنا, عبد, الاع...","[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ..."
1622,"[حدثنا, يحيى, بن, بكير, حدثنا, الليث, قال, يون...","[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ..."
1623,"[حدثنا, ابو, النعمان, حدثنا, عبد, الواحد, حدثن...","[O, O, O, O, O, O, O, O, O, O, O, O, O, O, O, ..."


In [48]:
df.to_csv('train_input.csv', encoding='utf-8',index= False)