In [1]:
pip install sentencepiece




In [2]:
from google.colab import files

# Upload the file to google colab
uploaded = files.upload()

Saving cleaned_infopankki-fa.csv to cleaned_infopankki-fa.csv


In [6]:
import sentencepiece as spm
import pandas as pd
from sklearn.model_selection import train_test_split

# Load your dataset
df = pd.read_csv('cleaned_infopankki-fa.csv')

# Split the data into 80% train and 20% test
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)

# Combine English and Persian text data into separate files for SentencePiece training
train_df['English'].to_csv('train_english.txt', index=False, header=False)
train_df['Persian'].to_csv('train_persian.txt', index=False, header=False)

# Train SentencePiece models on both English and Persian data
spm.SentencePieceTrainer.train(input='train_english.txt', model_prefix='spm_english', vocab_size=393)
spm.SentencePieceTrainer.train(input='train_persian.txt', model_prefix='spm_persian', vocab_size=356)

# Load the trained models
sp_english = spm.SentencePieceProcessor(model_file='spm_english.model')
sp_persian = spm.SentencePieceProcessor(model_file='spm_persian.model')

# Apply the SentencePiece models to the English and Persian columns
train_df['English_Tokenized'] = train_df['English'].apply(lambda x: sp_english.encode(x, out_type=str))
train_df['Persian_Tokenized'] = train_df['Persian'].apply(lambda x: sp_persian.encode(x, out_type=str))

test_df['English_Tokenized'] = test_df['English'].apply(lambda x: sp_english.encode(x, out_type=str))
test_df['Persian_Tokenized'] = test_df['Persian'].apply(lambda x: sp_persian.encode(x, out_type=str))

# Save the results
train_df.to_csv('train_tokenized.csv', index=False)
test_df.to_csv('test_tokenized.csv', index=False)


In [8]:
train_df

Unnamed: 0,English,Persian,Source,English_Tokenized,Persian_Tokenized
55,please note that the person entering the video...,توجه داشته باشید که فرد تهیه کننده اثری که در ...,infopankki,"[▁, ple, ase, ▁not, e, ▁th, at, ▁the, ▁person,...","[▁تو, جه, ▁د, اشت, ه, ▁باش, ید, ▁ک, ه, ▁فرد, ▁..."
88,email infofinlandathelfi,پست الکترونیکی,infopankki,"[▁email, ▁infofinland, at, hel, fi]","[▁پست, ▁, الک, تر, ونی, کی]"
26,competition entries can be published among oth...,این ویدیو ها می توانند بعنوان مثال در وب سایته...,infopankki,"[▁competition, ▁ent, r, ies, ▁ca, n, ▁be, ▁pub...","[▁این, ▁ویدیو, ▁ها, ▁می, ▁توان, ند, ▁ب, عنو, ا..."
42,your video can be in any of the infopankki lan...,این ویدیو را با یکی از زبانهای بسازید,infopankki,"[▁you, r, ▁video, ▁ca, n, ▁be, ▁in, ▁any, ▁of,...","[▁این, ▁ویدیو, ▁را, ▁با, ▁, یکی, ▁از, ▁ز, ب, ا..."
69,filming in public places is permitted but film...,فیلمبرداری در اماکن عمومی ازاد است ولی جهت فیل...,infopankki,"[▁fi, l, mi, ng, ▁in, ▁public, ▁pla, ces, ▁, i...","[▁فیلم, بر, داری, ▁در, ▁اما, کن, ▁ع, مو, می, ▁..."
...,...,...,...,...,...
60,the maker of the videoperson in charge is resp...,تهیه کننده ویدیو فرد مسیول پاسخگوی تمام موارد ...,infopankki,"[▁the, ▁maker, ▁of, ▁the, ▁video, person, ▁in,...","[▁ت, هی, ه, ▁کنند, ه, ▁ویدیو, ▁فرد, ▁مسیول, ▁پ..."
71,the person entering the video into the competi...,حقوق بی حد و حصری را جهت نمایش و بهره برداری ا...,infopankki,"[▁the, ▁person, ▁enter, i, ng, ▁the, ▁video, ▁...","[▁حق, وق, ▁بی, ▁ح, د, ▁و, ▁, حص, ری, ▁را, ▁جه,..."
14,the maker of the videoperson in charge is resp...,تهیه کننده ویدیو فرد مسیول پاسخگوی تمام موارد ...,infopankki,"[▁the, ▁maker, ▁of, ▁the, ▁video, person, ▁in,...","[▁ت, هی, ه, ▁کنند, ه, ▁ویدیو, ▁فرد, ▁مسیول, ▁پ..."
92,infofinland postal address,ادرس پستی,infopankki,"[▁infofinland, ▁pos, t, al, ▁ad, d, res, s]","[▁اد, رس, ▁پست, ی]"


In [7]:
test_df

Unnamed: 0,English,Persian,Source,English_Tokenized,Persian_Tokenized
83,if you need information or advice in taking ca...,اگر برای رسیدگی به کارهای خود نیاز به کسب اطلا...,infopankki,"[▁, if, ▁you, ▁need, ▁in, format, ion, ▁or, ▁a...","[▁ا, گر, ▁ب, رای, ▁رس, ید, گی, ▁به, ▁کار, های,..."
53,copyrights,حقوق مربوط به طبع و نشر مطالب,infopankki,[▁copyrights],"[▁حق, وق, ▁مربوط, ▁به, ▁ط, بع, ▁و, ▁نش, ر, ▁مط..."
70,rights to the videos,تهیه کنده اثر شرکت داده شده در مسابقه,infopankki,"[▁rights, ▁to, ▁the, ▁videos]","[▁ت, هی, ه, ▁کند, ه, ▁اثر, ▁شر, کت, ▁داد, ه, ▁..."
45,create your own youtube account and upload you...,در سایت برای خود حساب کاربری باز کنید و ویدیو ...,infopankki,"[▁c, re, ate, ▁you, r, ▁, o, w, n, ▁you, tu, b...","[▁در, ▁سایت, ▁ب, رای, ▁خو, د, ▁ح, س, ا, ب, ▁کا..."
44,your video must not include any material subje...,و از مطالبی همانند موسیقی متن و یا عکسهایی که ...,infopankki,"[▁you, r, ▁video, ▁mus, t, ▁not, ▁include, ▁an...","[▁و, ▁از, ▁مطالب, ی, ▁هم, ان, ند, ▁م, وسی, قی,..."
39,competition instructions,دستورالعمل ها,infopankki,"[▁competition, ▁in, s, t, r, u, ct, ion, s]","[▁د, ست, ور, ال, ع, م, ل, ▁ها]"
22,if any of these people are minors the consent ...,ارسال کننده اثر باید جهت ساخت و ضبط و اماده سا...,infopankki,"[▁, if, ▁any, ▁of, ▁the, se, ▁pe, o, ple, ▁a, ...","[▁ارسال, ▁کنند, ه, ▁اثر, ▁با, ید, ▁جه, ت, ▁ساخ..."
80,the contact information for the infofinland ed...,اطلاعات تماس مرکز فعالیت,infopankki,"[▁the, ▁conta, ct, ▁in, format, ion, ▁for, ▁th...","[▁اط, لا, ع, ات, ▁تما, س, ▁مرکز, ▁فعالیت]"
10,the competition organiser is not responsible f...,برگزار کننده مسابقه پاسخگوی ادعاهای اشخاص ثالث...,infopankki,"[▁the, ▁competition, ▁or, g, anis, er, ▁, is, ...","[▁برگز, ار, ▁کنند, ه, ▁مسابقه, ▁پ, اس, خ, گو, ..."
0,send a link to your video along with your cont...,لینک مربوط به ویدیوی و اطلاعات تماس خود را به ...,infopankki,"[▁s, end, ▁a, ▁, l, ink, ▁to, ▁you, r, ▁video,...","[▁ل, ینک, ▁مربوط, ▁به, ▁ویدیوی, ▁و, ▁اط, لا, ع..."
