## Training word2vec model for moroccan and algerian dialect

##### Imports

🪄Imports data from the Icetea package.

In [1]:
import gensim
import pandas as pd
import nltk
import glob

🪄Loads data from one - drive dataset.

In [26]:
path = r'C:\\Users\\zbook\\OneDrive - UIR\\UIR\\S8\\AutoTranslate\\word2vec_trainingdata'
all_files = glob.glob(path + "/*.csv")

li = []

for filename in all_files:
    df_elem = pd.read_csv(filename, index_col=None, header=0, on_bad_lines='skip')
    li.append(df_elem)

df = pd.concat(li, ignore_index=True)
df.head()

Unnamed: 0,comments
0,عادو الناس يتباكاو بديت نهدر من قلبي تقول نهد...
1,بكيت الناس كامل سكتو تخلعت في روحي تقول كنت ننوم
2,ناضو ﭭﺎع سلمو عليا و يهدرو معايا نص بكا و نص ل...
3,عرضونا للعشا و كان لعشا يكفي ليزاﻧڢيتي ﭭﺎع
4,جوزت ايامات روعة ما ننساهاش طول حياتي


🪄shape of dataframe.

In [27]:
df.shape

(115226, 1)

##### Tokenizing

🪄Tokenize the comments.

In [28]:
df_tokenized = df.comments.apply(nltk.word_tokenize)
df_tokenized

0         [عادو, الناس, يتباكاو, بديت, نهدر, من, قلبي, ت...
1         [بكيت, الناس, كامل, سكتو, تخلعت, في, روحي, تقو...
2         [ناضو, ﭭﺎع, سلمو, عليا, و, يهدرو, معايا, نص, ب...
3         [عرضونا, للعشا, و, كان, لعشا, يكفي, ليزاﻧڢيتي,...
4             [جوزت, ايامات, روعة, ما, ننساهاش, طول, حياتي]
                                ...                        
115221    [شكرا, لقد, استمتعت, بهذا, الفيديو, كثيرا, خبي...
115222    [فيديو, ممتع, والله, روووعة, يعطيك, الصحة, خوي...
115223            [برااافو, عليك, تستاهل, الشهرة, العالمية]
115224    [الله, يبارك, ،, ما, شاء, الله, خويا, خبيبيسّر...
115225                     [أفضل, صانع, محتوى, في, الجزائر]
Name: comments, Length: 115226, dtype: object

##### Initializing word2vec model

🪄Create a new word2Vec model for use with the HMM module.

In [30]:
model = gensim.models.Word2Vec(window=5, min_count=2, workers=2)

##### Building vovab

🪄Builds the vocabulary from the input dataframe.

In [31]:
model.build_vocab(df_tokenized, progress_per=5)

🪄The number of iterations done on the whole dataset by default it is 5 model.epochs

In [8]:
# epochs being the number of iterations done on the whole dataset, by default it is 5
model.epochs

5

##### Model training

🪄Train a model by tokenizing the corpus count and number of examples.

In [32]:
model.train(df_tokenized, total_examples=model.corpus_count, epochs=model.epochs)

(4727130, 5645515)

##### Saving model

🪄Save the model s file - > vector_mor_dz. model object.

In [33]:
model.save('./word2vec_mor_dz.model')

##### Testing

🪄Get vector of values in the WV model

In [36]:
model.wv.get_vector('الفيديو')

array([-0.30374986,  0.07175432, -1.9774907 ,  0.8653471 ,  1.0058571 ,
        0.03052483,  1.6197143 , -1.0898234 ,  1.1693029 ,  0.96499985,
       -1.1037531 , -1.5497943 ,  1.9381372 ,  1.0726736 ,  0.7137537 ,
       -1.9590017 , -0.7012492 , -0.37255132, -0.19502258, -0.01550069,
        0.30475372,  0.02588587, -0.10248473,  0.75695884,  0.87948567,
       -1.8181672 ,  0.20955311, -0.29015642,  0.6445919 , -1.2174771 ,
        2.6708517 , -0.37695837,  1.6182309 , -0.16528021, -1.2222136 ,
        0.04739395,  0.03246354,  1.685888  ,  0.8174039 , -1.4625372 ,
       -1.1201082 ,  0.2508373 ,  1.0266021 , -0.27731118,  0.01646691,
       -1.3282051 ,  0.6850137 ,  0.15229063,  0.57460415,  0.7096181 ,
        0.83873975, -0.14124483, -0.05335499, -2.1376112 ,  0.7597384 ,
        0.00964276,  0.32463962,  1.6149795 ,  0.25036755, -0.84656155,
       -0.11048245, -0.41262317,  1.1813644 , -0.61122257, -1.9603467 ,
        0.73217666, -0.12566723,  1.2469335 , -1.2762504 ,  1.31

🪄size of vector in Wv.

In [37]:
model.wv.vector_size

100

🪄Return the most similar model to the Wv - L divergence.

In [38]:
model.wv.most_similar('الفيديو')

[('الفديو', 0.8424222469329834),
 ('الفيديوهات', 0.8212994337081909),
 ('اليوم', 0.809577226638794),
 ('الوصفة', 0.8092324137687683),
 ('المختلسين', 0.7842799425125122),
 ('لفيديو', 0.7826778888702393),
 ('المنبر', 0.7803176641464233),
 ('الحلقة', 0.7770587205886841),
 ('الفيديوا', 0.7731214761734009),
 ('الاغنية', 0.7693439722061157)]

🪄Return the value of the most similar model.

In [39]:
model.wv.most_similar('الصحة')

[('صحة', 0.957695722579956),
 ('الصحه', 0.9494235515594482),
 ('صحه', 0.9477626085281372),
 ('ااصحة', 0.9430625438690186),
 ('العافيه', 0.938389778137207),
 ('الصحا', 0.934445858001709),
 ('ماتتمنى', 0.9239757657051086),
 ('العافية', 0.921890139579773),
 ('يمنيك', 0.921332597732544),
 ('ماتتمنا', 0.920365035533905)]

🪄Return the value of the most similar model.

In [42]:
model.wv.most_similar('خير')

[('سوء', 0.8432469964027405),
 ('شر', 0.8258323669433594),
 ('فحياتها', 0.8234294056892395),
 ('اعتدى', 0.8075923323631287),
 ('مكروه', 0.8055546283721924),
 ('وشعبنا', 0.7985508441925049),
 ('امانيكم', 0.7867958545684814),
 ('يشافي', 0.7866781949996948),
 ('مقامها', 0.7856148481369019),
 ('الخير', 0.7848873138427734)]

🪄Return the similarity between two words.

In [46]:
model.wv.similarity(w1='الخير', w2='صباح')

0.55149865