# doc 2 vec

### Import the necessary libraries

In [7]:
import os
import re
from nltk.tokenize import word_tokenize
from gensim.models.doc2vec import TaggedDocument
from gensim.models import Doc2Vec

### Preprocessing methodes

In [None]:
def preprocessing(string):
    string =re.sub(r'[^\u0600-\u06FF]', ' ', string)  
    return re.sub(r"\s{2,}", " ", string).strip()

### Helper class for momery

In [1]:
class LabeledLineSentence(object):
    def __init__(self, filename):
        self.filename = filename
    
    def __iter__(self):
        for uid, line in enumerate(open(self.filename,'r',encoding='utf8')):
            yield TaggedDocument(word_tokenize(line), ['SENTENCE_%s' % uid])  

### Create and train  doc2vec model 

In [13]:
sentences = LabeledLineSentence('./corpus')
model = Doc2Vec(alpha=0.025, min_alpha=0.025,size=100,min_count=3,workers=4)  # use fixed learning rate
model.build_vocab(sentences)
for epoch in range(1):
    model.train(sentences,total_examples=model.corpus_count,epochs=epoch)
    model.alpha -= 0.002  # decrease the learning rate
    model.min_alpha = model.alpha  # fix the learning rate, no decay

### Save and load the model

In [21]:
model_name='./saved_models/doc2vec_100size'
model.save(model_name)
doc2vec = Doc2Vec.load(model_name)  

## Using the trained model

### Vocabulaire

In [19]:
doc2vec.wv.index2word

['في',
 'من',
 '.',
 "''",
 'على',
 'إلى',
 ':',
 '(',
 ')',
 'أن',
 '``',
 'التي',
 '\\',
 'عام',
 'عن',
 'أو',
 '،',
 ',',
 'مع',
 'كان',
 'الذي',
 'بين',
 'هذه',
 'ما',
 'بعد',
 'بن',
 'حيث',
 'هذا',
 'كما',
 'ذلك',
 'هو',
 'كانت',
 'و',
 'هي',
 'لا',
 'وقد',
 'وفي',
 'سنة',
 'قبل',
 'كل',
 'حتى',
 'مثل',
 'بعض',
 'قد',
 'وهو',
 'لم',
 'خلال',
 'ثم',
 'وكان',
 'وهي',
 'عدد',
 'تم',
 'القرن',
 'مدينة',
 'المدينة',
 'الله',
 'أي',
 'غير',
 'أكثر',
 '%',
 'ومن',
 'فيها',
 'والتي',
 'أنه',
 '-',
 'عبد',
 'له',
 'إلا',
 'تلك',
 'الدولة',
 'بها',
 'العالم',
 'منها',
 'عند',
 'بشكل',
 'العديد',
 'فقد',
 'محمد',
 '{',
 '}',
 'ولكن',
 '?',
 'يمكن',
 'id',
 'https',
 'text',
 'url',
 '//ar.wikipedia.org/wiki',
 'title',
 'عليه',
 'أخرى',
 'عشر',
 'منذ',
 'الحرب',
 'المتحدة',
 'الذين',
 'أول',
 'فإن',
 'العربية',
 'حوالي',
 'هناك',
 'مما',
 'منطقة',
 'تحت',
 ']',
 '[',
 'لها',
 'أكبر',
 'البلاد',
 'عندما',
 'الأول',
 'أحد',
 'أما',
 'فيه',
 'ولا',
 'يكون',
 'وذلك',
 'الثاني',
 'ابن',
 'جميع',


### vector['word']

In [43]:
doc2vec['عن']

array([ -4.12502497e-01,   3.68395686e-01,   1.67868507e+00,
        -5.74793696e-01,   1.39466190e+00,   5.16284704e-02,
         1.48593879e+00,  -1.23921171e-01,   1.69755971e+00,
        -5.15772581e-01,   2.06128192e+00,  -1.29071975e+00,
        -2.36665559e+00,   6.94677904e-02,  -3.38853478e+00,
         1.55399489e+00,   1.11979648e-01,  -4.14534062e-01,
         2.15662241e+00,   2.59183455e+00,  -1.15146291e+00,
        -8.47915113e-02,  -1.25018167e+00,   1.00558758e+00,
         1.70379126e+00,  -2.19445914e-01,   2.99535942e+00,
         2.19213152e+00,   2.25588703e-03,   2.08282995e+00,
         1.96908879e+00,   2.31282806e+00,   8.03955972e-01,
        -2.57951832e+00,   4.87604767e-01,  -6.80266500e-01,
        -3.43659371e-01,   3.51458740e+00,  -2.08168149e+00,
         1.76150054e-01,   6.34385049e-01,  -1.32878709e+00,
         2.05715275e+00,  -2.23404694e+00,  -3.45026493e-01,
        -5.35473704e-01,  -1.17432344e+00,  -1.22598600e+00,
         1.80901361e+00,

### Most similar

In [25]:
doc2vec.most_similar('عن')

[('الرجاء', 0.4910587668418884),
 ('بِأن', 0.46369048953056335),
 ('الحرير', 0.45781776309013367),
 ('وعن', 0.45533618330955505),
 ('وأداء', 0.4451550245285034),
 ('الضخ', 0.4429900348186493),
 ('مع', 0.4340316653251648),
 ('1360', 0.43295371532440186),
 ('وقاية', 0.42782193422317505),
 ('التنظيمي', 0.42598944902420044)]

0.62628028564220639

In [27]:
doc2vec.most_similar(positive=['ذلك', 'لها'], negative=['يكفي'])

[('يسخن', 0.6317192316055298),
 ('نفس', 0.6219510436058044),
 ('الحاضر', 0.564719021320343),
 ('الجماع', 0.5531127452850342),
 ('هذا', 0.5514556765556335),
 ('وبالعكس', 0.5488296151161194),
 ('الإنكليزية،', 0.5415741205215454),
 ('لهذا', 0.5407602190971375),
 ('قرأت', 0.5304369330406189),
 ('بهذا', 0.5289793014526367)]

### Similarity between two words

In [51]:
doc2vec.similarity('وقاية','مع')

0.62628028564220639

### doesnt_match

In [42]:
doc2vec.doesnt_match(['نفس', 'ذلك', 'ولادته', 'البداية'])

'ذلك'

### vector(sentence)

In [55]:
string = 'الانتخابات الرئاسية الفرنسية'
sentence = word_tokenize(string)

In [None]:
doc2vec.infer_vector(sentence)

In [None]:
doc2vec.model.docvecs['SENTENCE_1']