In [1]:
from gensim.models import Word2Vec
import numpy as np
import codecs
import pandas as pd
import re

# read data

In [2]:
df = pd.read_excel('book4.xlsx', header=None)
df.columns = ['comment']
df.head()

Unnamed: 0,comment
0,سلام .
1,با توجه به قیمت و انتظاراتی که از یک هتل ۵ ستا...
2,نظافت اطاقها در حد هتل سه ستاره‌های دبی بود .
3,غذا خیلی گران بود .
4,سرویس اتاق آنقدر با تاخیر می‌آمد که مجبور بودی...


# preprocess

In [3]:
from parsivar import Normalizer
my_normalizer = Normalizer()

In [4]:
def normalize(txt):
    tmp = re.sub(r'[?|$|.|!|-|_|:|,|،|)|(]', r'', txt)
    return my_normalizer.normalize(tmp)

In [5]:
df['normalized_txt'] = df['comment'].apply(normalize)

In [6]:
df.head()

Unnamed: 0,comment,normalized_txt
0,سلام .,سلام
1,با توجه به قیمت و انتظاراتی که از یک هتل ۵ ستا...,با توجه به قیمت و انتظاراتی که از یک هتل 5 ستا...
2,نظافت اطاقها در حد هتل سه ستاره‌های دبی بود .,نظافت اطاقها در حد هتل سه ستاره‌های دبی بود
3,غذا خیلی گران بود .,غذا خیلی گران بود
4,سرویس اتاق آنقدر با تاخیر می‌آمد که مجبور بودی...,سرویس اتاق آنقدر با تاخیر می‌آمد که مجبور‌بودی...


In [7]:
from parsivar import Tokenizer
my_tokenizer = Tokenizer()

In [8]:
def divide_to_tokens(tmp_text):
    words = my_tokenizer.tokenize_words(my_normalizer.normalize(tmp_text))
    return words

In [9]:
def divide_to_sents(tmp_text):
    sents = my_tokenizer.tokenize_sentences(my_normalizer.normalize(tmp_text))
    return sents

In [10]:
corpus = []
for index, row in df.iterrows():
    word_list = divide_to_tokens(row['normalized_txt'])
    corpus.append(word_list)

In [11]:
corpus

[['سلام'],
 ['با',
  'توجه',
  'به',
  'قیمت',
  'و',
  'انتظاراتی',
  'که',
  'از',
  'یک',
  'هتل',
  '5',
  'ستاره',
  'داریم',
  'اصلا',
  'و',
  'ابدا',
  'خوب',
  'نبود'],
 ['نظافت', 'اطاقها', 'در', 'حد', 'هتل', 'سه', 'ستاره\u200cهای', 'دبی', 'بود'],
 ['غذا', 'خیلی', 'گران', 'بود'],
 ['سرویس',
  'اتاق',
  'آنقدر',
  'با',
  'تاخیر',
  'می\u200cآمد',
  'که',
  'مجبور\u200cبودیم',
  'سفارش',
  'را',
  'لغو',
  'کنیم'],
 ['ظروف', 'رستوران', 'قدیمی', 'کدر', 'بود'],
 ['آکسسوار', 'اطاقها', 'قدیمی', 'بود'],
 ['جدیدها', 'هم', 'از', 'کیفیت', 'پائینی', 'برخوردار', 'بود'],
 ['اگر', 'انعام', 'می\u200cدادیم', 'رفتار', 'پرسنل', 'خوب', 'بود'],
 ['در',
  'غیر',
  'اینصورت',
  'رفتارشان',
  'خیلی',
  'بدوی',
  'و',
  'روستایی',
  'مآبانه',
  'بود'],
 ['رستوران', 'ایتالیایی', 'دارای', 'کارکنان', 'نیمه', 'حرفه', 'ایی'],
 ['تا', 'حدی', 'قابل', 'قبول', 'بود'],
 ['به', 'صورت', 'اسمی', 'خانه\u200cداری', '24', 'ساعته', 'بود'],
 ['ساعت',
  '9',
  'شب',
  'که',
  'درخواست',
  'آب',
  'معدنی',
  'کردم',
  

+ size: (default 100) The number of dimensions of the embedding, e.g. the length of the dense vector to represent each token (word).
+ window: (default 5) The maximum distance between a target word and words around the target word.
+ min_count: (default 5) The minimum count of words to consider when training the model; words with an occurrence less than this count will be ignored.
+ workers: (default 3) The number of threads to use while training.
+ sg: (default 0 or CBOW) The training algorithm, either CBOW (0) or skip gram (1)

If you have a lot of cores, as most modern computers do, I strongly encourage you to increase workers to match the number of cores (e.g. 8)

In [12]:
%%time
model = Word2Vec(sentences = corpus,
                 size = 100,
                 window = 3,
                 min_count = 1,
                 workers = 1,
                 iter = 100,
                 sg = 1)

Wall time: 32.5 s


In [13]:
words = list(model.wv.vocab)
words

['سلام',
 'با',
 'توجه',
 'به',
 'قیمت',
 'و',
 'انتظاراتی',
 'که',
 'از',
 'یک',
 'هتل',
 '5',
 'ستاره',
 'داریم',
 'اصلا',
 'ابدا',
 'خوب',
 'نبود',
 'نظافت',
 'اطاقها',
 'در',
 'حد',
 'سه',
 'ستاره\u200cهای',
 'دبی',
 'بود',
 'غذا',
 'خیلی',
 'گران',
 'سرویس',
 'اتاق',
 'آنقدر',
 'تاخیر',
 'می\u200cآمد',
 'مجبور\u200cبودیم',
 'سفارش',
 'را',
 'لغو',
 'کنیم',
 'ظروف',
 'رستوران',
 'قدیمی',
 'کدر',
 'آکسسوار',
 'جدیدها',
 'هم',
 'کیفیت',
 'پائینی',
 'برخوردار',
 'اگر',
 'انعام',
 'می\u200cدادیم',
 'رفتار',
 'پرسنل',
 'غیر',
 'اینصورت',
 'رفتارشان',
 'بدوی',
 'روستایی',
 'مآبانه',
 'ایتالیایی',
 'دارای',
 'کارکنان',
 'نیمه',
 'حرفه',
 'ایی',
 'تا',
 'حدی',
 'قابل',
 'قبول',
 'صورت',
 'اسمی',
 'خانه\u200cداری',
 '24',
 'ساعته',
 'ساعت',
 '9',
 'شب',
 'درخواست',
 'آب',
 'معدنی',
 'کردم',
 '11',
 'آوردند',
 'من',
 'نپذیرفتم',
 'ولی',
 'موقع',
 'تسویه',
 'حساب',
 'کرده',
 'بودند',
 '100',
 'درصد',
 'مطمئن',
 'هستم',
 'واقعا',
 'بخش',
 'خصوصی',
 'واگذار',
 'کنند',
 'ارائه',
 'خدمات',
 'نحو'

# save the result

In [14]:
model.save("word2vec.model")