In [1]:
import numpy as np
from itertools import chain
import word2vec



In [2]:
model = word2vec.getModel()

In [3]:
hebrew = 'אבגדהוזחטיכלמנסעפצקרשתךםןףץ'

GMatrix = {"normal": {c:v for c, v in zip(hebrew, 
                                          chain(range(1, 10),
                                                range(10, 100, 10),
                                                range(100, 500, 100),
                                                [20, 40, 50, 80, 90])
                                         )},
           "big": {c:v for c, v in zip(hebrew, 
                                       chain(range(1, 10),
                                             range(10, 100, 10),
                                             range(100, 1000, 100))
                                         )},
           "small": {c:v for c, v in zip(hebrew, 
                                         chain(range(1, 10),
                                               range(1, 10),
                                               range(1, 10)))},
           "serial": {c:v for c, v in zip(hebrew, 
                                          chain(range(1, 28)))},
           "etbesh": {c:v for c, v in zip(hebrew, 
                                          chain(reversed(range(100, 500, 100)),
                                                reversed(range(10, 100, 10)),
                                                reversed(range(1, 10)),
                                                [30, 10, 9, 7, 6])
                                         )},
          }

GMatrix["forward"] = {c:v for c, v in zip(hebrew, np.cumsum(list(GMatrix["normal"].values())))}
GMatrix["private"] = {c:v for c, v in zip(hebrew, map(lambda x: x ** 2, GMatrix["normal"].values()))}

def hebrew_str(s):
    return all("\u0590" <= c <= "\u05EA" or c in " ,.:;'[](){}" for c in s)

def GMatria(s, method="normal"):
    if not hebrew_str(s):
        pass
#         print('None Hebrew letter encountered')
    return(sum(GMatrix[method][c] for c in s if c in GMatrix[method]))

GMatrix["semite"] = {c:v for c, v in zip(hebrew, [GMatria('אלף'),
                                                  GMatria('בית'),
                                                  GMatria('גמל'),
                                                  GMatria('דלת'),
                                                  GMatria('הא'),
                                                  GMatria('ויו'),
                                                  GMatria('זיין'),
                                                  GMatria('חית'),
                                                  GMatria('טית'),
                                                  GMatria('יוד'),
                                                  GMatria('כף'),
                                                  GMatria('למד'),
                                                  GMatria('מם'),
                                                  GMatria('נון'),
                                                  GMatria('סמך'),
                                                  GMatria('עין'),
                                                  GMatria('פא'),
                                                  GMatria('צדי'),
                                                  GMatria('קוף'),
                                                  GMatria('ריש'),
                                                  GMatria('תיו'),
                                                  GMatria('כף'),
                                                  GMatria('מם'),
                                                  GMatria('נון'),
                                                  GMatria('פא'),
                                                  GMatria('צדי')])}

In [4]:
#most popular words

print(list(model.wv.key_to_index.keys())[:10])
print(model.wv.key_to_index['קטגוריה'])
print(model.wv.key_to_index['הוא'])
print(model.wv.key_to_index['על'])
print(model.wv.key_to_index['את'])

# note: קטגוריה popularity is due to the Wikipedia bias

['של', 'את', 'על', 'קטגוריה', 'הוא', 'עם', 'בשנת', 'גם', 'היה', 'היא']
3
4
2
1


In [5]:
# words in vocabulary
len(model.wv.index_to_key)

559687

In [6]:
import random

In [7]:
random_word = random.choice(model.wv.index_to_key)

In [8]:
random_word

'לידידותיים'

In [9]:
print(model.wv.doesnt_match(u'לקקני-תחת חמורים ארנבת ביבי נתניהו ליכוד בגין עבודה דבילים בבונים'.split()))

ארנבת


In [10]:
print(model.wv.doesnt_match(u'בננה במבה אנימה חתול ירוק'.split()))

אנימה


In [11]:
print(model.wv.doesnt_match(u'בננה במבה אנימה חתול רוסית ירוק יפנית בבושקה בורשט בוריס פוטין'.split()))

פוטין


In [12]:
print(model.wv.doesnt_match(u'לילה בוקר ערב צהריים בוהריים שניצל'.split()))

שניצל


In [13]:
print(model.wv.doesnt_match(u'סבתא חיית-מחמד נחום רקוב'.split()))

נחום


In [14]:
print(model.wv.doesnt_match(u'עץ שיח תותים ענף'.split()))

תותים


In [15]:
print(model.wv.doesnt_match(u'סוס כלב אריה חמור ציפור ליוויתן חתול'.split()))

חמור


In [16]:
print(model.wv.most_similar(u'גבר', topn=10)[:10][:10])

[('וגבר', 0.7370234727859497), ('כשגבר', 0.7200382947921753), ('הגבר', 0.6857839822769165), ('טרנסקסואל', 0.6821978688240051), ('ואישה', 0.6764588356018066), ('קולקרני', 0.6690002083778381), ('אישה', 0.6689464449882507), ('ההטרוסקסואל', 0.6632973551750183), ('שגבר', 0.6631457209587097), ('התשיעיות', 0.6550136804580688)]


In [17]:
model.wv.similarity(u'גבר', u'אישה')

0.6689464

In [18]:
model.wv.similarity(u'ילד', u'אישה')

0.62262964

In [21]:
model.wv.similarity(u'אשה', u'אישה')

0.9139837

In [24]:
print(model.wv.most_similar(positive=[u'אישה',u'רופא'], negative=[u'גבר'], topn=1)[0][0])

רופאה


In [38]:
def solve(s, search=100000, top=5):
    return [w for w, _ in model.wv.most_similar(positive=s.split(), topn=search)[:search][:search]
            if GMatria(s) == GMatria(w)][:top]

solve('בנימין נתניהו')

['מרגלית', 'שניאורסון', 'שניאורסאהן', 'הרושבסקי', 'רודאשבסקי']

In [35]:
print(model.wv.most_similar(positive=[u'דבלין',u'גרמניה'], negative=[u'ברלין'], topn=100)[:100][:100])

[('לוד', 0.6885830163955688), ('יפו', 0.6719703674316406), ('רמלה', 0.6711995601654053), ('וירושלים', 0.669437050819397), ('ותל', 0.6523510217666626), ('צפת', 0.6477228403091431), ('קטמון', 0.6456843018531799), ('ועכו', 0.6348494291305542), ('טבריה', 0.6347931027412415), ('פחריה', 0.6252927780151367), ('עכו', 0.6248534321784973), ('עפולה', 0.6231116056442261), ('שכם', 0.6219965219497681), ('ונצרת', 0.6212137937545776), ('ואץ', 0.6180585622787476), ('יבנה', 0.6155974864959717), ('נצרת', 0.6153237223625183), ('ושכם', 0.6121417284011841), ('וחיפה', 0.6111094355583191), ('באר', 0.6109397411346436), ('קטמונים', 0.6099338531494141), ('ריבנפלד', 0.6092780828475952), ('תל', 0.6089839935302734), ('סלוניקי', 0.6075294017791748), ('ניסנאס', 0.6073898077011108), ('ויפו', 0.60572350025177), ('אשקלון', 0.6044387221336365), ('נוזהא', 0.6018970608711243), ('רעננה', 0.6017535328865051), ('חיפה', 0.6012221574783325), ('האשפות', 0.5998803973197937), ('מועסכר', 0.5997419953346252), ('רמאללה', 0.5980470180