In [1]:
import os
import gensim
import regex
from collections import Counter
from tqdm import tqdm
n_of_lines = 50000000

In [2]:
def get_text_file(txt_file):
    with open(txt_file, "r", encoding='utf_8') as fin:
        counter = 0
        sentences = list()
        for line in fin:
            sentences.append(str.split(line))
            counter += 1
            if counter == n_of_lines:
                break
    return sentences


def make_wordvectors(sentences, vector_size=300, vocab_size=50000,
                     skip_gram=1, workers=4):
    all_words = list()
    for line in sentences:
        for word in line:
            all_words.append(word)
    wordcouns = Counter(all_words)
    print('words counted')
    
    min_count = wordcouns.most_common(vocab_size)[-1][1]
    print(min_count)
    
    print ("Building word2vec")
    model = gensim.models.Word2Vec(sentences, size=vector_size, min_count=min_count, 
                                   sg=skip_gram,
                                   workers=workers
                                  )
    
    model.save('word2vec_model.bin')

In [3]:
test_sents = get_text_file('data/OpenSubtitles2016.txt')

In [4]:
test_sents[1]

['czy', 'ty', 'powiedziałaś', 'superniania', '?']

In [5]:
print ("Building word2vec")
make_wordvectors(sentences=test_sents, vocab_size=100000, workers=8)
print ("Done")

Building word2vec
words counted
72
Building word2vec


  'See the migration notes for details: %s' % _MIGRATION_NOTES_URL


Done


In [2]:
model = gensim.models.Word2Vec.load("word2vec_model_vocab100000_lines50000000.bin")

  'See the migration notes for details: %s' % _MIGRATION_NOTES_URL


In [4]:
model.wv.most_similar(positive=['król', 'kobieta'], 
                             negative=['mężczyzna'])

[('królowa', 0.5901165008544922),
 ('cyganka', 0.46062755584716797),
 ('armia', 0.4593805968761444),
 ('brytania', 0.44582319259643555),
 ('wyrocznia', 0.4318598806858063),
 ('kapłanka', 0.4278806447982788),
 ('austria', 0.4258536398410797),
 ('dama', 0.4196602702140808),
 ('drużyna', 0.41416430473327637),
 ('małgorzata', 0.412775456905365)]

In [8]:
model.wv.most_similar(positive=['niebo', 'słońce'], 
                             negative=['chmury'])

[('księżyc', 0.4399287700653076),
 ('świeciło', 0.40970319509506226),
 ('slonce', 0.40825194120407104),
 ('błękitne', 0.40793246030807495),
 ('wzejdzie', 0.39628130197525024),
 ('wschodzi', 0.38829752802848816),
 ('zaświeci', 0.3796526789665222),
 ('wątp', 0.3756616711616516),
 ('bezchmurne', 0.371148943901062),
 ('zachmurzone', 0.36555448174476624)]

In [9]:
model.wv.most_similar(positive=['lato', 'śnieg'], 
                             negative=['ciepło'])

[('jesień', 0.42503052949905396),
 ('zasypał', 0.3878931999206543),
 ('deszcz', 0.38221901655197144),
 ('zeszłe', 0.37111878395080566),
 ('wiosna', 0.3682692050933838),
 ('zimę', 0.3633911609649658),
 ('sezon', 0.3601852059364319),
 ('wakacje', 0.3547547459602356),
 ('sobotnie', 0.3520047664642334),
 ('wykałaczka', 0.34637370705604553)]

In [10]:
model.wv.most_similar(positive=['blisko', 'najbliżej'], 
                             negative=['najdalej'])

[('pobliżu', 0.3994203209877014),
 ('bliżej', 0.37466001510620117),
 ('obok', 0.3489120900630951),
 ('naprzeciwko', 0.3291334807872772),
 ('niedaleko', 0.3208736777305603),
 ('stromo', 0.3102261424064636),
 ('skanowani', 0.3071320652961731),
 ('siedliskiem', 0.3055933117866516),
 ('lizusem', 0.2965284287929535),
 ('głupkami', 0.29449546337127686)]

In [9]:
model.wv.most_similar(positive=['hiszpania', 'warszawa'], 
                             negative=['madryt'])

[('argentyna', 0.3538147211074829),
 ('pn', 0.35194242000579834),
 ('francja', 0.3513239622116089),
 ('gospodarka', 0.33304673433303833),
 ('guwernantka', 0.331470787525177),
 ('sopranos', 0.32775598764419556),
 ('ksiazka', 0.32607102394104004),
 ('kowalczyk', 0.3228590786457062),
 ('wiolonczela', 0.32135266065597534),
 ('italia', 0.32046061754226685)]

In [13]:
model.wv.most_similar(positive=['mąż', 'kobieta'], 
                             negative=['mężczyzna'])

[('matka', 0.5336294770240784),
 ('siostra', 0.5300326347351074),
 ('córka', 0.5013511180877686),
 ('żona', 0.49447372555732727),
 ('przyjaciółka', 0.48648178577423096),
 ('mama', 0.48281508684158325),
 ('dziewczyna', 0.47352513670921326),
 ('penelopa', 0.4448668956756592),
 ('siostrzenica', 0.43797630071640015),
 ('maż', 0.43656861782073975)]

In [18]:
model.wv.most_similar(positive=['byłem', 'widzę'], 
                             negative=['jestem'])

[('zobaczyłem', 0.5411101579666138),
 ('widziałem', 0.5094157457351685),
 ('zauważyłem', 0.5008619427680969),
 ('widze', 0.4869171977043152),
 ('widziałam', 0.4491213262081146),
 ('wyczułem', 0.4341532588005066),
 ('patrzyłem', 0.4215067923069),
 ('zauważyłam', 0.40763652324676514),
 ('widzialem', 0.4042093753814697),
 ('słyszałem', 0.40027713775634766)]

In [19]:
model.wv.most_similar(positive=['jestem', 'widziałem'], 
                             negative=['byłem'])

[('widziałam', 0.5829361081123352),
 ('widział', 0.44318532943725586),
 ('widzialem', 0.4371907711029053),
 ('widziałeś', 0.4311917722225189),
 ('widzieli', 0.42611730098724365),
 ('widzę', 0.42177605628967285),
 ('widzieliśmy', 0.4129542112350464),
 ('widzialam', 0.40117061138153076),
 ('widze', 0.40108370780944824),
 ('widziałaś', 0.39240962266921997)]

In [15]:
model.wv.most_similar(positive=['róża', 'kwiat'], 
                             negative=['roślina'])

[('kwiatek', 0.410025954246521),
 ('pierścionek', 0.40085846185684204),
 ('szal', 0.3689327836036682),
 ('kwiatuszek', 0.35739538073539734),
 ('więdnie', 0.3482385277748108),
 ('kosmyk', 0.3478660583496094),
 ('wieniec', 0.3417016863822937),
 ('aniołek', 0.3395038843154907),
 ('pączek', 0.3377920687198639),
 ('welon', 0.33124876022338867)]

In [22]:
model.wv.most_similar(positive=['samochód', 'wypadek'], 
                             negative=['koła'])

[('wóz', 0.4793816804885864),
 ('wszelki', 0.3963591158390045),
 ('samochodowy', 0.3933126926422119),
 ('autobus', 0.39141470193862915),
 ('radiowóz', 0.38650351762771606),
 ('dom', 0.38411399722099304),
 ('motocykl', 0.38246941566467285),
 ('pojazd', 0.3674071431159973),
 ('mulholland', 0.3643961250782013),
 ('statek', 0.36224550008773804)]

In [25]:
model.wv.most_similar(positive=['zabawa', 'muzyka'], 
                             negative=['taniec'])

[('praca', 0.4511440396308899),
 ('wojna', 0.42874372005462646),
 ('impreza', 0.4282425343990326),
 ('rozrywka', 0.42694413661956787),
 ('balanga', 0.4173719584941864),
 ('magia', 0.4107885956764221),
 ('szopka', 0.41009020805358887),
 ('poezja', 0.4073946475982666),
 ('branża', 0.40159904956817627),
 ('woda', 0.3993436098098755)]

In [27]:
model.wv.most_similar(positive=['robię', 'pracowałem'], 
                             negative=['robiłem'])

[('pracuję', 0.663844108581543),
 ('pracuje', 0.5996474027633667),
 ('pracujesz', 0.5216608047485352),
 ('pracowałam', 0.5133979320526123),
 ('pracujemy', 0.5024423599243164),
 ('pracował', 0.49125534296035767),
 ('pracować', 0.4788486063480377),
 ('pracowaliśmy', 0.4615871012210846),
 ('pracują', 0.4596034288406372),
 ('pracowała', 0.4480316936969757)]

In [29]:
model.wv.most_similar(positive=['pływam', 'biegałem'], 
                             negative=['pływałem'])

[('poruszam', 0.39577919244766235),
 ('biegam', 0.38051801919937134),
 ('spaceruję', 0.35884371399879456),
 ('biegałeś', 0.3506694436073303),
 ('łaziłem', 0.347728967666626),
 ('zawróciłem', 0.34684044122695923),
 ('biegłem', 0.3461698889732361),
 ('krążymy', 0.3431309759616852),
 ('łowię', 0.34240439534187317),
 ('wchodze', 0.34094980359077454)]

In [30]:
model.wv.most_similar(positive=['kłamię', 'oszukiwałem'], 
                             negative=['kłamałem'])

[('oszukuję', 0.3735451400279999),
 ('okłamałam', 0.34003618359565735),
 ('skarżę', 0.33394932746887207),
 ('oszukałem', 0.3147563934326172),
 ('posłuszna', 0.30811357498168945),
 ('ranię', 0.3077520728111267),
 ('domyślisz', 0.304212361574173),
 ('rozdzielać', 0.3040577173233032),
 ('okłamuję', 0.3036328852176666),
 ('skrzywdziłem', 0.3013016879558563)]

In [32]:
model.wv.most_similar(positive=['zabiję', 'strzelałem'], 
                             negative=['zabiłem'])

[('zastrzelę', 0.42370009422302246),
 ('ukatrupię', 0.4181016683578491),
 ('wypruję', 0.4169749915599823),
 ('osłonię', 0.4089369773864746),
 ('podziurawię', 0.40702372789382935),
 ('pchnę', 0.3966563940048218),
 ('postrzelę', 0.39091143012046814),
 ('wrzucę', 0.38914620876312256),
 ('rozniosę', 0.38887983560562134),
 ('zgniotę', 0.38164007663726807)]

In [34]:
model.wv.most_similar(positive=['kocham', 'pocałowałem'], 
                             negative=['kochałem'])

[('ugryzę', 0.4249495267868042),
 ('zgwałcę', 0.4122791290283203),
 ('oszukałam', 0.38457393646240234),
 ('podrywam', 0.3838348388671875),
 ('rozbolał', 0.3832361102104187),
 ('pocałowałam', 0.3785712718963623),
 ('podglądam', 0.37538567185401917),
 ('pogięło', 0.37320220470428467),
 ('pocałował', 0.37254124879837036),
 ('ubóstwiam', 0.37017470598220825)]

In [36]:
model.wv.most_similar(positive=['całość', 'fragment'], 
                             negative=['część'])

[('tekst', 0.3448552191257477),
 ('kompromis', 0.3289778530597687),
 ('śpiwór', 0.3245352804660797),
 ('odcinków', 0.31738176941871643),
 ('kamień', 0.31284940242767334),
 ('odtworzony', 0.3090559244155884),
 ('materiał', 0.30865997076034546),
 ('nosek', 0.30582287907600403),
 ('pagórek', 0.3021758198738098),
 ('egzemplarzach', 0.30001142621040344)]

In [7]:
model.wv.most_similar(positive=['paryż', 'anglia'], 
                             negative=['francja'])

[('londyn', 0.42132851481437683),
 ('marsylia', 0.3629785478115082),
 ('wrzesień', 0.35385555028915405),
 ('hamburg', 0.3531206250190735),
 ('orlean', 0.3364657759666443),
 ('jork', 0.3346133530139923),
 ('normandia', 0.33426040410995483),
 ('wietnam', 0.32357126474380493),
 ('wiedeń', 0.32259172201156616),
 ('lipiec', 0.31526631116867065)]