# What can I do with a trained model?

In [1]:
import gensim
import pandas as pd
import os

model = gensim.models.Doc2Vec.load('../models/Doc2Vec(dmm,d100,n5,w10,mc5,s0.001,t4)_e20.model')

## adding up document vectors

In [3]:
data2 = pd.read_pickle(os.path.join('../data/data_clean_4cols.pickle'))
candidate_data = (data2.drop(['id', 'message'], axis=1)
                      .drop_duplicates('from_name')
#                      .set_index('from_name')
                 )

sample_candidates = candidate_data.from_name.sample(2).as_matrix()
sample_candidates

array(['Heribert Hirte', 'Lisa Badum'], dtype=object)

In [4]:
combi_docvec = model.docvecs[sample_candidates[0]] + model.docvecs[sample_candidates[1]]
combi_docvec

array([ -2.15069890e+00,   1.04310036e+01,  -5.63390255e+00,
         2.10258722e+00,   2.37521434e+00,   1.16004324e+00,
        -1.14692366e+00,  -4.73722029e+00,  -3.18874931e+00,
        -2.00902057e+00,  -6.37173891e+00,   5.36194372e+00,
         3.09789371e+00,   7.02611446e+00,  -1.06238616e+00,
         9.90254402e-01,  -4.11244392e+00,  -7.54742336e+00,
         6.52550840e+00,  -3.82347918e+00,  -1.64124811e+00,
        -4.24900866e+00,   2.89007616e+00,   1.13611305e+00,
        -3.19058108e+00,  -5.62547588e+00,  -5.47747231e+00,
         1.35270989e+00,  -1.42251742e+00,  -1.02657723e+00,
         2.40497684e+00,  -1.37647307e+00,   3.35729861e+00,
        -1.13115883e+00,  -5.10885477e-01,   3.94553614e+00,
         3.26622605e-01,  -1.62215900e+00,  -7.30150938e-03,
         2.18006134e+00,   7.33575702e-01,   1.62484455e+00,
         8.19912791e-01,  -2.21390069e-01,  -4.18909693e+00,
        -2.07156849e+00,  -4.11328411e+00,   3.30910158e+00,
        -1.40015578e+00,

## finding similar docs aka candidates

In [5]:
model.docvecs.most_similar([combi_docvec], topn=10)

[('Heribert Hirte', 0.7352956533432007),
 ('Lisa Badum', 0.7146824598312378),
 ('Paul Bunjes', 0.7091944813728333),
 ('Lisa Paus', 0.6744884848594666),
 ('11153', 0.6681756973266602),
 ('56620', 0.6572266221046448),
 ('Katrin Göring-Eckardt', 0.6563804149627686),
 ('131808', 0.6557844877243042),
 ('61830', 0.652137279510498),
 ('123133', 0.6505974531173706)]

## doing the same with word vectors

In [2]:
model.wv.most_similar('digitalisierung')

[('digitalen', 0.5778788328170776),
 ('4.0', 0.5616430044174194),
 ('digitale', 0.5599273443222046),
 ('innovationen', 0.5480508804321289),
 ('automatisierung', 0.5448926091194153),
 ('innovation', 0.5181348919868469),
 ('zukunftsthemen', 0.4910086393356323),
 ('arbeitswelt', 0.4888453483581543),
 ('#digitalisierung', 0.4819645583629608),
 ('e-government', 0.4813412129878998)]

In [7]:
model.wv.most_similar([model.wv.word_vec('merkel') + model.wv.word_vec('frau')])

[('merkel', 0.7445380091667175),
 ('#merkel', 0.6758671998977661),
 ('merkels', 0.6347646117210388),
 ('bundeskanzlerin', 0.6173468828201294),
 ('kanzlerin', 0.578707218170166),
 ('özoguz', 0.5266203284263611),
 ('freimuth', 0.47064584493637085),
 ('regierungschefin', 0.4616911709308624),
 ('wanka', 0.46004027128219604),
 ('bauchgefühl', 0.4583378732204437)]

In [8]:
model.wv.most_similar('klimawandel')

[('klimawandels', 0.6018847227096558),
 ('klimakrise', 0.5960733890533447),
 ('klimaschutz', 0.5842841267585754),
 ('erderwärmung', 0.5358410477638245),
 ('erdöl', 0.5054121017456055),
 ('weltfrieden', 0.5016738772392273),
 ('energiewende', 0.4960845708847046),
 ('weltklima', 0.4886070787906647),
 ('massentierhaltung', 0.48382022976875305),
 ('hunger', 0.47443896532058716)]

In [9]:
model.wv.most_similar('steuern')

[('steuerpolitik', 0.5160256028175354),
 ('sozialabgaben', 0.5093764662742615),
 ('abgaben', 0.5022505521774292),
 ('abgabenlast', 0.48640012741088867),
 ('steuerentlastung', 0.4663386642932892),
 ('steuerentlastungen', 0.46021461486816406),
 ('umverteilung', 0.45453017950057983),
 ('https://www..de/standpunkte/investitionen-steuern/', 0.44680550694465637),
 ('einkommen', 0.4455975890159607),
 ('steuerkonzept', 0.4391680955886841)]

In [10]:
model.wv.most_similar('cannabis')

[('legalisierung', 0.636554479598999),
 ('medizin', 0.4737928509712219),
 ('rezeptpflichtiger', 0.4731256365776062),
 ('herero', 0.47304031252861023),
 ('medikamente', 0.47299811244010925),
 ('operationen', 0.45909738540649414),
 ('strengere', 0.45692986249923706),
 ('kontrollierte', 0.45156535506248474),
 ('jugendschutz', 0.43440157175064087),
 ('dealern', 0.4315119683742523)]

In [11]:
model.wv.most_similar([model.wv.word_vec('hauptstadt') + model.wv.word_vec('deutschland')/2])

[('hauptstadt', 0.9484652280807495),
 ('bundeshauptstadt', 0.5706392526626587),
 ('republik', 0.5143699049949646),
 ('berlin', 0.5023105144500732),
 ('reise', 0.4816671907901764),
 ('bundespresseamt', 0.4529900550842285),
 ('singapur', 0.4295526146888733),
 ('gruppe', 0.42479175329208374),
 ('dachterrasse', 0.4243021011352539),
 ('bildungsfahrt', 0.4151843190193176)]

## which word does not fit in?

In [12]:
model.wv.doesnt_match("bundeskanzler merkel regierung schulz".split())

'merkel'

In [13]:
model.wv.doesnt_match("weidel gauland höcke irmer".split())

'weidel'

In [14]:
model.wv.doesnt_match("europa deutschland spanien frankreich".split())

'deutschland'

## which candidate/party does not fit in?

In [15]:
model.docvecs.doesnt_match(['Angela Merkel', 'Martin Schulz', 'Christian Lindner', 'Dietmar Bartsch', 'Cem Özdemir', 'Alice Weidel', 'Joachim Herrmann'])

'Alice Weidel'

In [16]:
model.docvecs.doesnt_match(['SPD Party', 'CDU Party', 'FDP Party', 'DIE LINKE Party', 'CSU Party', 'GRÜNE Party', 'AfD Party'])

'CSU Party'

## infer new data

post from **Martin Schulz** after the election

In [240]:
model.docvecs.most_similar([model.infer_vector('Solidarität ist für mich kein abstrakter Begriff. Solidarität ist für mich Alltag. Sie steht nicht nur seit vielen Jahrzehnten im Zentrum meines ganzen politischen Denkens und Handelns. Sondern ich erlebe sie jeden Tag, ganz persönlich. Ich habe sie im Wahlkampf erlebt. Und ich erfahre sie in der aktuellen, schwierigen politischen Lage. Von Freunden und Angehörigen, von Genossinnen und Genossen. Und ich hatte das große Glück, als ich in meiner Jugend strauchelte, von anderen aufgefangen zu werden. Damals waren dies die Jusos in meiner Heimatstadt Würselen. So kam ich zur SPD. Denn hier merkte ich: Das war nicht nur ein Wort. In der Sozialdemokratie wird Solidarität gelebt. Ohne ist die SPD für mich gar nicht denkbar.')])

[('146943', 0.8924677968025208),
 ('147', 0.8910102844238281),
 ('49850', 0.889638364315033),
 ('107631', 0.8883894085884094),
 ('9339', 0.8877042531967163),
 ('103717', 0.8872299790382385),
 ('101926', 0.8843702077865601),
 ('66186', 0.8834260702133179),
 ('169742', 0.8825559616088867),
 ('162227', 0.8819050192832947)]