# Covid-19-Wörter vor und nach Covid-19 - Überprüfung

#### Lemmas
- Corona
- Maske
- Kontaktverbot
- Querdenker

## Importe und Datenvorbereitung

In [1]:
import codecs
import matplotlib.pyplot as plt
import nltk
import numpy as np
import os
import pandas as pd
import re
import scipy
import seaborn as sns
import spacy
import statistics 

from gensim.models import KeyedVectors
from gensim.models import Word2Vec
from gensim.models.phrases import Phraser, Phrases
from joblib import Parallel, delayed  
from nltk.corpus import stopwords
from scipy import spatial
from sklearn.manifold import TSNE
from tabulate import tabulate

In [2]:
nlp = spacy.load('de_core_news_md')
stopwords = stopwords.words('german')
tokenizer = nltk.data.load('tokenizers/punkt/german.pickle')

#### Korpus laden und vorbereiten

In [3]:
# die Datei enthält alle Treffer der oben genannten Lemmas im ZDL-Regionalkorpus des DWDS 
# mit jeweils einem Satz Kontext davor und danach

df = pd.read_csv('../data/big_1993-2021.csv', sep=',', encoding='utf-8')
df.head()

Unnamed: 0,Corpus,Date,Genre,Bibl,ContextBefore,Hit,ContextAfter
0,saar_regional,1993-02-01,Zeitung,"Saarbrücker Zeitung, 01.02.1993",Filmprogramme Neunkirchen.,"Corona 1: ""Bodyguard"" 15.30, 17.45, 20.15 Uhr.","Corona 2: ""Whoopi Sister act, eine himmlische ..."
1,saar_regional,1993-02-01,Zeitung,"Saarbrücker Zeitung, 01.02.1993",,Von der farbkräftigen Maske (Venezianischer Tr...,
2,saar_regional,1993-02-01,Zeitung,"Saarbrücker Zeitung, 01.02.1993","Corona 1: ""Bodyguard"" 15.30, 17.45, 20.15 Uhr.","Corona 2: ""Whoopi Sister act, eine himmlische ...","Burg 1:15.15, 17.45 und 20.15 Uhr ""Der letzte ..."
3,saar_regional,1993-02-03,Zeitung,"Saarbrücker Zeitung, 03.02.1993","Corona 1: ""Bodyguard"" 15.30, 17.45, 20.15 Uhr.","Corona 2: ""Whoopi Sister act, eine himmlische ...","Burg 1:15.15, 17.45 und 20.15 Uhr ""Der letzte ..."
4,saar_regional,1993-02-03,Zeitung,"Saarbrücker Zeitung, 03.02.1993",Filmprogramme Neunkirchen.,"Corona 1: ""Bodyguard"" 15.30, 17.45, 20.15 Uhr.","Corona 2: ""Whoopi Sister act, eine himmlische ..."


In [4]:
# NaN durch Whitespace ersetzen

df = df.fillna(' ')

In [5]:
# Wörter, die mit [...] anfangen löschen

expression = '\[...]\w*'
df = df.replace(to_replace = expression, value = ' ', regex=True)

In [6]:
# bevor die Spalten verbunden werden: Whitespace einfügen, um ein Aneinanderkleben der Wörter zu verhindern

df['ContextBefore'] = df['ContextBefore'].astype(str) + ' '
df['ContextAfter'] = ' ' + df['ContextAfter'].astype(str) 

In [7]:
# Text zu einer Spalte verbinden

columns = ['ContextBefore', 'Hit', 'ContextAfter']

df['Text'] = df[columns].astype(str).sum(axis=1)
df.head()

Unnamed: 0,Corpus,Date,Genre,Bibl,ContextBefore,Hit,ContextAfter,Text
0,saar_regional,1993-02-01,Zeitung,"Saarbrücker Zeitung, 01.02.1993",Filmprogramme Neunkirchen.,"Corona 1: ""Bodyguard"" 15.30, 17.45, 20.15 Uhr.","Corona 2: ""Whoopi Sister act, eine himmlische...","Filmprogramme Neunkirchen. Corona 1: ""Bodyguar..."
1,saar_regional,1993-02-01,Zeitung,"Saarbrücker Zeitung, 01.02.1993",,Von der farbkräftigen Maske (Venezianischer Tr...,,Von der farbkräftigen Maske (Venezianischer ...
2,saar_regional,1993-02-01,Zeitung,"Saarbrücker Zeitung, 01.02.1993","Corona 1: ""Bodyguard"" 15.30, 17.45, 20.15 Uhr.","Corona 2: ""Whoopi Sister act, eine himmlische ...","Burg 1:15.15, 17.45 und 20.15 Uhr ""Der letzte...","Corona 1: ""Bodyguard"" 15.30, 17.45, 20.15 Uhr...."
3,saar_regional,1993-02-03,Zeitung,"Saarbrücker Zeitung, 03.02.1993","Corona 1: ""Bodyguard"" 15.30, 17.45, 20.15 Uhr.","Corona 2: ""Whoopi Sister act, eine himmlische ...","Burg 1:15.15, 17.45 und 20.15 Uhr ""Der letzte...","Corona 1: ""Bodyguard"" 15.30, 17.45, 20.15 Uhr...."
4,saar_regional,1993-02-03,Zeitung,"Saarbrücker Zeitung, 03.02.1993",Filmprogramme Neunkirchen.,"Corona 1: ""Bodyguard"" 15.30, 17.45, 20.15 Uhr.","Corona 2: ""Whoopi Sister act, eine himmlische...","Filmprogramme Neunkirchen. Corona 1: ""Bodyguar..."


In [8]:
# Größe des DF

df.shape

(393699, 8)

#### Korpus shuffeln und random in der Mitte in zwei Teile teilen

In [10]:
# Shuffeln 

df_shuffled = df.sample(frac=1).reset_index(drop=True)
df_shuffled.head()

Unnamed: 0,Corpus,Date,Genre,Bibl,ContextBefore,Hit,ContextAfter,Text
0,rztg_regional,2006-12-11,Zeitung,"Rhein-Zeitung, 11.12.2006",weiteres Motiv vom Fastnachtsbrunnen.,"Nach den ""Drei Masken"" von 2006 erinnert der n...",Was vor 40 Jahren bundesweit für Lachsal,weiteres Motiv vom Fastnachtsbrunnen. Nach d...
1,mume_regional,2020-07-07,Zeitung,"Münchner Merkur, 07.07.2020","""Ja, seid 's Ihr narrisch? ""","""Sterben die Menschen an Corona oder an Einsam...",Diese Frage hatte der renommierte Pflegekriti...,"""Ja, seid 's Ihr narrisch? "" ""Sterben die Mens..."
2,rztg_regional,2003-03-29,Zeitung,"Rhein-Zeitung, 29.03.2003",Um 15 Uhr beginnt das Derby gegen die SG Oberr...,"""Masken"" ist Motto KELLENBACH.",Der Familiengottesdienst in der evangelischen...,Um 15 Uhr beginnt das Derby gegen die SG Oberr...
3,frt_regional,2020-09-12,Zeitung,"Fränkischer Tag, 12.09.2020","Pino, der sich aber auch ungern an die unfre...","""Und ich hoffe, dass Corona bald vorbei ist"", ...",Einige haben sich zur Lockdown-Zeit sogar wie...,"Pino, der sich aber auch ungern an die unfre..."
4,rztg_regional,2004-01-27,Zeitung,"Rhein-Zeitung, 27.01.2004",Für die schöne Bühnengestaltung zeichnete Gerh...,Die Maske übernahm Manuela Greb und als Souffl...,Und erfreut zeigte sich auch die Vorsitzende ...,Für die schöne Bühnengestaltung zeichnete Gerh...


In [11]:
393699/2

196849.5

In [12]:
# Korpus in 2 Teilkorpora (Grenze in der Mitte des geshuffelten DF)

df1 = df_shuffled.iloc[:196849,:]
df2 = df_shuffled.iloc[196850:,:]

In [13]:
df2.head()

Unnamed: 0,Corpus,Date,Genre,Bibl,ContextBefore,Hit,ContextAfter,Text
196850,mib_regional,2021-06-26,Zeitung,"Mittelbayerische, 26.06.2021",Die Krux mit filetiertem Fisch,Die beiden hatten wegen Corona ungewohnt viel ...,"Alessandro Papaccino, weil sein Lokal geschlo...",Die Krux mit filetiertem Fisch Die beiden hatt...
196851,lvz_regional,2020-12-12,Zeitung,"Leipziger Volkszeitung, 12.12.2020",Hunderten fremden Menschen in geschlossenen ...,Da hilft auch keine Maske mehr.,Sachsen befindet sich in einer kritischen Lage.,Hunderten fremden Menschen in geschlossenen ...
196852,neuw_regional,2020-09-29,Zeitung,"Neue Westfälische, 29.09.2020",Den drücke ich auf der Nase immer fest.,"Ich finde, die Maske ist das kleinste Problem ...","""Hallo Hinnak, Dein Brillen-Masken-Problem is...",Den drücke ich auf der Nase immer fest. Ich fi...
196853,sk_regional,2021-02-01,Zeitung,"Südkurier, 01.02.2021",Viel mehr geht aktuell leider nicht.,Wird der Fußball nach Corona noch der gleiche ...,Ich gehe fest davon aus.,Viel mehr geht aktuell leider nicht. Wird der ...
196854,ta_regional,2006-08-10,Zeitung,"Thüringer Allgemeine, 10.08.2006",nur noch wenige freie Plätze.,"Es ist aber auch zu verlockend, Kostüme und Ma...",,nur noch wenige freie Plätze. Es ist aber au...


#### Hilfsfunktionen zur Vorbereitung der Texte

In [14]:
def lemmatize_text_column(df, column):
    """
    transforms the Dataframe-column in a lemmatized string
    """
    text = ''
    for i in df[column]:
        doc = nlp(i)
        lemmas = ' '.join([x.lemma_ for x in doc])
        text = text + lemmas
    return text


def sentence_to_wordlist(raw:str):
    """
    cleans and tokenizes the sentences
    """
    text = re.sub('[^A-Za-z_äÄöÖüÜß]',' ', raw).split()                              
    filtered_text = [word for word in text if word not in stopwords]
    return filtered_text


def prepare_text(raw_text):
    """
    returns a list of tokenized sentences
    """
    raw_sentences = tokenizer.tokenize(str(raw_text).lower())    
    tokenized_sentences = Parallel(n_jobs=-1)(delayed(sentence_to_wordlist)(raw_sentence) for raw_sentence in raw_sentences)
    phrases = Phrases(tokenized_sentences)
    bigram = Phraser(phrases)
    sentences = list(bigram[tokenized_sentences])
    return sentences

#### Vorbereitung des ersten Texts 

In [15]:
text = lemmatize_text_column(df1, 'Text')
sentences = prepare_text(text)

# sentences ist eine Liste von tokenisierten Sätzen, zum Beispiel:
print(sentences[15])

['vhs', 'haus', 'kontaktfreier', 'sport', 'erlauben', 'heißen', 'paartanzkurse', 'geben']


#### Vorbereitung des zweiten Texts 

In [16]:
text2 = lemmatize_text_column(df2, 'Text')            
sentences2 = prepare_text(text2)

print(sentences2[100])

['günter', 'meist', 'helferinnen', 'stamm', 'besatzung', 'bereits', 'jahr_alt', 'teil', 'corona', 'impfen', 'verein', 'communitas', 'kurzfristig', 'mannschaft', 'jung', 'mitglied', 'katholisch', 'kirchgemeinde', 'hainichen', 'mitarbeiter', 'firma', 'naturbrennstoffe', 'sowie', 'geimpfte_genesene', 'zusammenstellen']


## Training von Word2Vec auf den Text vor Covid-19

In [17]:
# Paramter setzen
workers = 4                      # Use these many worker threads to train the model (=faster training with multicore machines)
seed = 42                        # Seed for the random number generator

In [18]:
# Ordner anlegen zum Abspeichern von trainierten Modellen
if not os.path.exists('../trained_models'):
    os.makedirs('../trained_models')

In [19]:
# Training

w2v1 = Word2Vec(sentences=sentences,                   
                 vector_size=300,          # Dimensionality of the word vectors
                 window=10,                # The maximum distance between the current and predicted word within a sentence
                 min_count=3,              # (int, optional) – The model ignores all words with total frequency lower than this
                 workers=workers, 
                 min_alpha=0.0001,         # Learning rate will linearly drop to min_alpha as training progresses
                 sg=1,                     # Training algorithm: skip-gram if sg=1, otherwise CBOW
                 seed=seed)

## Training von Word2Vec auf den Text nach Covid-19

In [21]:
w2v2 = Word2Vec(sentences=sentences2,                   
                 vector_size=300,                
                 window=10,              
                 min_count=3,             
                 workers=workers, 
                 min_alpha=0.0001,                                                    
                 sg=1,                     
                 seed=seed)

In [22]:
# trainierte Modelle speichern
w2v1.save(os.path.join('../trained_models', 'w2v1_big_proof.model'))
w2v2.save(os.path.join('../trained_models', 'w2v2_big_proof.model'))

## Exploration und Vergleich der Embeddings

In [23]:
# trainierte Modelle laden
w2v1 = Word2Vec.load(os.path.join('../trained_models', 'w2v1_big_proof.model'))
w2v2 = Word2Vec.load(os.path.join('../trained_models', 'w2v2_big_proof.model'))

In [24]:
w2v1.wv.most_similar(positive=['querdenker'], topn=20)

[('querdenkern', 0.6588187217712402),
 ('querdenken', 0.5921803712844849),
 ('vordenker', 0.5727674961090088),
 ('heiner_geißler', 0.5653073787689209),
 ('querulant', 0.5647078156471252),
 ('corona_leugner', 0.5592082738876343),
 ('partei', 0.557693362236023),
 ('politisch', 0.5558976531028748),
 ('querdenkers', 0.5428187251091003),
 ('verschwörungstheoretiker', 0.5397461652755737),
 ('karl_valentin', 0.5366318821907043),
 ('kritiker', 0.5350196957588196),
 ('rechtsextremisten', 0.5320907235145569),
 ('demonstration_sogenannt', 0.5311106443405151),
 ('polit', 0.5246793031692505),
 ('sogenannt_querdenker', 0.5239007472991943),
 ('rebell', 0.5235471129417419),
 ('quertreiber', 0.5217278599739075),
 ('antisemit', 0.521049439907074),
 ('these', 0.5172858238220215)]

In [25]:
w2v2.wv.most_similar(positive=['querdenker'], topn=20)

[('querdenkern', 0.7085202932357788),
 ('corona_leugner', 0.5580762624740601),
 ('sogenannt_querdenker', 0.5412794947624207),
 ('querdenkers', 0.5407152771949768),
 ('querdenken', 0.5391135811805725),
 ('afd', 0.5356047749519348),
 ('politisch', 0.527485191822052),
 ('rebell', 0.5081558227539062),
 ('protest', 0.5001971125602722),
 ('zweifler', 0.4995787739753723),
 ('demokratie', 0.4959101378917694),
 ('kundgebung', 0.49128445982933044),
 ('kritiker', 0.4812290072441101),
 ('grundrechte', 0.48046866059303284),
 ('partei', 0.48032793402671814),
 ('leicht_einsteiger', 0.4801614582538605),
 ('schwierig_profi', 0.47835060954093933),
 ('demo', 0.47694069147109985),
 ('demonstration', 0.4760800004005432),
 ('ernannt_querdenker', 0.4753364622592926)]

In [26]:
w2v1.wv.most_similar(positive=['corona'], topn=20)

[('dcorona', 0.6397215127944946),
 ('ausnahmezustand', 0.6325564980506897),
 ('euphorie', 0.617592453956604),
 ('ansprechpartner_redaktion', 0.6169363260269165),
 ('veder', 0.615837574005127),
 ('niedrige', 0.6138754487037659),
 ('wbf', 0.6082111597061157),
 ('geschäftslage', 0.6067193150520325),
 ('ve', 0.6046144366264343),
 ('steigen_nachfrage', 0.601384699344635),
 ('kreis_haßberge', 0.5981872081756592),
 ('zweite_lockdown', 0.5974642634391785),
 ('griff_behalten', 0.5973573327064514),
 ('verschmerzen', 0.5969419479370117),
 ('bundespolitik', 0.594907283782959),
 ('fluß', 0.5925443768501282),
 ('tagesgästen', 0.591491162776947),
 ('pflegeheimbewohner', 0.5908797979354858),
 ('durchboxen', 0.5884109139442444),
 ('kulturell_veranstaltung', 0.5878657698631287)]

In [27]:
w2v2.wv.most_similar(positive=['corona'], topn=20)

[('einge', 0.6254350543022156),
 ('gesundheitsam', 0.6170993447303772),
 ('impfstrategie', 0.6094528436660767),
 ('stadt_schongauer', 0.6055542230606079),
 ('epd', 0.602095365524292),
 ('leichter', 0.5991912484169006),
 ('existenznöte', 0.5966088175773621),
 ('mehr_lohn', 0.5956728458404541),
 ('personalaufwand', 0.59549480676651),
 ('seuche', 0.5954253673553467),
 ('kolleg', 0.5927336812019348),
 ('blumberg_blu', 0.591993510723114),
 ('auftragsbücher_voll', 0.5918238759040833),
 ('uin', 0.590897262096405),
 ('rathau', 0.5896192789077759),
 ('kreis_altenkirchen', 0.5891485810279846),
 ('dcorona', 0.5877975821495056),
 ('drogenszene', 0.5874871611595154),
 ('wirtschaftlich_gesellschaftlich', 0.5872811675071716),
 ('lehrbetrieb', 0.5858713984489441)]

In [28]:
w2v1.wv.most_similar(positive=['maske'], topn=20)

[('gesichtsmaske', 0.6178276538848877),
 ('gesichts', 0.5856296420097351),
 ('make_up', 0.5816360116004944),
 ('utensil', 0.5742040276527405),
 ('mantel', 0.573429524898529),
 ('gefertigt_maske', 0.5727666616439819),
 ('perücke', 0.5722976922988892),
 ('mitgebracht', 0.5713409781455994),
 ('kleidungsstücke', 0.5710033774375916),
 ('bändern', 0.5700575709342957),
 ('holzmaske', 0.5694084763526917),
 ('gschell', 0.5669103860855103),
 ('handschuh', 0.5634407997131348),
 ('nase_mund', 0.5632302761077881),
 ('zubehör', 0.5630552172660828),
 ('umhang', 0.5616921782493591),
 ('davon_zeugen', 0.5614191293716431),
 ('hose_jacke', 0.5584930777549744),
 ('gummi', 0.5580463409423828),
 ('bettlaken', 0.5569013357162476)]

In [29]:
w2v2.wv.most_similar(positive=['maske'], topn=20)

[('gesichtsmaske', 0.5714719295501709),
 ('gefertigt_maske', 0.5633559823036194),
 ('perücke', 0.5588682889938354),
 ('atemschutzmaske', 0.5575581789016724),
 ('bilderrahmen', 0.5496194958686829),
 ('kopfbedeckung', 0.5490328669548035),
 ('ähnlichem', 0.5484027862548828),
 ('seide', 0.5476992130279541),
 ('bändern', 0.5468208193778992),
 ('tuch', 0.5460397601127625),
 ('umhang', 0.5445458292961121),
 ('angefertigt', 0.5440043210983276),
 ('kaffeefilter', 0.5439320802688599),
 ('mütze', 0.5437399744987488),
 ('hergestellt_maske', 0.5432673096656799),
 ('ausschneiden', 0.5428699851036072),
 ('leder', 0.5421731472015381),
 ('vorderseite', 0.5413904190063477),
 ('klebstoff', 0.540919840335846),
 ('klamotte', 0.5403167009353638)]

In [30]:
w2v1.wv.most_similar(positive=['kontaktverbot'], topn=20)

[('kontaktverbote', 0.7869566679000854),
 ('kontaktverbots', 0.7335948348045349),
 ('kontaktverbotes', 0.7061266303062439),
 ('verhängen', 0.6898846626281738),
 ('ex_freundin', 0.687829852104187),
 ('erwirken', 0.6867323517799377),
 ('angeklagte', 0.6805453300476074),
 ('gerichtlich', 0.6761641502380371),
 ('verhängen_kontaktverbot', 0.6505555510520935),
 ('gerichtlich_kontaktverbot', 0.6450782418251038),
 ('gewaltschutzgesetz', 0.6401407718658447),
 ('richterlich', 0.6382237076759338),
 ('geschieden', 0.6379993557929993),
 ('familiengericht', 0.6362400650978088),
 ('kontaktverbot_aussprechen', 0.6318796277046204),
 ('haftbefehl', 0.6298323273658752),
 ('sexuell', 0.6280562877655029),
 ('amtsgericht', 0.6275899410247803),
 ('richterliche', 0.62645423412323),
 ('ausgangsbeschränkungen', 0.6260154247283936)]

In [31]:
w2v2.wv.most_similar(positive=['kontaktverbot'], topn=20)

[('kontaktverbote', 0.7696318030357361),
 ('kontaktverbots', 0.7158422470092773),
 ('erwirken', 0.6866025924682617),
 ('familiengericht', 0.6779651045799255),
 ('gerichtlich_kontaktverbot', 0.6689993739128113),
 ('kontaktverbot_aussprechen', 0.6637488007545471),
 ('verhängen', 0.6621763706207275),
 ('platzverweis', 0.6494439840316772),
 ('gewaltschutzgesetz', 0.6489607095718384),
 ('strikt_kontaktverbot', 0.6485754251480103),
 ('gerichtlich', 0.6472131609916687),
 ('kontaktverbotes', 0.6461856365203857),
 ('kontaktverbot_verhängen', 0.6368775367736816),
 ('ex_freundin', 0.6336828470230103),
 ('gemeinsam_wohnung', 0.6293594241142273),
 ('angeklagte', 0.6289194822311401),
 ('kontaktverboten', 0.626443088054657),
 ('platzverweis_kontaktverbot', 0.6240734457969666),
 ('verhängt', 0.622042715549469),
 ('gericht_kontaktverbot', 0.6219041347503662)]

In [32]:
w2v1.wv.most_similar(positive=['virus'], topn=20)

[('krankheit', 0.6362794041633606),
 ('coronavirus', 0.6236957907676697),
 ('covid', 0.6212191581726074),
 ('ausbreitung', 0.6013243794441223),
 ('epidemie', 0.5913169384002686),
 ('infektion', 0.5746894478797913),
 ('delta_variante', 0.5740849375724792),
 ('seuche', 0.5692173838615417),
 ('befallen', 0.5659627914428711),
 ('schlaganfall', 0.5565125346183777),
 ('ansteckend', 0.556220531463623),
 ('klinikalltag', 0.5517795085906982),
 ('grippe', 0.5503295063972473),
 ('sars_cov', 0.5500518083572388),
 ('bekämpfen', 0.5473859906196594),
 ('verbreitung_virus', 0.5473832488059998),
 ('infektionskrankheit', 0.5465611219406128),
 ('hiv', 0.5439268946647644),
 ('unwissentlich', 0.5424239635467529),
 ('aids', 0.5417110323905945)]

In [33]:
w2v2.wv.most_similar(positive=['virus'], topn=20)

[('covid', 0.6802770495414734),
 ('coronavirus', 0.6208800077438354),
 ('grippe', 0.5916258692741394),
 ('krankheit', 0.5829752087593079),
 ('influenza', 0.5802415609359741),
 ('erreger', 0.5790480375289917),
 ('infektion', 0.5716615915298462),
 ('epidemie', 0.5690684914588928),
 ('ausbreitung', 0.5649843215942383),
 ('sars_cov', 0.5641929507255554),
 ('zelle', 0.5526627898216248),
 ('verbreitung', 0.5519125461578369),
 ('ausbreiten', 0.5458496809005737),
 ('ansteckend', 0.5422831177711487),
 ('seuche', 0.5406694412231445),
 ('virus_bakterie', 0.540645956993103),
 ('erkältung', 0.5399212837219238),
 ('vogelgrippe', 0.5397496223449707),
 ('viren', 0.5388253331184387),
 ('hepatitis', 0.5312572717666626)]

## Ausrichtung der beiden Embedding-Modelle

In [34]:
# Quelle: https://gist.github.com/zhicongchen/9e23d5c3f1e5b1293b16133485cd17d8

def smart_procrustes_align_gensim(base_embed, other_embed, words=None):
    """
    Original script: https://gist.github.com/quadrismegistus/09a93e219a6ffc4f216fb85235535faf
    Updatet script: https://gist.github.com/zhicongchen/9e23d5c3f1e5b1293b16133485cd17d8
    Procrustes align two gensim models (to allow for comparison between same word across models).
    Code ported from HistWords <https://github.com/williamleif/histwords> by William Hamilton <wleif@stanford.edu>.
        
    First, intersect the vocabularies (see `intersection_align_gensim` documentation).
    Then do the alignment on the other_embed model.
    Replace the other_embed model's syn0 and syn0norm numpy matrices with the aligned version.
    Return other_embed.

    If `words` is set, intersect the two models' vocabulary with the vocabulary in words (see `intersection_align_gensim` documentation).
    """

    # patch by Richard So [https://twitter.com/richardjeanso) (thanks!) to update this code for new version of gensim
    # base_embed.init_sims(replace=True)
    # other_embed.init_sims(replace=True)

    # make sure vocabulary and indices are aligned
    in_base_embed, in_other_embed = intersection_align_gensim(base_embed, other_embed, words=words)
    
    # re-filling the normed vectors
    in_base_embed.wv.fill_norms(force=True)
    in_other_embed.wv.fill_norms(force=True)

    # get the (normalized) embedding matrices
    base_vecs = in_base_embed.wv.get_normed_vectors()
    other_vecs = in_other_embed.wv.get_normed_vectors()

    # just a matrix dot product with numpy
    m = other_vecs.T.dot(base_vecs) 
    # SVD method from numpy
    u, _, v = np.linalg.svd(m)
    # another matrix operation
    ortho = u.dot(v) 
    # Replace original array with modified one, i.e. multiplying the embedding matrix by "ortho"
    other_embed.wv.vectors = (other_embed.wv.vectors).dot(ortho)    
    
    return other_embed

def intersection_align_gensim(m1, m2, words=None):
    """
    Intersect two gensim models, m1 and m2.
    Only the shared vocabulary between them is kept.
    If 'words' is set (as list or set), then the vocabulary is intersected with this list as well.
    Indices are re-organized from 0..N in order of descending frequency (=sum of counts from both m1 and m2).
    These indices correspond to the new syn0 and syn0norm objects in both gensim models:
        -- so that Row 0 of m1.syn0 will be for the same word as Row 0 of m2.syn0
        -- you can find the index of any word on the .index2word list: model.index2word.index(word) => 2
    The .vocab dictionary is also updated for each model, preserving the count but updating the index.
    """

    # Get the vocab for each model
    vocab_m1 = set(m1.wv.index_to_key)
    vocab_m2 = set(m2.wv.index_to_key)

    # Find the common vocabulary
    common_vocab = vocab_m1 & vocab_m2
    if words: common_vocab &= set(words)

    # If no alignment necessary because vocab is identical...
    if not vocab_m1 - common_vocab and not vocab_m2 - common_vocab:
        return (m1,m2)

    # Otherwise sort by frequency (summed for both)
    common_vocab = list(common_vocab)
    common_vocab.sort(key=lambda w: m1.wv.get_vecattr(w, "count") + m2.wv.get_vecattr(w, "count"), reverse=True)
    # print(len(common_vocab))

    # Then for each model...
    for m in [m1, m2]:
        # Replace old syn0norm array with new one (with common vocab)
        indices = [m.wv.key_to_index[w] for w in common_vocab]
        old_arr = m.wv.vectors
        new_arr = np.array([old_arr[index] for index in indices])
        m.wv.vectors = new_arr

        # Replace old vocab dictionary with new one (with common vocab)
        # and old index2word with new one
        new_key_to_index = {}
        new_index_to_key = []
        for new_index, key in enumerate(common_vocab):
            new_key_to_index[key] = new_index
            new_index_to_key.append(key)
        m.wv.key_to_index = new_key_to_index
        m.wv.index_to_key = new_index_to_key
        
        print(len(m.wv.key_to_index), len(m.wv.vectors))
        
    return (m1,m2)

In [35]:
# Ausrichtung der beiden Modelle

w2v2_al = smart_procrustes_align_gensim(w2v1, w2v2)

57557 57557
57557 57557


In [36]:
# speichern
w2v2_al.save(os.path.join('../trained_models', 'w2v2_al_big.model'))

## Cosinus-Ähnlichkeit zwischen den Vektoren der beiden Modelle

In [37]:
# laden
w2v2_al = Word2Vec.load(os.path.join('../trained_models', 'w2v2_al_big.model'))

#### Exploration

In [38]:
# ähnliche Wörter zu 'querdenker' nach Covid-19
w2v2_al.wv.most_similar(positive=['querdenker'], topn=25)

[('querdenkern', 0.7085202932357788),
 ('corona_leugner', 0.5580762624740601),
 ('sogenannt_querdenker', 0.5412795543670654),
 ('querdenkers', 0.5407153367996216),
 ('querdenken', 0.5391135811805725),
 ('afd', 0.5356048941612244),
 ('politisch', 0.527485191822052),
 ('rebell', 0.508155882358551),
 ('protest', 0.5001971125602722),
 ('zweifler', 0.4995788335800171),
 ('demokratie', 0.495910108089447),
 ('kundgebung', 0.4912845194339752),
 ('kritiker', 0.4812290072441101),
 ('grundrechte', 0.4804686903953552),
 ('partei', 0.4803280234336853),
 ('demo', 0.47694069147109985),
 ('demonstration', 0.4760799705982208),
 ('ernannt_querdenker', 0.4753364622592926),
 ('unbequem_querdenker', 0.475033700466156),
 ('politik', 0.47353753447532654),
 ('kassel', 0.4722203314304352),
 ('reichsbürger', 0.4718503952026367),
 ('telegram', 0.47115880250930786),
 ('kritik', 0.4673141539096832),
 ('rechtsextremisten', 0.46617376804351807)]

In [39]:
vector_querdenker1 = w2v1.wv['querdenker']  
vector_querdenker2_al = w2v2_al.wv['querdenker'] 

cosine_querdenker = 1 - spatial.distance.cosine(vector_querdenker1, vector_querdenker2_al)
cosine_querdenker

0.8308195471763611

In [40]:
vector_maske1 = w2v1.wv['maske']  
vector_maske2_al = w2v2_al.wv['maske'] 

cosine_maske = 1 - spatial.distance.cosine(vector_maske1, vector_maske2_al)
cosine_maske

0.9374611973762512

In [41]:
vector_kontaktverbot1 = w2v1.wv['kontaktverbot']  
vector_kontaktverbot2_al = w2v2_al.wv['kontaktverbot'] 

cosine_kontaktverbot = 1 - spatial.distance.cosine(vector_kontaktverbot1, vector_kontaktverbot2_al)
cosine_kontaktverbot

0.8911445736885071

In [42]:
vector_corona1 = w2v1.wv['corona']  
vector_corona2_al = w2v2_al.wv['corona'] 

cosine_corona = 1 - spatial.distance.cosine(vector_corona1, vector_corona2_al)
cosine_corona

0.9364716410636902

In [43]:
# Versuch mit unverfänglichen Wörtern

vector_deutschland1 = w2v1.wv['deutschland']  
vector_deutschland2_al = w2v2_al.wv['deutschland'] 

cosine_deutschland = 1 - spatial.distance.cosine(vector_deutschland1, vector_deutschland2_al)
cosine_deutschland

0.7904312610626221

In [44]:
vector_nachricht1 = w2v1.wv['nachricht']  
vector_nachricht2_al = w2v2_al.wv['nachricht'] 

cosine_nachricht = 1 - spatial.distance.cosine(vector_nachricht1, vector_nachricht2_al)
cosine_nachricht

0.8412572741508484

In [45]:
vector_mann1 = w2v1.wv['mann']  
vector_mann2_al = w2v2_al.wv['mann'] 

cosine_mann = 1 - spatial.distance.cosine(vector_mann1, vector_mann2_al)
cosine_mann

0.7881110906600952

In [46]:
vector_frau1 = w2v1.wv['frau']  
vector_frau2_al = w2v2_al.wv['frau'] 

cosine_frau = 1 - spatial.distance.cosine(vector_frau1, vector_frau2_al)
cosine_frau

0.8224247694015503

### durchschnittliche Cosinus-Ähnlichkeit, Standardweichung und 'Normalbereich'

- von allen Wörtern/Vektoren, die in beiden Modellen vorkommen jeweils die Cosinus-Ähnlichkeit berechnen (also zueinander zwischen den Modellen)
- durchschnittliche Ähnlichkeit und Standardabweichung berechnen, um einen 'Normalbereich' zu ermitteln
- liegt der Wert der Cosinus-Ähnlichkeit (desselben Lemmas zwischen den Modellen) unter dem Normalbereich?

In [47]:
# alle Wörter, die in beiden Modellen vorkommmen

vocab1 = set(w2v1.wv.index_to_key)
vocab2_al = set(w2v2_al.wv.index_to_key)

common_vocab = vocab1 & vocab2_al

In [48]:
len(common_vocab)

57557

In [49]:
# Cosinus-Ähnlichkeit zwischen dem Wort in den beiden Modellen berechnen

cosines = {}

for word in common_vocab:
    vector1 = w2v1.wv[word]  
    vector2_al = w2v2_al.wv[word] 
    cosine = 1 - spatial.distance.cosine(vector1, vector2_al)
    cosines[word] = cosine

In [50]:
cosine_df = pd.DataFrame.from_dict(cosines, orient='index', columns=['cosine'])
cosine_df

Unnamed: 0,cosine
verstohlen,0.945939
gesprächsbedarf,0.907328
kopfhaut,0.933847
weiterverfolgen,0.912821
zwangs,0.942296
...,...
parallele,0.902846
domhof,0.903463
kindergartenkind,0.890936
fadenscheinig,0.922577


In [51]:
# durchschnittliche Cosinus-Ähnlichkeit der Wörter der beiden Modelle 

statistics.mean(cosine_df['cosine'])

0.8938241987028089

In [52]:
# Standardabweichung

statistics.stdev(cosine_df['cosine'])

0.055511105889167855

In [53]:
# 'Normalbereich' der Cosinus-Ähnlichkeit

border = statistics.mean(cosine_df['cosine']) - statistics.stdev(cosine_df['cosine'])

print('der Normalbereich der Cosinus-Ähnlichkeit liegt über', border)

der Normalbereich der Cosinus-Ähnlichkeit liegt über 0.8383130928136411


In [54]:
# DF aufsteigend sortieren und die ersten 30 Zeilen ausgeben, um die 'Ausreißer' anzuschauen
# nur um mal zu gucken...

cosine_df.sort_values(by=['cosine'], axis=0).iloc[:30]

Unnamed: 0,cosine
burg_betriebsferien,0.028445
buedingen,0.031238
coro,0.408289
selbsthilfegruppen_geben,0.41531
jeweils_immer,0.424558
teil_veröffentlichen,0.434795
zweibrücken,0.46422
vorab_kontaktaufnahme,0.474344
h,0.476515
einrichtung_gebeten,0.483769


### Ergebnis

Wie erwartet ist Cosinus-Ähnlichkeit zwischen den Vektoren 'Querdenker', 'Corona', 'Kontaktverbot' und 'Maske' zwischen den geshuffelten Modellen jeweils höher als zwischen dem Before- und After-Covid-Modell. <br>
Der Test bestätigt nochmal die Hypothese.