## Vortrainierte fastText-Modelle mit Gensim-Implementierung

###  Trainieren von Modellen mit fastText (Extra)

In [1]:
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

In [21]:
from pprint import pprint as print
from gensim.models.fasttext import FastText
from gensim.test.utils import datapath
import fasttext.util
import tempfile
import os
import glob

In [2]:
# Quelle: https://radimrehurek.com/gensim/auto_examples/tutorials/run_fasttext.html#sphx-glr-auto-examples-tutorials-run-fasttext-py
# Dateinamen für Trainings- und Test-Daten werden definiert

# Das "Lee"-Korpus wird zusammen mit Gensim installiert.
# Es besteht aus 314 Dokumenten, die aus dem "Australian Broadcasting Corporation’s news mail service" ausgewählt wurden.
# Der Dienst bietet Text-E-Mails von Schlagzeilen an sowie eine Reihe allgemeiner Themen

corpus_file = datapath('lee_background.cor')

model = FastText(vector_size=100)

# Aufbau des Wörterbuchs
model.build_vocab(corpus_file=corpus_file)

# Trainieren des Modells
model.train(
    corpus_file=corpus_file, 
    epochs=model.epochs,
    total_examples=model.corpus_count, 
    total_words=model.corpus_total_words,
)

model

<gensim.models.fasttext.FastText at 0x7f11a451afd0>

In [None]:
# Parameter

### Speichern und Laden von Modellen

In [None]:
# Speichern des durch die Gensim-fastText-Implementation trainierten Modells als "temp"
with tempfile.NamedTemporaryFile(prefix='saved_model_gensim-', delete=False) as tmp:
    model.save(tmp.name, separately=[])

# Dasselbe Modell wird geladen
loaded_model = FastText.load(tmp.name)
print(loaded_model)

# Die "temp"-Datei wird nicht mehr gebraucht
os.unlink(tmp.name)

In [24]:
# Überprüfen, ob sich man bei dem richtigen Arbeitsverzeichnis befindet
os.getcwd()

'/home/iuser/DH/DH_2020_2021/word_embeddings_HP'

In [11]:
# Ändern des Arbeitsverzeichnisses
print(os.chdir('../'))

None


In [25]:
# Suchen und Ausgeben der schon trainierten bzw. herunterladenen Modellen
pretr_models = glob.glob("./Notebooks/3_Word2vec mit Gensim/trained_models/*.bin")
pretr_models

['./Notebooks/3_Word2vec mit Gensim/trained_models/cc.de.300.bin',
 './Notebooks/3_Word2vec mit Gensim/trained_models/wiki.de.bin',
 './Notebooks/3_Word2vec mit Gensim/trained_models/hp5_w2v.bin',
 './Notebooks/3_Word2vec mit Gensim/trained_models/hp1_7_w2v.bin']

### Auf Common Crawl und Wikipedia vortrainierte Wortvektoren - deutsche Sprache

In [None]:
# Vortrainierte Wortvektoren für das Deutsch, aus den Modellen für 157 Sprachen ausgewählt,
# die auf Common Crawl and Wikipedia mittels fastTexts trainiert wurden.
# Das Modell wurde außerdem nach den folgenden Leitlinien trainiert: "CBOW with position-weights, in dimension 300, 
# with character n-grams of length 5, a window of size 5 and 10 negatives".
# Die Datei 'wiki.de.bin' ist die alte Version für Multisprachenwortvektoren im Vergleich zu 'cc.de.300.bin'

# Herunter- und Hochladen des Modells mittels "import fasttext.util"
#import fasttext.util
#fasttext.util.download_model('de', if_exists='ignore')
#cc_de = fasttext.load_model('cc.de.300.bin')

cc_de = fasttext.load_model('./Notebooks/3_Word2vec mit Gensim/trained_models/cc.de.300.bin)

In [None]:
# Größe des Vektoren-Modells
cc_de.get_dimension()

#### Wortvektorenexploration

In [None]:
# Das ".wv"-Attribut enthält alle Informationen zur Exploration von fastText-Wörtern und sogar OOV-Wörtern.
# Um Speicherplatz und RAM zu sparen wird das ".wv"-Attribut exportiert und gespeichert

cc_wv = cc_de.wv
cc_wv

'hexe' in cc_wv.key_to_index

In [None]:
# Die "out-of-vocabulary"-Wörter werden durch die Summe ihrer "character ngrams" erfolgreich behandelt
'hexen' in cc_wv.key_to_index

In [None]:
cc_wv['hexe']

In [None]:
cc_wv['hexen']

#### Ähnlichkeitsoperationen

In [None]:
# interesting! and they are OOV words!
cc_wv.similarity("harry", "potter")

In [None]:
cc_wv.similarity("hexe", "hexen")

In [None]:
cc_wv.most_similar("hexe")

In [None]:
# bin im Himmel!
cc_wv.n_similarity(['harry', 'wand'], ['spiderman', 'cobweb'])

In [None]:
# YESSSA!
cc_wv.doesnt_match("harry ron hermione voldemort".split())

In [None]:
cc_wv.most_similar(positive=['harry', 'ron'], negative=['malfoy'])

### Vortrainiertes Harry-Potter-Modell

In [None]:
pretr_hp = fasttext.load_model(./Notebooks/3_Word2vec mit Gensim/trained_models/hp1_7_w2v.bin')

#### Wortvektorenexploration

In [None]:
# Das ".wv"-Attribut enthält alle Informationen zur Exploration von fastText-Wörtern und sogar OOV-Wörtern.
# Um Speicherplatz und RAM zu sparen wird das ".wv"-Attribut exportiert und gespeichert

hp_wv = pretr_hp.wv
hp_wv

'hexe' in hp_wv.key_to_index 

In [None]:
# Die "out-of-vocabulary"-Wörter werden durch die Summe ihrer "character ngrams" erfolgreich behandelt
'hexen' in hp_wv.key_to_index

#### Ähnlichkeitsoperationen

In [None]:
# interesting! and they are OOV words!
hp_wv.similarity("harry", "potter")

In [None]:
hp_wv.most_similar("hexen")

In [None]:
# bin im Himmel!
hp_wv.n_similarity(['harry', 'wand'], ['spiderman', 'cobweb'])

In [None]:
# YESSSA!
hp_wv.doesnt_match("harry ron hermione voldemort".split())

In [None]:
hp_wv.most_similar(positive=['harry', 'ron'], negative=['malfoy'])

### Vortrainiertes Fanfiction-Modell

In [None]:
pretr_ff = fasttext.load_model(./Notebooks/3_Word2vec mit Gensim/trained_models/___.bin')

#### Wortvektorenexploration

In [None]:
# Das ".wv"-Attribut enthält alle Informationen zur Exploration von fastText-Wörtern und sogar OOV-Wörtern.
# Um Speicherplatz und RAM zu sparen wird das ".wv"-Attribut exportiert und gespeichert

ff_wv = pretr_ff.wv
ff_wv

'hexe' in ff_wv.key_to_index

In [None]:
# Die "out-of-vocabulary"-Wörter werden durch die Summe ihrer "character ngrams" erfolgreich behandelt
'hexen' in ff_wv.key_to_index

#### Ähnlichkeitsoperationen

In [None]:
# interesting! and they are OOV words!
ff_wv.similarity("harry", "potter")

In [None]:
ff_wv.most_similar("hexen")

In [None]:
# bin im Himmel!
ff_wv.n_similarity(['harry', 'wand'], ['spiderman', 'cobweb'])

In [None]:
# YESSSA!
ff_wv.doesnt_match("harry ron hermione voldemort".split())

In [None]:
ff_wv.most_similar(positive=['harry', 'ron'], negative=['malfoy'])

In [None]:
# 'questions-words.txt' should be considered here as source
wv.evaluate_word_analogies(datapath('questions-words.txt'))


In [None]:
sentence_obama = .lower().split()
sentence_president = .lower().split()

#from gensim.parsing.preprocessing import STOPWORDS
sentence_obama = [w for w in sentence_obama if w not in stopwords]
sentence_president = [w for w in sentence_president if w not in stopwords]

distance = wv.wmdistance(sentence_obama, sentence_president)
print(f"Word Movers Distance is {distance} (lower means closer)")
