## Vortrainierte fastText-Modelle mit Gensim-Implementierung

###  Trainieren von Modellen mit fastText (Extra)

In [1]:
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

In [2]:
from pprint import pprint as print
from gensim.models.fasttext import FastText
from gensim.test.utils import datapath
import fasttext.util
import tempfile
import os
import glob

2021-05-04 14:19:43,915 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2021-05-04 14:19:43,915 : INFO : built Dictionary(12 unique tokens: ['computer', 'human', 'interface', 'response', 'survey']...) from 9 documents (total 29 corpus positions)


In [4]:
# Quelle: https://radimrehurek.com/gensim/auto_examples/tutorials/run_fasttext.html#sphx-glr-auto-examples-tutorials-run-fasttext-py
# Dateinamen für Trainings- und Test-Daten werden definiert

# Das "Lee"-Korpus wird zusammen mit Gensim installiert.
# Es besteht aus 314 Dokumenten, die aus dem "Australian Broadcasting Corporation’s news mail service" ausgewählt wurden.
# Der Dienst bietet Text-E-Mails von Schlagzeilen an sowie eine Reihe allgemeiner Themen

corpus_file = datapath('lee_background.cor')

model = FastText(size=100)

# Aufbau des Wörterbuchs
model.build_vocab(corpus_file=corpus_file)

# Trainieren des Modells
model.train(
    corpus_file=corpus_file, 
    epochs=model.epochs,
    total_examples=model.corpus_count, 
    total_words=model.corpus_total_words,
)

model

2021-05-04 14:19:59,648 : INFO : resetting layer weights
2021-05-04 14:20:06,667 : INFO : collecting all words and their counts
2021-05-04 14:20:06,667 : INFO : PROGRESS: at sentence #0, processed 0 words, keeping 0 word types
2021-05-04 14:20:06,727 : INFO : collected 10781 word types from a corpus of 59890 raw words and 300 sentences
2021-05-04 14:20:06,729 : INFO : Loading a fresh vocabulary
2021-05-04 14:20:06,754 : INFO : effective_min_count=5 retains 1762 unique words (16% of original 10781, drops 9019)
2021-05-04 14:20:06,755 : INFO : effective_min_count=5 leaves 46084 word corpus (76% of original 59890, drops 13806)
2021-05-04 14:20:06,772 : INFO : deleting the raw counts dictionary of 10781 items
2021-05-04 14:20:06,773 : INFO : sample=0.001 downsamples 45 most-common words
2021-05-04 14:20:06,774 : INFO : downsampling leaves estimated 32610 word corpus (70.8% of prior 46084)
2021-05-04 14:20:06,847 : INFO : estimated required memory for 1762 words, 16936 buckets and 100 dimen

<gensim.models.fasttext.FastText at 0x25840687e48>

In [5]:
# Parameter

### Speichern und Laden von Modellen

In [6]:
# Speichern des durch die Gensim-fastText-Implementation trainierten Modells als "temp"
with tempfile.NamedTemporaryFile(prefix='saved_model_gensim-', delete=False) as tmp:
    model.save(tmp.name, separately=[])

# Dasselbe Modell wird geladen
loaded_model = FastText.load(tmp.name)
print(loaded_model)

# Die "temp"-Datei wird nicht mehr gebraucht
os.unlink(tmp.name)

2021-05-04 14:20:25,005 : INFO : saving FastText object under C:\Users\Günther\AppData\Local\Temp\saved_model_gensim-9m7xycty, separately []
2021-05-04 14:20:25,007 : INFO : storing np array 'vectors_ngrams' to C:\Users\Günther\AppData\Local\Temp\saved_model_gensim-9m7xycty.wv.vectors_ngrams.npy
2021-05-04 14:20:27,658 : INFO : not storing attribute vectors_norm
2021-05-04 14:20:27,658 : INFO : not storing attribute vectors_vocab_norm
2021-05-04 14:20:27,658 : INFO : not storing attribute vectors_ngrams_norm
2021-05-04 14:20:27,667 : INFO : not storing attribute buckets_word
2021-05-04 14:20:27,672 : INFO : storing np array 'vectors_ngrams_lockf' to C:\Users\Günther\AppData\Local\Temp\saved_model_gensim-9m7xycty.trainables.vectors_ngrams_lockf.npy
2021-05-04 14:20:30,400 : INFO : saved C:\Users\Günther\AppData\Local\Temp\saved_model_gensim-9m7xycty
2021-05-04 14:20:30,400 : INFO : loading FastText object from C:\Users\Günther\AppData\Local\Temp\saved_model_gensim-9m7xycty
2021-05-04 14

<gensim.models.fasttext.FastText object at 0x00000258702A0288>


In [7]:
# Überprüfen, ob sich man bei dem richtigen Arbeitsverzeichnis befindet
os.getcwd()

'C:\\Users\\Günther\\Git\\word_embeddings_HP\\Notebooks\\4_Fasttext'

In [8]:
# Ändern des Arbeitsverzeichnisses
print(os.chdir('../'))

None


In [13]:
# Suchen und Ausgeben der schon trainierten bzw. herunterladenen Modellen

pretr_models = glob.glob("../Notebooks/3_Word2vec mit Gensim/trained_models/*.bin")
pretr_models

['../Notebooks/3_Word2vec mit Gensim/trained_models\\hp1_7_w2v.bin']

### Auf Common Crawl und Wikipedia vortrainierte Wortvektoren - deutsche Sprache

In [31]:
# Vortrainierte Wortvektoren für das Deutsch, aus den Modellen für 157 Sprachen ausgewählt,
# die auf Common Crawl and Wikipedia mittels fastTexts trainiert wurden.
# Das Modell wurde außerdem nach den folgenden Leitlinien trainiert: "CBOW with position-weights, in dimension 300, 
# with character n-grams of length 5, a window of size 5 and 10 negatives".
# Die Datei 'wiki.de.bin' ist die alte Version für Multisprachenwortvektoren im Vergleich zu 'cc.de.300.bin'

# Herunter- und Hochladen des Modells mittels "import fasttext.util"

#from gensim.models.wrappers import FastText 

#fasttext.util.download_model('de', if_exists='ignore')
#cc_de = FastText.load_fasttext_format('cc.de.300.bin')

cc_de = fasttext.load_model("../Notebooks/3_Word2vec mit Gensim/trained_models/cc.de.300.bin")

In [32]:
# Größe des Vektoren-Modells
cc_de.get_dimension()

300

#### Wortvektorenexploration

In [33]:
# Das ".wv"-Attribut enthält alle Informationen zur Exploration von fastText-Wörtern und sogar OOV-Wörtern.
# Um Speicherplatz und RAM zu sparen wird das ".wv"-Attribut exportiert und gespeichert

cc_wv = cc_de.wv
cc_wv

'hexe' in cc_wv.key_to_index

AttributeError: '_FastText' object has no attribute 'wv'

In [34]:
# Die "out-of-vocabulary"-Wörter werden durch die Summe ihrer "character ngrams" erfolgreich behandelt
'hexen' in cc_wv.key_to_index

AttributeError: '_FastText' object has no attribute 'key_to_index'

In [35]:
cc_wv['hexe']

array([-0.16862874,  0.03880789, -0.02066349, -0.08137231, -0.05085985,
        0.09661885, -0.05929545, -0.03607299, -0.08245327, -0.04446463,
       -0.05854267,  0.0440863 ,  0.18290523,  0.16818658,  0.09620522,
       -0.0956843 ,  0.04593589,  0.18849674, -0.08560952,  0.13140455,
       -0.09100854, -0.02407046,  0.03619358, -0.04121159, -0.1161322 ,
       -0.1472565 , -0.00700521,  0.02739989,  0.0025535 ,  0.03128995,
       -0.02055371,  0.02392993,  0.0141704 , -0.00646967, -0.02832913,
        0.04629813, -0.06795592, -0.07734299,  0.06499644, -0.10906009,
        0.0033348 ,  0.09483881,  0.03266495, -0.02899434,  0.08091761,
        0.19444744, -0.01362141, -0.21634778,  0.07684066,  0.01906198,
        0.12719981,  0.0399101 , -0.02891294,  0.05832025,  0.05354452,
       -0.04008894, -0.06969875,  0.06534776, -0.11746685, -0.01840615,
        0.11874401,  0.0214612 ,  0.07114525, -0.00435895, -0.11281426,
        0.00869412,  0.04933057,  0.03830669,  0.00541363,  0.07

In [36]:
cc_wv['hexen']

array([-7.99211562e-02, -1.09453872e-02,  1.34368762e-02, -4.06263880e-02,
       -5.45578077e-02, -5.34495488e-02,  4.03393731e-02, -2.81301932e-03,
       -6.45713955e-02, -3.64194736e-02,  5.80927506e-02, -7.20283911e-02,
       -2.19570100e-03,  7.89589286e-02,  1.25371918e-01, -6.55909777e-02,
       -2.04499029e-02,  1.52959660e-01, -5.53460121e-02, -2.44713426e-02,
        1.21414643e-02, -6.11900724e-03,  6.29135370e-02, -6.08203486e-02,
       -6.81123137e-03,  2.53234021e-02, -7.67886788e-02, -4.95041758e-02,
       -7.31205940e-02, -9.81050879e-02,  1.43648097e-02,  6.37544245e-02,
       -1.44095674e-01, -1.56492945e-02,  6.12232648e-02,  7.39252418e-02,
       -5.10340789e-03, -3.26422229e-02,  8.63327831e-02, -1.18379340e-01,
        8.21135640e-02,  1.68602988e-01,  5.96041903e-02, -8.44180882e-02,
       -6.21734113e-02,  1.07949235e-01,  2.41928594e-03, -1.11810863e-01,
        5.52213527e-02, -3.84956226e-02,  6.67055175e-02, -5.48977852e-02,
        3.66854295e-02,  

#### Ähnlichkeitsoperationen

In [37]:
# interesting! and they are OOV words!
cc_wv.similarity("harry", "potter")

AttributeError: '_FastText' object has no attribute 'similarity'

In [None]:
cc_wv.similarity("hexe", "hexen")

In [None]:
cc_wv.most_similar("hexe")

In [28]:
# bin im Himmel!
cc_wv.n_similarity(['harry', 'wand'], ['spiderman', 'cobweb'])

AttributeError: '_FastText' object has no attribute 'n_similarity'

In [None]:
# YESSSA!
cc_wv.doesnt_match("harry ron hermione voldemort".split())

In [None]:
cc_wv.most_similar(positive=['harry', 'ron'], negative=['malfoy'])

### Vortrainiertes Harry-Potter-Modell

In [None]:
pretr_hp = fasttext.load_model(./Notebooks/3_Word2vec mit Gensim/trained_models/hp1_7_w2v.bin')

#### Wortvektorenexploration

In [None]:
# Das ".wv"-Attribut enthält alle Informationen zur Exploration von fastText-Wörtern und sogar OOV-Wörtern.
# Um Speicherplatz und RAM zu sparen wird das ".wv"-Attribut exportiert und gespeichert

hp_wv = pretr_hp.wv
hp_wv

'hexe' in hp_wv.key_to_index 

In [None]:
# Die "out-of-vocabulary"-Wörter werden durch die Summe ihrer "character ngrams" erfolgreich behandelt
'hexen' in hp_wv.key_to_index

#### Ähnlichkeitsoperationen

In [None]:
# interesting! and they are OOV words!
hp_wv.similarity("harry", "potter")

In [None]:
hp_wv.most_similar("hexen")

In [None]:
# bin im Himmel!
hp_wv.n_similarity(['harry', 'wand'], ['spiderman', 'cobweb'])

In [None]:
# YESSSA!
hp_wv.doesnt_match("harry ron hermione voldemort".split())

In [None]:
hp_wv.most_similar(positive=['harry', 'ron'], negative=['malfoy'])

### Vortrainiertes Fanfiction-Modell

In [None]:
pretr_ff = fasttext.load_model(./Notebooks/3_Word2vec mit Gensim/trained_models/___.bin')

#### Wortvektorenexploration

In [None]:
# Das ".wv"-Attribut enthält alle Informationen zur Exploration von fastText-Wörtern und sogar OOV-Wörtern.
# Um Speicherplatz und RAM zu sparen wird das ".wv"-Attribut exportiert und gespeichert

ff_wv = pretr_ff.wv
ff_wv

'hexe' in ff_wv.key_to_index

In [None]:
# Die "out-of-vocabulary"-Wörter werden durch die Summe ihrer "character ngrams" erfolgreich behandelt
'hexen' in ff_wv.key_to_index

#### Ähnlichkeitsoperationen

In [None]:
# interesting! and they are OOV words!
ff_wv.similarity("harry", "potter")

In [None]:
ff_wv.most_similar("hexen")

In [None]:
# bin im Himmel!
ff_wv.n_similarity(['harry', 'wand'], ['spiderman', 'cobweb'])

In [None]:
# YESSSA!
ff_wv.doesnt_match("harry ron hermione voldemort".split())

In [None]:
ff_wv.most_similar(positive=['harry', 'ron'], negative=['malfoy'])

In [None]:
# 'questions-words.txt' should be considered here as source
wv.evaluate_word_analogies(datapath('questions-words.txt'))


In [None]:
sentence_obama = .lower().split()
sentence_president = .lower().split()

#from gensim.parsing.preprocessing import STOPWORDS
sentence_obama = [w for w in sentence_obama if w not in stopwords]
sentence_president = [w for w in sentence_president if w not in stopwords]

distance = wv.wmdistance(sentence_obama, sentence_president)
print(f"Word Movers Distance is {distance} (lower means closer)")
