# Modeling & Evaluation

Inhaltsverzeichnis

In [1]:
%load_ext autoreload
%autoreload 2

---

## Topic Modeling

### Modeling

#### A. Modeling

Der nachfolgende Code importiert für das Topic Modeling optimierte Klassen. Diese führen den Prozess der Erstellung eines LDA Topic Modeling durch. Es wird empfohlen die vordefinierten Klassen zur Berechnung der Modelle zu verwenden. Es besteht jedoch nachfolgend auch die Möglichkeit, die wichtigsten Schritte zur Berechnung des Models eigenständig Schritt für Schritt durchzuführen.

In [6]:
from src.models import topic_modeling as tm
from src.utils import safe_as_pkl
import pandas as pd

# load dataframe
df = pd.read_feather('../data/processed/twitter_tweets_processed.feather')

# create & build lda model
lda_model = tm.LdaModel(text=df['preprocessed_text'])
lda_model.build(num_topics=5)

# export
safe_as_pkl(lda_model, path='../models/lda_model.pkl')

2023-05-25 15:24:06,599 - INFO - Initialize model; create dictionary and corpus...
2023-05-25 15:24:40,090 - INFO - calculate lda model... (this can take a while)
2023-05-25 15:29:37,957 - INFO - Done. Model calculated successfully! Calculation time: 6.3369 minutes


#### 0. Datensatz laden

In [14]:
%%script false
import pandas as pd
# load dataframe
df = pd.read_feather('../data/processed/twitter_tweets_processed.feather')
df.head(4)

Couldn't find program: 'false'


#### 1. Erstellen eines Wörterbuchs

Ein Wörterbuch ist wichtig für das LDA-Modell, da es das Modell trainiert, die Sprache und den Kontext der Dokumente zu verstehen. Es enthält alle eindeutigen Wörter, die in den Dokumenten vorkommen, und ordnet jedem Wort eine eindeutige Nummer zu. Das Wörterbuch wird verwendet, um jedes Dokument in eine Vektordarstellung umzuwandeln, die das Modell verwenden kann.

In [15]:
%%script false
from gensim import corpora
dictionary = corpora.Dictionary(df['preprocessed_text'])

Couldn't find program: 'false'


#### 2. Erstellen eines Corpus

Ein Corpus ist notwendig, um jedes Dokument in eine Vektordarstellung umzuwandeln, die vom LDA-Modell verarbeitet werden kann. Ein Corpus ist eine Sammlung von Dokumenten, die in eine Matrix umgewandelt wird, wobei jede Zeile für ein Dokument und jede Spalte für ein Wort im Wörterbuch steht. Die Matrix enthält die Anzahl der Vorkommen jedes Wortes in jedem Dokument. Durch die Umwandlung jedes Dokuments in eine Vektordarstellung kann das LDA-Modell jedes Dokument analysieren und Themen identifizieren, die in jedem Dokument vorkommen. Ohne diese Vektordarstellung könnte das Modell die Dokumente nicht analysieren und Themen identifizieren.

In [16]:
%%script false
corpus = [dictionary.doc2bow(text) for text in df['preprocessed_text']]

Couldn't find program: 'false'


#### 3. Erstellen eines LDA-Modells

In [17]:
%%script false
from gensim import models
lda_model = models.LdaModel(corpus=corpus, id2word=dictionary, num_topics=5)

Couldn't find program: 'false'


#### B. Ergebnisse visualisieren

In [7]:
import pyLDAvis.gensim_models
from src.utils import load_pkl

lda_model = load_pkl('../models/lda_model.pkl')

pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim_models.prepare(lda_model.model, lda_model.corpus, lda_model.dictionary)
vis

### Evaluation

#### 1. Coherence Score berechnen

Der Coherence Score ist ein Evaluationsmaß für Topic Models, das versucht, die Kohärenz der gefundenen Themen zu bewerten. Die Kohärenz bezieht sich darauf, wie gut die Wörter innerhalb eines Themas zusammenpassen und ob sie eine sinnvolle Bedeutung ergeben. Ein hohes Maß an Kohärenz zeigt an, dass die Themen gut definiert und interpretierbar sind.

In [8]:
from src.models import topic_modeling as tm
from src.utils import load_pkl

lda_model = load_pkl('../models/lda_model.pkl')
coherence_score = tm.evaluate(model=lda_model.model, text=lda_model.text, dictionary=lda_model.dictionary)

2023-05-25 15:35:35,399 - INFO - calculate coherence score...
2023-05-25 15:36:17,480 - INFO - Done. Coherence score calculated successfully! Score: 0.31248594695596565


#### 2. Hyperparameter Tuning durchführen

Hyperparameter Tuning ist ein wichtiger Schritt im Machine Learning, der dazu beiträgt, das bestmögliche Modell zu finden. In diesem Fall wird das bestmögliche Modell anhand des Coherence Scores bemessen. Ziel des Hyperparameter Tuning ist es demnach, das Modell mit dem höchsten Coherence Score zu finden. Hyperparameter sind Parameter, die das Verhalten des Modells beeinflussen, aber nicht direkt von den Daten gelernt werden. Sie müssen vom Anwender festgelegt werden und können eine erhebliche Auswirkung auf die Leistung des Modells haben. Folgende Parameter sollen optimiert werden:

- num_topics
- alpha
- eta
- passes

**Random Search**

Um nun eine ausreichend gute Kombination dieser Werte zu ermitteln, wird zunächst ein Random-Search Algorithmus ausgeführt. Dieser wählt eine zufällige Kombination an Parametern aus und berechnet für diese den Coherence Score. Ziel des Algorithmus ist es, eine ausreichend gute Menge an Modellen berechnet zu haben, sodass anschließend eine Einschränkung der möglichen Paramenter-Kombinationen vorgenommen werden kann.

*Wertebereiche für Hyperparameter festlegen*

In [9]:
num_topics = [i for i in range(4, 74)]
alpha = ['symmetric', 'asymmetric'] + [round(i*0.1, 1) for i in range(1, 10)]
eta = ['symmetric', 'auto'] + [round(i*0.1, 1) for i in range(1, 10)]
passes = [i for i in range(1, 2)]

In [10]:
import itertools

combinations = list(itertools.product(num_topics, alpha, eta, passes))
list_parameter_combinations = [{'num_topics': item[0], 'alpha': item[1], 'eta': item[2], 'passes': item[3]} for item in combinations]

*Random Search Algorithmus ausführen*

Hinweis: Aufgrund einer möglichst langen Laufzeit des Random-Search Algorithmus wird empfohlen stattdessen das Skript hyperparameter_tuning_headless.py extern auf einem Server auszuführen.

In [3]:
%%script false
from src.models import hyperparameter_tuning as ht
import pandas as pd

df = ht.random_search('../data/processed/twitter_tweets_processed.feather', list_parameter_combinations, multicore=True)
df.to_feather('../data/modeling/ht_results_randomsearch.feather')

Couldn't find program: 'false'


*Ergebnisse laden und auswerten*

In [2]:
import pandas as pd
df = pd.read_feather('../data/modeling/ht_results_randomsearch.feather')
df.sort_values('coherence_score', ascending=False, inplace=True)
df.head(10)

Unnamed: 0,seed,num_topics,alpha,eta,passes,coherence_score
1,1685126019,19,0.1,0.8,1,0.4400476551089843
0,1685126019,33,0.7,0.8,1,0.2059164564261829


**Grid Search**

Nachdem der Random-Search Algorithmus durchgeführt wurde, lassen sich die Wertebereiche der Hyperparameter weiter eingrenzen. Mithilfe des Grid-Search Algorithmus werden dann alle Kombinationen von Hyperparametern berechnet.

*Wertebereich für Hyperparameter einschränken*

In [None]:
num_topics = [i for i in range(6, 16)]
alpha = ['symmetric', 'asymmetric'] + [round(i*0.1, 1) for i in range(1, 10)]
eta = ['symmetric', 'auto'] + [round(i*0.1, 1) for i in range(1, 10)]
passes = [i for i in range(1, 2)]

In [None]:
import itertools

combinations = list(itertools.product(num_topics, alpha, eta, passes))
list_parameter_combinations = [{'num_topics': item[0], 'alpha': item[1], 'eta': item[2], 'passes': item[3]} for item in combinations]

*Grid Search Algorithmus ausführen*

Hinweis: Da die Wahrscheinlichkeit einer langen Laufzeit hoch ist, wird auch an dieser Stelle empfohlen stattdessen das Skript hyperparameter_tuning_headless.py extern auf einem Server auszuführen.

In [2]:
%%script false
from src.models import hyperparameter_tuning as ht
import pandas as pd

df = ht.grid_search('../data/processed/twitter_tweets_processed.feather', list_parameter_combinations, multicore=True)
df.to_feather('../data/modeling/ht_results_gridsearch.feather')

Couldn't find program: 'false'


*Ergebnisse laden und auswerten*

In [4]:
import pandas as pd
df = pd.read_feather('../data/modeling/ht_results_gridsearch.feather')
df.sort_values('coherence_score', ascending=False, inplace=True)
df.head(10)

Couldn't find program: 'false'


#### 3. Erstellen optimiertes LDA-Modell 

In [13]:
pass

---

## Time Series Analysis

### Modeling

#### 1. Beiträge einem Topic zuweisen 

In [1]:
# from src import utils
# from gensim import corpora, models
# import pandas as pd

# # load dataframe
# df = pd.read_feather('../data/processed/twitter_tweets_processed.feather')

# # Load previously trained topic model
# optimized_lda_model = utils.load_pkl('../models/optimized_lda_model.pkl')[0]
# model = optimized_lda_model['model']
# corpus = optimized_lda_model['corpus']

# # iterate over each document in the corpus and assign it the most likely topic
# topics = []
# for doc in corpus:
#     doc_topics = model.get_document_topics(doc, minimum_probability=0.1)  # select minimum probability here!
#     topics.append(max(doc_topics, key=lambda x: x[1])[0])

# # add results to the dataframe and save
# df['topic'] = topics
# df.to_feather('../models/topic_assigned_twitter_tweets.feather')

---