# Modeling

In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import pandas as pd

# load dataframe
df = pd.read_feather('../data/processed/twitter_tweets_processed.feather')
df.head(4)

Unnamed: 0,url,date,rawContent,preprocessed_text
0,https://twitter.com/YueDongCS/status/164159107...,2023-03-30 23:59:46,My condolences and sad that the #NLP and #AI c...,"[condolence, sad, nlp, ai, community, lose, br..."
1,https://twitter.com/Mlearning_ai/status/164159...,2023-03-30 23:59:43,Hiring Now: The Top Jobs of the Future Fueled ...,"[hiring, top, job, future, fueled, generative,..."
2,https://twitter.com/HackerAran7/status/1641591...,2023-03-30 23:59:43,What’s the hack. #stem #science #stemeducation...,"[hack, stem, science, stemeducation, education..."
3,https://twitter.com/Stemble_/status/1641590942...,2023-03-30 23:59:14,"🚀 Mark your calendars, Apple enthusiasts! 🗓️\n...","[mark, calendar, apple, enthusiast, june, 5, a..."


#### 1. Erstellen eines Wörterbuchs

Ein Wörterbuch ist wichtig für das LDA-Modell, da es das Modell trainiert, die Sprache und den Kontext der Dokumente zu verstehen. Es enthält alle eindeutigen Wörter, die in den Dokumenten vorkommen, und ordnet jedem Wort eine eindeutige Nummer zu. Das Wörterbuch wird verwendet, um jedes Dokument in eine Vektordarstellung umzuwandeln, die das Modell verwenden kann.

In [3]:
from gensim import corpora

dictionary = corpora.Dictionary(df['preprocessed_text'])

  'class': algorithms.Blowfish,


#### 2. Erstellen eines Corpus

Ein Corpus ist notwendig, um jedes Dokument in eine Vektordarstellung umzuwandeln, die vom LDA-Modell verarbeitet werden kann. Ein Corpus ist eine Sammlung von Dokumenten, die in eine Matrix umgewandelt wird, wobei jede Zeile für ein Dokument und jede Spalte für ein Wort im Wörterbuch steht. Die Matrix enthält die Anzahl der Vorkommen jedes Wortes in jedem Dokument. Durch die Umwandlung jedes Dokuments in eine Vektordarstellung kann das LDA-Modell jedes Dokument analysieren und Themen identifizieren, die in jedem Dokument vorkommen. Ohne diese Vektordarstellung könnte das Modell die Dokumente nicht analysieren und Themen identifizieren.

In [4]:
corpus = [dictionary.doc2bow(text) for text in df['preprocessed_text']]

#### 3. Erstellen eines LDA-Modells

In [5]:
from gensim import models

lda_model = models.LdaModel(corpus=corpus, id2word=dictionary, num_topics=10, passes=2)

In [6]:
from src import utils

_ = {
    'model': lda_model,
    'corpus': corpus,
    'dictionary': dictionary
}
utils.safe_as_pkl(_, 'lda_model', '../models')

#### 4. Ergebnisse visualisieren

In [1]:
from src import utils
import pyLDAvis.gensim_models

lda_model = utils.load_pkl('../models/lda_model.pkl')[0]

pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim_models.prepare(lda_model['model'], lda_model['corpus'], lda_model['dictionary'])
vis

  'class': algorithms.Blowfish,


---