# Topic Modeling

### 1) Load Data

In [77]:
import numpy as np  
# All Imports
import pandas as pd
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation

In [78]:
# Load data
#df = pd.read_excel(r'/Users/nicohehlke/Documents/MASTER/Text Analytics/Hausarbeit Kursretter/SampleData.xlsx')
df = pd.read_excel(r'/Users/nicohehlke/DataspellProjects/NAK-Text-Analytics/src/data/Onvista_Articles.xlsx')
stopwords = stopwords.words('german')

### 2) Calculate TF-IDF

In [79]:
# Calculate the TD-IDF matrix for the titles
tfidf_vectorizer = TfidfVectorizer(stop_words=stopwords)
tfidf_matrix = tfidf_vectorizer.fit_transform(df["Titel"])

### 3) LDA

In [80]:
lda_model = LatentDirichletAllocation(n_components=5, random_state=0)
w_lda_matrix = lda_model.fit_transform(tfidf_matrix)
h_lda_matrix = lda_model.components_
features = tfidf_vectorizer.get_feature_names_out()
#print(w_lda_matrix) #Pro Array ein Text; in jedem Array die Passgenauigkeit des Textes pro Thema
#print(h_lda_matrix) # Angezeigt wird ein Array von n Themen; pro Thema wird die Passgenauigkeit jedes Wortes auf das entsprechende Thema betrachtet.
#print(features) # Hier werden die von tfidf identifizierten, 33 wichtigsten Wörter angezeigt. Anhand denen entscheidet LDA über die Themen

### 4) Get topics

In [81]:
# Show most important word per topic per document
def display_topics_for_documents(lda_model, tfidf_matrix, features, no_top_topics=5, no_top_words=5):
    for i, row in enumerate(tfidf_matrix):
        document_topics = lda_model.transform(row.reshape(1, -1))
        document_topics = document_topics.flatten()
        top_topic_indices = document_topics.argsort()[::-1][:no_top_topics]
        print(f"Dokument {i + 1}:")
        
        for topic_idx in top_topic_indices:
            topic_weight = document_topics[topic_idx]
            print(f"Thema {topic_idx + 1} (Gewichtung: {topic_weight:.2f}):")
            total = lda_model.components_[topic_idx].sum()
            largest = lda_model.components_[topic_idx].argsort()[::-1]

            for j in range(no_top_words):
                word_idx = largest[j]
                word_weight = abs(lda_model.components_[topic_idx][word_idx] * 100.0 / total)
                best_word = features[word_idx]
                print(f"  {best_word} ({word_weight:.2f})")

display_topics_for_documents(lda_model, tfidf_matrix, features)

Dokument 1:
Thema 1 (Gewichtung: 0.78):
  15 (2.00)
  ausblick (1.53)
  knapp (1.07)
  dpa (1.05)
  2023 (1.05)
Thema 5 (Gewichtung: 0.06):
  aktien (1.29)
  flash (1.27)
  siemens (1.10)
  analyse (1.05)
  eröffnung (1.01)
Thema 2 (Gewichtung: 0.06):
  sap (2.81)
  aktien (2.29)
  frankfurt (1.50)
  us (1.46)
  roundup (1.26)
Thema 4 (Gewichtung: 0.05):
  dax (2.03)
  frankfurt (1.61)
  aktie (1.44)
  16 (1.37)
  aktien (1.35)
Thema 3 (Gewichtung: 0.05):
  veröffentlichung (3.38)
  eqs (3.21)
  kapitalmarktinformation (3.18)
  cms (3.18)
  sap (2.25)
Dokument 2:
Thema 3 (Gewichtung: 0.77):
  veröffentlichung (3.38)
  eqs (3.21)
  kapitalmarktinformation (3.18)
  cms (3.18)
  sap (2.25)
Thema 4 (Gewichtung: 0.06):
  dax (2.03)
  frankfurt (1.61)
  aktie (1.44)
  16 (1.37)
  aktien (1.35)
Thema 2 (Gewichtung: 0.06):
  sap (2.81)
  aktien (2.29)
  frankfurt (1.50)
  us (1.46)
  roundup (1.26)
Thema 5 (Gewichtung: 0.06):
  aktien (1.29)
  flash (1.27)
  siemens (1.10)
  analyse (1.05)
  e

### 5) Visualisierung

In [83]:
import pyLDAvis.sklearn
vis_data = pyLDAvis.sklearn.prepare(lda_model, tfidf_matrix, tfidf_vectorizer)
pyLDAvis.display(vis_data)


ModuleNotFoundError: No module named 'pyLDAvis.sklearn'