## Imports

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import nltk
import pyLDAvis
import pyLDAvis.lda_model


## Define Stopwords

In [2]:

# Download German language resources for NLTK
nltk.download('stopwords')
nltk.download('punkt')

# Read DataFrame with event descriptions
df = pd.read_csv('data/2000_events_sample.csv')  # Replace 'your_dataframe.csv' with your actual file path or URL

# Get German stop words from NLTK
german_stop_words = set(stopwords.words('german'))
english_stop_words = set(stopwords.words('english'))
self_defined_stop_words = ['stuttgart', 'de', 'www', 'uhr', '00', '30', '19', '20', '21', '22', '23', '00', '10', '11', '12', '13', '14', '1', 'http', 'com', 'br', 'https']

combined_stop_words = german_stop_words.union(english_stop_words).union(self_defined_stop_words)

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/juliusdoebelt/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     /home/juliusdoebelt/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## Convert the event descriptions to a matrix of token counts 

In [3]:
# Convert event descriptions to document-term matrix
vectorizer = CountVectorizer(stop_words=list(combined_stop_words), max_features=1000, max_df=0.85)

event_descriptions = []
for index, row in df.iterrows():
    event_description = row['description']
    if isinstance(event_description, str):
        event_descriptions.append(event_description)
    else:
        event_descriptions.append('Anderes')

X = vectorizer.fit_transform(event_descriptions)

## Apply Latent Dirichlet Allocation (LDA)

In [4]:
num_topics = 5  # Adjust based on the desired number of categories
lda = LatentDirichletAllocation(n_components=num_topics, random_state=42)
document_topics = lda.fit_transform(X)

# Get the most probable topic for each document (event)
predicted_labels = document_topics.argmax(axis=1)

## Visualize the topics

In [5]:
pyLDAvis.enable_notebook()
panel = pyLDAvis.lda_model.prepare(lda, X, vectorizer, mds='tsne')
panel

In [6]:
def print_top_words(model, feature_names, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        message = f"Topic #{topic_idx}: "
        message += " ".join([feature_names[i]
                             for i in topic.argsort()[:-n_top_words - 1:-1]])
        print(message)

n_top_words = 20
tf_feature_names = vectorizer.get_feature_names_out()
print_top_words(lda, tf_feature_names, n_top_words)

# top words for sample of 2000 events
# Topic #0: dj ab mittwoch club gibt 50 line facebook artists 2022 eintritt eur tickets party heute 16 euro geht 05 könnt
# Topic #1: kurs yoga ab körper hast bewegung anmeldung salsa 18 bachata bitte mittwoch sowie übungen online asanas meditation eintritt frei möglich
# Topic #2: mittwoch freuen 2019 anmeldung 18 findet baden württemberg gerne statt infos gibt 17 treffen mehr online weitere bitte themen ab
# Topic #3: musik live band tour album mal dabei songs ganz jazz immer mehr seit bühne jahren wurde schon jahr zwei welt
# Topic #4: veranstaltung sowie menschen dr leben eintritt benz jahren mercedes kinder museum neue social innen ab fragen anmeldung mehr media ausstellung

# Map the topic labels to your predefined categories
topic_labels_mapping = {
    0: 'Elektrisierend',
    1: 'Körperbewusst',
    2: 'Gesellig',
    3: 'Künstlerisch',
    4: 'Informativ'
}

# Map the predicted labels to category names
predicted_category_labels = [topic_labels_mapping[label] for label in predicted_labels]

# Add the predicted category labels to the DataFrame
df['stimmung'] = predicted_category_labels

# Print or further analyze the predicted category labels
print(df[['description', 'stimmung']])

df.to_csv('data/2000_events_sample.csv', index=False)

Topic #0: dj ab mittwoch club gibt 50 line facebook artists 2022 eintritt eur tickets party heute 16 euro geht 05 könnt
Topic #1: kurs yoga ab körper hast bewegung anmeldung salsa 18 bachata bitte mittwoch sowie übungen online asanas meditation eintritt frei möglich
Topic #2: mittwoch freuen 2019 anmeldung 18 findet baden württemberg gerne statt infos gibt 17 treffen mehr online weitere bitte themen ab
Topic #3: musik live band tour album mal dabei songs ganz jazz immer mehr seit bühne jahren wurde schon jahr zwei welt
Topic #4: veranstaltung sowie menschen dr leben eintritt benz jahren mercedes kinder museum neue social innen ab fragen anmeldung mehr media ausstellung
                                            description        stimmung
0     Jeden Mittwoch best Mix Salsa, Bachata und Kiz...   Körperbewusst
1     Lesung und Gespräch\nModeration: Helmut Böttig...      Informativ
2     Maulina ist sauer. Gemeinsam mit ihrer Mutter ...    Künstlerisch
3     Best Of B-TIGHT Tour 2020\n\