# Sentiment-Analyse

Create virtual environment (once)

```sh
conda create -n sentiment python=3.11 pip
```

Activate environment

```sh
conda activate sentiment
```

Install modules (once)

```sh
pip install jupyter ipykernel pandas selenium webdriver-manager beautifulsoup4 nltk spacy wordcloud matplotlib altair
```

Import modules (always)

In [1]:
# Import der erforderlichen Bibliotheken gemäß PEP8
import pandas as pd
import nltk
import spacy
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from spacytextblob.spacytextblob import SpacyTextBlob
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import altair as alt

ModuleNotFoundError: No module named 'spacy'

In [None]:

# Herunterladen der NLTK-Ressourcen
nltk.download('punkt')
nltk.download('stopwords')



In [None]:

# Zusätzliche Stopwörter definieren
additional_stopwords = set([
    'studium', 'studiengang', 'hochschule', 'uni', 'universität', 'semester', 
    'student', 'studieren', 'studierende', 'fach', 'lehrveranstaltung', 'professor', 
    'dozent', 'viele', 'dabei', 'ab', 'jedoch', 'auch', 'immer', 'während', 'mehr', 
    'bisher', 'obwohl', 'zudem', 'hochschule', 'studium', 'studiengang', 'semester', 'erfahrungsbericht', 
    'weiterlesen', 'dozenten', 'gut', 'viele', 'immer', 'gibt', 'hdm', 
    'macromedia', 'mittweida', 'vorlesungen',  'aber', 'alle', 'allem', 'allen', 'aller', 'alles', 'als', 'also', 'am', 'an', 'ander', 'andere', 
    'anderem', 'anderen', 'anderer', 'anderes', 'anderm', 'andern', 'anderr', 'anders', 'auch', 
    'auf', 'aus', 'bei', 'bin', 'bis', 'bist', 'da', 'damit', 'dann', 'der', 'den', 'des', 'dem', 
    'die', 'das', 'dass', 'daß', 'derselbe', 'derselben', 'denselben', 'desselben', 'demselben', 
    'dieselbe', 'dieselben', 'dasselbe', 'dazu', 'dein', 'deine', 'deinem', 'deinen', 'deiner', 
    'deines', 'denn', 'derer', 'dessen', 'dich', 'dir', 'du', 'dies', 'diese', 'diesem', 'diesen', 
    'dieser', 'dieses', 'doch', 'dort', 'durch', 'ein', 'eine', 'einem', 'einen', 'einer', 'eines', 
    'einig', 'einige', 'einigem', 'einigen', 'einiger', 'einiges', 'einmal', 'er', 'ihn', 'ihm', 
    'es', 'etwas', 'euer', 'eure', 'eurem', 'euren', 'eurer', 'eures', 'für', 'gegen', 'gewesen', 
    'hab', 'habe', 'haben', 'hat', 'hatte', 'hatten', 'hier', 'hin', 'hinter', 'ich', 'mich', 
    'mir', 'ihr', 'ihre', 'ihrem', 'ihren', 'ihrer', 'ihres', 'euch', 'im', 'in', 'indem', 'ins', 
    'ist', 'jede', 'jedem', 'jeden', 'jeder', 'jedes', 'jene', 'jenem', 'jenen', 'jener', 'jenes', 
    'jetzt', 'kann', 'kein', 'keine', 'keinem', 'keinen', 'keiner', 'keines', 'können', 'könnte', 
    'machen', 'man', 'manche', 'manchem', 'manchen', 'mancher', 'manches', 'mein', 'meine', 
    'meinem', 'meinen', 'meiner', 'meines', 'mit', 'muss', 'musste', 'nach', 'nicht', 'nichts', 
    'noch', 'nun', 'nur', 'ob', 'oder', 'ohne', 'sehr', 'sein', 'seine', 'seinem', 'seinen', 
    'seiner', 'seines', 'selbst', 'sich', 'sie', 'ihnen', 'sind', 'so', 'solche', 'solchem', 
    'solchen', 'solcher', 'solches', 'soll', 'sollte', 'sondern', 'sonst', 'über', 'um', 'und', 
    'uns', 'unsere', 'unserem', 'unseren', 'unser', 'unseres', 'unter', 'viel', 'vom', 'von', 
    'vor', 'während', 'war', 'waren', 'warst', 'was', 'weg', 'weil', 'weiter', 'welche', 'welchem', 
    'welchen', 'welcher', 'welches', 'wenn', 'werde', 'werden', 'wie', 'wieder', 'will', 'wir', 
    'wird', 'wirst', 'wo', 'wollen', 'wollte', 'würde', 'würden', 'zu', 'zum', 'zur', 'zwar', 
    'zwischen'
])


In [None]:

# Textbereinigungsfunktion
def clean_text(text):
    tokens = word_tokenize(text.lower())
    tokens = [word for word in tokens if word not in stopwords.words('german')]
    tokens = [word for word in tokens if word not in additional_stopwords]
    tokens = [word for word in tokens if word.isalnum()]
    return ' '.join(tokens)


In [None]:

# Funktion zur Generierung von Wortwolken
def generate_wordcloud(text, title):
    wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.title(title)
    plt.axis('off')
    plt.show()


In [None]:

# Lade die CSV-Dateien
mittweida_df = pd.read_csv('medienmanagement_mittweida_reviews.csv')
hdm_omm_df = pd.read_csv('online_medien_management_hdm_reviews.csv')
macromedia_df = pd.read_csv('medien_und_kommunikationsmanagement_macromedia_hochschule_reviews.csv')
hdm_mw_df = pd.read_csv('digital_und_medienwirtschaft_hdm_reviews.csv')


In [None]:

# Füge eine Spalte für den Studiengang hinzu
mittweida_df['Studiengang'] = 'Mittweida'
hdm_omm_df['Studiengang'] = 'OMM'
macromedia_df['Studiengang'] = 'Macromedia'
hdm_mw_df['Studiengang'] = 'DMW'


In [None]:

# Kombiniere die DataFrames für die Analyse
all_reviews_df = pd.concat([mittweida_df, hdm_omm_df, macromedia_df, hdm_mw_df], ignore_index=True)


In [None]:

# Bereinige die Texte in den Reviews
all_reviews_df['cleaned_review'] = all_reviews_df['Review'].apply(clean_text)


In [None]:

# Lade das deutsche Sprachmodell und füge die SpacyTextBlob-Komponente hinzu
nlp = spacy.load('de_core_news_sm')
spacy_text_blob = SpacyTextBlob(nlp)
nlp.add_pipe('spacytextblob')


In [None]:

# Sentiment-Analyse-Funktion
def get_sentiment(text):
    doc = nlp(text)
    return doc._.polarity


In [None]:

# Führe die Sentiment-Analyse durch
all_reviews_df['sentiment'] = all_reviews_df['cleaned_review'].apply(get_sentiment)


In [None]:

# Überprüfung der Sentiment-Analyse durch manuelle Überprüfung einiger Beispiele
print("Manuelle Überprüfung einiger Bewertungen:")
print(all_reviews_df[(all_reviews_df['sentiment'] < 0)].head(10)['Review'])


In [None]:

# Positive und negative Bewertungen trennen und Wortwolken erstellen
for studiengang in all_reviews_df['Studiengang'].unique():
    pos_reviews = ' '.join(all_reviews_df[(all_reviews_df['Studiengang'] == studiengang) & (all_reviews_df['sentiment'] > 0)]['cleaned_review'])
    neg_reviews = ' '.join(all_reviews_df[(all_reviews_df['Studiengang'] == studiengang) & (all_reviews_df['sentiment'] < 0)]['cleaned_review'])
    
    # Wortwolke für positive Bewertungen
    generate_wordcloud(pos_reviews, f'{studiengang} - Positive Reviews')
    
    # Wortwolke für negative Bewertungen
    generate_wordcloud(neg_reviews, f'{studiengang} - Negative Reviews')


In [None]:

# Kategorisierung der Bewertungen
categories = ['Dozenten', 'Technik', 'Ausstattung', 'Organisation', 'Praxisbezug']
category_keywords = {
    'Dozenten': ['dozent', 'professor', 'lehrkraft'],
    'Technik': ['technik', 'computer', 'software', 'hardware'],
    'Ausstattung': ['ausstattung', 'raum', 'labor', 'bibliothek'],
    'Organisation': ['organisation', 'verwaltung', 'koordinierung'],
    'Praxisbezug': ['praxis', 'projekt', 'praktikum', 'anwendung']
}


In [None]:
# Funktion zur Kategorisierung der Bewertungen
def categorize_review(review):
    for category, keywords in category_keywords.items():
        if any(keyword in review.lower() for keyword in keywords):
            return category
    return 'Sonstiges'


In [None]:

all_reviews_df['category'] = all_reviews_df['cleaned_review'].apply(categorize_review)


In [None]:

# Durchschnittliches Sentiment pro Kategorie und Studiengang
category_sentiment = all_reviews_df.groupby(['Studiengang', 'category'])['sentiment'].mean().unstack()


In [None]:

# Visualisierung der durchschnittlichen Sentiments pro Kategorie und Studiengang mit Altair
category_sentiment_reset = category_sentiment.reset_index().melt(id_vars='Studiengang', var_name='Kategorie', value_name='Sentiment')


In [None]:

bar_chart = alt.Chart(category_sentiment_reset).mark_bar().encode(
    x=alt.X('Kategorie:N', title='Kategorie'),
    y=alt.Y('Sentiment:Q', title='Durchschnittliches Sentiment'),
    color='Studiengang:N',
    column='Studiengang:N'
).properties(
    title='Durchschnittliches Sentiment pro Kategorie und Studiengang'
).configure_title(
    fontSize=20,
    anchor='start',
    color='gray'
).configure_axis(
    labelFontSize=12,
    titleFontSize=14
)

bar_chart.display()


In [None]:

# Relative Gegenüberstellung der Bewertungen
relative_strengths = all_reviews_df.groupby(['Studiengang', 'category'])['sentiment'].mean().unstack().rank(axis=0)


In [None]:

# Visualisierung der relativen Stärken und Schwächen mit Altair
relative_strengths_reset = relative_strengths.reset_index().melt(id_vars='Studiengang', var_name='Kategorie', value_name='Rang')


In [None]:

heatmap = alt.Chart(relative_strengths_reset).mark_rect().encode(
    x=alt.X('Kategorie:N', title='Kategorie'),
    y=alt.Y('Studiengang:N', title='Studiengang'),
    color=alt.Color('Rang:Q', scale=alt.Scale(domain=[1, 4], range=['red', 'green']), title='Rang'),
    tooltip=['Studiengang', 'Kategorie', 'Rang']
).properties(
    title='Relative Stärken und Schwächen pro Kategorie und Studiengang'
).configure_title(
    fontSize=20,
    anchor='start',
    color='gray'
).configure_axis(
    labelFontSize=12,
    titleFontSize=14
).encode(
    text=alt.Text('Rang:Q')
)

heatmap.display()


In [None]:

# Speichere die Ergebnisse in einer CSV-Datei
all_reviews_df.to_csv('all_reviews_with_sentiment_and_categories.csv', index=False)
print("Analyse abgeschlossen und Ergebnisse gespeichert.")

# Interpretationen der Ergebnisse
interpretations = """
### Interpretation der Ergebnisse:

#### Sentiment-Analyse:
Die Sentiment-Analyse ergab gemischte Ergebnisse mit positiven und negativen Bewertungen. Die manuelle Überprüfung einiger als negativ eingestufter Bewertungen zeigt, dass nicht alle Bewertungen, die als negativ eingestuft wurden, tatsächlich negativen Inhalt haben. Dies könnte auf die Tücken der Sentiment-Analyse hinweisen, insbesondere bei der Verarbeitung von Ironie oder komplexen Sätzen.

#### Durchschnittliches Sentiment pro Kategorie und Studiengang:
Die Visualisierung des durchschnittlichen Sentiments pro Kategorie und Studiengang zeigt deutliche Unterschiede zwischen den Studiengängen. Beispielsweise:
- **OMM**: Zeigt insgesamt positive Bewertungen, insbesondere in den Kategorien Dozenten und Praxisbezug.
- **Mittweida**: Hat relativ ausgewogene Bewertungen, aber Schwächen in der Kategorie Organisation.

#### Relative Stärken und Schwächen:
Die Heatmap zur relativen Analyse zeigt, wie die einzelnen Studiengänge im Vergleich zu den anderen in den verschiedenen Kategorien abschneiden. Ein hoher Rang deutet auf relative Stärken hin, während ein niedriger Rang auf relative Schwächen hinweist.
- **OMM**: Hat relative Stärken in der Kategorie Dozenten und Praxisbezug.
"""

print(interpretations)
