# Sentimentanalyse mit Vader


## Wiederholung zu Pandas

"pandas ist eine Programmbibliothek für Python zur Verarbeitung, Analyse und Darstellung von Daten. Insbesondere enthält sie Datenstrukturen und Operatoren für den Zugriff auf numerische Tabellen und Zeitreihen."

[Pandas website](https://pandas.pydata.org/)

[Pandas documentation](https://pandas.pydata.org/docs/)

[Getting started with pandas](https://pandas.pydata.org/docs/getting_started/index.html#getting-started)

### Import

In [None]:
import pandas as pd

### Erstes DataFrame

Wir starten mit der Erstellung eines leeren pandas DataFrame. DataFrames sind zweidimensionale, größenveränderliche, potenziell heterogene tabellarische Daten. ([documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)):

### Zugriff auf Zeile

Mit `loc` können wir einen Zeilenindex angeben, um auf eine Zeile zuzugreifen:

### Zugriff auf Spalte

Auf Spalten können wir einfach über den Spaltennamen zugreifen: 

### Zugriff auf Zellen

Wir können `loc` verwenden und Index- und Spaltennamen angeben, um auf eine Zelle zuzugreifen:

### Eine Zeile hinzufügen

Wir können eine leere Zeile hinzufügen, indem wir `loc` verwenden:

Wir können auch existierende Werte aus einer Liste in einer neuen Reihe hinzufügen:

### Eine Spalte hinzufügen
Um eine neue, leere Spalte hinzuzufügen, fügen wir sie einfach wie folgt an:

Wir können auch vorhandene Werte in einer Liste zu einer neuen Spalte wie dieser hinzufügen:

### Über Zeilen iterieren

Wir können mit `iterrows` über Zeilen in einem DataFrame iterieren ([documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iterrows.html)):

### CSV importieren

Wir können mit `read_csv` .csv Dateien importieren ([documentation](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html#pandas.read_csv)):

### `Apply` Methode

Wir können eine Funktion auf Werte eines DataFrames anwenden, indem wir die `apply`-Methode ([documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html#pandas.DataFrame.apply)) verwenden:

### CSV exportieren

Um ein DataFrame zu exportieren, können wir zum Beispiel `to_csv` verwenden ([documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html#pandas.DataFrame.to_csv)):

### Pickle exportieren
Um ein DataFrame zu exportieren, können wir zum Beispiel `to_pickle` verwenden ([documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_pickle.html)):

[GitHub repository](https://github.com/cjhutto/vaderSentiment)

VADER (Valence Aware Dictionary and sEntiment Reasoner) ist ein lexikon- und regelbasiertes Werkzeug für die Sentimentanalyse, das im Speziellen auf die Analyse von Social-Media-Inhalten zugeschnitten ist.

**Lexikon**: VADER enthält eine Liste an lexikalischen Features (z.B. Wörter) die hinsichtlich ihrer semantischen Ausrichtung annotiert sind: positiv, negativ und neutral. Jedem Wort im Lexikon wird ein numerischer Wert zugewiesen, der den Stimmungswert (=valence) repräsentiert. Die Werte reichen von -4 (extrem negativ) bis +4 (extrem positiv).

**Berechnung des Sentiment-Wertes**
Wenn VADER einen Text analysiert, wird dieser zunächst in einzelne Wörter (Tokens) zerlegt.

Für jedes Token wird geprüft, ob es im Lexikon enthalten ist.
Wenn das Token im Lexikon enthalten ist, verwendet VADER die mit diesem Token verbundene Stimmungsvalenz.
Die Sentiment-Scores für alle Wörter im Text werden dann aggregiert, um den zusammengesetzten Score zu berechnen.
Einbeziehung von kontextbezogenen Regeln VADER wendet auch eine Reihe von heuristischen Regeln an, die zu berücksichtigen sind:

- Verstärker (Intensifiers): Wörter, die die Intensität des Gefühls verändern, z.B. "sehr" in "sehr gut" erhöht das positive Gefühl.
- Konjunktionen: Behandlung von Fällen wie "aber", die die Stimmung eines Satzes verändern können.
- Großschreibung: Wenn ein Wort in Großbuchstaben geschrieben wird, kann es als intensiver empfunden werden.
- Zeichensetzung: Ausrufezeichen und Fragezeichen können die Stimmung beeinflussen.
- Verneinungen: Wörter wie "nicht" können die Stimmung des folgenden Wortes umkehren oder verringern.

Das Skript wurde ursprünglich im Rahmen des Projekts "Distant Spectators. Distant Reading for Periodicals of the Enlightenment" entwickelt: http://gams.uni-graz.at/context:dispecs 

### Download mit NLTK
(muss nur einmal gemacht werden)

In [None]:
import nltk
nltk.download('vader_lexicon')

### Importieren

[NLTK sentiment examples](http://www.nltk.org/howto/sentiment.html)

In [None]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer

### Sentiment analyzer instanziieren

In [None]:
sentiment_analyzer = SentimentIntensityAnalyzer()

### VADER Sentiment Lexikon

In [None]:
sentiment_analyzer.lexicon

In [None]:
sentiment_analyzer.lexicon["happy"]

Wir die Methode `polarity_scores`, die uns die Kategorien
* negativ
* positiv
* neutral
* compound 

zurückliefert. Der `compound score` ist die Summe aus positiven, negativen und neutralen Scores, die dann zwischen -1 (sehr negativ) und +1 (sehr positiv) normalisiert werden. 

### Beispiele

## Beispiele mit Reddit-Kommentaren

### Kommentare laden
Wir laden ein gepickeltes pandas DataFrame. Dabei handelt es sich um ein binäres Dateiformat, das nicht mit einem einfachen Texteditor gelesen werden kann. Die Dateigröße wird jedoch durch die Komprimierung verringert, und im Vergleich zu .csv-Dateien ist es besser für Text geeignet. Reddit ist ein Social-News-Aggregator, eine Website, auf der registrierte Benutzer:innen Inhalte einstellen bzw. anbieten können.

### UNIX Zeitstempel konvertieren timestamp
Das ist notwendig um einen besser lesbaren Zeitstempel für die Kommentare zu haben. 

### Sentiment berechnen
Wir definieren eine Funktion, die nur den Compound Score des VADER Sentiment Analyzers zurückgibt:

**Tip:** Wir können das *tqdm* Paket installieren um den Rechenprozess anzuzeigen. Das ist optional aber sehr nützlich. 

In [None]:
from tqdm.auto import tqdm
tqdm.pandas()

Dann verwenden wir `progress_apply` (wenn tqdm verwendet wird) oder das normale `apply` (wenn tqdm nicht verwendet wird), um die Stimmung zu berechnen:

### Vorläufige Sentiment Analyse

Ein guter Start ist `describe` zu verwenden ([documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html?highlight=describe#pandas.DataFrame.describe)) um deskriptive Statistiken auszugeben:

* count: Anzahl der Beobachtungen
* mean: Mittelwert
* std: Standardabweichung
* max: Maximalwerte
* min: Minimalwerte
* 25%: 25%-Perzentil
* 50%: Median
* 75%: 75%-Perzentil



Wir können auch ein Histogramm der Sentimentverteilung erstellen, indem wir die `plot`-Funktion ([documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html?highlight=plot#pandas.DataFrame.plot)) verwenden:

Um zwischen Subreddits zu unterscheiden, können wir `groupby` ([documentation](ttps://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html?highlight=groupby#pandas.DataFrame.groupby)) verwenden:

### Sentiment über Zeit

Zuerst muss der Zeitstempel auf Tage normalisiert werden: 

Dann wird die Stimmung über die Tage gemittelt unter Verwendung von `groupby` ([documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html?highlight=groupby#pandas.DataFrame.groupby)) und `mean` ([documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mean.html?highlight=mean#pandas.DataFrame.mean)):

Um besser zwischen Subreddits unterscheiden zu können, verwenden wir Seaborn ([website & documentation](https://seaborn.pydata.org/)), eine Pythonbibliothek zur Datenvisualisierung:

In [None]:
import seaborn as sns

Nach dem Import können wir `lineplot` ([documentation](https://seaborn.pydata.org/generated/seaborn.lineplot.html)) verwenden: