# Datenanalyse

In diesem Notebook werden die Nachrichtenartikel des Nachrichtensenders `NTV` mit Hilfe einer Sentiment-Analyse und Topic-Modeling untersucht. Als Datengrundlage wird dazu die im Notebook `1-Datengenerierung.ipynb` generierte Datei `data.csv` verwendet.

## Einlesen der Daten

Zum Einlesen der `csv`-Datei wird die Python-Bibliothek `Pandas` verwendet. Wir speichern die Informationen zu den Artikeln und deren Inhalte in der Variable `articles`. Da wir nicht weiter an dem Dateiname interessiert sind, wird dieser anschließend gelöscht.

In [None]:
import pandas as pd

In [None]:
articles_data = pd.read_csv('data.csv')
articles = pd.DataFrame(articles_data)
articles = articles.drop('filename', axis=1)
articles

## Sentiment Analyse

Für die Sentiment-Analyse wird das Python-Package `germansentiment` verwendet. Die Textanalyse für englisch-sprachige Texte ist deutlich ausgereifter als die für deutsche Texte. Das führt insbesondere bei der Sentiment-Analyse zu problemen, da hier die Bedeutung der Worte zur Verfügung stehen muss. Das zuvor genannte Package macht es jedoch auch möglich deutsche Texte zu analysieren.

In [None]:
from germansentiment import SentimentModel

In [None]:
model = SentimentModel()

### Überschriften

Zunächst sollen allein die Überschriften betrachten werden. Dazu wird die entsprechende Spalte des Dataframes extrahiert und anschließend dem `SentimentModel` übergeben. Zurückgegeben wird sowohl die entsprechende Bewertung als auch die einzelnen Wahrscheinlichkeiten für die jeweilige Klassifizierung.

In [None]:
headlines = articles['headline']

In [None]:
headlines_classes, headlines_probabilities = model.predict_sentiment(headlines, output_probabilities = True)

In [None]:
articles = articles.assign(sentiment_headline=headlines_classes)
articles = articles.assign(sentiment_prob_headline=headlines_probabilities)
articles

In Bezug auf die Überschriften wird nun untersucht, welche Emotionen der Nachrichtensender vermittelt. Dazu werden zunächst die jeweiligen Sentiments gezählt.

In [None]:
headline_sentiments_count = articles["sentiment_headline"].value_counts()
headline_sentiments = [headline_sentiments_count["negative"], headline_sentiments_count["neutral"], headline_sentiments_count["positive]
headline_sentiments

In [None]:
headline_sentiments_relative = [ round(count / len(articles) * 100, 1) for count in headline_sentiments ]
headline_sentiments_relative