# Einführung in Topic Modeling mit Python - Step 1: Datensatz organisieren

## 1. Datenkorpus laden


In [None]:
import pandas as pd

In [None]:
# read csv into dataframe object
corpus = pd.read_csv("data/speeches-bundesregierung.csv", encoding="UTF-8") # update path
print(f"Der Datzensatz enthält {corpus.shape[0]} Reden mit {corpus.shape[1]} Attributen.")

In [None]:
corpus.head()

In [None]:
# show columns and their datatypes
corpus.info()

### 1.1 Datensatz chronologisch sortieren

In [None]:
# change dtype in data to pandas datetime-format
corpus["date"] = pd.to_datetime(corpus.date)

# check datatypes
corpus.dtypes

In [None]:
def order_by_year(dataframe, date):
    """Order dataframe object by year based 
    on column date."""
    df = dataframe.set_index(str(date))
    df["year"] = df.index.year
    df = df.sort_index()
    df = df.reset_index()
    df = df.set_index("year")
    return df

corpus = order_by_year(corpus, "date") # apply function

In [None]:
# view sorted dataframe
corpus.head()

In [None]:
# save sorted dataframe
# corpus.to_csv("data/speeches-bundesregierung_sorted.csv")

### 1.2 Beitragszahlen pro Jahr

In [None]:
# group corpus by year
speeches_per_year = corpus.groupby("year")
speeches_per_year.size()

In [None]:
# plot speeches per year

import matplotlib.pyplot as plt

plt.figure(figsize=(10,7), dpi=360) # 

speeches_per_year.size().plot.bar()

plt.title("Anzahl der Reden pro Jahr", fontsize=22, fontstyle="oblique")
plt.xlabel("Jahr", fontsize=20)
plt.ylabel("Anzahl", fontsize=20)
plt.xticks(fontsize=15, rotation=60)
plt.yticks(fontsize=15)
#plt.grid(True) #
plt.tight_layout() #
#plt.savefig("PATH") 
plt.show()

### Übung 1: Datensatz nach Personen gruppieren

Gruppieren Sie den Datensatz so, dass Ihnen ausgegeben wird, wie viele Reden pro Redner:in im Datensatz enthalten sind.

In [None]:
# solution
speeches_per_person = corpus.groupby("person")
speeches_per_person.size()

In [None]:
# plot speeches per person

import matplotlib.pyplot as plt

plt.figure(figsize=(10,7), dpi=360) # 

speeches_per_person.size().sort_values(ascending=False)[:10].plot.bar()

plt.title("Anzahl der Reden pro Person", fontsize=22, fontstyle="oblique")
plt.xlabel("Redner:in", fontsize=20)
plt.ylabel("Anzahl", fontsize=20)
plt.xticks(fontsize=15, rotation=60)
plt.yticks(fontsize=15)
#plt.grid(True) #
plt.tight_layout() #
#plt.savefig("PATH") 
plt.show()