## Einführung in Pandas

Ein kleines Tutorial in einige der wichtigsten Funktionen von pandas um Datensätze zu anaylsieren.

In [1]:
import pandas as pd

Wir lesen die einzelnen CSV Dateien als pandas dataframes ein.

In [2]:
pop = pd.read_csv('../data/external/GermanSongLyricsCorpus/Pop.csv')
rap = pd.read_csv('../data/external/GermanSongLyricsCorpus/Rap.csv')
rock = pd.read_csv('../data/external/GermanSongLyricsCorpus/Rock.csv')
schlager = pd.read_csv('../data/external/GermanSongLyricsCorpus/Schlager.csv')

Mit `.head()` rufen wir die ersten (5) Einträge eines Dataframes auf.

In [3]:
pop.head()

Unnamed: 0,gerne,interpret,album,release_year,songtitle
0,Pop,Adel Tawil,Lieder,2013,Immer da
1,Pop,Adel Tawil,Lieder,2013,Wenn Du liebst
2,Pop,Adel Tawil,Lieder,2013,Lieder
3,Pop,Adel Tawil,Lieder,2013,Weinen
4,Pop,Adel Tawil,Lieder,2013,Unter Wasser


Wir führen die vier Datensätze zu einem zusammen.

In [4]:
df = pd.concat([pop, rap, rock, schlager], ignore_index=True)

Mit `dtypes` können wir uns die Typen der Spalten des Datensatzes anschauen.


In [5]:
df.dtypes

gerne           object
interpret       object
album           object
release_year     int64
songtitle       object
lyrics          object
dtype: object

"Genre" wurde in dem Datensatz falsch geschrieben. Also bennen wir die Spalte um.

In [6]:
df.rename(columns={'gerne': 'genre'}, inplace=True)
df.head()

Unnamed: 0,genre,interpret,album,release_year,songtitle,lyrics
0,Pop,Adel Tawil,Lieder,2013,Immer da,
1,Pop,Adel Tawil,Lieder,2013,Wenn Du liebst,
2,Pop,Adel Tawil,Lieder,2013,Lieder,
3,Pop,Adel Tawil,Lieder,2013,Weinen,
4,Pop,Adel Tawil,Lieder,2013,Unter Wasser,


Wir sehen, dass bei `lyrics` immer `NaN` (not a number) steht. Die Songtexte sind in diesem Datensatz nicht vorhanden. Wir können diese Spalte aus dem Datensatz löschen.

In [7]:
df.drop(['lyrics'], axis=1, inplace=True)
df.head()

Unnamed: 0,genre,interpret,album,release_year,songtitle
0,Pop,Adel Tawil,Lieder,2013,Immer da
1,Pop,Adel Tawil,Lieder,2013,Wenn Du liebst
2,Pop,Adel Tawil,Lieder,2013,Lieder
3,Pop,Adel Tawil,Lieder,2013,Weinen
4,Pop,Adel Tawil,Lieder,2013,Unter Wasser


Wieviele Einträge gibt es insgesamt?

In [8]:
len(df)

4637

Wieviele Einträge gibt es nach Genre?

In [9]:
df.value_counts('genre')

genre
Rap         1559
Rock        1312
Pop         1131
Schlager     635
dtype: int64

Welche Interpret*innen kommen am häufigsten vor?

In [10]:
df.interpret.value_counts()

Die Ärzte            303
Udo Lindenberg       169
Andrea Berg          147
Bushido              132
Wolfgang Petry       129
                    ... 
DJ Tomekk              5
Karel Gott             3
Von wegen Lisbeth      3
Guildo Horn            2
Andreas Gabalier       1
Name: interpret, Length: 91, dtype: int64

Hier sehen wir schon, dass es insgesamt 91 Künstler*innen gibt. Das können wir uns aber auch direkt ausgeben lassen.

In [11]:
len(df.interpret.unique())

91

In welchem Jahr ist der erste Song erschienen und wann der letzte?

In [12]:
[df.release_year.min(), df.release_year.max()]

[1966, 20066]

Anscheinend gibt es einen Fehler in dem Datensatz! Wir schauen nach, welche Jahre es alles gibt.

In [13]:
df.release_year.sort_values().unique()

array([ 1966,  1967,  1968,  1970,  1971,  1972,  1973,  1974,  1975,
        1976,  1977,  1978,  1979,  1980,  1981,  1982,  1983,  1984,
        1985,  1986,  1987,  1988,  1989,  1990,  1991,  1992,  1993,
        1994,  1995,  1996,  1997,  1998,  1999,  2000,  2001,  2002,
        2003,  2004,  2005,  2006,  2007,  2008,  2009,  2010,  2011,
        2012,  2013,  2014,  2015,  2016,  2017,  2018, 20014, 20066],
      dtype=int64)

Die Jahre `20066` und `20014` sind anscheinend Tippfehler und wir ersetzen sie.

In [34]:
df.replace({'release_year': {20066: 2006,  20014: 2014}}, inplace=True)

In [35]:
[df.release_year.min(), df.release_year.max()]

[1966, 2018]

Wir können uns auch alle numerischen Werte eines Dataframes beschreiben lassen.

In [36]:
df.describe()

Unnamed: 0,release_year,decade
count,4637.0,4637.0
mean,2004.640069,2000.200561
std,9.316553,9.857849
min,1966.0,1960.0
25%,2001.0,2000.0
50%,2007.0,2000.0
75%,2011.0,2010.0
max,2018.0,2010.0


Kommen wir nun zur Visualisierung. Als Backend benutzen wir das Tool plotly. Standardmäßig wird matplotlib benutzt. 

In [17]:
pd.options.plotting.backend = "plotly"

Zuerst plotten wir die Verteilung der Erscheinungsjahre.

In [18]:
release_year_fig = df.release_year.value_counts().sort_index().plot(kind='bar', title='Release Year')

In [19]:
release_year_fig.show()

Eine Möglichkeit das gruppiert über die Genres zu betrachten ist eine Pivottabelle.

In [20]:
genre_pivot = df.pivot_table(index='release_year', columns='genre', aggfunc='size', fill_value=0)
genre_pivot.head(n=10)

genre,Pop,Rap,Rock,Schlager
release_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1966,0,0,0,3
1967,0,0,0,3
1968,0,0,0,4
1970,0,0,0,1
1971,0,0,0,2
1972,0,0,0,3
1973,0,0,15,2
1974,0,0,0,5
1975,0,0,11,6
1976,0,0,16,9


In [21]:
genre_release_year_fig = genre_pivot.plot(kind='bar', title='Genre by Release Year')
genre_release_year_fig.update_layout(barmode='group')
genre_release_year_fig.show()

Was sind die jüngsten Songs in unserem Datensatz?

In [22]:
df.sort_values('release_year', ascending=False).iloc[0:10]

Unnamed: 0,genre,interpret,album,release_year,songtitle
2318,Rap,Kollegah,Monument,2018,Cohiba Symphony
376,Pop,Herbert Grönemeyer,Tumult,2018,Mein Lebensstrahlen
3476,Rock,OK KID,Sensation,2018,Sensation
3477,Rock,OK KID,Sensation,2018,Pattaya
3478,Rock,OK KID,Sensation,2018,Reparieren
3479,Rock,OK KID,Sensation,2018,Warten auf den starken Mann
3480,Rock,OK KID,Sensation,2018,Wut lass nach
514,Pop,Namika,Que Walou,2018,Parkbank
515,Pop,Namika,Que Walou,2018,DNA
516,Pop,Namika,Que Walou,2018,Ahmed (1960-2002)


Was sind die ersten Rapsongs?

In [23]:
df[df['genre'] == 'Rap'].sort_values('release_year').head(n=20)

Unnamed: 0,genre,interpret,album,release_year,songtitle
1649,Rap,Die Fantastischen Vier,4 Gewinnt,1992,Saft
1652,Rap,Die Fantastischen Vier,4 Gewinnt,1992,Einen noch
1653,Rap,Die Fantastischen Vier,4 Gewinnt,1992,Es wird Regen geben
1654,Rap,Die Fantastischen Vier,4 Gewinnt,1992,Plattenspieler
1655,Rap,Die Fantastischen Vier,4 Gewinnt,1992,Hip Hop Musik
1656,Rap,Die Fantastischen Vier,4 Gewinnt,1992,Laß die Sonne rein
1657,Rap,Die Fantastischen Vier,4 Gewinnt,1992,Thomas und die Fraun
1658,Rap,Die Fantastischen Vier,4 Gewinnt,1992,Nonixnarretz
1648,Rap,Die Fantastischen Vier,4 Gewinnt,1992,Hört euch den hier an
1651,Rap,Die Fantastischen Vier,4 Gewinnt,1992,Na Gut


Wir können unseren Datensatz auch filtern.

In [24]:
df[(df.release_year >= 1995) & (df.release_year < 2005)].sort_values('release_year')

Unnamed: 0,genre,interpret,album,release_year,songtitle
2930,Rock,Die Ärzte,Planet Punk,1995,Geh mit mir
1664,Rap,Die Fantastischen Vier,Lauschgift,1995,Populär
1665,Rap,Die Fantastischen Vier,Lauschgift,1995,Sie ist weg
1666,Rap,Die Fantastischen Vier,Lauschgift,1995,Frühstück
1667,Rap,Die Fantastischen Vier,Lauschgift,1995,Was geht
...,...,...,...,...,...
2403,Rap,Max Herre,Max Herre,2004,So Easy
2402,Rap,Max Herre,Max Herre,2004,Alter Weg
2401,Rap,Max Herre,Max Herre,2004,Du Weisst (Bye Bye Baby)
2614,Rap,Sido,Maske,2004,Sido und die Drogen


Wir füngen eine neue Spalte `decade` hinzu, die sich als Berechnung aus der Spalte `release_year` ergibt.

In [25]:
import math
df['decade'] = df['release_year'].map(lambda x : int(math.trunc(x / 10) * 10))

Plotten wir die Verteilung der Einträge nochmal, dieses Mal nach Jahrzehnt.

In [26]:
genre_pivot_decade = df.pivot_table(index='decade', columns='genre', aggfunc='size', fill_value=0)

In [27]:
genre_decade_fig = genre_pivot_decade.plot(kind='bar', title='Genre by Release Year')
genre_decade_fig.update_layout(barmode='group')
genre_decade_fig.show()

Zuletzt speichern wir den Datensatz noch als csv Datei.

In [28]:
df.to_csv('../data/external/GermanSongLyricsCorpus/all.csv', index=False)