# Spotify Dataset Analyse

### Literatur: 
https://pbpython.com/pandas_dtypes.html 
https://statologie.de/fehlende-werte-zaehlen-pandas/

In [1]:
# Importieren der Pandas Bibliothek
import pandas as pd

In [2]:
# Importieren des Datensets
df = pd.read_csv("../Daten/spotify_data.csv", sep="#", na_values=["n/a"])

### Erstes Anschauen der Daten

In [3]:
# Anschauen des Datensates
df

Unnamed: 0,Position,Track Name,Artist,Streams,Date,Genre
0,1,Starboy,The Weeknd,3135625,2017-01-01,"['canadian pop', 'canadian contemporary r&b', ..."
1,2,Closer,The Chainsmokers,3015525,2017-01-01,"['pop', 'pop dance', 'tropical house', 'edm', ..."
2,3,Let Me Love You,DJ Snake,2545384,2017-01-01,"['pop', 'electronic trap', 'dance pop', 'edm',..."
3,4,Rockabye (feat. Sean Paul & Anne-Marie),Clean Bandit,2356604,2017-01-01,"['pop', 'uk dance', 'dance pop', 'uk funky', '..."
4,5,One Dance,Drake,2259887,2017-01-01,"['toronto rap', 'canadian pop', 'canadian hip ..."
...,...,...,...,...,...,...
321195,196,Best Friend (feat. Doja Cat),Saweetie,790257,2021-07-17,"['trap queen', 'pop', 'pop rap', 'cali rap', '..."
321196,197,Wonderwall - Remastered,Oasis,789099,2021-07-17,"['madchester', 'permanent wave', 'beatlesque',..."
321197,198,MI FAI IMPAZZIRE,BLANCO,788966,2021-07-17,"['italian pop', 'italian hip hop']"
321198,199,Adore You,Harry Styles,788033,2021-07-17,"['pop', 'post-teen pop']"


Man erkennt, dass der Datensatz aus 321.200 Zeilen und 6 Spalten besteht

In [4]:
# Anschauen der Spaltennamen
df.head()

Unnamed: 0,Position,Track Name,Artist,Streams,Date,Genre
0,1,Starboy,The Weeknd,3135625,2017-01-01,"['canadian pop', 'canadian contemporary r&b', ..."
1,2,Closer,The Chainsmokers,3015525,2017-01-01,"['pop', 'pop dance', 'tropical house', 'edm', ..."
2,3,Let Me Love You,DJ Snake,2545384,2017-01-01,"['pop', 'electronic trap', 'dance pop', 'edm',..."
3,4,Rockabye (feat. Sean Paul & Anne-Marie),Clean Bandit,2356604,2017-01-01,"['pop', 'uk dance', 'dance pop', 'uk funky', '..."
4,5,One Dance,Drake,2259887,2017-01-01,"['toronto rap', 'canadian pop', 'canadian hip ..."


Es gibt die Spalten
- Index (dieser wird beim Laden der Daten von Pandas erstellt)
- Position
- Track Name
- Artist
- Streams
- Date
- Genre
  
Um ein besseres Verständnis für die Daten zu erhalten sollten noch die Spaltenbeschreibungen des Ersteller des Datensets einbezogen werden.

In [5]:
# Erster Eindruck der Daten mit der describe-Funktion
df.describe()

Unnamed: 0,Position,Streams
count,321200.0,321200.0
mean,100.5,1188494.0
std,57.734395,839670.3
min,1.0,325951.0
25%,50.75,700487.8
50%,100.5,895362.5
75%,150.25,1364127.0
max,200.0,17223240.0


Hier werden auf Grund der Datentypen nur Ergebnisse für die Spalten "Position" und "Streams" ausgegeben. Demnach sollten die Typen der Daten angeschaut werden

In [6]:
# Datentypen der Spalten 
print(df.dtypes)

Position       int64
Track Name    object
Artist        object
Streams        int64
Date          object
Genre         object
dtype: object


Die Vermutung aus dem Schritt davor zeigt, dass die Datentypen integer und object verwendet wurden. Für weitere Analysen muss dies angepasst werden

In [7]:
# Über die Infor-Funktion können noch mehr Daten herausgefunden werden
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 321200 entries, 0 to 321199
Data columns (total 6 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   Position    321200 non-null  int64 
 1   Track Name  321182 non-null  object
 2   Artist      321182 non-null  object
 3   Streams     321200 non-null  int64 
 4   Date        321200 non-null  object
 5   Genre       321182 non-null  object
dtypes: int64(2), object(4)
memory usage: 14.7+ MB


Es kann sein, dass in dem Datensatz auch Werte fehlen. Diese Werte werden nun ermittelt und überprüft.

In [8]:
df.isnull().sum().sum()

54

Im Datensatz gibt es 54 "n/a"-Werte

In [9]:
df.isnull().sum()

Position       0
Track Name    18
Artist        18
Streams        0
Date           0
Genre         18
dtype: int64

In [10]:
df.loc[pd.isnull(df['Track Name'])]


Unnamed: 0,Position,Track Name,Artist,Streams,Date,Genre
39204,5,,,3568811,2017-07-20,
39212,13,,,2571960,2017-07-20,
39229,30,,,1798208,2017-07-20,
39238,39,,,1520291,2017-07-20,
39404,5,,,3653533,2017-07-21,
39415,16,,,2522453,2017-07-21,
39434,35,,,1798890,2017-07-21,
39447,48,,,1526955,2017-07-21,
39700,101,,,747893,2017-07-22,
39888,89,,,690247,2017-07-23,


Wie sich erkennen lässt, sind die 18 fehlenden Werte alle in den gleichen Spalten. Es wird zudem ersichtlich, dass alle Fehler im Jahr 2017 passiert sind. Das sollte später in der Analyse berücksichtigt werden.

In [11]:
# Entfernen der NaN-Werte aus dem Datenset
df.dropna(inplace=True) 

In [12]:
# Überprüfung des Entfernens
df.shape

(321182, 6)

Wie sich erkennen lässt hat der Datensatz nun 321.182 statt 321.200 Zeilen.

Da die Zielgruppe deutsch ist und die Grafiken und das Dashboard deshalb auch auf Deutsch erstellt werden sollen, werden die Spalten nun umbenannt.

In [13]:
df.rename(columns={ 'Track Name': 'Songtitel', 'Artist': 'Künstler', "Date": "Datum" }, inplace=True)
df

Unnamed: 0,Position,Songtitel,Künstler,Streams,Datum,Genre
0,1,Starboy,The Weeknd,3135625,2017-01-01,"['canadian pop', 'canadian contemporary r&b', ..."
1,2,Closer,The Chainsmokers,3015525,2017-01-01,"['pop', 'pop dance', 'tropical house', 'edm', ..."
2,3,Let Me Love You,DJ Snake,2545384,2017-01-01,"['pop', 'electronic trap', 'dance pop', 'edm',..."
3,4,Rockabye (feat. Sean Paul & Anne-Marie),Clean Bandit,2356604,2017-01-01,"['pop', 'uk dance', 'dance pop', 'uk funky', '..."
4,5,One Dance,Drake,2259887,2017-01-01,"['toronto rap', 'canadian pop', 'canadian hip ..."
...,...,...,...,...,...,...
321195,196,Best Friend (feat. Doja Cat),Saweetie,790257,2021-07-17,"['trap queen', 'pop', 'pop rap', 'cali rap', '..."
321196,197,Wonderwall - Remastered,Oasis,789099,2021-07-17,"['madchester', 'permanent wave', 'beatlesque',..."
321197,198,MI FAI IMPAZZIRE,BLANCO,788966,2021-07-17,"['italian pop', 'italian hip hop']"
321198,199,Adore You,Harry Styles,788033,2021-07-17,"['pop', 'post-teen pop']"


## Anpassungen im Datenset

In [14]:
# Anpassung des Types der Spalte "Datum" um analysen vornehmen zu können. Wird zu Date. Außerdem werden neue Spalten mit dem Jahr, Monat und Tag erstellt. 
# Import von datetime
import datetime
from datetime import *

In [15]:
df['Datum'] = pd.to_datetime(df['Datum'], format="%Y/%m/%d")

In [16]:
#Überprüfen, ob das Format angepasst wurde
print(df.dtypes)

Position              int64
Songtitel            object
Künstler             object
Streams               int64
Datum        datetime64[ns]
Genre                object
dtype: object


Hinzugügen von Spalten mit Datum, Monat und Tag umd Analysen nach Jahr und Monat durchzuführen zu können.

In [17]:
df['Jahr'] = pd.DatetimeIndex(df['Datum']).year
df['Monat'] = pd.DatetimeIndex(df['Datum']).month
df['Tag'] = pd.DatetimeIndex(df['Datum']).day

In [18]:
#Überprüfen der neuen Spalten
df

Unnamed: 0,Position,Songtitel,Künstler,Streams,Datum,Genre,Jahr,Monat,Tag
0,1,Starboy,The Weeknd,3135625,2017-01-01,"['canadian pop', 'canadian contemporary r&b', ...",2017,1,1
1,2,Closer,The Chainsmokers,3015525,2017-01-01,"['pop', 'pop dance', 'tropical house', 'edm', ...",2017,1,1
2,3,Let Me Love You,DJ Snake,2545384,2017-01-01,"['pop', 'electronic trap', 'dance pop', 'edm',...",2017,1,1
3,4,Rockabye (feat. Sean Paul & Anne-Marie),Clean Bandit,2356604,2017-01-01,"['pop', 'uk dance', 'dance pop', 'uk funky', '...",2017,1,1
4,5,One Dance,Drake,2259887,2017-01-01,"['toronto rap', 'canadian pop', 'canadian hip ...",2017,1,1
...,...,...,...,...,...,...,...,...,...
321195,196,Best Friend (feat. Doja Cat),Saweetie,790257,2021-07-17,"['trap queen', 'pop', 'pop rap', 'cali rap', '...",2021,7,17
321196,197,Wonderwall - Remastered,Oasis,789099,2021-07-17,"['madchester', 'permanent wave', 'beatlesque',...",2021,7,17
321197,198,MI FAI IMPAZZIRE,BLANCO,788966,2021-07-17,"['italian pop', 'italian hip hop']",2021,7,17
321198,199,Adore You,Harry Styles,788033,2021-07-17,"['pop', 'post-teen pop']",2021,7,17


## Anpassung der Spalte "Genre"

Die Spalte Genre hat den Type: Object, da er zur Zeit noch non-text characters. Dies soll nun aber für die weitere Analyse angepasst werden.

In [19]:
#Umwandeln zu String
df['Genre'] = df['Genre'].astype("string")

In [20]:
#Überprüfung der Konvertierung
print(df.dtypes)
print('**************************************************************************')
df['Genre']

Position              int64
Songtitel            object
Künstler             object
Streams               int64
Datum        datetime64[ns]
Genre                string
Jahr                  int64
Monat                 int64
Tag                   int64
dtype: object
**************************************************************************


0         ['canadian pop', 'canadian contemporary r&b', ...
1         ['pop', 'pop dance', 'tropical house', 'edm', ...
2         ['pop', 'electronic trap', 'dance pop', 'edm',...
3         ['pop', 'uk dance', 'dance pop', 'uk funky', '...
4         ['toronto rap', 'canadian pop', 'canadian hip ...
                                ...                        
321195    ['trap queen', 'pop', 'pop rap', 'cali rap', '...
321196    ['madchester', 'permanent wave', 'beatlesque',...
321197                   ['italian pop', 'italian hip hop']
321198                             ['pop', 'post-teen pop']
321199                       ['modern rock', 'pop', 'rock']
Name: Genre, Length: 321182, dtype: string

In [21]:
df['Genre'] = df['Genre'].str.split(', ')
df['genre_count'] = df['Genre'].apply(len)
max_genre_count = df['genre_count'].max()

print("Maximum Genre Count:", max_genre_count)

Maximum Genre Count: 10


In [22]:
df

Unnamed: 0,Position,Songtitel,Künstler,Streams,Datum,Genre,Jahr,Monat,Tag,genre_count
0,1,Starboy,The Weeknd,3135625,2017-01-01,"[['canadian pop', 'canadian contemporary r&b',...",2017,1,1,3
1,2,Closer,The Chainsmokers,3015525,2017-01-01,"[['pop', 'pop dance', 'tropical house', 'edm',...",2017,1,1,6
2,3,Let Me Love You,DJ Snake,2545384,2017-01-01,"[['pop', 'electronic trap', 'dance pop', 'edm'...",2017,1,1,6
3,4,Rockabye (feat. Sean Paul & Anne-Marie),Clean Bandit,2356604,2017-01-01,"[['pop', 'uk dance', 'dance pop', 'uk funky', ...",2017,1,1,8
4,5,One Dance,Drake,2259887,2017-01-01,"[['toronto rap', 'canadian pop', 'canadian hip...",2017,1,1,6
...,...,...,...,...,...,...,...,...,...,...
321195,196,Best Friend (feat. Doja Cat),Saweetie,790257,2021-07-17,"[['trap queen', 'pop', 'pop rap', 'cali rap', ...",2021,7,17,5
321196,197,Wonderwall - Remastered,Oasis,789099,2021-07-17,"[['madchester', 'permanent wave', 'beatlesque'...",2021,7,17,5
321197,198,MI FAI IMPAZZIRE,BLANCO,788966,2021-07-17,"[['italian pop', 'italian hip hop']]",2021,7,17,2
321198,199,Adore You,Harry Styles,788033,2021-07-17,"[['pop', 'post-teen pop']]",2021,7,17,2


Wir bennen die Spalte nun nochmal um.

In [23]:
df.rename( columns= {'genre_count': 'Anzahl der Genre',}, inplace=True)

In [24]:
df['Genre'] = df['Genre'].astype("string")
df.dtypes

Position                     int64
Songtitel                   object
Künstler                    object
Streams                      int64
Datum               datetime64[ns]
Genre                       string
Jahr                         int64
Monat                        int64
Tag                          int64
Anzahl der Genre             int64
dtype: object

In [25]:
import re
# Funktion zum Extrahieren der Genres und Bereinigen der Formatierung
def clean_genre(genre_str):
    genre_list = re.findall(r"'(.*?)'", genre_str)
    return ', '.join(genre_list)

# Anwenden der Funktion auf die Genre-Spalte
df['Genre'] = df['Genre'].apply(clean_genre)

In [26]:
df['Genre'] = df['Genre'].astype("string")


In [27]:
import re
# Funktion zum Bereinigen der Genre-Spalte
def clean_genre(genre_str):
    genres = re.findall(r"'(.*?)'", genre_str)
    return ', '.join(genres)

df

Unnamed: 0,Position,Songtitel,Künstler,Streams,Datum,Genre,Jahr,Monat,Tag,Anzahl der Genre
0,1,Starboy,The Weeknd,3135625,2017-01-01,"canadian pop, canadian contemporary r&b, pop",2017,1,1,3
1,2,Closer,The Chainsmokers,3015525,2017-01-01,"pop, pop dance, tropical house, edm, electropo...",2017,1,1,6
2,3,Let Me Love You,DJ Snake,2545384,2017-01-01,"pop, electronic trap, dance pop, edm, pop danc...",2017,1,1,6
3,4,Rockabye (feat. Sean Paul & Anne-Marie),Clean Bandit,2356604,2017-01-01,"pop, uk dance, dance pop, uk funky, tropical h...",2017,1,1,8
4,5,One Dance,Drake,2259887,2017-01-01,"toronto rap, canadian pop, canadian hip hop, r...",2017,1,1,6
...,...,...,...,...,...,...,...,...,...,...
321195,196,Best Friend (feat. Doja Cat),Saweetie,790257,2021-07-17,"trap queen, pop, pop rap, cali rap, dance pop",2021,7,17,5
321196,197,Wonderwall - Remastered,Oasis,789099,2021-07-17,"madchester, permanent wave, beatlesque, britpo...",2021,7,17,5
321197,198,MI FAI IMPAZZIRE,BLANCO,788966,2021-07-17,"italian pop, italian hip hop",2021,7,17,2
321198,199,Adore You,Harry Styles,788033,2021-07-17,"pop, post-teen pop",2021,7,17,2


In [28]:
# Genres manuell in separate Spalten aufteilen
for i in range(10):
    df[f'Genre {i+1}'] = df['Genre'].apply(lambda x: x.split(', ')[i] if len(x.split(', ')) > i else None)

In [29]:
df

Unnamed: 0,Position,Songtitel,Künstler,Streams,Datum,Genre,Jahr,Monat,Tag,Anzahl der Genre,Genre 1,Genre 2,Genre 3,Genre 4,Genre 5,Genre 6,Genre 7,Genre 8,Genre 9,Genre 10
0,1,Starboy,The Weeknd,3135625,2017-01-01,"canadian pop, canadian contemporary r&b, pop",2017,1,1,3,canadian pop,canadian contemporary r&b,pop,,,,,,,
1,2,Closer,The Chainsmokers,3015525,2017-01-01,"pop, pop dance, tropical house, edm, electropo...",2017,1,1,6,pop,pop dance,tropical house,edm,electropop,dance pop,,,,
2,3,Let Me Love You,DJ Snake,2545384,2017-01-01,"pop, electronic trap, dance pop, edm, pop danc...",2017,1,1,6,pop,electronic trap,dance pop,edm,pop dance,pop rap,,,,
3,4,Rockabye (feat. Sean Paul & Anne-Marie),Clean Bandit,2356604,2017-01-01,"pop, uk dance, dance pop, uk funky, tropical h...",2017,1,1,8,pop,uk dance,dance pop,uk funky,tropical house,pop dance,post-teen pop,edm,,
4,5,One Dance,Drake,2259887,2017-01-01,"toronto rap, canadian pop, canadian hip hop, r...",2017,1,1,6,toronto rap,canadian pop,canadian hip hop,rap,pop rap,hip hop,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
321195,196,Best Friend (feat. Doja Cat),Saweetie,790257,2021-07-17,"trap queen, pop, pop rap, cali rap, dance pop",2021,7,17,5,trap queen,pop,pop rap,cali rap,dance pop,,,,,
321196,197,Wonderwall - Remastered,Oasis,789099,2021-07-17,"madchester, permanent wave, beatlesque, britpo...",2021,7,17,5,madchester,permanent wave,beatlesque,britpop,rock,,,,,
321197,198,MI FAI IMPAZZIRE,BLANCO,788966,2021-07-17,"italian pop, italian hip hop",2021,7,17,2,italian pop,italian hip hop,,,,,,,,
321198,199,Adore You,Harry Styles,788033,2021-07-17,"pop, post-teen pop",2021,7,17,2,pop,post-teen pop,,,,,,,,


In [30]:
df.dtypes

Position                     int64
Songtitel                   object
Künstler                    object
Streams                      int64
Datum               datetime64[ns]
Genre                       string
Jahr                         int64
Monat                        int64
Tag                          int64
Anzahl der Genre             int64
Genre 1                     object
Genre 2                     object
Genre 3                     object
Genre 4                     object
Genre 5                     object
Genre 6                     object
Genre 7                     object
Genre 8                     object
Genre 9                     object
Genre 10                    object
dtype: object

Wir ändern wieder den Datentyp in Strings.

In [31]:
df['Genre'] = df['Genre'].astype("string")
df['Genre'] = df['Genre 1'].astype("string")
df['Genre'] = df['Genre 2'].astype("string")
df['Genre'] = df['Genre 3'].astype("string")
df['Genre'] = df['Genre 4'].astype("string")
df['Genre'] = df['Genre 5'].astype("string")
df['Genre'] = df['Genre 6'].astype("string")
df['Genre'] = df['Genre 7'].astype("string")
df['Genre'] = df['Genre 8'].astype("string")
df['Genre'] = df['Genre 9'].astype("string")
df['Genre'] = df['Genre 10'].astype("string")

## Erste Auswertungen

Nachdem der Datensatz jetzt Vorbereitet ist werden jetzt nun die ersten Auswertungen vorgenommen. Dazu wird der Datensatz zunächst in Jahre eingeteilt und dann zunächst dafür ausgewertet. Anschließend wird pro Jahr noch auf die Monate eingegangen.

In [32]:
#Zunächst wird geschaut, was das erste Datum und das letzte Datum im Datensatz ist.
print('Das letzte Datum im Datensatz hat den Timestamp:', df['Datum'].max())
print('Das erste Datum im Datensatz hat den Timestamp:', df['Datum'].min())


Das letzte Datum im Datensatz hat den Timestamp: 2021-07-17 00:00:00
Das erste Datum im Datensatz hat den Timestamp: 2017-01-01 00:00:00


Der erste Datensatz ist vom 01. Januar 2017. Der letzte Datensatz vom 17. Juli 2021. Der Datensatz von 2021 ist somit nich vollständig. Es sollte deshalb überlegt werden, statt in Jahren in Halbjahren zu analysieren und die letzten 17 Einträge im Juli 2021 zu vernachlässigen. 

## Im ganzen Datenset

In [33]:
# Wie viele Songs gibt es im ganzen Datensatz
count_song_titles = df['Songtitel'].nunique()
print('Der Datensatz besteht aus', count_song_titles, 'Songs.')

Der Datensatz besteht aus 5496 Songs.


Der Datensatz besteht insgesammt aus 321.182 Songeinträgen. Diese unterteilen sich jedoch nur in 5.496 Songs.

In [34]:
# Welche Künstler gibt es im Datensatz
count_artists = df['Künstler'].nunique()
print('Es gibt', count_artists, 'Künstler im Datensatz.')

Es gibt 1127 Künstler im Datensatz.


In [35]:
# Welcher Künstler kommt am häufigsten im ganzen Datenset vor
df_artists = df.value_counts('Künstler', ascending = False).to_frame(name='Häufigkeit')
#print("Die Top Künstler sind die Folgenden: \n", df_artists)
#Print Statement wurde ausgeklammert, da die Liste im nächsten Schritt gestylt wird. 

df_artists.style.background_gradient(cmap='Greens').set_caption('Anzahl der Einträge je Künstler')

Unnamed: 0_level_0,Häufigkeit
Künstler,Unnamed: 1_level_1
Ed Sheeran,9461
Post Malone,9172
XXXTENTACION,6569
Billie Eilish,6499
Drake,6496
Ariana Grande,5231
The Chainsmokers,4716
Juice WRLD,4593
Travis Scott,4488
Bad Bunny,4042


In [36]:
# Welcher Song kommt am häufigsten im ganzen Datenset vor
df_songs = df.value_counts('Songtitel', ascending = False).to_frame(name= 'Häufigkeit')
#print('Die Top Songs sind die Folgenden: \n', df_songs)
#Print Statement wurde ausgeklammert, da die Liste im nächsten Schritt gestylt wird. 

df_songs.style.background_gradient(cmap='Greens').set_caption('Anzahl der Einträge je Song')

Unnamed: 0_level_0,Häufigkeit
Songtitel,Unnamed: 1_level_1
Say You Won't Let Go,1591
Shape of You,1579
Believer,1571
Perfect,1539
Happier,1442
goosebumps,1386
Jocelyn Flores,1318
Closer,1193
SAD!,1132
Something Just Like This,1124


In [37]:
# Wie viele Songs haben unterschiedliche Genres
df_genre_counts = df.value_counts('Anzahl der Genre', ascending = False).to_frame(name= 'Häufigkeit')
#print('Die Einträge haben folgende Anzahl an Genre: \n', df_genre_counts)
#Print Statement wurde ausgeklammert, da die Liste im nächsten Schritt gestylt wird. 

df_genre_counts.style.background_gradient(cmap='Greens').set_caption('Anzahl der Genre je Eintrag')

Unnamed: 0_level_0,Häufigkeit
Anzahl der Genre,Unnamed: 1_level_1
2,69871
3,69411
4,66844
5,36873
6,32208
1,19537
8,10341
7,10150
10,3772
9,2175


## 2017

In [49]:
df_2017 = df[df['Jahr'] == 2017]
df_2017

Unnamed: 0,Position,Songtitel,Künstler,Streams,Datum,Genre,Jahr,Monat,Tag,Anzahl der Genre,Genre 1,Genre 2,Genre 3,Genre 4,Genre 5,Genre 6,Genre 7,Genre 8,Genre 9,Genre 10
0,1,Starboy,The Weeknd,3135625,2017-01-01,,2017,1,1,3,canadian pop,canadian contemporary r&b,pop,,,,,,,
1,2,Closer,The Chainsmokers,3015525,2017-01-01,,2017,1,1,6,pop,pop dance,tropical house,edm,electropop,dance pop,,,,
2,3,Let Me Love You,DJ Snake,2545384,2017-01-01,,2017,1,1,6,pop,electronic trap,dance pop,edm,pop dance,pop rap,,,,
3,4,Rockabye (feat. Sean Paul & Anne-Marie),Clean Bandit,2356604,2017-01-01,,2017,1,1,8,pop,uk dance,dance pop,uk funky,tropical house,pop dance,post-teen pop,edm,,
4,5,One Dance,Drake,2259887,2017-01-01,,2017,1,1,6,toronto rap,canadian pop,canadian hip hop,rap,pop rap,hip hop,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
72195,196,Sober,G-Eazy,602217,2017-12-31,,2017,12,31,5,indie pop rap,oakland hip hop,pop rap,rap,hip hop,,,,,
72196,197,I Took A Pill In Ibiza - Seeb Remix,Mike Posner,599127,2017-12-31,,2017,12,31,3,pop rap,dance pop,pop,,,,,,,
72197,198,Saint,Huncho Jack,598895,2017-12-31,,2017,12,31,6,melodic rap,rap,trap,southern hip hop,pop rap,hip hop,,,,
72198,199,Back to You (feat. Bebe Rexha & Digital Farm A...,Louis Tomlinson,598202,2017-12-31,,2017,12,31,2,pop,post-teen pop,,,,,,,,


In [50]:
# Welcher Künstler kommt 2017 am häufigsten vor
df_artists_2017 = df_2017.value_counts('Künstler', ascending = False).to_frame(name='Häufigkeit')
#print("Die Top Künstler sind die Folgenden: \n", df_artists_2017)
#Print Statement wurde ausgeklammert, da die Liste im nächsten Schritt gestylt wird. 

df_artists_2017.style.background_gradient(cmap='Greens').set_caption('Anzahl der Einträge je Künstler im Jahr 2017')

Unnamed: 0_level_0,Häufigkeit
Künstler,Unnamed: 1_level_1
Ed Sheeran,3178
Drake,2180
The Chainsmokers,1696
Kendrick Lamar,1401
Post Malone,1133
The Weeknd,1127
Migos,1020
Calvin Harris,1001
J Balvin,956
Shawn Mendes,919


In [39]:
# Zählen von Songs

## 2018

In [40]:
df_2018 = df[df['Jahr'] == 2018]
df_2018

Unnamed: 0,Position,Songtitel,Künstler,Streams,Datum,Genre,Jahr,Monat,Tag,Anzahl der Genre,Genre 1,Genre 2,Genre 3,Genre 4,Genre 5,Genre 6,Genre 7,Genre 8,Genre 9,Genre 10
72200,1,rockstar,Post Malone,3962314,2018-01-01,,2018,1,1,3,dfw rap,melodic rap,rap,,,,,,,
72201,2,Havana,Camila Cabello,3314677,2018-01-01,,2018,1,1,4,pop,post-teen pop,dance pop,electropop,,,,,,
72202,3,New Rules,Dua Lipa,2940488,2018-01-01,,2018,1,1,3,uk pop,pop,dance pop,,,,,,,
72203,4,Wolves,Selena Gomez,2509878,2018-01-01,,2018,1,1,3,pop,post-teen pop,dance pop,,,,,,,
72204,5,Shape of You,Ed Sheeran,2439876,2018-01-01,,2018,1,1,2,uk pop,pop,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145195,196,All I Want for Christmas Is You,Mariah Carey,682293,2018-12-31,,2018,12,31,4,dance pop,urban contemporary,pop,r&b,,,,,,
145196,197,MAMA,6ix9ine,677419,2018-12-31,,2018,12,31,2,emo rap,rap,,,,,,,,
145197,198,"Never Recover (Lil Baby & Gunna, Drake)",Lil Baby,671624,2018-12-31,,2018,12,31,4,atl trap,atl hip hop,rap,trap,,,,,,
145198,199,Something Just Like This,The Chainsmokers,670650,2018-12-31,,2018,12,31,6,pop,pop dance,tropical house,edm,electropop,dance pop,,,,


## 2019

In [41]:
df_2019 = df[df['Jahr'] == 2019]
df_2019

Unnamed: 0,Position,Songtitel,Künstler,Streams,Datum,Genre,Jahr,Monat,Tag,Anzahl der Genre,Genre 1,Genre 2,Genre 3,Genre 4,Genre 5,Genre 6,Genre 7,Genre 8,Genre 9,Genre 10
145200,1,"thank u, next",Ariana Grande,3978028,2019-01-01,,2019,1,1,3,pop,post-teen pop,dance pop,,,,,,,
145201,2,Sunflower - Spider-Man: Into the Spider-Verse,Post Malone,3883836,2019-01-01,,2019,1,1,3,dfw rap,melodic rap,rap,,,,,,,
145202,3,"Taki Taki (with Selena Gomez, Ozuna & Cardi B)",DJ Snake,3351784,2019-01-01,,2019,1,1,6,pop,electronic trap,dance pop,edm,pop dance,pop rap,,,,
145203,4,Wow.,Post Malone,3195966,2019-01-01,,2019,1,1,3,dfw rap,melodic rap,rap,,,,,,,
145204,5,MIA (feat. Drake),Bad Bunny,2777884,2019-01-01,,2019,1,1,3,trap latino,reggaeton,latin,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
218195,196,Despacito - Remix,Luis Fonsi,774785,2019-12-31,,2019,12,31,3,puerto rican pop,latin,latin pop,,,,,,,
218196,197,Cheirosa - Ao Vivo,Jorge & Mateus,774691,2019-12-31,,2019,12,31,1,sertanejo universitario,,,,,,,,,
218197,198,GATTI,JACKBOYS,770892,2019-12-31,,2019,12,31,2,trap,rap,,,,,,,,
218198,199,all the good girls go to hell,Billie Eilish,766712,2019-12-31,,2019,12,31,2,pop,electropop,,,,,,,,


## 2020

In [42]:
df_2020 = df[df['Jahr'] == 2020]
df_2020

Unnamed: 0,Position,Songtitel,Künstler,Streams,Datum,Genre,Jahr,Monat,Tag,Anzahl der Genre,Genre 1,Genre 2,Genre 3,Genre 4,Genre 5,Genre 6,Genre 7,Genre 8,Genre 9,Genre 10
218200,1,Dance Monkey,Tones And I,6155025,2020-01-01,,2020,1,1,2,australian pop,pop,,,,,,,,
218201,2,ROXANNE,Arizona Zervas,4133489,2020-01-01,,2020,1,1,2,rhode island rap,pop rap,,,,,,,,
218202,3,Tusa,KAROL G,4017964,2020-01-01,,2020,1,1,4,reggaeton colombiano,trap latino,reggaeton,latin,,,,,,
218203,4,Circles,Post Malone,3283180,2020-01-01,,2020,1,1,3,dfw rap,melodic rap,rap,,,,,,,
218204,5,Memories,Maroon 5,3127585,2020-01-01,,2020,1,1,2,pop,pop rock,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
290195,196,MAMACITA,Black Eyed Peas,874006,2020-12-31,,2020,12,31,3,dance pop,pop rap,pop,,,,,,,
290196,197,Falling,Harry Styles,871511,2020-12-31,,2020,12,31,2,pop,post-teen pop,,,,,,,,
290197,198,Uptown Funk (feat. Bruno Mars),Mark Ronson,869870,2020-12-31,,2020,12,31,3,dance pop,pop,neo soul,,,,,,,
290198,199,Jocelyn Flores,XXXTENTACION,869265,2020-12-31,,2020,12,31,2,miami hip hop,emo rap,,,,,,,,


## 2021

In [43]:
df_2021 = df[df['Jahr'] == 2021]
df_2021

Unnamed: 0,Position,Songtitel,Künstler,Streams,Datum,Genre,Jahr,Monat,Tag,Anzahl der Genre,Genre 1,Genre 2,Genre 3,Genre 4,Genre 5,Genre 6,Genre 7,Genre 8,Genre 9,Genre 10
290200,1,DÁKITI,Bad Bunny,5065542,2021-01-01,,2021,1,1,3,trap latino,reggaeton,latin,,,,,,,
290201,2,Blinding Lights,The Weeknd,3764813,2021-01-01,,2021,1,1,3,canadian pop,canadian contemporary r&b,pop,,,,,,,
290202,3,BICHOTA,KAROL G,3560869,2021-01-01,,2021,1,1,4,reggaeton colombiano,trap latino,reggaeton,latin,,,,,,
290203,4,Mood (feat. iann dior),24kGoldn,3402064,2021-01-01,,2021,1,1,1,cali rap,,,,,,,,,
290204,5,positions,Ariana Grande,2939820,2021-01-01,,2021,1,1,3,pop,post-teen pop,dance pop,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
321195,196,Best Friend (feat. Doja Cat),Saweetie,790257,2021-07-17,,2021,7,17,5,trap queen,pop,pop rap,cali rap,dance pop,,,,,
321196,197,Wonderwall - Remastered,Oasis,789099,2021-07-17,,2021,7,17,5,madchester,permanent wave,beatlesque,britpop,rock,,,,,
321197,198,MI FAI IMPAZZIRE,BLANCO,788966,2021-07-17,,2021,7,17,2,italian pop,italian hip hop,,,,,,,,
321198,199,Adore You,Harry Styles,788033,2021-07-17,,2021,7,17,2,pop,post-teen pop,,,,,,,,


In [44]:
#Dataset nach Jahren Aufteilen
#Genre nach Jahren untersuchen und zusammenrechnen
#Welche Songs waren die Top 5 in diesem Jahr
#Welche Genre haben diese Songs

In [45]:
#Dataset nach Monat und Jahr Aufteilen
#Genre je Monat im Jahr untersuchen und zusammenrechnen
#Welche Song war der Top Song in diesem Monat
#Welches Genre hat dieser Song

In [46]:
#TO Do:
#Alle Genre Spalten nach Platzhalter MAIN GENRE und MAIN GENRE Platzhalter suchen 
#Für alle Main Genres die Gesamtanzahlen zusammenrechnen