## Weihnachtslieder mit Pandas finden

Dieses Beispiel durchsucht die Playlist einen erfundenen Popradiosenders und sucht nacht Weihnachtsliedern.

Es ist Begleitmaterial zu einer Session in Data Science Open Space Berlin am 11.03.2017 und dem Python Barcamp Köln am 08.04.2017 mit nachträglichen Kommentaren / Verbesserungen.

In [1]:
import pandas as pd
import datetime as dt

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

Die Beispieldaten *FAKE all.txt* sind auf Basis der Playlisten mehrerer marktführender Sender generiert, so im Radio aber nicht gelaufen. Bei der Erzeugung des Testdaten habe ich darauf geachtet, eine möglichst grosse Nähe zu echten Playlisten zu erzeugen. Darüber könnte man einen eigene Session halten...

In [2]:
playlist = pd.read_csv(r'FAKE all.txt', delimiter='|',header=None) 

In [3]:
playlist.columns = ['date time','artist','title']

In [4]:
playlist.head()

Unnamed: 0,date time,artist,title
0,2014-10-01 00:02:01,THE COMMON LINNETS,CALM AFTER THE STORM
1,2014-10-01 00:05:01,IMAGINE DRAGONS,DEMONS
2,2014-10-01 00:09:02,JOHNNY HATES JAZZ,TURN BACK THE CLOCK
3,2014-10-01 00:12:02,HERBERT GRÖNEMEYER,MORGEN
4,2014-10-01 00:16:02,MR PROBZ,WAVES [[ROBIN SCHULZ REMIX]]


In [5]:
len(playlist)

236083

In [6]:
playlist['artist - title'] = playlist['artist'] + '|'+ playlist['title']
del playlist['artist']
del playlist['title']

In [7]:
playlist.head()

Unnamed: 0,date time,artist - title
0,2014-10-01 00:02:01,THE COMMON LINNETS|CALM AFTER THE STORM
1,2014-10-01 00:05:01,IMAGINE DRAGONS|DEMONS
2,2014-10-01 00:09:02,JOHNNY HATES JAZZ|TURN BACK THE CLOCK
3,2014-10-01 00:12:02,HERBERT GRÖNEMEYER|MORGEN
4,2014-10-01 00:16:02,MR PROBZ|WAVES [[ROBIN SCHULZ REMIX]]


Eine simple Bewertung der Weihnachtsmusik. Einsätze im Dezember bringen Aufwertungen, 
Einsätze im November sind neutral, Einsätze in anderen Monaten bringen eine Abwertung

In [8]:
def label_xmas_dt(row):
    _month = int(row['date time'][5:7])
    if _month == 12:
        return 12
    if 0 < _month < 11:
        return -12
    return 0

In [9]:
playlist['xmas_score'] = playlist.apply (lambda row: label_xmas_dt (row),axis=1)

In [10]:
playlist.head()

Unnamed: 0,date time,artist - title,xmas_score
0,2014-10-01 00:02:01,THE COMMON LINNETS|CALM AFTER THE STORM,-12
1,2014-10-01 00:05:01,IMAGINE DRAGONS|DEMONS,-12
2,2014-10-01 00:09:02,JOHNNY HATES JAZZ|TURN BACK THE CLOCK,-12
3,2014-10-01 00:12:02,HERBERT GRÖNEMEYER|MORGEN,-12
4,2014-10-01 00:16:02,MR PROBZ|WAVES [[ROBIN SCHULZ REMIX]],-12


Mit der einfachen *xmas_score* werden auch Titel gefunden, die nur zufällig im Dezember gespielt wurden. Trotzdem ist das Ergebnis schon nicht schlecht.

In [11]:
playlist.groupby(["artist - title"]).sum().sort_values("xmas_score", ascending=False ).reset_index()[0:50]

Unnamed: 0,artist - title,xmas_score
0,WHAM!|LAST CHRISTMAS,2976
1,MELANIE THORNTON|WONDERFUL DREAM (HOLIDAYS ARE...,2700
2,MARIAH CAREY|ALL I WANT FOR CHRISTMAS IS YOU,2628
3,BRYAN ADAMS|CHRISTMAS TIME,2196
4,QUEEN|THANK GOD IT'S CHRISTMAS,2172
5,SARAH CONNOR|THE BEST SIDE OF LIFE,2160
6,BAND AID|DO THEY KNOW IT'S CHRISTMAS?,1560
7,AMERITZ - TRIBUTE|DRIVING HOME FOR CHRISTMAS,1464
8,CHRIS REA|DRIVING HOME FOR CHRISTMAS,1188
9,BAND AID 30|DO THEY KNOW IT'S CHRISTMAS? (2014),1152
