# Pandas und Funktionen

**Inhalt:** Komplexere Zellen- und Spalten-Operationen

**Nötige Skills:** Einführung in Pandas

**Lernziele:**
- Review: Mehrere Codezeilen zu Funktionen zusammenfassen
- Review: Funktionen aus Listen heraus abrufen (list comprehension)
- Funktionen auf bestimmte Bestandteile von Dataframes ausführen (apply)

## Das Beispiel

Eine kleine Datenbank der besten alltime-Singles aus der Schweizer Hitparade und den Songtexten dazu.

Quellen:
- https://hitparade.ch/charts/best/singles
- https://www.songtexte.com/

Das Scrape-File dazu findet sich hier: `dataprojects/Songtexte/scraper.ipynb`

Das Daten-File hier: `dataprojects/Songtexte/charts_mit_texten.csv`

## Vorbereitung

In [168]:
import pandas as pd

In [169]:
import re

In [170]:
%matplotlib inline

In [41]:
# Damit stellen wir die Anzeige so ein, dass Text-Inhalte weniger schnell abgeschnitten werden
pd.set_option('display.max_colwidth', 200)

## Eine einfache Funktion schreiben (review)

Zum Start kreieren wir uns eine Funktion, die wir später anwenden wollen.

Der Input ist ein Extrakt eines Sontexts. Zum Beispiel dieser hier:

In [42]:
my_text = '''
I schänke dir mis Härz
Meh han i nid
Du chasch es ha, we dä wosch
Es isch es guets
U es git no mängi, wos würd näh,
Aber dir würdis gäh
'''

Der Output kann irgendwas sein. Be creative! Zum Beispiel:
- Buchstaben austauschen
- Wörterreihenfolge rückwärts
- Alles in Grossbuchstaben
- Bestimmte Wörter Zählen
- Bestimmte Buchstaben zählen
- ...

Für Ideen, hier eine Liste von Python's String-Funktionen: https://www.w3schools.com/python/python_ref_string.asp

Zur Erinnerung: Den Outpur spucken wir aus mit dem Befehl `return ...`

**To Do:** Schreiben und beschreiben Sie eine Funktion.

In [137]:
def mach_was_mit_text(text):
    
    # Hier Code der Funktion...
    
    return

In [159]:
def mach_was_mit_text(text):
    return my_text.find('Härz')



In [174]:
### NEUER VERSUCH, noch nicht weiter angewendet

wortimtext = re.findall('Härz', my_text, re.IGNORECASE)
print(wortimtext)

['Härz']


In [172]:
mach_was_mit_text

<function __main__.mach_was_mit_text(text)>

Zum Testen:

In [160]:
mach_was_mit_text(my_text)

19

## Funktion ausführen 1: List Comprehension (review)

Das kennen wir bereits: Wir wollen dieselbe Funktion auf alle Elemente in einer Liste anwenden!

In [10]:
def mach_weiblich(name):
    return name + "a"

In [11]:
mach_weiblich('Michael')

'Michaela'

In [12]:
names = ['Michael', 'Paul', 'Simon']

In [13]:
[mach_weiblich(name) for name in names]

['Michaela', 'Paula', 'Simona']

Unsere Liste besteht in diesem Fall aus drei Songtexten. Sie sind in den folgenden Dateien gespeichert:

In [65]:
files = [
    'Züri West - I schänke dir mis Härz.txt',
    'Patent Ochsner - Venus vo Bümpliz.txt',
    'DJ Bobo - Chihuahua.txt'
]

Eine einzelne Textdatei einzulesen, geht so:

In [66]:
open('dataprojects/Songtexte/Züri West - I schänke dir mis Härz.txt', "r").read()

'I schänke dir mis Härz\nMeh han i nid\nDu chasch es ha, we dä wosch\nEs isch es guets\nU es git no mängi, wos würd näh,\nAber dir würdis gäh\nD szene isch ä chlini Bar\nIrgenwo i dere Stadt\nUnd i bsteue ä Whisky\nHocke irgendwo ab\nWos ke Platz u luege so chli ume\nWär so umänang hocket\nAber kenne tuä-ni niemer hie inne\nÜberall hocke Lüt\nhinger de Schampus-Chüble\nGeng ä Frou u ne Typ\nU nippe amne Flûte u hange angenang a\nu rede öppis über nüt\nU nume ig bi allei hie\nu da wächslet ds\'Liecht\nHie u da verschwinde wider zwöi irgendwo\nU irgendeinisch geit hinde\nÄ dunkublaue Vorhang uuf\nHinger em Vorhang hets ä Bühni\nUf dr Bühni steit ä Frou\nWo i dä Ungerhose irgendsone Show zeigt\nI luege so chli zue\nU i hocke so chli da\nU gspüre plötzlech\nDass i irgendsone Hang ufem Chnöi ha\nU dräie mi um\nU näbe mir hocket eini\nWoni nie voher ha gseh\nU fragt, ob ig alleini sig\nU sie sig ou allei\nI söu nid überlege\nI gfaui re no so\nu si wöu eifach chli rede\nViellech sött i hie no

Um die ganze Liste einzulesen, verwenden wir list comprehension!

In [67]:
texts = [open('dataprojects/Songtexte/' + file, "r").read() for file in files]

In [82]:
texts[0:]

['I schänke dir mis Härz\nMeh han i nid\nDu chasch es ha, we dä wosch\nEs isch es guets\nU es git no mängi, wos würd näh,\nAber dir würdis gäh\nD szene isch ä chlini Bar\nIrgenwo i dere Stadt\nUnd i bsteue ä Whisky\nHocke irgendwo ab\nWos ke Platz u luege so chli ume\nWär so umänang hocket\nAber kenne tuä-ni niemer hie inne\nÜberall hocke Lüt\nhinger de Schampus-Chüble\nGeng ä Frou u ne Typ\nU nippe amne Flûte u hange angenang a\nu rede öppis über nüt\nU nume ig bi allei hie\nu da wächslet ds\'Liecht\nHie u da verschwinde wider zwöi irgendwo\nU irgendeinisch geit hinde\nÄ dunkublaue Vorhang uuf\nHinger em Vorhang hets ä Bühni\nUf dr Bühni steit ä Frou\nWo i dä Ungerhose irgendsone Show zeigt\nI luege so chli zue\nU i hocke so chli da\nU gspüre plötzlech\nDass i irgendsone Hang ufem Chnöi ha\nU dräie mi um\nU näbe mir hocket eini\nWoni nie voher ha gseh\nU fragt, ob ig alleini sig\nU sie sig ou allei\nI söu nid überlege\nI gfaui re no so\nu si wöu eifach chli rede\nViellech sött i hie n

Mit list comprehension können wir nun unsere Funktion auf alle Texte ausführen:

In [115]:
[mach_was_mit_text(text) for text in texts[0:]]

[1, 1, 1]

## Funktion ausführen 2: Apply

Apply ist ein ähnliches Prinzip wie List Comprehension - aber in Pandas.

Wir wollen unsere Funktion nun auf Texte anwenden, die in der Hitparaden-Datenbank drin sind.

In [84]:
df = pd.read_csv('dataprojects/Songtexte/charts_mit_texten.csv')

In [85]:
df.shape

(100, 9)

In [86]:
df.head()

Unnamed: 0,Rang,Artist,Titel,Eintritt,Wochen,Peak,Punkte,Link,Songtext
0,1,DJ Ötzi & Nik P.,Ein Stern (... der deinen Namen trägt),18.02.2007,118,2,8109,/song/DJ-Oetzi-&-Nik-P./Ein-Stern-(...-der-deinen-Namen-traegt)-283118,"Einen Stern, der deinen Namen trägt\nHoch am Himmelszelt\nDen schenk ich Dir heut' Nacht\nEinen Stern, der deinen Namen trägt\nAlle Zeiten überlebt\nUnd über unsere Liebe wacht\n\nSeit Jahren scho..."
1,2,Ed Sheeran,Shape Of You,15.01.2017,93,1,7196,/song/Ed-Sheeran/Shape-Of-You-1622943,The club isn't the best place to find a lover\nSo the bar is where I go\nMe and my friends at the table doing shots\nDrinking fast and then we talk slow\n\nCome over and start up a conversation wi...
2,3,Luis Fonsi feat. Daddy Yankee,Despacito,22.01.2017,90,1,6854,/song/Luis-Fonsi-feat.-Daddy-Yankee/Despacito-1625640,"Ay\nFonsi, DY\nOh, oh no, oh no (ey)\nHey, yeah, diri-diri-diriridi, Daddy, go!\n\nSí, sabes que ya llevo un rato mirándote\nTengo que bailar contigo hoy (DY)\nVi que tu mirada ya estaba llamándom..."
3,4,DJ Antoine feat. The Beat Shakers,"""Ma chérie""",06.06.2010,99,2,6745,/song/DJ-Antoine-feat.-The-Beat-Shakers/Ma-cherie-711060,When I look into your eyes\nI see rainbows in the skies.\nBaby when you're close to me\nI know you are ma cherie.\n\nWe are gonna dance into the sea\nAll I want is you - you're ma cherie\nNever se...
4,5,Adele,Rolling In The Deep,30.01.2011,93,1,6588,/song/Adele/Rolling-In-The-Deep-767937,"There's a fire starting in my heart\nReaching a fever pitch and it's bring me out the dark\nFinally, I can see you crystal clear\nGo ahead and sell me out and I'll lay your ship bare\n\nSee how I'..."


### Apply mit einzelnen Einträgen

Und das geht so:

In [116]:
#Testen Sie hier Ihre Text-Funktion
df['Songtext'].astype(str).apply(mach_was_mit_text)

0     1
1     1
2     1
3     1
4     1
5     1
6     1
7     1
8     1
9     1
10    1
11    1
12    1
13    1
14    1
15    1
16    1
17    1
18    1
19    1
20    1
21    1
22    1
23    1
24    1
25    1
26    1
27    1
28    1
29    1
     ..
70    1
71    1
72    1
73    1
74    1
75    1
76    1
77    1
78    1
79    1
80    1
81    1
82    1
83    1
84    1
85    1
86    1
87    1
88    1
89    1
90    1
91    1
92    1
93    1
94    1
95    1
96    1
97    1
98    1
99    1
Name: Songtext, Length: 100, dtype: int64

Das Resultat können wir auch als separate Spalte speichern:

In [119]:
df['Textanalyse'] = df['Songtext'].astype(str).apply(mach_was_mit_text)

In [121]:
df.head()

In [122]:
df['Textanalyse'].head()

0    1
1    1
2    1
3    1
4    1
Name: Textanalyse, dtype: int64

### Apply mit ganzen Zeilen

Bis jetzt haben wir `apply()` benutzt, um eine Funktion auf eine einzelne Spalte anzuwenden.

Wir können mit `apply()` aber auch den Inhalt von mehreren Spalten bearbeiten.

Dazu müssen wir eine Funktion schreiben, die etwas mit einem Dictionary macht.

Zum Beispiel mit diesem hier - er ist nach unserem Songtexte-Dataframe nachgebildet:

In [125]:
my_dictionary = {
    'Rang': 20,
    'Artist': 'Baschi',
    'Titel': 'Bring en hei',
    'Eintritt': '28.05.2006',
    'Wochen': 100,
    'Peak': 1,
    'Punkte': 5356,
    'Link': '/song/Baschi/Bring-en-hei-193080'
}

Unsere Funktion formatiert die Infos in diesem Dictionary nach einem bestimmten Muster

In [126]:
def mach_was_mit_dictionary(dic):
    
    str_out = "Die Single '" + dic['Titel'] + "' von " + dic['Artist']
    str_out += " ist am " + dic['Eintritt'] + " in die Charts eingestiegen. "
    str_out += "Sie blieb dort " + str(dic['Wochen']) + " Wochen und schaffte es auf Platz " + str(dic['Peak']) + "."
      
    return str_out

Das sieht testweise dann so aus:

In [127]:
mach_was_mit_dictionary(my_dictionary)

"Die Single 'Bring en hei' von Baschi ist am 28.05.2006 in die Charts eingestiegen. Sie blieb dort 100 Wochen und schaffte es auf Platz 1."

Um die Funktion auf die Zeilen im Dataframe anzuwenden, brauchen wir wiederum `apply()`.

Wichtig ist der Parameter `axis=1` (Dataframe zeilenweise abarbeiten, nicht spaltenweise).

=> Die Sache klappt, weil die Keys im Test-Dictionary denselben Namen haben wie die Spalten in unserem Dataframe

In [128]:
df.apply(mach_was_mit_dictionary, axis=1)

0                     Die Single 'Ein Stern (... der deinen Namen trägt)' von DJ Ötzi & Nik P. ist am 18.02.2007 in die Charts eingestiegen. Sie blieb dort 118 Wochen und schaffte es auf Platz 2.
1                                                      Die Single 'Shape Of You' von Ed Sheeran ist am 15.01.2017 in die Charts eingestiegen. Sie blieb dort 93 Wochen und schaffte es auf Platz 1.
2                                      Die Single 'Despacito' von Luis Fonsi feat. Daddy Yankee ist am 22.01.2017 in die Charts eingestiegen. Sie blieb dort 90 Wochen und schaffte es auf Platz 1.
3                                Die Single '"Ma chérie"' von DJ Antoine feat. The Beat Shakers ist am 06.06.2010 in die Charts eingestiegen. Sie blieb dort 99 Wochen und schaffte es auf Platz 2.
4                                                    Die Single 'Rolling In The Deep' von Adele ist am 30.01.2011 in die Charts eingestiegen. Sie blieb dort 93 Wochen und schaffte es auf Platz 1.
5                   

## Übung

Das gute an `apply()` ist: man kann beliebig komplizierte Prozeduren implementieren, um eine neue Spalte zu generieren.

Wir können uns zum Beispiel eine eigene Hitparaden-Metrik überlegen anhand der Infos, die in unserem Dataframe drin sind.

Die aktuelle (uns unbekannte) Metrik ist in der Spalte "Punkte" angegeben. Sie bestimmt den Rang in der Allzeit-Liste.

In [129]:
df.head(10)

Unnamed: 0,Rang,Artist,Titel,Eintritt,Wochen,Peak,Punkte,Link,Songtext,Textanalyse
0,1,DJ Ötzi & Nik P.,Ein Stern (... der deinen Namen trägt),18.02.2007,118,2,8109,/song/DJ-Oetzi-&-Nik-P./Ein-Stern-(...-der-deinen-Namen-traegt)-283118,"Einen Stern, der deinen Namen trägt\nHoch am Himmelszelt\nDen schenk ich Dir heut' Nacht\nEinen Stern, der deinen Namen trägt\nAlle Zeiten überlebt\nUnd über unsere Liebe wacht\n\nSeit Jahren scho...",1
1,2,Ed Sheeran,Shape Of You,15.01.2017,93,1,7196,/song/Ed-Sheeran/Shape-Of-You-1622943,The club isn't the best place to find a lover\nSo the bar is where I go\nMe and my friends at the table doing shots\nDrinking fast and then we talk slow\n\nCome over and start up a conversation wi...,1
2,3,Luis Fonsi feat. Daddy Yankee,Despacito,22.01.2017,90,1,6854,/song/Luis-Fonsi-feat.-Daddy-Yankee/Despacito-1625640,"Ay\nFonsi, DY\nOh, oh no, oh no (ey)\nHey, yeah, diri-diri-diriridi, Daddy, go!\n\nSí, sabes que ya llevo un rato mirándote\nTengo que bailar contigo hoy (DY)\nVi que tu mirada ya estaba llamándom...",1
3,4,DJ Antoine feat. The Beat Shakers,"""Ma chérie""",06.06.2010,99,2,6745,/song/DJ-Antoine-feat.-The-Beat-Shakers/Ma-cherie-711060,When I look into your eyes\nI see rainbows in the skies.\nBaby when you're close to me\nI know you are ma cherie.\n\nWe are gonna dance into the sea\nAll I want is you - you're ma cherie\nNever se...,1
4,5,Adele,Rolling In The Deep,30.01.2011,93,1,6588,/song/Adele/Rolling-In-The-Deep-767937,"There's a fire starting in my heart\nReaching a fever pitch and it's bring me out the dark\nFinally, I can see you crystal clear\nGo ahead and sell me out and I'll lay your ship bare\n\nSee how I'...",1
5,6,John Legend,All Of Me,02.02.2014,97,1,6547,/song/John-Legend/All-Of-Me-1183051,"What would I do without your smart mouth?\nDrawing me in, and you kicking me out\nYou've got my head spinning, no kidding, I can't pin you down\nWhat's going on in that beautiful mind\nI'm on your...",1
6,7,Amy Macdonald,This Is The Life,23.03.2008,94,2,6125,/song/Amy-Macdonald/This-Is-The-Life-349688,Oh the wind whistles down\nThe cold dark street tonight\nAnd the people they were dancing to the music vibe\nAnd the boys chase the girls with the curls in their hair\n\nWhile the shy tormented yo...,1
7,8,The Black Eyed Peas,I Gotta Feeling,19.07.2009,87,1,6085,/song/The-Black-Eyed-Peas/I-Gotta-Feeling-584715,"I gotta feeling\nThat tonight's gonna be a good night\nThat tonight's gonna be a good night\nThat tonight's gonna be a good, good night\n\nA feeling\nThat tonight's gonna be a good night\nThat ton...",1
8,9,Shakira feat. Freshlyground,Waka Waka (This Time For Africa),23.05.2010,86,1,6004,/song/Shakira-feat.-Freshlyground/Waka-Waka-(This-Time-For-Africa)-700659,You're a good soldier\nChoosing your battles\nPick yourself up\nDust yourself off\nAnd get back in the saddle\n\nYou're on the front line\nEveryone's watching\nYou know it's serious\nWe are gettin...,1
9,10,Guru Josh Project,Infinity 2008,28.09.2008,85,2,6001,/song/Guru-Josh-Project/Infinity-2008-484499,"Here's my key\nPhilosophy\nA freak like me\nJust needs infinity\n\nRelax\nTake your time\n\nAnd take your time\nTo trust in me\nAnd you will find\nInfinity, infinity\n\nAnd take your time\nTo trus...",1


Wie wäre es, wenn wir anhand der restlichen Infos unsere eigene Metrik entwickeln würden?

Was wir dazu tun müssen:
1. eine Funktion definieren, welche die Metrik anhand der einzelnen Spalten berechnet
1. die Funktion auf das Dataframe anwenden

In [None]:
# Schreiben Sie hier Ihre Funktion...
def meine_metrik(dic):
    
    ...
    
    return score

In [None]:
# ... und wenden Sie sie hier an:


Wie sieht das Ergebnis aus? Welches sind die Alltime Top 10?

Sortieren Sie dazu das Dataframe nach der neuen Metrik und zeigen Sie die obersten zehn Spalten an: