# Pandas und Funktionen

**Inhalt:** Komplexere Zellen- und Spalten-Operationen

**Nötige Skills:** Einführung in Pandas

**Lernziele:**
- Review: Mehrere Codezeilen zu Funktionen zusammenfassen
- Review: Funktionen aus Listen heraus abrufen (list comprehension)
- Funktionen auf bestimmte Bestandteile von Dataframes ausführen (apply)

## Das Beispiel

Eine kleine Datenbank der besten alltime-Singles aus der Schweizer Hitparade und den Songtexten dazu.

Quellen:
- https://hitparade.ch/charts/best/singles
- https://www.songtexte.com/

Das Scrape-File dazu findet sich hier: `dataprojects/Songtexte/scraper.ipynb`

Das Daten-File hier: `dataprojects/Songtexte/charts_mit_texten.csv`

## Vorbereitung

In [None]:
import pandas as pd

In [None]:
# Damit stellen wir die Anzeige so ein, dass Text-Inhalte weniger schnell abgeschnitten werden
pd.set_option('display.max_colwidth', 200)

## Eine einfache Funktion schreiben (review)

Zum Start kreieren wir uns eine Funktion, die wir später anwenden wollen.

Der Input ist ein Extrakt eines Sontexts. Zum Beispiel dieser hier:

In [None]:
my_text = '''
I schänke dir mis Härz
Meh han i nid
Du chasch es ha, we dä wosch
Es isch es guets
U es git no mängi, wos würd näh,
Aber dir würdis gäh
'''

Der Output kann irgendwas sein. Be creative! Zum Beispiel:
- Buchstaben austauschen
- Wörterreihenfolge rückwärts
- Alles in Grossbuchstaben
- Bestimmte Wörter Zählen
- Bestimmte Buchstaben zählen
- ...

Für Ideen, hier eine Liste von Python's String-Funktionen: https://www.w3schools.com/python/python_ref_string.asp

Zur Erinnerung: Den Outpur spucken wir aus mit dem Befehl `return ...`

**To Do:** Schreiben und beschreiben Sie eine Funktion.

In [None]:
def mach_was_mit_text(text):
    
    # Hier Code der Funktion...
    
    return

Zum Testen:

In [None]:
mach_was_mit_text(my_text)

## Funktion ausführen 1: List Comprehension (review)

Das kennen wir bereits: Wir wollen dieselbe Funktion auf alle Elemente in einer Liste anwenden!

In [None]:
def mach_weiblich(name):
    return name + "a"

In [None]:
mach_weiblich('Michael')

In [None]:
names = ['Michael', 'Paul', 'Simon']

In [None]:
[mach_weiblich(name) for name in names]

Unsere Liste besteht in diesem Fall aus drei Songtexten. Sie sind in den folgenden Dateien gespeichert:

In [None]:
files = [
    'Züri West - I schänke dir mis Härz.txt',
    'Patent Ochsner - Venus vo Bümpliz.txt',
    'DJ Bobo - Chihuahua.txt'
]

Eine einzelne Textdatei einzulesen, geht so:

In [None]:
open('dataprojects/Songtexte/Züri West - I schänke dir mis Härz.txt', "r").read()

Um die ganze Liste einzulesen, verwenden wir list comprehension!

In [None]:
texts = [open('dataprojects/Songtexte/' + file, "r").read() for file in files]

In [None]:
texts[0]

Mit list comprehension können wir nun unsere Funktion auf alle Texte ausführen:

In [None]:
[mach_was_mit_text(text) for text in texts]

## Funktion ausführen 2: Apply

Apply ist ein ähnliches Prinzip wie List Comprehension - aber in Pandas.

Wir wollen unsere Funktion nun auf Texte anwenden, die in der Hitparaden-Datenbank drin sind.

In [None]:
df = pd.read_csv('dataprojects/Songtexte/charts_mit_texten.csv')

In [None]:
df.shape

In [None]:
df.head()

### Apply mit einzelnen Einträgen

Und das geht so:

In [None]:
#Testen Sie hier Ihre Text-Funktion
df['Songtext'].astype(str).apply(mach_was_mit_text)

Das Resultat können wir auch als separate Spalte speichern:

In [None]:
df['Textanalyse'] = df['Songtext'].astype(str).apply(mach_was_mit_text)

In [None]:
df.head()

### Apply mit ganzen Zeilen

Bis jetzt haben wir `apply()` benutzt, um eine Funktion auf eine einzelne Spalte anzuwenden.

Wir können mit `apply()` aber auch den Inhalt von mehreren Spalten bearbeiten.

Dazu müssen wir eine Funktion schreiben, die etwas mit einem Dictionary macht.

Zum Beispiel mit diesem hier - er ist nach unserem Songtexte-Dataframe nachgebildet:

In [None]:
my_dictionary = {
    'Rang': 20,
    'Artist': 'Baschi',
    'Titel': 'Bring en hei',
    'Eintritt': '28.05.2006',
    'Wochen': 100,
    'Peak': 1,
    'Punkte': 5356,
    'Link': '/song/Baschi/Bring-en-hei-193080'
}

Unsere Funktion formatiert die Infos in diesem Dictionary nach einem bestimmten Muster

In [None]:
def mach_was_mit_dictionary(dic):
    
    str_out = "Die Single '" + dic['Titel'] + "' von " + dic['Artist']
    str_out += " ist am " + dic['Eintritt'] + " in die Charts eingestiegen. "
    str_out += "Sie blieb dort " + str(dic['Wochen']) + " Wochen und schaffte es auf Platz " + str(dic['Peak']) + "."
      
    return str_out

Das sieht testweise dann so aus:

In [None]:
mach_was_mit_dictionary(my_dictionary)

Um die Funktion auf die Zeilen im Dataframe anzuwenden, brauchen wir wiederum `apply()`.

Wichtig ist der Parameter `axis=1` (Dataframe zeilenweise abarbeiten, nicht spaltenweise).

=> Die Sache klappt, weil die Keys im Test-Dictionary denselben Namen haben wie die Spalten in unserem Dataframe

In [None]:
df.apply(mach_was_mit_dictionary, axis=1)

## Übung

Das gute an `apply()` ist: man kann beliebig komplizierte Prozeduren implementieren, um eine neue Spalte zu generieren.

Wir können uns zum Beispiel eine eigene Hitparaden-Metrik überlegen anhand der Infos, die in unserem Dataframe drin sind.

Die aktuelle (uns unbekannte) Metrik ist in der Spalte "Punkte" angegeben. Sie bestimmt den Rang in der Allzeit-Liste.

In [None]:
df.head(10)

Wie wäre es, wenn wir anhand der restlichen Infos unsere eigene Metrik entwickeln würden?

Was wir dazu tun müssen:
1. eine Funktion definieren, welche die Metrik anhand der einzelnen Spalten berechnet
1. die Funktion auf das Dataframe anwenden

In [None]:
# Schreiben Sie hier Ihre Funktion...
def meine_metrik(dic):
    
    ...
    
    return score

In [None]:
# ... und wenden Sie sie hier an:


Wie sieht das Ergebnis aus? Welches sind die Alltime Top 10?

Sortieren Sie dazu das Dataframe nach der neuen Metrik und zeigen Sie die obersten zehn Spalten an: