# Funktionen und Pandas

**Inhalt:** Komplexere Zellen- und Spalten-Operationen

**Nötige Skills:** Einführung in Pandas

**Lernziele:**
- Mehrere Codezeilen zu Funktionen zusammenfassen
- Funktionen auf bestimmte Bestandteile von Dataframes ausführen (apply, lambda)

## Vorbereitung

In [None]:
import pandas as pd

In [None]:
# Platz für weitere Libraries, die Sie brauchen möchten...
import requests

In [None]:
from bs4 import BeautifulSoup

## Review: eine einfache Funktion schreiben

Zum Start kreieren wir uns eine Reihe von Funktionen, die wir später anwenden wollen. Be creative!

Zum Beispiel:
- eine Zalhlenoperation, die nicht auf einer Zeile platz hat (wenn, dann, etc.)
- einen Input nehmen, eine API damit befragen
- einen String durchsuchen und/oder modifizieren
- Zahlen und Text nach einem bestimmten Muster formatieren

Wichtig: Die Funktion muss irgendwas zurückgeben!!

**To Do:** Schreiben und beschreiben Sie eine Funktion (eine auswählen, Code testen und in Slack!)

**Eine Funktion, die etwas mit einer Zahl macht**

In [None]:
# Hier Beschreibung einfügen
def mach_was_mit_zahl(zahl):

   
    return ...

Zum Testen:

In [None]:
mach_was_mit_zahl(365000)

**Eine Funktion, die etwas mit einem Wort macht**

In [None]:
# Hier Beschreibung einfügen
def mach_was_mit_wort(wort):
    
       
    return ...

Zum Testen:

In [None]:
mach_was_mit_wort("Schneider-Ammann")

**Eine Funktion, die etwas mit einem längeren Text macht**

Zum Beispiel mit diesem hier:

In [None]:
my_text = open('dataprojects/Songtexte/Züri West - I schänke dir mis Härz.txt', 'r').read()

Für Ideen, hier eine Liste von Python's String-Funktionen: https://www.w3schools.com/python/python_ref_string.asp

In [None]:
# Hier Beschreibung einfügen
def mach_was_mit_text(text):
    
        
    return ...

Zum Testen:

In [None]:
mach_was_mit_text(my_text)

**Eine Funktion, die etwas mit einem Dictionary macht**

Zum Beispiel mit diesem hier:

In [None]:
my_dictionary = {
    'Rang': 20,
    'Artist': 'Baschi',
    'Titel': 'Bring en hei',
    'Eintritt': '28.05.2006',
    'Wochen': 100,
    'Peak': 1,
    'Punkte': 5356,
    'Link': '/song/Baschi/Bring-en-hei-193080'
}

In [None]:
# Hier Beschreibung einfügen
def mach_was_mit_dictionary(dic):
    
      
    return ...

In [None]:
mach_was_mit_dictionary(my_dictionary)

## Funktion ausführen 1: List Comprehension

Das kennen wir bereits: Wir wollen dieselbe Funktion auf alle Elemente in einer Liste anwenden!

Zum Beispiel auf eine von diesen Listen: **Zahlen**

In [None]:
zahlen = [10, 957, 4.73, 333888, 0.00013]

In [None]:
[mach_was_mit_zahl(zahl) for zahl in zahlen]

**Wörter:**

In [None]:
woerter = ["Meier", "Schmidt", "orange", "Wauwau", "Milchstrasse", "Schneider-Ammann"]

In [None]:
[mach_was_mit_wort(wort) for wort in woerter]

**Texte:**

In [None]:
files = [
    'Züri West - I schänke dir mis Härz.txt',
    'Patent Ochsner - Venus vo Bümpliz.txt',
    'DJ Bobo - Chihuahua.txt'
]

In [None]:
texts = [open('dataprojects/Songtexte/' + file, "r").read() for file in files]

In [None]:
texts[0]

In [None]:
[mach_was_mit_text(text) for text in texts]

## Funktion ausführen 2: Apply

Apply ist ein ähnliches Prinzip wie List Comprehension - aber in Pandas.

Um es auszuprobieren, stellen wir uns eine kleine Datenbank der besten alltime-Singles aus der Schweizer Hitparade zusammen und scrapen die Songtexte dazu.

Quelle: https://hitparade.ch/charts/best/singles

Quelle: https://www.songtexte.com/

Das Scrape-File dazu findet sich hier: `dataprojects/Songtexte/scraper.ipynb`

Das Daten-File hier: `dataprojects/Songtexte/charts_mit_texten.csv`

In [None]:
df = pd.read_csv('dataprojects/Songtexte/charts_mit_texten.csv')

In [None]:
df.head()

### Apply mit einzelnen Einträgen

Wir probieren jetz an diesem Datenset unsere obigen Funktionen aus.

Das Prinzip: Wir nehmen eine Spalte, und wenden auf jeden einzelnen Eitrag darin eine Funktion an.

Zum Beispiel auf alle Einträge in der Spalte "Punkte":

In [None]:
df['Punkte'].apply(mach_was_mit_zahl)

Warum funktioniert das hier nicht?

In [None]:
mach_was_mit_zahl(df['Punkte'])

Wenn die Funktion `apply()` auf eine Serie angewendet wird, generiert sie - eine Serie. Wir können diese Serie als Spalte an die Tabelle anfügen.

Zum Beispiel mit unserer Zahlen-Funktion:

In [None]:
df['Punkte_Formatiert'] = df['Punkte'].apply(mach_was_mit_zahl)

In [None]:
df.head()

Oder mit der Wort-Funktion:

In [None]:
#Testen Sie hier Ihre Wort-Funktion
df['Anzahl Telefonbucheinträge'] = df['Artist'].apply(mach_was_mit_wort)

In [None]:
df.sort_values('Anzahl Telefonbucheinträge', ascending=False).head(10)

Oder mit der Text-Funktion:

In [None]:
#Testen Sie hier Ihre Text-Funktion
df['Textanalyse'] = df['Songtext'].astype(str).apply(mach_was_mit_text)

In [None]:
df.head()

### Apply mit ganzen Zeilen

Apply funktioniert nicht nur mit einzelnen Spalten und deren Einträgen, sondern auch mit mehreren Spalten und deren Einträgen auf einmal.

In [None]:
# Brauchen wir, damit es den Inhalt der Einträge vollständig anzeigt...
pd.set_option("display.max_colwidth", 200)

In [None]:
df.apply(mach_was_mit_dictionary, axis=1)

Warum funktioniert das?
- Checken wir nochmal den Dictionary, mit dem wir vorher unsere Funktion getestet haben

In [None]:
my_dictionary

- und nun: eine beliebige Zeile (sagen wir, Nr. 19) aus dem Dataframe:

In [None]:
df.loc[19]

=> Die Sache klappt, weil die Keys im Test-Dictionary denselben Namen haben wie die Spalten in unserem Dataframe

### Warum apply()??

Einen Grund haben wir soeben gesehen: Man kann mehrere Spalten auf einmal verarbeiten.

Ein anderer Grund ist: Mann kann beliebig komplizierte Prozeduren implementieren, um eine neue Spalte zu generieren.

Zum Beispiel können wir unsere eigenen Coolness_Punkte als Alternative zum Punktesystem der Hitparade testen.

In [None]:
def coolness_punkte(row):
    if row['Artist'] == 'DJ BoBo':
        score = 0
    else:
        score = row['Peak'] * row['Wochen'] * 52
    return score

In [None]:
df['Coolness_Punkte'] = df.apply(coolness_punkte, axis=1)

In [None]:
df[df['Artist'] == 'DJ BoBo']

In [None]:
df.head(5)

## Funktionen ausführen 3: Lambda

Nehmen wir an, wir haben eine Funktion von jemandem erhalten, die wir gerne benutzen würden.

Sie nimmt zwei Zahlen als Inputs und gibt die grössere davon zurück.

In [None]:
def groessere_zahl(zahl1, zahl2):
    if zahl1 < zahl2:
        return zahl2
    else:
        return zahl1

In [None]:
groessere_zahl(4, 5)

Was tun, wenn wir diese Funktion innerhalb vom einem Dataframe benutzen wollen?

Zum Beispiel, um die zwei Spalten "Punkte" und "Coolness_Punkte" in unseren Single-Charts zu vergleichen?

Eine Option wäre: Eine Hilfsfunktion zu schreiben, die eine Zeile im Dataframe als Input nimmt, und diese mit `apply()` aufzurufen:

In [None]:
def hilfsfunktion(row):
    return groessere_zahl(row['Punkte'], row['Coolness_Punkte'])    

In [None]:
df.apply(hilfsfunktion, axis=1)

Wir können uns die Definition dieser Hilfsfunktion aber auch sparen, indem wir eine anonyme Funktion on the spot definiteren.

Dazu verwenden wir das Keyword `lambda`:

In [None]:
df.apply(lambda row: groessere_zahl(row['Punkte'], row['Coolness_Punkte']), axis=1)

### Im Detail... was hat es genau mit diesem Lambda auf sich?

 https://www.programiz.com/python-programming/anonymous-function

=> Eine Funktion, die keinen Namen trägt! (würde DJ Ötzi sagen)

In [None]:
(lambda x: x + 5)(2)

Der Gag an Lambda-Funktionen ist, dass man Sie im selben Moment definieren und benutzen kann. Den Variablennamen nach dem Lambda können wir frei wählen. noch ein Beispiel für eine Lambda-Funktion, die eine Liste verarbeitet:

In [None]:
my_list = [2, 3]

In [None]:
(lambda liste: liste[0] + liste[1])(my_list)

Wir brauchen diese anonymen Funktionen bei Pandas eigentlich nur im Zusammenspiel mit `apply()` - und zwar genau dann, wenn wir auf alle Elemente in einer Tablle eine bestimmte Funktion anwenden wollen, die mehr als ein Argument braucht.

In [None]:
df['Groessere Punktzahl'] = df.apply(lambda row: groessere_zahl(row['Punkte'], row['Coolness_Punkte']), axis=1)

In [None]:
df.head(10)