![title](./pic/advanced_functions/map/1_title.png)

In [25]:
import pandas as pd
import numpy as np

In [26]:
df = pd.read_csv('./csv/titanic.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


---

Eine **Map** ist ein aus der Mathematik entlehnter Begriff für eine Funktion, die einen Satz von Werten auf einen anderen Satz von Werten "abbildet". In der Datenwissenschaft müssen wir oft neue Darstellungen aus vorhandenen Daten erstellen oder Daten von dem Format, in dem sie jetzt vorliegen, in das Format umwandeln, in dem wir sie später haben möchten. Diese Arbeit wird mit Hilfe von **Maps** erledigt, was sie für die Erledigung Ihrer Arbeit extrem wichtig macht!

Die Funktion `map()` hat die folgende Syntax: `Series.map(self, arg, na_action=None)`. Wie du sehen kannst, ist der Aufrufer dieser Funktion eine Pandas-`Series`, und wir können sagen, dass die `map()`-Funktion eine Instanzmethode für ein Serienobjekt ist.

<br>

![title](./pic/advanced_functions/map/2_map.png)

<video width="1000" controls src="./pic/advanced_functions/map/3_map_example.mp4" />

Mit dem Argument `na_action` wird angegeben, wie mit den `NaN`-Werten verfahren werden soll. Die Standardoption für dieses Argument ist `None`, womit die `NA`-Werte in den Originaldaten an die Mapping-Funktion (d. h. das Argument `arg`) übergeben werden. Die andere Option für dieses Argument ist `"ignore"`, mit der keine Aktionen auf die `NA`-Werte in den Originaldaten ausgeführt werden.

Das folgende Beispiel zeigt den Unterschied zwischen diesen beiden Optionen hinsichtlich der Behandlung des letzten Datenpunkts (d. h. eines `NA`-Werts) in der Reihe. Wenn die `na_action` 'ignore' ist, versucht die Mapping-Funktion nicht, irgendetwas mit dem `NA`-Wert zu tun und setzt den gemappten Wert als `NaN`. Wenn die `na_action` dagegen `None` ist, verwendet die Mapping-Funktion den `NA`-Wert (d. h. `nan`), um den zugeordneten Wert (d. h. Number: `nan`) zu erstellen.

---

## Bestehende Spalte verändern

### Mit Dict

Bei der Funktion `.map()` geht es hauptsächlich darum, wie du mit dem Argument `arg` spielen kannst. Insbesondere gibt das Argument `arg` der Funktion die Anweisung, wie die vorhandenen Daten auf die neuen Daten abgebildet werden sollen. Dieses Argument kann entweder als **Funktion** oder als **Dict** angegeben werden. Schauen wir uns an, wie beides funktioniert. Also:

**`df.spalten_name.map({dict})`**

<br>

>Im nachfolgenden Beispiel, soll das Geschlecht binarisiert werden. Also male soll zu 0 und female zu 1 geändert werden.

<br>

In [27]:
df_dict = df.copy()
df_dict.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q


In [28]:
mapping = {
    'female': 0,
    'male': 1
}

df_dict['Sex'] = df_dict['Sex'].map(mapping)

In [29]:
df_dict

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",1,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",0,47.0,1,0,363272,7.0000,,S
2,894,0,2,"Myles, Mr. Thomas Francis",1,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",1,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",0,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
413,1305,0,3,"Spector, Mr. Woolf",1,,0,0,A.5. 3236,8.0500,,S
414,1306,1,1,"Oliva y Ocana, Dona. Fermina",0,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,0,3,"Saether, Mr. Simon Sivertsen",1,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,0,3,"Ware, Mr. Frederick",1,,0,0,359309,8.0500,,S


---

### Mit Funktion

Das selbe kann auch mit Hilfe einer hinterlegten Funktion gemacht werden. Also:

**`df.spalten_name.map(function)`**

<br>

>Im nachfolgenden Beispiel, soll das Geschlecht binarisiert werden. Also male soll zu 0 und female zu 1 geändert werden.

<br>

In [30]:
df_function = df.copy()
df_function.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [31]:
def change_gender_binary(x):
    if x == 'male':
        return 0
    else:
        return 1

In [32]:
df_function['Sex'] = df_function['Sex'].map(change_gender_binary)

In [33]:
df_function

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",0,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",1,47.0,1,0,363272,7.0000,,S
2,894,0,2,"Myles, Mr. Thomas Francis",0,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",0,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",1,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
413,1305,0,3,"Spector, Mr. Woolf",0,,0,0,A.5. 3236,8.0500,,S
414,1306,1,1,"Oliva y Ocana, Dona. Fermina",1,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,0,3,"Saether, Mr. Simon Sivertsen",0,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,0,3,"Ware, Mr. Frederick",0,,0,0,359309,8.0500,,S


---

## Neue Spalte erstellen

Anstatt bestehende Spalten zu überschreiben, können auch neue Spalten an das DataFrame angehängt werden. Hierfür wird die neue Spalte beim initialisieren einfach mit angegeben. Also:

**`df.spalten_name.map(function)`**

<br>

> Im nachfolgenden Beispiel, soll jeder Passagier anhand seines Alters einer Altersgruppe zugeordnet und diese zu einer neuen Spalte hinzugefügt werden.

<br>

In [34]:
df_altersgruppe = df.copy()
df_altersgruppe.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [35]:
def age_range(age):
    if age > 40:
        return "old"
    if age > 20:
        return "middle"
    else:
        return "young"

In [36]:
df_altersgruppe["age_range"] = df_altersgruppe["Age"].map(age_range)

In [37]:
df_altersgruppe

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,age_range
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q,middle
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S,old
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q,old
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S,middle
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S,middle
...,...,...,...,...,...,...,...,...,...,...,...,...,...
413,1305,0,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S,young
414,1306,1,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C,middle
415,1307,0,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S,middle
416,1308,0,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S,young
