![title](./pic/advanced_functions/apply/1_title.png)

In [43]:
import pandas as pd
import numpy as np
from tqdm.notebook import tqdm, trange

In [44]:
df = pd.read_csv('./csv/titanic.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


---

Du kannst dir jede Gruppe, die wir erzeugen, als einen Ausschnitt aus unserem `DataFrame` vorstellen, der nur Daten mit übereinstimmenden Werten enthält. Auf diesen DataFrame können wir mit der `.apply()`-Methode direkt zugreifen und die Daten dann nach Belieben bearbeiten.

Die Methode `.apply()` kann verwendet werden, um eine bestimmte Funktion entweder auf **alle Elemente des gesamten DataFrame** oder auf **alle Elemente einer bestimmten Spalte** anzuwenden.

Anders als bei der Methode `.map()`, greift `.apply()` auf das komplette DataFrame zu. Zudem wird der Funktion immer eine komplette Zeile übergeben. Von dieser Zeile kannst du dann auf alle Spalten der Zeile zugreifen.

Ebenso kann die `.apply()`-Methode **Parameter übergeben**, die dann in der Funktion genutzt werden können.

<br>

![title](./pic/advanced_functions/apply/2_apply.png)

## Spaltenwerte ändern

### <u>Beispiel 1:</u> Binarization vom Feature Geschlecht

Die einfachste Anwendung von `.apply()` unterscheidet sich kaum von der `.map()`-Methode. Du kannst mit **pd.DataFrame**`.spalten_name` direkt auf die Spalte zugreifen und anschließend mit `.apply()` die Funktion übergeben, die auf der ausgewählten Spalte angewendet werden soll. Also:

**`pd.DataFrame.spalten_name.apply(function)`**

<br>

Im folgenden Beispiel sollen wir den Typ des Geschlechtes ändern. Alle Männer sollen mit 0 und alle Frauen mit 1 angegeben werden:

In [45]:
df1 = df.copy()
df1.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [46]:
def binary_sex(sex):
    if sex == "male":
        return 0
    else:
        return 1

In [47]:
df1['Sex'] = df1.Sex.apply(binary_sex)

In [48]:
df1.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",0,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",1,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",0,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",0,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",1,22.0,1,1,3101298,12.2875,,S


<br>

**->** Kann also wie die Methode `.map()` verwendet werden

---

## Neue Spalte mit zusammengesetzten Werten

### <u>Beispiel 2:</u> Mit `args` arbeiten - Altersgruppe bestimmen

Anders als bei der `.map()`-Methode, kannst du bei der `.apply()`-Methode **zusätzliche Argumente** an deine gewünschte Funktion übergeben. Das macht deinen Code und die Funktionalität noch transparenter. Also:

**`pd.DataFrame.spalten_name.apply(function, args=[arg1])`**

<br>

Der Parameter wird zudem in der Funktion als **Übergabeparameter** hinterlegt.

<br>

> Im folgenden Beispiel hängen wir dem `DataFrame` eine neue Spalte an. Diese Spalte wird durch das Alter bestimmt. Ist der Passagier jünger als 50, wird in der Spalte *younger* hinterlegt, ansonsten *older*.

<br>

In [49]:
df2 = df.copy()
df2.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [50]:
def age_range(age, cut):
    if age > cut:
        return "older"
    else:
        return "younger"

In [51]:
df2['altersklasse'] = df2.Age.apply(age_range, args=[50])

In [52]:
df2.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,altersklasse
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q,younger
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S,younger
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q,older
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S,younger
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S,younger


---

### <u>Beispiel 3:</u> Mit `row` und einem Argument (`args`) arbeiten - Geburtsjahr berechnen

Die `.apply()`-Methode kann nicht nur mit dem Accessor `.spalten_name` auf eine Spalte, sondern auf das ganze `DataFrame` angewendet werden. Wird der Accessor beim Aufruf von `.apply()` weggelassen, wird der Funktion nicht eine spezielle Spalte, sondern jeweils **eine Zeile nach der anderen** übergeben.

Hierbei muss dann beachtet werden, dass die axis angegeben wird, auf welcher die Operation ausgeführt werden soll.
`axis=1` steht für die **Zeilen**, `axis=0` für die **Spalten**.

Auf einzelne Spalten kann dann mittels `x.spalten_name` in der Funktion zugegriffen werden. Das `x` kann dabei frei gewählt werden. In diesem Fall steht `x` für jeweils eine Zeile. Anstatt `x` kann auch `row` oder ein sonstiger Begriff verwendet werden. Also:

**`pd.DataFrame.apply(function, args=[arg1], axis=0|1)`**

<br>

> Im folgenden Beispiel, soll das Geburtsjahr des Passagieres anhand dessen Alter bestimmt werden.

<br>

In [53]:
df3 = df.copy()
df3.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [54]:
def get_birth_year(x, year):
    try:
        return int(year - int(x.Age))
    except:
        return np.nan

In [55]:
df3['birthyear'] = df3.apply(get_birth_year, args=[2022], axis=1) #1912

In [56]:
df3.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,birthyear
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q,1988.0
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S,1975.0
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q,1960.0
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S,1995.0
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S,2000.0


---

### <u>Beispiel 4:</u> Mit  `row` und mehreren  `args` arbeiten - Altersgruppe bestimmen

<br>

Natürlich kann der `.apply()`-Methode nicht nur ein, sondern **mehrere Argumente** übergeben werden. Diese müssen dann in der Funktion als Übergabeparameter ergänzt werden. Also:

**`pd.DataFrame.apply(function, args=[arg1, arg2, ... argN], axis=0|1)`**

<br>

> Im folgenden Beispiel, soll die Altersklasse der Passagiere anhand mehrerer Argumente bestimmt und hinterlegt werden.

<br>

In [57]:
df4 = df.copy()
df4.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [58]:
def age_range_row(x, low, high):
    try:
        if x.Age >= high:
            return "old"
        if x.Age >= low:
            return "middle"
        else:
            return "young"
            
    except:
        return np.nan

In [59]:
df4['altersklasse'] = df4.apply(age_range_row, args=[25, 50], axis=1)

In [60]:
df4.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,altersklasse
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q,middle
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S,middle
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q,old
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S,middle
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S,young


---

### <u>Beispiel 5:</u> Mit `row`, `args` und `kwargs` arbeiten - Altersgruppe_Geschlecht Kombination

In [61]:
df5_a = df.copy()
df5_a.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


<br>

Der Methode .apply() kann zusätzlich optionale Argumente übergeben werden. Die Funktion muss dann so angepasst werden, dass sie sowohl mit, als auch ohne diese Parameter arbeiten kann.

**`pd.DataFrame.apply(function, args=[n_args], kwargs1, kwargs2, ..., kwargsN, axis=0|1)`**

<br>

> Im folgenden Beispiel, soll die Altersgruppe pro Passagier hinterlegt werden. Zudem soll der Altersgruppe ein Prefix angehängt werden, falls dieser im Funktionsaufruf hinterlegt wird. _m für Männer und _f für Frauen.

<br>

In [62]:
def age_range_row(x, low, high, f=None, m=None):
    try:
        if x.Sex == f:
            if x.Age >= high:
                return "old_f"
            if x.Age >= low:
                return "middle_f"
            else:
                return "young_f"
        if x.Sex == m:
            if x.Age >= high:
                return "old_m"
            if x.Age >= low:
                return "middle_m"
            else:
                return "young_m"
            
        else:
            if x.Age >= high:
                return "old"
            if x.Age >= low:
                return "middle"
            else:
                return "young"
            
    except:
        return np.nan

In [63]:
df5_a['altersklasse_gender_combi'] = df5_a.apply(age_range_row, args=[25, 50], f="female", m="male", axis=1)

In [64]:
df5_a

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,altersklasse_gender_combi
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q,middle_m
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S,middle_f
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q,old_m
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S,middle_m
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S,young_f
...,...,...,...,...,...,...,...,...,...,...,...,...,...
413,1305,0,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S,young_m
414,1306,1,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C,middle_f
415,1307,0,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S,middle_m
416,1308,0,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S,young_m


<br>

... und im Vergleich dazu, wenn die optionalen Argumente nicht hinterlegt werden

<br>

In [65]:
df5_b = df.copy()

In [66]:
df5_b['altersklasse_gender_combi'] = df5_b.apply(age_range_row, args=[25, 50], axis=1)

In [67]:
df5_b

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,altersklasse_gender_combi
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q,middle
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S,middle
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q,old
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S,middle
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S,young
...,...,...,...,...,...,...,...,...,...,...,...,...,...
413,1305,0,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S,young
414,1306,1,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C,middle
415,1307,0,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S,middle
416,1308,0,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S,young


---

### <u>Beispiel 6:</u> Komplexere Operationen: Nachname extrahieren

In [68]:
df6 = df.copy()

#### Abfrage vorbereiten

In [69]:
df6.loc[0, 'Name']

'Kelly, Mr. James'

In [70]:
df6.loc[0, 'Name'].split(',')

['Kelly', ' Mr. James']

In [71]:
df6.loc[0, 'Name'].split(',')[1]

' Mr. James'

In [72]:
df6.loc[0, 'Name'].split(',')[1].strip()

'Mr. James'

#### Abfrage durchführen

In [73]:
def split_name(x):
    try:
        return x.Name.split(',')[1].strip()
    except:
        return np.nan

In [74]:
df6['Nachname'] = df6.apply(split_name, axis=1)

In [75]:
df6.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Nachname
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q,Mr. James
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S,Mrs. James (Ellen Needs)
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q,Mr. Thomas Francis
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S,Mr. Albert
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S,Mrs. Alexander (Helga E Lindqvist)


---

### <u>Beispiel 7:</u> Allgemeine Funktion für mehrere Anwendungsfälle erstellen

In [76]:
df7 = pd.read_csv('./csv/replace_split/cars.csv', usecols=['marke', 'modell', 'preis', 'kilometer'])
df7.head()

Unnamed: 0,marke,modell,preis,kilometer
0,Volkswagen,Golf,9.797 €,79.449 km
1,Volkswagen,Golf,13.890 €,76.486 km
2,Mercedes-Benz,SLK 300,19.990 €,84.000 km
3,Mercedes-Benz,SLK 350,19.990 €,84.000 km
4,Mercedes-Benz,A 220,17.450 €,109.252 km


#### Beispiel 7.1: Single Char multiple `.apply()`

In [77]:
def replace_parts_from_string(x, char):
    try:
        return x.replace(f'{char}', '')
    except:
        return np.nan

In [78]:
df7.kilometer.apply(replace_parts_from_string, args=['.']).apply(replace_parts_from_string, args=['\xa0km'])

0        79449
1        76486
2        84000
3        84000
4       109252
         ...  
9995     93500
9996     96500
9997    103000
9998     94505
9999     84500
Name: kilometer, Length: 10000, dtype: object

#### Beispiel 7.2: Multi Char single `.apply()`

In [79]:
def replace_chars(x, replace_list):
    x = x
    for i in range(len(replace_list)):
        try:
            x =  x.replace(f'{replace_list[i]}', '')
        except:
            return np.nan
    return x

In [80]:
df7.kilometer.apply(replace_chars, replace_list=['.', '\xa0km'])

0        79449
1        76486
2        84000
3        84000
4       109252
         ...  
9995     93500
9996     96500
9997    103000
9998     94505
9999     84500
Name: kilometer, Length: 10000, dtype: object

In [81]:
df7.preis.apply(replace_chars, replace_list=['.', ' €'])

0        9797
1       13890
2       19990
3       19990
4       17450
        ...  
9995    14900
9996    17990
9997    16490
9998    14749
9999    12950
Name: preis, Length: 10000, dtype: object

---

## Zeitvorteil von `.apply()`

### Kombination aus mehreren Spalten generieren - PassengerId_Name Kombination

In [82]:
df_1m = pd.DataFrame(np.random.choice(['BMW','AUDI'], size=(1000000,2)))

In [83]:
df_1m.head()

Unnamed: 0,0,1
0,BMW,AUDI
1,AUDI,AUDI
2,AUDI,AUDI
3,AUDI,AUDI
4,BMW,BMW


In [84]:
df_1m.shape

(1000000, 2)

In [85]:
df_1m = df_1m.rename({0: 'marke1', 1: 'marke2'}, axis=1)

In [86]:
df_1m.head()

Unnamed: 0,marke1,marke2
0,BMW,AUDI
1,AUDI,AUDI
2,AUDI,AUDI
3,AUDI,AUDI
4,BMW,BMW


---

### `for`-Schleife

In [87]:
#for i in trange(len(df_1m)):
#    df_1m.loc[i, 'combi'] = f'{df_1m.loc[i, "marke1"]}_{df_1m.loc[i, "marke2"]}'

In [88]:
df_1m

Unnamed: 0,marke1,marke2
0,BMW,AUDI
1,AUDI,AUDI
2,AUDI,AUDI
3,AUDI,AUDI
4,BMW,BMW
...,...,...
999995,AUDI,BMW
999996,BMW,BMW
999997,AUDI,AUDI
999998,BMW,BMW


---

### `.apply()`-Funktion

In [89]:
def combi(x):
    return f'{x.marke1}_{x.marke2}'

In [90]:
tqdm.pandas()
df_1m.progress_apply(combi, axis=1)

  0%|          | 0/1000000 [00:00<?, ?it/s]

0          BMW_AUDI
1         AUDI_AUDI
2         AUDI_AUDI
3         AUDI_AUDI
4           BMW_BMW
            ...    
999995     AUDI_BMW
999996      BMW_BMW
999997    AUDI_AUDI
999998      BMW_BMW
999999    AUDI_AUDI
Length: 1000000, dtype: object

In [91]:
62000 / 52

1192.3076923076924

<br><br>

> **[Map vs Apply - Towards Data Science](https://towardsdatascience.com/introduction-to-pandas-apply-applymap-and-map-5d3e044e93ff)**

> **[XX](https://www.journaldev.com/33478/pandas-dataframe-apply-examples)**

<br>

## <u>Übung:</u>

In [100]:
df_ue = pd.read_csv('./csv/replace_split/cars.csv', usecols=['marke', 'leistung', 'hubraum', 'schadstoffklasse'])
df_ue

Unnamed: 0,marke,leistung,hubraum,schadstoffklasse
0,Volkswagen,63 kW (86 PS),1.197 cm³,Euro5
1,Volkswagen,92 kW (125 PS),1.395 cm³,Euro6
2,Mercedes-Benz,170 kW (231 PS),2.997 cm³,Euro5
3,Mercedes-Benz,170 kW (231 PS),2.997 cm³,Euro5
4,Mercedes-Benz,125 kW (170 PS),2.143 cm³,Euro6
...,...,...,...,...
9995,Volkswagen,90 kW (122 PS),1.395 cm³,Euro5
9996,Audi,165 kW (224 PS),1.984 cm³,Euro6
9997,Volkswagen,162 kW (220 PS),1.984 cm³,Euro6
9998,BMW,135 kW (184 PS),1.995 cm³,Euro5


### Ü1: Extrahiere die PS als alleinstehende Zahl

In [101]:
df_ue.loc[0, 'leistung']

'63\xa0kW\xa0(86\xa0PS)'

In [102]:
def ps(x):
    try:
        return x.replace('(', '').replace(')', '').split('\xa0')[2]
    except:
        return np.nan

In [103]:
df_ue['leistung'] = df_ue.leistung.apply(ps)

In [104]:
df_ue

Unnamed: 0,marke,leistung,hubraum,schadstoffklasse
0,Volkswagen,86,1.197 cm³,Euro5
1,Volkswagen,125,1.395 cm³,Euro6
2,Mercedes-Benz,231,2.997 cm³,Euro5
3,Mercedes-Benz,231,2.997 cm³,Euro5
4,Mercedes-Benz,170,2.143 cm³,Euro6
...,...,...,...,...
9995,Volkswagen,122,1.395 cm³,Euro5
9996,Audi,224,1.984 cm³,Euro6
9997,Volkswagen,220,1.984 cm³,Euro6
9998,BMW,184,1.995 cm³,Euro5


### Ü2: Extrahiere den Hubraum

In [105]:
df_ue.loc[0, 'hubraum']

'1.197\xa0cm³'

In [108]:
def hubraum(x):
    try:
        return x.split('\xa0')[0]
    except:
        return np.nan

In [116]:
df_ue['hubraum'] = df_ue.hubraum.apply(hubraum)

In [117]:
df_ue

Unnamed: 0,marke,leistung,hubraum,schadstoffklasse
0,Volkswagen,86,1.197,5
1,Volkswagen,125,1.395,6
2,Mercedes-Benz,231,2.997,5
3,Mercedes-Benz,231,2.997,5
4,Mercedes-Benz,170,2.143,6
...,...,...,...,...
9995,Volkswagen,122,1.395,5
9996,Audi,224,1.984,6
9997,Volkswagen,220,1.984,6
9998,BMW,184,1.995,5


### Ü3: Extrahiere die Schadstoffklasse

In [110]:
df_ue.loc[0, 'schadstoffklasse']

'Euro5'

In [111]:
df.schadstoffklasse.unique()

array(['Euro5', 'Euro6', nan, 'Euro6d-TEMP', 'Euro4', 'Euro3', 'Euro6c',
       'Euro6d', 'Euro2'], dtype=object)

In [112]:
def euro(x):
    try:
        return x[4]
    except:
        return np.nan

In [114]:
df_ue['schadstoffklasse'] = df_ue.schadstoffklasse.apply(euro)

In [118]:
df_ue

Unnamed: 0,marke,leistung,hubraum,schadstoffklasse
0,Volkswagen,86,1.197,5
1,Volkswagen,125,1.395,6
2,Mercedes-Benz,231,2.997,5
3,Mercedes-Benz,231,2.997,5
4,Mercedes-Benz,170,2.143,6
...,...,...,...,...
9995,Volkswagen,122,1.395,5
9996,Audi,224,1.984,6
9997,Volkswagen,220,1.984,6
9998,BMW,184,1.995,5
