![title](./pic/advanced_functions/lambda/1_title.png)

In [2]:
import pandas as pd
import numpy as np

In [3]:
df = pd.read_csv('./csv/replace_split/cars.csv', usecols=['marke', 'modell', 'preis', 'kilometer'])
df.head()

Unnamed: 0,marke,modell,preis,kilometer
0,Volkswagen,Golf,9.797 €,79.449 km
1,Volkswagen,Golf,13.890 €,76.486 km
2,Mercedes-Benz,SLK 300,19.990 €,84.000 km
3,Mercedes-Benz,SLK 350,19.990 €,84.000 km
4,Mercedes-Benz,A 220,17.450 €,109.252 km


---

Eine `Lambda`-Funktion in der `Python`-Programmierung ist eine anonyme Funktion oder eine Funktion, die keinen Namen hat. Es handelt sich um eine kleine und eingeschränkte Funktion mit <u>**nicht mehr als einer Zeile**</u>. Genau wie eine normale Funktion kann eine `Lambda`-Funktion mehrere Argumente mit einem Ausdruck haben.

In `Python` werden `Lambda`-Ausdrücke (oder `Lambda`-Formen) verwendet, um anonyme Funktionen zu konstruieren. Dazu verwendest du das Schlüsselwort **`lambda`** (so wie du **`def`** zur Definition normaler Funktionen verwenden). Jede anonyme Funktion, die du in Python definierst, besteht aus 3 wesentlichen Teilen:

- Das lambda-Schlüsselwort.
- Die Parameter (oder gebundenen Variablen) und
- den Funktionsrumpf.

Eine Lambda-Funktion kann eine beliebige Anzahl von Parametern haben, aber der Funktionskörper kann nur einen Ausdruck enthalten. Außerdem wird eine `Lambda`-Funktion in einer einzigen Codezeile geschrieben und kann auch sofort aufgerufen werden.

![title](./pic/advanced_functions/lambda/2_lambda.png)

## <u>Beispiel 1:</u> Markenname zu lower-case

In [4]:
df1 = df.copy()

### Mit Funktion

In [5]:
def to_lower(x):
    try:
        return x.lower()
    except:
        return np.nan

In [6]:
df1.marke.apply(to_lower)

0          volkswagen
1          volkswagen
2       mercedes-benz
3       mercedes-benz
4       mercedes-benz
            ...      
9995       volkswagen
9996             audi
9997       volkswagen
9998              bmw
9999       volkswagen
Name: marke, Length: 10000, dtype: object

### Mit `lambda`

Um erst einmal zu veranschaulichen wie `lambda` arbeitet, droppen wir die `Nan` Values aus der Spalte **marke** von dem `DataFrame`. Wie man diese selbst mit `lambda` umgehen kann, wirst du im *Beispiel 2* lernen. Der Einfachheitshalber löschen wir diese Daten aus diesem einführenden Beispiel.

In [7]:
df1.dropna(subset=['marke'], inplace=True)

In [8]:
df1.shape

(9541, 4)

...und können dann, sämtliche Inhalte der Spalte **marke** zu `lower-case` umformen

In [9]:
df1.marke.apply(lambda x: x.lower())

0          volkswagen
1          volkswagen
2       mercedes-benz
3       mercedes-benz
4       mercedes-benz
            ...      
9995       volkswagen
9996             audi
9997       volkswagen
9998              bmw
9999       volkswagen
Name: marke, Length: 9541, dtype: object

Wie du also sehen kannst, steht das **`x`** für jeweils eine Zeile der `Series`. Also werden nach und nach sämtliche Markennamen zu Kleinbuchstaben umgeformt.

---

## <u>Beispiel 2:</u> Punctuation entfernen (Spalte `preis`)

In [10]:
df2 = df.copy()

### Mit Funktion

In [11]:
def remove_punctuation(x):
    try:
        return x.replace('.', '').replace(' €', '')
    except:
        return np.nan

In [12]:
df2.preis.apply(remove_punctuation)

0        9797
1       13890
2       19990
3       19990
4       17450
        ...  
9995    14900
9996    17990
9997    16490
9998    14749
9999    12950
Name: preis, Length: 10000, dtype: object

### Mit `lambda`

Anstatt die `Nan`-Values zu entfernen, fragen wir diese in diesem Fall direkt mit ab. Die folgende `lambda` Funktion bedeutet:
> Wenn der aktuelle Wert `Nan` ist, dann hinterlege auch wieder `Nan`, ansonsten führe die hinterlegte Operation aus und replace den `.` mit `nichts` und `leer €` ebenfalls mit `nichts`

In [13]:
df2.preis.apply(lambda x: np.nan if x is np.nan else x.replace('.', '').replace(' €', ''))

0        9797
1       13890
2       19990
3       19990
4       17450
        ...  
9995    14900
9996    17990
9997    16490
9998    14749
9999    12950
Name: preis, Length: 10000, dtype: object

---

## <u>Beispiel 3:</u> Punctuation entfernen (Spalte `kilometer`)

In [14]:
df3 = df.copy()

### Mit Funktion

In [15]:
def remove_punctuation(x):
    try:
        return x.replace('.', '').replace(' km', '')
    except:
        return np.nan

In [16]:
df3.kilometer.apply(remove_punctuation)

0        79449 km
1        76486 km
2        84000 km
3        84000 km
4       109252 km
          ...    
9995     93500 km
9996     96500 km
9997    103000 km
9998     94505 km
9999     84500 km
Name: kilometer, Length: 10000, dtype: object

In [17]:
df3.loc[0, 'kilometer']

'79.449\xa0km'

In [18]:
df3.kilometer.apply(lambda x: np.nan if x is np.nan else x.replace('.', '').replace('\xa0km', ''))

0        79449
1        76486
2        84000
3        84000
4       109252
         ...  
9995     93500
9996     96500
9997    103000
9998     94505
9999     84500
Name: kilometer, Length: 10000, dtype: object

<br>

## <u>Übung</u>

In [90]:
df = pd.read_csv('./csv/replace_split/cars.csv', usecols=['marke', 'leistung', 'hubraum', 'schadstoffklasse'])
df

Unnamed: 0,marke,leistung,hubraum,schadstoffklasse
0,Volkswagen,63 kW (86 PS),1.197 cm³,Euro5
1,Volkswagen,92 kW (125 PS),1.395 cm³,Euro6
2,Mercedes-Benz,170 kW (231 PS),2.997 cm³,Euro5
3,Mercedes-Benz,170 kW (231 PS),2.997 cm³,Euro5
4,Mercedes-Benz,125 kW (170 PS),2.143 cm³,Euro6
...,...,...,...,...
9995,Volkswagen,90 kW (122 PS),1.395 cm³,Euro5
9996,Audi,165 kW (224 PS),1.984 cm³,Euro6
9997,Volkswagen,162 kW (220 PS),1.984 cm³,Euro6
9998,BMW,135 kW (184 PS),1.995 cm³,Euro5


### Ü1: Extrahiere die PS als alleinstehende Zahl

In [84]:
df.loc[0, 'leistung']

'63\xa0kW\xa0(86\xa0PS)'

In [77]:
df_ü1 = df.leistung.apply(lambda x: np.nan if x is np.nan else x.replace('(', '').replace(')', '').split('\xa0')[2])


In [78]:
df_ü1

0        86
1       125
2       231
3       231
4       170
       ... 
9995    122
9996    224
9997    220
9998    184
9999    150
Name: leistung, Length: 10000, dtype: object

### Ü2: Extrahiere den Hubraum

In [79]:
df.loc[0, 'hubraum']

'1.197\xa0cm³'

In [80]:
df_ü2 = df.hubraum.apply(lambda x: np.nan if x is np.nan else float(x.split('\xa0')[0]))

In [81]:
df_ü2

0       1.197
1       1.395
2       2.997
3       2.997
4       2.143
        ...  
9995    1.395
9996    1.984
9997    1.984
9998    1.995
9999    1.395
Name: hubraum, Length: 10000, dtype: float64

### Ü3: Extrahiere die Schadstoffklasse

In [88]:
df.loc[0, 'schadstoffklasse']

'Euro5'

In [89]:
type(df.loc[0, 'schadstoffklasse'])

str

In [95]:
df['schadstoffklasse'].unique()

array(['Euro5', 'Euro6', nan, 'Euro6d-TEMP', 'Euro4', 'Euro3', 'Euro6c',
       'Euro6d', 'Euro2'], dtype=object)

In [96]:
df_ü3 = df.schadstoffklasse.apply(lambda x: np.nan if x is np.nan else x[4])

In [97]:
df_ü3

0         5
1         6
2         5
3         5
4         6
       ... 
9995      5
9996      6
9997      6
9998      5
9999    NaN
Name: schadstoffklasse, Length: 10000, dtype: object