# UE7 - Pandas Datenaufbereitung am Beispiel Iris Dataset

Diese Abschnitt beschäftigt sich schwerpunktmäßig mit den Pandas-Methoden `map()`, `apply()` und `applymap()`. 

Als Übungsgrundlage dient das *Iris Data Set* (Quelle: https://archive.ics.uci.edu/ml/datasets/Iris). Hierbei handelt es sich um einen Datensatz, der drei Irisarten (Iris setosa, Iris virginica und Iris versicolor) - also Blütenblätter - unterscheidet.

In [22]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris

## 7.1 - Iris Dataset laden
Laden Sie das Iris Dataset aus dem *Scikit Learn*-Paket (kurz Sklearn) in die Variable `iris`. Hierzu stellt Sklearn mit `load_iris()` eine Methode bereit. Begründen Sie, warum a) `iris.shape` dem Interprete nicht schmeckt?

Nehmen Sie b) das Dokument *Some notes to the iris dataset* (siehe htl.boxtree.at/lehre) durch und probieren Sie sich an der Variable `iris`.

In [23]:
data = load_iris()
data

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [24]:
df = pd.DataFrame(data.data, columns=data.feature_names)
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


## 7.2 - DataFrame erstellen und Datengrundlage analysieren

Erstellen Sie a) das DataFrame `features_df` und geben Sie die ersten 5 Zeilen aus. Gefordert ist folgender Aufbau:

```Python
       sepal length (cm) 	sepal width (cm) 	petal length (cm) 	petal width (cm)
    0 	   5.1 	                 3.5 	              1.4 	             0.2
    1 	   4.9 	                 3.0 	              1.4 	             0.2
    2 	   4.7 	                 3.2 	              1.3 	             0.2
    3 	   4.6 	                 3.1 	              1.5 	             0.2
    4 	   5.0 	                 3.6 	              1.4 	             0.2
```

In [25]:
features_df = pd.DataFrame(data.data, columns=data.feature_names)
features_df.head(5)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Fügen Sie b) dem DataFrame `features_df` die Spalte *Species* hinzu und erstellen Sie ein neues DataFrame mit dem Namen `iris_df`. Das gesuchte Ergebnis:

```Python
       sepal length (cm) 	sepal width (cm) 	petal length (cm) 	petal width (cm)       Species
    0 	   5.1 	                 3.5 	              1.4 	             0.2               0
    1 	   4.9 	                 3.0 	              1.4 	             0.2               0
    2 	   4.7 	                 3.2 	              1.3 	             0.2               0
    3 	   4.6 	                 3.1 	              1.5 	             0.2               0
    4 	   5.0 	                 3.6 	              1.4 	             0.2               0
```



In [26]:
iris_df = features_df
iris_df["Species"] = data.target
iris_df.head(5)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


c) Verschaffen Sie sich einen Überblick, indem Sie folgende Fragen beantworten, und zwar auf Code-Ebene:

- Über wie viele Zeilen verfügt das DataFrame `iris_df`?
- Wie viele unterschiedliche Arten (Species) gibt es und wie viele umfasst die jeweilige Art?
- Wie viele Zellen weisen `nan` auf?
- Beurteilen Sie, ob die Mittelwertbildung der Spalte 'Species' Sinn ergibt.
- Finden Sie heraus, ob eine Korrelation zwischen einzelnen Features (Sepal length,..., Petal width) besteht.

In [27]:
print(iris_df.shape)

(150, 5)


In [28]:
print(iris_df["Species"].value_counts())

Species
0    50
1    50
2    50
Name: count, dtype: int64


In [29]:
print(iris_df.isna().sum().sum())

0


In [30]:
print(iris_df["Species"].mean()) # No! It is a category, not a numerical value!

1.0


In [31]:
iris_df.corr()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Species
sepal length (cm),1.0,-0.11757,0.871754,0.817941,0.782561
sepal width (cm),-0.11757,1.0,-0.42844,-0.366126,-0.426658
petal length (cm),0.871754,-0.42844,1.0,0.962865,0.949035
petal width (cm),0.817941,-0.366126,0.962865,1.0,0.956547
Species,0.782561,-0.426658,0.949035,0.956547,1.0


## 7.3 - apply, applymap und map

Arbeiten Sie das Tutorial https://towardsdatascience.com/introduction-to-pandas-apply-applymap-and-map-5d3e044e93ff  durch. Abgabe der Code-Beispiele ist nicht notwendig.

## 7.4 Data preparation with apply, applymap or map

Überschreiben Sie a) die Spalte *Species*, wobei folgende Zuordnung gilt:

- 0 => SET
- 1 => VER
- 2 => VIR

Gesuchte Ergebnis:
```Python
       sepal length (cm) 	sepal width (cm) 	petal length (cm) 	petal width (cm)       Species
    0 	   5.1 	                 3.5 	              1.4 	             0.2               SET
    1 	   4.9 	                 3.0 	              1.4 	             0.2               SET
    2 	   4.7 	                 3.2 	              1.3 	             0.2               SET
    3 	   4.6 	                 3.1 	              1.5 	             0.2               SET
    4 	   5.0 	                 3.6 	              1.4 	             0.2               SET
```

In [32]:
iris_df["Species"] = iris_df["Species"].map({0: "SET", 1: "VER", 2: "VIR"})
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Species
0,5.1,3.5,1.4,0.2,SET
1,4.9,3.0,1.4,0.2,SET
2,4.7,3.2,1.3,0.2,SET
3,4.6,3.1,1.5,0.2,SET
4,5.0,3.6,1.4,0.2,SET


Erstellen Sie b) die neue Spalte `wide petal`, die das Ergebnis folgender Bedingung enhält:

Wenn `petal width (cm) >= 1.3` ist, dann soll die Zelle der jeweiligen Zeile den Wert 1 aufweisen, sonst 0. Setzen Sie eine `lambda`-Expression ein.

In [33]:
iris_df["wide petal"] = iris_df["petal width (cm)"].apply(lambda x: 1 if x >= 1.3 else 0)
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Species,wide petal
0,5.1,3.5,1.4,0.2,SET,0
1,4.9,3.0,1.4,0.2,SET,0
2,4.7,3.2,1.3,0.2,SET,0
3,4.6,3.1,1.5,0.2,SET,0
4,5.0,3.6,1.4,0.2,SET,0


Ermitteln Sie c) die *petal area* (Petal-Fläche) und speichern Sie diese in der neu zu erstellenden Spalte *petal area*. Setzen Sie eine `lambda`-Expression ein. 

In [34]:
iris_df["petal area"] = iris_df.apply(lambda x: x["petal length (cm)"] * x["petal width (cm)"], axis=1)
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Species,wide petal,petal area
0,5.1,3.5,1.4,0.2,SET,0,0.28
1,4.9,3.0,1.4,0.2,SET,0,0.28
2,4.7,3.2,1.3,0.2,SET,0,0.26
3,4.6,3.1,1.5,0.2,SET,0,0.3
4,5.0,3.6,1.4,0.2,SET,0,0.28
