# UE7 - Pandas Datenaufbereitung am Beispiel Iris Dataset

Diese Abschnitt beschäftigt sich schwerpunktmäßig mit den Pandas-Methoden `map()`, `apply()` und `applymap()`. 

Als Übungsgrundlage dient das *Iris Data Set* (Quelle: https://archive.ics.uci.edu/ml/datasets/Iris). Hierbei handelt es sich um einen Datensatz, der drei Irisarten (Iris setosa, Iris virginica und Iris versicolor) - also Blütenblätter - unterscheidet.

In [None]:
import pandas as pd
from sklearn.datasets import load_iris


## 7.1 - Iris Dataset laden
Laden Sie das Iris Dataset aus dem *Scikit Learn*-Paket (kurz Sklearn) in die Variable `iris`. Hierzu stellt Sklearn mit `load_iris()` eine Methode bereit. Begründen Sie, warum a) `iris.shape` dem Interprete nicht schmeckt?

Nehmen Sie b) das Dokument *Some notes to the iris dataset* (siehe htl.boxtree.at/lehre) durch und probieren Sie sich an der Variable `iris`.

In [5]:
iris = load_iris()
#a
#iris hat kein shape Attribut, das es ein Dictionary-ähnliches Objekt ist
#b


## 7.2 - DataFrame erstellen und Datengrundlage analysieren

Erstellen Sie a) das DataFrame `features_df` und geben Sie die ersten 5 Zeilen aus. Gefordert ist folgender Aufbau:

```Python
       sepal length (cm) 	sepal width (cm) 	petal length (cm) 	petal width (cm)
    0 	   5.1 	                 3.5 	              1.4 	             0.2
    1 	   4.9 	                 3.0 	              1.4 	             0.2
    2 	   4.7 	                 3.2 	              1.3 	             0.2
    3 	   4.6 	                 3.1 	              1.5 	             0.2
    4 	   5.0 	                 3.6 	              1.4 	             0.2
```

In [7]:
#a) DataFrame erstellen
features_df = pd.DataFrame(iris['data'], columns=iris['feature_names'])
print(features_df.head())

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.1               3.5                1.4               0.2
1                4.9               3.0                1.4               0.2
2                4.7               3.2                1.3               0.2
3                4.6               3.1                1.5               0.2
4                5.0               3.6                1.4               0.2


Fügen Sie b) dem DataFrame `features_df` die Spalte *Species* hinzu und erstellen Sie ein neues DataFrame mit dem Namen `iris_df`. Das gesuchte Ergebnis:

```Python
       sepal length (cm) 	sepal width (cm) 	petal length (cm) 	petal width (cm)       Species
    0 	   5.1 	                 3.5 	              1.4 	             0.2               0
    1 	   4.9 	                 3.0 	              1.4 	             0.2               0
    2 	   4.7 	                 3.2 	              1.3 	             0.2               0
    3 	   4.6 	                 3.1 	              1.5 	             0.2               0
    4 	   5.0 	                 3.6 	              1.4 	             0.2               0
```



In [9]:
#b) Spalte 'Species' hinzufügen
iris_df = features_df.copy()
iris_df['Species'] = iris['target']
print(iris_df.head())

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                5.1               3.5                1.4               0.2   
1                4.9               3.0                1.4               0.2   
2                4.7               3.2                1.3               0.2   
3                4.6               3.1                1.5               0.2   
4                5.0               3.6                1.4               0.2   

   Species  
0        0  
1        0  
2        0  
3        0  
4        0  


c) Verschaffen Sie sich einen Überblick, indem Sie folgende Fragen beantworten, und zwar auf Code-Ebene:

- Über wie viele Zeilen verfügt das DataFrame `iris_df`?
- Wie viele unterschiedliche Arten (Species) gibt es und wie viele umfasst die jeweilige Art?
- Wie viele Zellen weisen `nan` auf?
- Beurteilen Sie, ob die Mittelwertbildung der Spalte 'Species' Sinn ergibt.
- Finden Sie heraus, ob eine Korrelation zwischen einzelnen Features (Sepal length,..., Petal width) besteht.

In [27]:
# Frage 1:
print(f"Zeilen: {iris_df.shape[0]}")
print("------------------------------------")
# Frage 2:
print(iris_df['Species'].value_counts())
print("------------------------------------")
# Frage 3:
print(f"NaN-Werte: {iris_df.isna().sum().sum()}")
print("---------------------------------------")
# Frage 4: (naja ergibt nicht unbedingt einen Sinn)
print(f"Mittelwert: {iris_df['Species'].mean()}")
print("-----------------------------------------")
# Frage 5:
print(iris_df.corr())

Zeilen: 150
------------------------------------
Species
0    50
1    50
2    50
Name: count, dtype: int64
------------------------------------
NaN-Werte: 0
---------------------------------------
Mittelwert: 1.0
-----------------------------------------
                   sepal length (cm)  sepal width (cm)  petal length (cm)  \
sepal length (cm)           1.000000         -0.117570           0.871754   
sepal width (cm)           -0.117570          1.000000          -0.428440   
petal length (cm)           0.871754         -0.428440           1.000000   
petal width (cm)            0.817941         -0.366126           0.962865   
Species                     0.782561         -0.426658           0.949035   

                   petal width (cm)   Species  
sepal length (cm)          0.817941  0.782561  
sepal width (cm)          -0.366126 -0.426658  
petal length (cm)          0.962865  0.949035  
petal width (cm)           1.000000  0.956547  
Species                    0.956547  1.000

## 7.3 - apply, applymap und map

Arbeiten Sie das Tutorial https://towardsdatascience.com/introduction-to-pandas-apply-applymap-and-map-5d3e044e93ff  durch. Abgabe der Code-Beispiele ist nicht notwendig.

In [None]:
# Playground...

## 7.4 Data preparation with apply, applymap or map

Überschreiben Sie a) die Spalte *Species*, wobei folgende Zuordnung gilt:

- 0 => SET
- 1 => VER
- 2 => VIR

Gesuchte Ergebnis:
```Python
       sepal length (cm) 	sepal width (cm) 	petal length (cm) 	petal width (cm)       Species
    0 	   5.1 	                 3.5 	              1.4 	             0.2               SET
    1 	   4.9 	                 3.0 	              1.4 	             0.2               SET
    2 	   4.7 	                 3.2 	              1.3 	             0.2               SET
    3 	   4.6 	                 3.1 	              1.5 	             0.2               SET
    4 	   5.0 	                 3.6 	              1.4 	             0.2               SET
```

In [29]:
#a) Species-Spalte umbenennen
species_map = {0: 'SET', 1: 'VER', 2: 'VIR'}
iris_df['Species'] = iris_df['Species'].map(species_map)
print(iris_df.head())

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                5.1               3.5                1.4               0.2   
1                4.9               3.0                1.4               0.2   
2                4.7               3.2                1.3               0.2   
3                4.6               3.1                1.5               0.2   
4                5.0               3.6                1.4               0.2   

  Species  
0     SET  
1     SET  
2     SET  
3     SET  
4     SET  


Erstellen Sie b) die neue Spalte `wide petal`, die das Ergebnis folgender Bedingung enhält:

Wenn `petal width (cm) >= 1.3` ist, dann soll die Zelle der jeweiligen Zeile den Wert 1 aufweisen, sonst 0. Setzen Sie eine `lambda`-Expression ein.

In [33]:
#b) Neue Spalte 'wide patal' it einer Lambda-Expression
iris_df['wide petal'] = iris_df['petal width (cm)'].apply(lambda x: 1 if x >= 1.3 else 0)
print(iris_df[['petal width (cm)', 'wide petal']].head())

   petal width (cm)  wide petal
0               0.2           0
1               0.2           0
2               0.2           0
3               0.2           0
4               0.2           0


Ermitteln Sie c) die *petal area* (Petal-Fläche) und speichern Sie diese in der neu zu erstellenden Spalte *petal area*. Setzen Sie eine `lambda`-Expression ein. 

In [35]:
#c) Neue Spalte 'petal area' mit Lambda-Funktion
iris_df['petal area'] = iris_df.apply(lambda row: row['petal length (cm)'] * row['petal width (cm)'], axis=1)
print(iris_df.head())

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                5.1               3.5                1.4               0.2   
1                4.9               3.0                1.4               0.2   
2                4.7               3.2                1.3               0.2   
3                4.6               3.1                1.5               0.2   
4                5.0               3.6                1.4               0.2   

  Species  wide petal  petal area  
0     SET           0        0.28  
1     SET           0        0.28  
2     SET           0        0.26  
3     SET           0        0.30  
4     SET           0        0.28  
