---
## Fehlende Werte mit PANDAS

In [2]:
import numpy as np
import pandas as pd
from io import StringIO

In [3]:
csv_data = \
    '''A,B,C,D
        1.0,2.0,3.0,4.0
        5.0,6.0,,8.0
        10.0,11.0,12.0,
    '''
df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


### Fehlende Werte finden
`1. isna()`       : Liefert `True` zurück, in den Zellen, die n/a haben<br>
`2. isna().sum()` : Gibt je Spalte die Summe als `int` zurück

In [4]:
df.isna()

Unnamed: 0,A,B,C,D
0,False,False,False,False
1,False,False,True,False
2,False,False,False,True


In [5]:
df.isna().sum()

A    0
B    0
C    1
D    1
dtype: int64

### Die meisten SKLEARN Bibliotheken können mit Pandas arbeiten, sind aber auf NUMPY spezialisiert 
Sprich man sollte möglichst Numpy Arrays übergeben, die man via `df.values` erhalten kann

In [6]:
df.values

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6., nan,  8.],
       [10., 11., 12., nan]])

In [7]:
type(df.values)

numpy.ndarray

---
### 1. fehlende Features (Merkmale) oder Zeilen (Instanzen) komplett entfernen

In [8]:
# Spalte komplett entfernen
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [9]:
# Zeile komplett entfernen
df.dropna(axis=0)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [10]:
# Nur Zeilen löschen, in denen alle Spalten N/A enthalten -> gibt ganzes Array zurück, weil keine Zeile durchgängig nur N/A enthält
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [11]:
# Treshhold verlangt eine Mindestanzahl von reelen Zahlen in der Zeile --> löscht beide Zeilen, in denen das nicht der Fall ist
df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [12]:
# Subset löscht nur Zeilen, in denen N/A in einer definierten Spalte enthalten ist
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


---
## IMPUTATION TECHNICS

### 1. Imputation mit gesamt-DF MEAN() Wert

In [13]:
df.fillna(df.mean())

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.5,8.0
2,10.0,11.0,12.0,6.0


### 2. Eine Spalte die N/A mit dem MEAN() derselben Spalte auffüllen

In [14]:
df['C'] = df['C'].fillna(df['C'].mean())
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.5,8.0
2,10.0,11.0,12.0,


### 3. Handhabung kategorialer Variablen in PANDAS
Man muss zwischen `a) ordinalen` und `b) nominalen` Merkmalen unterscheiden:<br>
<br>
`ad a)` natürliche Reihenfolge, können sortiert werden - aber Abstände zwischen den einzelnen Werten sind nicht quantifizierbar (es kann nicht mit ihnen “normal gerechnet” werden. Beispiel: Schulnoten, Präferenzrangfolgen, etc.<br>
<br>
`ad b)` Daten, die in keinerlei natürliche Reihenfolge gebracht werden können – beispielsweise um das Geschlecht, die Haarfarbe oder die Telefonnummer

In [15]:
df = pd.DataFrame([
    ["green", "M", 10.1, "CLASS2"],
    ["red",   "L", 13.5, "CLASS1"],
    ["blue", "XL", 15.3, "CLASS2"],
])
df.columns = ["color", "size", "price", "classLabel"]
df

Unnamed: 0,color,size,price,classLabel
0,green,M,10.1,CLASS2
1,red,L,13.5,CLASS1
2,blue,XL,15.3,CLASS2


In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   color       3 non-null      object 
 1   size        3 non-null      object 
 2   price       3 non-null      float64
 3   classLabel  3 non-null      object 
dtypes: float64(1), object(3)
memory usage: 224.0+ bytes


### a) ORDINALE MERKMALE
Um zu gewährleisten, dass die Algorithmen die Daten korrekt verarbeiten können, müssen wir die kategorialen Variablen in INT-Werte umwandeln.<br> 
Es gibt keine Funktion, die das macht, daher müssen wir das von Hand erledigen.<br>
Wir gehen davon aus, dass wir die numerischen Unterschiede zwischen den Merkmalen kennen -> `XL = L + 1 = M + 2`

In [17]:
size_mapping = {
    'M':  1,
    'L':  2,
    'XL': 3,
    }
df["size"] = df["size"].map(size_mapping)
df

Unnamed: 0,color,size,price,classLabel
0,green,1,10.1,CLASS2
1,red,2,13.5,CLASS1
2,blue,3,15.3,CLASS2


Wenn wir die Spalte `"size"` später wieder zurück umwandeln wollen, dann können wir ebenfalls ebenfalls über ein Dictionary machen

In [18]:
inv_size_mapping = {v: k for k, v in size_mapping.items()}
print(inv_size_mapping)
_ = df.copy()
_["size"] = df["size"].map(inv_size_mapping)
_

{1: 'M', 2: 'L', 3: 'XL'}


Unnamed: 0,color,size,price,classLabel
0,green,M,10.1,CLASS2
1,red,L,13.5,CLASS1
2,blue,XL,15.3,CLASS2


### b) NORMINALE MERKMALE
Viele Bibliotheken machen es erforderliche, dass die Klassenbezeichnungen als INT-Zahlen codiert sind.<br>
Bei norminalen Merkmalen hat die Reihenfolge oder dergleichen keine Relevanz, wir können also einfach durchnummerieren

In [19]:
class_mapping = {label: idx for idx, label in enumerate(np.unique(df["classLabel"]))}
print(class_mapping)
df["classLabel"] = df["classLabel"].map(class_mapping)
df

{'CLASS1': 0, 'CLASS2': 1}


Unnamed: 0,color,size,price,classLabel
0,green,1,10.1,1
1,red,2,13.5,0
2,blue,3,15.3,1


Umkehrung wie folgt:

In [20]:
inv_class_mapping = {v: k for k, v in class_mapping.items()}
print(inv_class_mapping)
df["classLabel"] = df["classLabel"].map(inv_class_mapping)
df

{0: 'CLASS1', 1: 'CLASS2'}


Unnamed: 0,color,size,price,classLabel
0,green,1,10.1,CLASS2
1,red,2,13.5,CLASS1
2,blue,3,15.3,CLASS2


### EINE WEITER MÖGLICHKEIT WÄREN DIE LABEL-ENCODER VON SKLEARN

In [21]:
from sklearn.preprocessing import LabelEncoder

In [22]:
class_le = LabelEncoder()
y = class_le.fit_transform(df["classLabel"].values)
y

array([1, 0, 1])

In [23]:
class_le.inverse_transform(y)

array(['CLASS2', 'CLASS1', 'CLASS2'], dtype=object)

## ONE-HOT-ENCODING DER NOMINALEN MERKMALE
Die Schätzer von SKLEARN behandeln die Klassenbezeichnungen als `kategoriale Variablen`, die ungeordnet sind.<br>
Daher haben wir LabelEncoder verwendet, um INT-Zahlen zu bekommen.<br> 
<br>
### Dass darf man aber nicht mit norminalen Daten wie der Spalte `COLOR` machen!!
Dann könnte der Schätzer von SKLEARN versucht sein zu interpretieren, dass als Beispiel `RED` größer `BLUE` ist

### Wir bereiten die Daten auf und holen uns drei Spalten --> dann schauen wir uns den shape an

In [24]:
X = df[["color", "size", "price"]].values
print(type(X))
X[:,0].shape

<class 'numpy.ndarray'>


(3,)

### Für SKLEARN brauchen wir 2-Dimensionen, also reshape und anzeigen

In [25]:
reshaped_col_ohe = X[:,0].reshape(-1,1)  # Reshaping to get 1 Dimension in addition = 1 column
reshaped_col_ohe.shape 

(3, 1)

### Abschließend können wir OHE einsetzen, um die Daten zu transformieren und `toarray()` liefert uns ein Array zurück als Ausgabe des Ganzen
`BEACHTE` : Wir setzen OHE hier in diesem Fall nur für eine einzelne Spalte ein

In [26]:
from sklearn.preprocessing import OneHotEncoder
color_ohe = OneHotEncoder()
color_ohe.fit_transform(reshaped_col_ohe).toarray()

array([[0., 1., 0.],
       [0., 0., 1.],
       [1., 0., 0.]])

### Wir können aber OHE auch für mehrere Spalten einsetzen
In form von Tuppeln kann definiert werden, welche Spalten: `(name, transformer, column(s))`

In [27]:
from sklearn.compose import ColumnTransformer
X = df[["color", "size", "price"]].values
type(X)

numpy.ndarray

Wir OHE-en nur die erste Spalte

In [28]:
c_transf = ColumnTransformer([
    ("onehot", OneHotEncoder(), [0]), 
    ("nothing", 'passthrough', [1, 2])  # Diese Spalten "schleifen" wir nur durch, sie werden allerdings nicht angepasst
    ])
c_transf.fit_transform(X).astype(float)

array([[ 0. ,  1. ,  0. ,  1. , 10.1],
       [ 0. ,  0. ,  1. ,  2. , 13.5],
       [ 1. ,  0. ,  0. ,  3. , 15.3]])

### Eine weitere, noch komfortablere Möglichkeit bietet die `dummy-Codierung` von `PANDAS`
Sie codiert ausschließlich Spalten, die Text enthalten

In [29]:
df

Unnamed: 0,color,size,price,classLabel
0,green,1,10.1,CLASS2
1,red,2,13.5,CLASS1
2,blue,3,15.3,CLASS2


In [30]:
pd.get_dummies(df[["price", "color", "size", "classLabel"]], drop_first=True)   # drop_first wird eine Spalte des OHE gelöscht wegen Kolinarität (Erklärung unten)

Unnamed: 0,price,size,color_green,color_red,classLabel_CLASS2
0,10.1,1,1,0,1
1,13.5,2,0,1,0
2,15.3,3,0,0,1


## Bei der OHE-Codierung muss man bedenken, dass damit ein hohes Maß an Kolinearität einhergeht!
= hohe Korrelation der Merkmale - dass kann bei manchen Verfahren problematisch sein. Um dem entgegen <br>
zu wirken, können wir einfach eine Spalte des OHE löschen, damit sind die Informationen immer noch exakt<br>
gleich vorhanden... alles wo die anderen Klassenbezeichnungen NULL sind, muss für die gelöschte 1 sein!<br>
### = kein Informationsverlust --> DAHER `drop_first=True` setzen

In [31]:
color_ohe = OneHotEncoder(categories="auto", drop="first")
c_transf = ColumnTransformer([
    ('onehot', color_ohe, [0]),
    ('nothing', "passthrough", [1,2])
])
c_transf.fit_transform(X).astype(float)

array([[ 1. ,  0. ,  1. , 10.1],
       [ 0. ,  1. ,  2. , 13.5],
       [ 0. ,  0. ,  3. , 15.3]])

## APPLY METHODE UM BENUTZERDEFINIERTE LAMBDA AUSDRÜCKE ZU SCHREIBEN
Nachfolgend unser Datafrme df --> auf diesen können wir die `apply()`-Methode anwenden

In [34]:
df = pd.DataFrame([
    ["green", "M", 10.1, "CLASS2"],
    ["red",   "L", 13.5, "CLASS1"],
    ["blue", "XL", 15.3, "CLASS2"],
])
df.columns = ["color", "size", "price", "classLabel"]
df

Unnamed: 0,color,size,price,classLabel
0,green,M,10.1,CLASS2
1,red,L,13.5,CLASS1
2,blue,XL,15.3,CLASS2


In [35]:
df["x > M"] = df["size"].apply(lambda x: 1 if x in {"L", "XL"} else 0)
df["x > L"] = df["size"].apply(lambda x: 1 if x == "XL" else 0)
df

Unnamed: 0,color,size,price,classLabel,x > M,x > L
0,green,M,10.1,CLASS2,0,0
1,red,L,13.5,CLASS1,1,0
2,blue,XL,15.3,CLASS2,1,1
