# Geodatenanalyse 2: Termin 2 - Datenaufbereitung

### Aufbau:
- Importieren von Daten
- Zusammenführen und Filtern der Datensätze

Datenaufbereitung:

- Ersetzen von Werten unterhalb der Nachweisgrenze
- Ersetzen von kategorischen und numerischen *NaN* Einträgen
- Aufteilen in Test- und Train-Split
- Skalieren ( Normieren/Standardisieren)
- Encodieren (Binär/One Hot/Target)
- Speichern der Daten
- Übungsaufgabe

#### Laden der Bibliotheken

In [1]:
# Basic packages
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 1. Importieren der Daten

ZweiWir verwenden zwei Datensätze
- Nitratdatensatz
- Corine Landnutzung für die Messstellen

Importieren mit der Funktion <span style="color:blue">**pandas.read_csv**</span> &rarr; [Hilfe](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

### Nitratdatensatz:

In [2]:
data1 = pd.read_csv('Nitratmessungen.csv', sep=',', encoding="utf-8", index_col=0)
data1.head()

Unnamed: 0,GW-Nummer,Messstelle,Datum,NO3 [mg/l],pH [ -],O2 [mg/l],O2-Sätt [%],T [°C],RECHTSWERT,HOCHWERT,HYDROGEOLE,AQUIFER,HYDROGEOL3
0,918/069-2,"BBR Betonwerk, Umkirch",11.10.2006 15:20,94,645,24,233,140.0,3407870,5323120,3.0,QUARTÄR EISZEITL.KIESE+SANDE (OBERRHEINGRABEN),Quartäre Kiese und Sande (GWL)
1,918/069-2,"BBR Betonwerk, Umkirch",17.09.2007 14:20,12,639,21,250,218.0,3407870,5323120,3.0,QUARTÄR EISZEITL.KIESE+SANDE (OBERRHEINGRABEN),Quartäre Kiese und Sande (GWL)
2,918/069-2,"BBR Betonwerk, Umkirch",23.09.2008 08:05,76,658,25,230,,3407870,5323120,3.0,QUARTÄR EISZEITL.KIESE+SANDE (OBERRHEINGRABEN),Quartäre Kiese und Sande (GWL)
3,918/069-2,"BBR Betonwerk, Umkirch",10.11.2008 09:10,122,654,12,120,154.0,3407870,5323120,3.0,QUARTÄR EISZEITL.KIESE+SANDE (OBERRHEINGRABEN),Quartäre Kiese und Sande (GWL)
4,918/069-2,"BBR Betonwerk, Umkirch",09.09.2009 14:08,12,646,13,140,200.0,3407870,5323120,3.0,QUARTÄR EISZEITL.KIESE+SANDE (OBERRHEINGRABEN),Quartäre Kiese und Sande (GWL)


In [3]:
data1.dtypes

GW-Nummer       object
Messstelle      object
Datum           object
NO3 [mg/l]      object
pH [ -]         object
O2 [mg/l]       object
O2-Sätt [%]     object
T [°C]          object
RECHTSWERT       int64
HOCHWERT         int64
HYDROGEOLE     float64
AQUIFER         object
HYDROGEOL3      object
dtype: object

### Corine Landnutzung für Messstellen:

In [4]:
data2 = pd.read_csv('Corinedaten.txt', sep=';',decimal=',',  encoding='utf-8', index_col=0)
data2.head()

Unnamed: 0_level_0,GW_NUMMER,NAME,RECHTSWERT,HOCHWERT,GEMEINDE_K,AQUIFER_KZ,EINZUGSGEB,HYDROGEOLE,HYDROGEOL2,MESSNETZ1_,MESSNETZ2_,GEMEINDE,AQUIFER,EINZUGSGE2,HYDROGEOL3,MESSNETZ1,MESSNETZ2,RASTERVALU
FID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
0,1/022-9,"QSS HERTINGERQU.1+2, KANDERN",3395475.0,5288420.0,8336104.0,31.0,2333220000.0,11.0,2.0,,,MALSBURG-MARZELL,MALM WEIßJURA (SCHWÄBISCHE ALB),Engebach,Oberjura (Raurasische Fazies) (GWL),#800000000010,#800000000002,311
1,1/117-3,"QF KREBSBRUNNENQ., ETTENHEIM",3419400.0,5345550.0,8317026.0,81.0,2338940000.0,45.0,69.0,,,"ETTENHEIM, STADT",BUNTSANDSTEIN,Ettenbach,Unterer und Mittlerer Buntsandstein (GWL),#800000000010,#800000000002,311
2,1/119-9,"TB SCHLAGBR.4, VOERSTETTEN",3414860.0,5325450.0,8316045.0,4.0,2338892000.0,3.0,8.0,,,VÖRSTETTEN,QUARTÄR EISZEITL.KIESE+SANDE (OBERRHEINGRABEN),Schobbach,Quartäre Kiese und Sande (GWL),#800000000012,,211
3,1/120-8,"QF2 KLEISLEWALDQ., ZASTLER",3423200.0,5309100.0,8315084.0,91.0,2338830000.0,50.0,18.0,,,OBERRIED,KRISTALLIN (SCHWARZWALD),Dreisam unterh. Wagensteigbach oberh. Brugga,"Paläozoikum, Kristallin (GWG)",#800000000010,#800000000002,312
4,1/121-0,"Q STOLLENQUELLE HINTERES ELEND, MÜNSTERTAL",3413785.0,5303338.0,8315130.0,91.0,2336410000.0,50.0,18.0,,,MÜNSTERTAL/ SCHWARZWALD,KRISTALLIN (SCHWARZWALD),Neumagen oberhalb von Talbach,"Paläozoikum, Kristallin (GWG)",#800000000010,#800000000002,231


In [5]:
data2.dtypes

GW_NUMMER      object
NAME           object
RECHTSWERT    float64
HOCHWERT      float64
GEMEINDE_K    float64
AQUIFER_KZ    float64
EINZUGSGEB    float64
HYDROGEOLE    float64
HYDROGEOL2    float64
MESSNETZ1_     object
MESSNETZ2_     object
GEMEINDE       object
AQUIFER        object
EINZUGSGE2     object
HYDROGEOL3     object
MESSNETZ1      object
MESSNETZ2      object
RASTERVALU      int64
dtype: object

## 2. Zusammenführen und Filtern der Datensätze

Zusammenführen der beiden Datensätze mit Hilfe der <span style="color:blue">**.merge**</span>-Funktion für Pandas Dataframes. &rarr; [Hilfe](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html)
- Gemeinsame Spalte für das Zusammenführen ist die **Grundwassernummer**.

- Von dem zweiten Datensatz benötigen wir lediglich die Spalte **"RASTERVALU"**, diese enthält Daten zur Landnutzung von der Corine Landuse.

### 2.1 Verknüpfen der Datensätze

In [6]:
joined_data = data1.merge(data2[['GW_NUMMER','RASTERVALU']], how="inner", left_on='GW-Nummer', right_on='GW_NUMMER')
joined_data.head()

Unnamed: 0,GW-Nummer,Messstelle,Datum,NO3 [mg/l],pH [ -],O2 [mg/l],O2-Sätt [%],T [°C],RECHTSWERT,HOCHWERT,HYDROGEOLE,AQUIFER,HYDROGEOL3,GW_NUMMER,RASTERVALU
0,918/069-2,"BBR Betonwerk, Umkirch",11.10.2006 15:20,94,645,24,233,140.0,3407870,5323120,3.0,QUARTÄR EISZEITL.KIESE+SANDE (OBERRHEINGRABEN),Quartäre Kiese und Sande (GWL),918/069-2,121
1,918/069-2,"BBR Betonwerk, Umkirch",17.09.2007 14:20,12,639,21,250,218.0,3407870,5323120,3.0,QUARTÄR EISZEITL.KIESE+SANDE (OBERRHEINGRABEN),Quartäre Kiese und Sande (GWL),918/069-2,121
2,918/069-2,"BBR Betonwerk, Umkirch",23.09.2008 08:05,76,658,25,230,,3407870,5323120,3.0,QUARTÄR EISZEITL.KIESE+SANDE (OBERRHEINGRABEN),Quartäre Kiese und Sande (GWL),918/069-2,121
3,918/069-2,"BBR Betonwerk, Umkirch",10.11.2008 09:10,122,654,12,120,154.0,3407870,5323120,3.0,QUARTÄR EISZEITL.KIESE+SANDE (OBERRHEINGRABEN),Quartäre Kiese und Sande (GWL),918/069-2,121
4,918/069-2,"BBR Betonwerk, Umkirch",09.09.2009 14:08,12,646,13,140,200.0,3407870,5323120,3.0,QUARTÄR EISZEITL.KIESE+SANDE (OBERRHEINGRABEN),Quartäre Kiese und Sande (GWL),918/069-2,121


In [7]:
joined_data.dtypes

GW-Nummer       object
Messstelle      object
Datum           object
NO3 [mg/l]      object
pH [ -]         object
O2 [mg/l]       object
O2-Sätt [%]     object
T [°C]          object
RECHTSWERT       int64
HOCHWERT         int64
HYDROGEOLE     float64
AQUIFER         object
HYDROGEOL3      object
GW_NUMMER       object
RASTERVALU       int64
dtype: object

### 2.2 Filtern der Datensätze

#### Für die weitere Verarbeitung benötigen wir nur noch die folgenden Spalten:
- Messstelle
- GW-Nummer 
- Datum
- NO3
- O2
- Rastervalu = Corine Landcover
- Hydrogeologie

In [8]:
data = joined_data[['Messstelle','GW-Nummer','Datum', 'NO3 [mg/l]','O2 [mg/l]','RASTERVALU', 'HYDROGEOL3']]
data = data.assign(Datum=pd.to_datetime(data['Datum'], format='%d.%m.%Y %H:%M'))
data.head()

Unnamed: 0,Messstelle,GW-Nummer,Datum,NO3 [mg/l],O2 [mg/l],RASTERVALU,HYDROGEOL3
0,"BBR Betonwerk, Umkirch",918/069-2,2006-10-11 15:20:00,94,24,121,Quartäre Kiese und Sande (GWL)
1,"BBR Betonwerk, Umkirch",918/069-2,2007-09-17 14:20:00,12,21,121,Quartäre Kiese und Sande (GWL)
2,"BBR Betonwerk, Umkirch",918/069-2,2008-09-23 08:05:00,76,25,121,Quartäre Kiese und Sande (GWL)
3,"BBR Betonwerk, Umkirch",918/069-2,2008-11-10 09:10:00,122,12,121,Quartäre Kiese und Sande (GWL)
4,"BBR Betonwerk, Umkirch",918/069-2,2009-09-09 14:08:00,12,13,121,Quartäre Kiese und Sande (GWL)


## 3. Ersetzen von Werten

### 3.1 Ersetzen von Werte unter Nachweisgrenze (NWG)
Datensätze bestehen meist aus signigikanten (> NWG) und nicht-signifikanten (< NWG).
Der Umgang mit diesen Daten hat großen Einfluss auf die Statistiken der Features.

Die folgende Funktion ersetzt Werte unter der NWG, die im Format "< NWG" vorliegen durch 0.5*NWG:

In [9]:
# Funktion um Werte unter der NWG durch 0.5*NWG zu ersetzen
def u_NWG(X):
    if type(X) == str:
        if '<' in X:
            Y = float(X.split('<')[1].replace(',', '.'))/2
        else:
            Y = float(X.replace(',','.'))
    else:
        Y = X
    return float(Y)

In [10]:
print(data['O2 [mg/l]'].str.contains('<').sum()/len(data),
      data['NO3 [mg/l]'].str.contains('<').sum()/len(data))

0.11602890458203317 0.17326326161931352


Anwenden unserer Funktion <span style="color:green">**u_NWG**</span>-Funktion
auf die Spalten **'NO3 [mg/l]'*** und **'O2 [mg/l]'**, um die neuen Spalten **'NO3'*** und ***'O2'*** zu erstellen.  

Verwendete Funktionen:  
<span style="color:blue">**.assign**</span>-Funktion &rarr; [Hilfe](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.assign.html)  
<span style="color:blue">**.apply**</span>-Funktion &rarr; [Hilfe](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html)  
<span style="color:blue">**.drop**</span>-Funktion &rarr; [Hilfe](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html)

Anschließendes Entfernen der ehemaligen Spalten.



In [11]:
data = data.assign(O2= data['O2 [mg/l]'].apply(u_NWG),
           NO3 = data['NO3 [mg/l]'].apply(u_NWG))
data.drop(columns=['NO3 [mg/l]','O2 [mg/l]'], inplace=True)
data.sort_values("NO3", ascending=True).head()

Unnamed: 0,Messstelle,GW-Nummer,Datum,RASTERVALU,HYDROGEOL3,O2,NO3
1196,"BR K 2/1, Schwetzingen",139/306-7,2018-08-29 13:45:00,312,Quartäre Kiese und Sande (GWL),,0.05
3818,"GWM B2 Tief, Neumühl",2002/114-7,2015-09-23 13:45:00,211,Quartäre Kiese und Sande (GWL),2.5,0.05
2035,"BR Vogelpark, Neudorf",129/308-5,2007-09-20 13:30:00,112,Quartäre Kiese und Sande (GWL),0.2,0.05
3011,"BR 60/7 (Brunnen 2), Hockenheim",218/306-5,2018-09-18 08:45:00,112,Quartäre Kiese und Sande (GWL),,0.05
4410,"GWM F, Sankt Leon-Rot",164/307-2,2018-09-25 12:45:00,142,Quartäre Kiese und Sande (GWL),0.2,0.05


### 3.2 Ersetzen von fehlenden Werte (NULL-Values)
Datensätze sind oftmals unvollständig und enthalten fehlende Werte, sog: NULL values oder NaNs
Probleme
 - Beeinflussen Metriken
 - Algorithmen können damit nicht umgehen
 Unterschied zwischen "0" und "NULL ist entscheidend
 Löschung der Nullwerte ist nur bei sehr geringem Anteil sinnvoll da Informationsverlust. Besserer Lösung ist die Inputation dieser fehlenden Werte

Kontrolle der NULL-Values:

In [12]:
data.isnull().sum()

Messstelle      0
GW-Nummer       0
Datum           0
RASTERVALU      0
HYDROGEOL3     56
O2            475
NO3             0
dtype: int64

### 3.3 Nan in numerische Spalten

Für die numerische Spalte 'O2' werden die fehlenden Werte durch den Mittelwert ersetzt.

Dies passiert mit dem <span style="color:blue">**"fillna()"**</span>-Befehl für Pandas-Dataframes.

Falls fehlende Werte durch bspw. "-999" gegeben sind, können Sie mit dem Befehl <span style="color:blue">**".replace('alter_Wert', 'neuer_Wert')"**</span> ersetzt werden. 

In [13]:
data['O2'].fillna(data.O2.mean(), inplace=True)
data.head()

Unnamed: 0,Messstelle,GW-Nummer,Datum,RASTERVALU,HYDROGEOL3,O2,NO3
0,"BBR Betonwerk, Umkirch",918/069-2,2006-10-11 15:20:00,121,Quartäre Kiese und Sande (GWL),2.4,9.4
1,"BBR Betonwerk, Umkirch",918/069-2,2007-09-17 14:20:00,121,Quartäre Kiese und Sande (GWL),2.1,12.0
2,"BBR Betonwerk, Umkirch",918/069-2,2008-09-23 08:05:00,121,Quartäre Kiese und Sande (GWL),2.5,7.6
3,"BBR Betonwerk, Umkirch",918/069-2,2008-11-10 09:10:00,121,Quartäre Kiese und Sande (GWL),1.2,12.2
4,"BBR Betonwerk, Umkirch",918/069-2,2009-09-09 14:08:00,121,Quartäre Kiese und Sande (GWL),1.3,12.0


### 3.4 NAN in kategorische Spalten
Einsetzen des meist vorkommenden Wertes, der sog. "Modus"

In [14]:
hy_mode = data.HYDROGEOL3.mode()[0]
print(data.HYDROGEOL3.value_counts(),'\n\n',
      'Modus:',
      hy_mode)

Quartäre Kiese und Sande (GWL)         11955
Paläozoikum, Kristallin (GWG)             50
Tertiär im Oberrheingraben (GWG)          37
Oberjura (Raurasische Fazies) (GWL)       35
Oberer Muschelkalk (GWL)                  26
Unterjura und Mitteljura (GWG)            19
Name: HYDROGEOL3, dtype: int64 

 Modus: Quartäre Kiese und Sande (GWL)


In [15]:
data = data.assign(Hydrogeologie = data.loc[:,'HYDROGEOL3'].fillna(hy_mode))
data.drop(columns='HYDROGEOL3', inplace=True)

### Kontrolle

In [16]:
data.isnull().sum()

Messstelle       0
GW-Nummer        0
Datum            0
RASTERVALU       0
O2               0
NO3              0
Hydrogeologie    0
dtype: int64

## 4. Feature Aggregation

Wir wollen einen mittleren Wert für jede Messstelle.

- Für die numerischen Features (NO3, O2) wird für jede Messstelle der Mittelwert verwendet, während für die kategorischen Variablen der Modus (häufigst auftretender Wert) verwendet wird.

- Für dieses Zusammenfassen wird die Funktion <span style="color:blue">".groupby()"**</span> verwendet.

- Nach dem Zusammenfassen wird der Index resetet weil sonst die Messstellen der Index sind.

- Die beiden entstandenen Datensätze werden dann wieder zusammengeführt.

In [17]:
messstellen1 = data[['Messstelle','NO3','O2']].groupby('Messstelle').mean()
messstellen2 = data[['Messstelle','Hydrogeologie','RASTERVALU']].groupby('Messstelle').agg(pd.Series.mode)

messstellen1.reset_index(inplace=True)
messstellen2.reset_index(inplace=True)

In [18]:
Messstellen  = messstellen1.merge(messstellen2, on='Messstelle')
Messstellen.head()

Unnamed: 0,Messstelle,NO3,O2,Hydrogeologie,RASTERVALU
0,"BBR 1 Firma Schultis, Riegel",6.259259,1.315473,Quartäre Kiese und Sande (GWL),121
1,"BBR 2 Firma Thieme, Teningen",1.452941,0.823723,Quartäre Kiese und Sande (GWL),121
2,"BBR 2 Kronenwiese Firma Burda Werk 1, Offenburg",5.6,1.984615,Quartäre Kiese und Sande (GWL),121
3,"BBR 3186 im Garten der alten Schule, Langhurst",6.96875,0.730346,Quartäre Kiese und Sande (GWL),112
4,"BBR 998 A Kehlerstraße, Neuried-Auenheim",56.164286,1.116071,Quartäre Kiese und Sande (GWL),112


## 5. Splitten

Das Aufteilen des Datensatzes erfolgt mit der Funktion "train_test_split" des Packages sklearn.

Hier kann mit dem Parameter "test_size" das Verhältnis festgelegt werden und mit dem Parameter "random_state" die Reproduzierbarkeit garantiert werden. 

In [19]:
from sklearn.model_selection import train_test_split

In [20]:
train, test = train_test_split(Messstellen, test_size=0.8, random_state=43)

In [21]:
print('Größe Trainingsdaten: ', train.shape)
print('Größe Testdaten: ', test.shape)

Größe Trainingsdaten:  (101, 5)
Größe Testdaten:  (406, 5)


## 6. Skalieren

### 6.1 Normieren

#### 6.1.1 Händisches Skalieren mit Hilfe der Formel:
$X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}}$

In [22]:
X_min = train.NO3.min()
X_range = train.NO3.max() - train.NO3.min()
train = train.assign(NO3_norm = (train['NO3']-X_min)/X_range)
test = test.assign(NO3_norm = (test['NO3']-X_min)/X_range)

In [23]:
print('X_min: ', train.NO3_norm.min())
print('X_max: ', train.NO3_norm.max())
print('X_max: ', train.NO3_norm.mean())

X_min:  0.0
X_max:  1.0
X_max:  0.20451396227712246


#### 6.1.2 Vorhandene Funktion von sklearn "MinMaxScaler"

Die Scaler werden zuerst als eingenes Objekt erstellt und müssen dann an Daten gefittet werden.

Anschließend können sie Daten auf Grundlage der Fit-Daten transformieren, hier sklieren.

In [24]:
from sklearn.preprocessing import MinMaxScaler

In [25]:
scaler = MinMaxScaler()
scaler.fit(train[['NO3']])

MinMaxScaler()

In [26]:
train['NO3_norm']= scaler.transform(train[['NO3']])
test['NO3_norm'] = scaler.transform(test[['NO3']])

In [27]:
print('X_min: ', train.NO3_norm.min())
print('X_max: ', train.NO3_norm.max())
print('X_max: ', train.NO3_norm.mean())

X_min:  0.0
X_max:  1.0
X_max:  0.2045139622771224


### 6.2 Standardisieren

#### 6.2.1 Händisches Skalieren mit Hilfe der Formel:
$X_{std} = \frac{X - mean(X)}{stdw(X)}$

In [28]:
X_mean = train.NO3.mean()
X_std = train.NO3.std()
train = train.assign(NO3_std = (train['NO3']-X_mean)/X_std)
test = test.assign(NO3_std = (test['NO3']-X_mean)/X_std)

In [29]:
print('mean(X): ', train.NO3_std.mean())
print('std(X): ', train.NO3_std.std())

mean(X):  5.27630744376312e-17
std(X):  0.9999999999999999


#### 6.2.2 Vorhandene Funktion von sklearn "StandardScaler"

In [30]:
from sklearn.preprocessing import StandardScaler

In [31]:
scaler = StandardScaler()
scaler.fit(train[['NO3']])

StandardScaler()

In [32]:
train['NO3_std']= scaler.transform(train[['NO3']])
test['NO3_std'] = scaler.transform(test[['NO3']])

In [33]:
print('mean(X): ', train.NO3_std.mean())
print('std(X): ', train.NO3_std.std())

mean(X):  5.386230515508185e-17
std(X):  1.004987562112089


In [34]:
train.head()

Unnamed: 0,Messstelle,NO3,O2,Hydrogeologie,RASTERVALU,NO3_norm,NO3_std
49,"BR 7 Hofgut Freudenberg, Heddesheim",0.366,0.394,Quartäre Kiese und Sande (GWL),211,0.001255,-0.847277
298,"GWM E40 ZWK Kurpfalz, Schwetzingen",15.027586,5.883984,Quartäre Kiese und Sande (GWL),112,0.140704,-0.265988
437,TB 2 Transportbeton Freiburg,16.5,6.939286,Quartäre Kiese und Sande (GWL),121,0.154709,-0.207611
441,"TB 3 Firma Hansa Heemann AG, Bruchsal",0.287037,0.546296,Quartäre Kiese und Sande (GWL),121,0.000504,-0.850407
382,"GWM Tief, Heddesheim",0.25,0.347619,Quartäre Kiese und Sande (GWL),211,0.000151,-0.851876


In [35]:
test.head()

Unnamed: 0,Messstelle,NO3,O2,Hydrogeologie,RASTERVALU,NO3_norm,NO3_std
498,"TB WW Neuburgweier, Rheinstetten",0.664062,1.625,Quartäre Kiese und Sande (GWL),231,0.00409,-0.835459
328,"GWM K 20 Kehl, Goldscheuer",0.227778,0.255556,Quartäre Kiese und Sande (GWL),231,-6e-05,-0.852757
321,"GWM G0/1 KIT, Leopoldshafen",6.945455,3.259091,Quartäre Kiese und Sande (GWL),313,0.063833,-0.586421
170,"GWM 1279 A, Oberhausen",14.138462,7.215385,Quartäre Kiese und Sande (GWL),231,0.132248,-0.301239
432,"TB 116 Universität Albertstraße, Freiburg",14.133333,7.412369,Quartäre Kiese und Sande (GWL),121,0.132199,-0.301442


## 7. Encodieren

### 7.1 Binär
Jede Kategorie wird umgewandelt in Zahlenwert


Der 3-stellige Corine Code ist eine Stufenweise Beschreibung der Landnutzung, wobei die erste Ziffer die gröbste Einordnung darstellt.
- 1XX = Artificial Surfaces 
- 2XX = Agricultural areas 
- 3XX = Forest and seminatural areas
- 4XX = Wetlands 
- 5XX = Water bodies 

Im folgende erfolgt ein binäres Encoding nach der Klasse 1.
Dafür wird zuerst eine neue Spalte erstellt, die nur die erste Ziffer enthät und anschließend in Abhängigkeit davon ein binäres Encoding.

In [36]:
train['Corine'] = train['RASTERVALU'].apply(lambda x: int(str(x)[0]))
train['Artificial_Surface'] = train['Corine'].apply(lambda x: 1 if x == 1  else 0)

test['Corine'] = test['RASTERVALU'].apply(lambda x: int(str(x)[0]))
test['Artificial_Surface'] = test['Corine'].apply(lambda x: 1 if x == 1  else 0)

In [37]:
train.drop(columns='RASTERVALU', inplace=True)
test.drop(columns='RASTERVALU', inplace=True)

### 7.2 One-Hot
Encoding für Nominal-Daten (ohne Rangfolge)  
Für jedes Merkmal wird eine neue binäre Variable erstellt

In [38]:
from sklearn.preprocessing import OneHotEncoder

In [39]:
encoder = OneHotEncoder(sparse=False)
encoder.fit(train[['Corine']])
encoder.get_feature_names_out()

array(['Corine_1', 'Corine_2', 'Corine_3', 'Corine_5'], dtype=object)

Beispiel für One-Hot Encoding:

In [40]:
example_oh = encoder.transform(test[['Corine']]) 
#encoder.transform(train[['Corine']]) # genauso auch für die train-Daten möglich
example_oh = pd.DataFrame(example_oh, columns=encoder.get_feature_names_out())

In [41]:
example_oh

Unnamed: 0,Corine_1,Corine_2,Corine_3,Corine_5
0,0.0,1.0,0.0,0.0
1,0.0,1.0,0.0,0.0
2,0.0,0.0,1.0,0.0
3,0.0,1.0,0.0,0.0
4,1.0,0.0,0.0,0.0
...,...,...,...,...
401,1.0,0.0,0.0,0.0
402,0.0,0.0,1.0,0.0
403,0.0,1.0,0.0,0.0
404,1.0,0.0,0.0,0.0


### 7.3 Target
Der Mittelwert der Ziel Variable wird für jede Kategorie berechnet und als Wert für die entsprechende Kategorie verwendet  
Das Encodieren muss nach dem Data-Split erfolgen um ein Data Leakage zu vermeiden

In [42]:
from category_encoders.target_encoder import TargetEncoder

In [43]:
encoder = TargetEncoder()
train['Target_Hy'] = encoder.fit_transform(train['Hydrogeologie'],train['NO3'])
test['Target_Hy'] = encoder.transform(test['Hydrogeologie'])
train.head()

Unnamed: 0,Messstelle,NO3,O2,Hydrogeologie,NO3_norm,NO3_std,Corine,Artificial_Surface,Target_Hy
49,"BR 7 Hofgut Freudenberg, Heddesheim",0.366,0.394,Quartäre Kiese und Sande (GWL),0.001255,-0.847277,2,0,21.923846
298,"GWM E40 ZWK Kurpfalz, Schwetzingen",15.027586,5.883984,Quartäre Kiese und Sande (GWL),0.140704,-0.265988,1,1,21.923846
437,TB 2 Transportbeton Freiburg,16.5,6.939286,Quartäre Kiese und Sande (GWL),0.154709,-0.207611,1,1,21.923846
441,"TB 3 Firma Hansa Heemann AG, Bruchsal",0.287037,0.546296,Quartäre Kiese und Sande (GWL),0.000504,-0.850407,1,1,21.923846
382,"GWM Tief, Heddesheim",0.25,0.347619,Quartäre Kiese und Sande (GWL),0.000151,-0.851876,2,0,21.923846


## 8. Speichern der Ergebnisse

Um einen Datensatz zu speichern,ist es sinnvoll diesen als csv.Datei zu exportieren.

Das Exportieren erfolgt über den Befehl ".to_csv" für Dataframes.

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html

In [44]:
train.to_csv('res.csv')

## 9 Übung

Bereite jetzt selbst den Datensatz "Nitratmessungen_aufgabe.csv" auf:
1. Ersetze die Werte unter der NWG 
2. Ersetze alle NULL-Values
3. Aggregiere die Daten für jede Messstelle
4. Splitte die Date (85:15)
5. Standardisiere die numerischen Variablen
6. Encode die Landnutzung binär nach der Landwirtschaft (Corine = 2XX) --> vorhanden = 1, nicht vorhanden = 0
7. Taret-Encode die Hyrogeologie auf Basis der Nitratkonzentration
8. Speichere deine Ergebnisse
9. Fertig! :)

Tipps:
- für die Features der Sauerstoff-Konzentration und der Hydrogeologie liegen die NULL-Values nicht als diese direkt vor, hier ist es hilfreich mal die Features mit ".describe()" bzw. ".unique()" zu betrachten