# Data Mining Versuch Fahrzeugdaten

* Autor: Prof. Dr. Johannes Maucher

## Abgabe:

- **Abzugeben ist das Jupyter Notebook mit dem verlangten Implementierungen und den entsprechenden Ausgaben.**
- **Das Notebook ist als .ipynb und als .html abzugeben.**
- **Klausurelevante Fragen sind Dokument "Fragenkatalog Datamining" zu finden.**
- Antworten auf Fragen im Notebook, Diskussionen und Beschreibung der Ergebnisse sind optional (aber empfohlen) und werden nicht bewertet.

* [Übersicht Data Mining Praktikum](https://maucher.pages.mi.hdm-stuttgart.de/ai/page/dm/)


# Einführung

## Lernziele:

In diesem Versuch sollen Kenntnisse in folgenden Themen vermittelt werden:

* Datenimport und Datenexport von und zu 
    * Pandas Dataframes
    * PostgreSQL Datenbanken
* Explorative Datenanalysen (EDA)
* Datenvisualisierung mit Matplotlib und plotly
* Überwachtes Lernen eines Klassifikationsmodells
* Überwachtes Lernen eines Regressionsmodells
* Evaluation von Klassifikationsmodellen
* Evaluation von Regressionsmodellen
* Kreuzvalidierung
* Hyperparameteroptimierung

## Vorbereitung

### Datenbankzugriff

1. Installieren Sie PostgreSQL. Mit PostgreSQL sollte auch pgAdmin installiert werden. PgAdmin ist eine open-source Software für die Entwicklung und die Administration von PostgreSQL Datenbanken.
2. Legen Sie über pgAdmin eine Datenbank für das Datamining-Praktikum an. In diese Datenbank werden alle in diesem Versuch relevanten Tabellen geschrieben.
3. Für den Datenbankzugriff aus Python heraus wird in diesem Versuch [SQLAlchemy](http://docs.sqlalchemy.org/en/latest/intro.html) eingesetzt. Machen Sie sich mit den Basics von SQLAlchemy vertraut, z.B. mithilfe von [https://maucher.pages.mi.hdm-stuttgart.de/python4datascience/07DataBaseSQL.html#using-sqlalchemy-and-pandas](https://maucher.pages.mi.hdm-stuttgart.de/python4datascience/07DataBaseSQL.html#using-sqlalchemy-and-pandas), Abschnitt *Using SQLAlchemy and Pandas*.

### Pandas Dataframe

Machen Sie sich mit den Grundlagen von Pandas vertraut.


### Machine Learning

Machen Sie sich mit Entscheidungsbäumen, Random Forest, Single Layer Perzeptron und Multi Layer Perzeptron vertraut. 

# Durchführung

## Einlesen der Daten aus .csv und Ablage in PostgreSQL
In diesem ersten Teil des Versuchs sollen die relevanten Daten aus dem .csv-File eingelesen und in einer PostgreSQL-Tabelle abgelegt werden. Das benötigte File `Fahrzeuginformationen.csv` liegt im aktuellen Verzeichnis.

In [1]:
#conda install -y psycopg2
#!conda install -y -c anaconda sqlalchemy

In [2]:
import pandas as pd
import numpy as np

from sqlalchemy import create_engine, inspect, text
import psycopg2

from sklearn.preprocessing import LabelBinarizer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, confusion_matrix, ConfusionMatrixDisplay
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import mean_squared_error, mean_absolute_error, median_absolute_error, r2_score
from sklearn.linear_model import SGDRegressor
from sklearn.neural_network import MLPRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV

from pandas.api.types import is_numeric_dtype
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

In [3]:
pd.set_option('display.max_columns', None)

1. Laden Sie die .csv-Datei in einen Pandas Dataframe. 

In [4]:
df = pd.read_csv(r'..\Experiment 1\Fahrzeuginformationen.csv')

2. Zeigen Sie für den angelegten Dataframe 
    * die ersten 10 Zeilen

In [5]:
df[:10]

Unnamed: 0,HST Benennung,HT Benennung,UT Benennung,Karosserie,Neupreis Brutto,Produktgruppe,Kraftstoffart,Schadstoffklasse,CCM,KW,HST PS,Getriebeart,Getriebe Benennung,Anzahl der Türen,Leergewicht,Zuladung,Zulässiges GG,Länge,Breite,Höhe,CO2-Emissionen,Min Energieeffizienzklasse,Antrieb,KSTA Motor,HST-HT Benennung
0,Volkswagen,T6 Bus (SG)(05.2015->),Multivan Trendline,Bs,37962,T5-Klasse Pkw,BS,E6,1896,112,154,Schaltgetriebe,Getriebe 6-Gang,4,2211,905,2967.615635,4852,1849,2019,218,D,FA,STANDARD ->B,Volkswagen-T6 Bus (SG)(05.2015->)
1,Volkswagen,T6 Bus (SG)(05.2015->),Multivan Comfortline,Bs,45294,T5-Klasse Pkw,BS,E6,1990,110,148,Schaltgetriebe,Getriebe 6-Gang,4,2243,753,3061.848723,4859,1827,1938,218,D,FA,STANDARD ->B,Volkswagen-T6 Bus (SG)(05.2015->)
2,Volkswagen,T6 Bus (SG)(05.2015->),Multivan Generation Six,Bs,48675,T5-Klasse Pkw,BS,E6,1943,110,150,Schaltgetriebe,Getriebe 6-Gang,4,2282,768,3018.887414,4788,1823,1990,218,D,FA,STANDARD ->B,Volkswagen-T6 Bus (SG)(05.2015->)
3,Volkswagen,T6 Bus (SG)(05.2015->),Multivan 70 Jahre Bulli,Bs,47201,T5-Klasse Pkw,BS,E6,2013,110,153,Schaltgetriebe,Getriebe 6-Gang,4,1954,1007,3096.198902,4927,1952,1935,210,D,FA,STANDARD ->B,Volkswagen-T6 Bus (SG)(05.2015->)
4,Volkswagen,T6 Bus (SG)(05.2015->),Multivan Join,Bs,49453,T5-Klasse Pkw,BS,E6,1945,112,152,Schaltgetriebe,Getriebe 6-Gang,4,1984,972,3068.590854,4916,1872,2026,210,D,FA,STANDARD ->B,Volkswagen-T6 Bus (SG)(05.2015->)
5,Volkswagen,T6 Bus (SG)(05.2015->),Multivan PanAmericana,Bs,50795,T5-Klasse Pkw,BS,E6,1938,109,154,Schaltgetriebe,Getriebe 6-Gang,4,2266,823,3046.890761,4886,1895,1933,210,D,FA,STANDARD ->B,Volkswagen-T6 Bus (SG)(05.2015->)
6,Volkswagen,T6 Bus (SG)(05.2015->),Multivan Edition,Bs,51605,T5-Klasse Pkw,BS,E6,1956,111,152,Schaltgetriebe,Getriebe 6-Gang,4,2165,724,2957.083511,4658,1946,1954,210,D,FA,STANDARD ->B,Volkswagen-T6 Bus (SG)(05.2015->)
7,Volkswagen,T6 Bus (SG)(05.2015->),Multivan Join lang,Bs,54560,T5-Klasse Pkw,BS,E6,1946,110,155,Schaltgetriebe,Getriebe 6-Gang,4,2127,960,3099.520813,5162,1883,2000,212,D,FA,STANDARD ->B,Volkswagen-T6 Bus (SG)(05.2015->)
8,Volkswagen,T6 Bus (SG)(05.2015->),Multivan Highline,Bs,57729,T5-Klasse Pkw,BS,E6,1966,106,154,Schaltgetriebe,Getriebe 6-Gang,4,2317,707,3033.083391,4994,1871,1980,218,D,FA,STANDARD ->B,Volkswagen-T6 Bus (SG)(05.2015->)
9,Volkswagen,T6 Bus (SG)(05.2015->),Multivan Business,Bs,97850,T5-Klasse Pkw,BS,E6,2029,106,152,Schaltgetriebe,Getriebe 6-Gang,4,2362,605,3006.976797,4948,1900,1931,218,D,FA,STANDARD ->B,Volkswagen-T6 Bus (SG)(05.2015->)


* die Größe (Anzahl Zeilen und Anzahl Spalten)

In [6]:
print(f'Rows: {df.shape[0]}; Columns: {df.shape[1]}')

Rows: 24194; Columns: 25


  * die Anzahl der NaNs pro Spalte <br>
    an. 

In [7]:
df.isna().sum()

HST Benennung                 0
HT Benennung                  0
UT Benennung                  0
Karosserie                    0
Neupreis Brutto               0
Produktgruppe                 0
Kraftstoffart                 0
Schadstoffklasse              0
CCM                           0
KW                            0
HST PS                        0
Getriebeart                   0
Getriebe Benennung            0
Anzahl der Türen              0
Leergewicht                   0
Zuladung                      0
Zulässiges GG                 0
Länge                         0
Breite                        0
Höhe                          0
CO2-Emissionen                0
Min Energieeffizienzklasse    0
Antrieb                       0
KSTA Motor                    0
HST-HT Benennung              0
dtype: int64

3. Zeigen Sie mit der Pandas-Dataframe Methode `info()`, den Datentyp aller Spalten an. Der Typ der Spalte `CO2-Emissionen` ist tatsächlich kein numerischer Typ. Finden Sie heraus warum das so ist. Beheben Sie den *Fehler* und sorgen Sie dafür, dass auch diese Spalte einen numerischen Typ hat.

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24194 entries, 0 to 24193
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   HST Benennung               24194 non-null  object 
 1   HT Benennung                24194 non-null  object 
 2   UT Benennung                24194 non-null  object 
 3   Karosserie                  24194 non-null  object 
 4   Neupreis Brutto             24194 non-null  int64  
 5   Produktgruppe               24194 non-null  object 
 6   Kraftstoffart               24194 non-null  object 
 7   Schadstoffklasse            24194 non-null  object 
 8   CCM                         24194 non-null  int64  
 9   KW                          24194 non-null  int64  
 10  HST PS                      24194 non-null  int64  
 11  Getriebeart                 24194 non-null  object 
 12  Getriebe Benennung          24194 non-null  object 
 13  Anzahl der Türen            241

<b>Antwort:</b> <br>
Mit `df['CO2-Emissionen'].astype(float)` und `pd.to_numeric(df['CO2-Emissionen'])` wurde probiert die Werte der CO2-Emissionen als numerische Werte umzuwandeln, was in einer Fehlermedlung endete.
Die Werte der Spalte `CO2-Emissionen` werden als Typ `object` erkannt und lassen sich nicht in einen numerischen Wert umwandeln.
Wieso? : Manche der Werte sind als `float`-Werte gespeichert, jedoch mit einem Komma (,), was in Python nicht üblich ist. In Python werden `float`-Werte immer mit einem Punkt (.) definiert.
Lösung: Die Kommas in den Werten durch Punkte umtauschen und die Werte schlussendlich mit `.astype(float)` oder `pd.to_numeric(df['CO2-Emissionen'])` zu numerischne Werten (float) umwandeln.

In [9]:
df['CO2-Emissionen'] = [i.replace(',', '.') for i in df['CO2-Emissionen']]

In [10]:
df['CO2-Emissionen'] = pd.to_numeric(df['CO2-Emissionen'])

# OR df['CO2-Emissionen'] = df['CO2-Emissionen'].astype(float)

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24194 entries, 0 to 24193
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   HST Benennung               24194 non-null  object 
 1   HT Benennung                24194 non-null  object 
 2   UT Benennung                24194 non-null  object 
 3   Karosserie                  24194 non-null  object 
 4   Neupreis Brutto             24194 non-null  int64  
 5   Produktgruppe               24194 non-null  object 
 6   Kraftstoffart               24194 non-null  object 
 7   Schadstoffklasse            24194 non-null  object 
 8   CCM                         24194 non-null  int64  
 9   KW                          24194 non-null  int64  
 10  HST PS                      24194 non-null  int64  
 11  Getriebeart                 24194 non-null  object 
 12  Getriebe Benennung          24194 non-null  object 
 13  Anzahl der Türen            241

4. Schreiben Sie den im vorigen Schritt angepassten Dataframe mit der Pandas Methode `to_sql()` in eine Datenbanktabelle mit dem Namen `vehicledata`.

In [12]:

conn_str = 'postgresql://postgres:1234@localhost:5432/postgres'
engine = create_engine(conn_str).connect()

inspec = inspect(engine)

df.to_sql(name = 'vehicledata', con=engine, if_exists='replace')
print(inspec.has_table("vehicledata"))


'\nconn_str = \'postgresql://postgres:1234@localhost:5432/postgres\'\nengine = create_engine(conn_str).connect()\n\ninspec = inspect(engine)\n\ndf.to_sql(name = \'vehicledata\', con=engine, if_exists=\'replace\')\nprint(inspec.has_table("vehicledata"))\n'

## Exemplarische Datenbankabfragen

1. Verwenden Sie Pandas Dataframe Methode `read_sql_query()` um 3 für Sie interessante Datenbankabfragen zu implementieren. Die Resultate der Abfragen werden in einen Pandas Dataframe geschrieben. Zeigen Sie diese an. 

In [13]:
abfrage_1 = pd.read_sql_query('''SELECT "Produktgruppe" FROM "vehicledata"''', engine)
print(abfrage_1)

abfrage_2 = pd.read_sql_query('''SELECT * FROM "vehicledata" WHERE "Produktgruppe" = 'Van' ''', engine)
print(abfrage_2)

abfrage_3 = pd.read_sql_query('''SELECT "CO2-Emissionen","Produktgruppe" FROM "vehicledata" WHERE "CO2-Emissionen" = '92' ''', engine)
print(abfrage_3)

NameError: name 'engine' is not defined

## Data Exploration

1. Zeigen Sie für alle Spalten die Anzahl der unterschiedlichen Werte in dieser Spalte an.

In [None]:
df.nunique()

2. Benutzen Sie die Pandas Dataframe Methode `describe()` um sämtliche deskriptiven Statistiken anzuzeigen.

In [None]:
df.describe()

3. Legen Sie eine Liste `numeric_features` an, welche nur die Spaltennamen der numerischen Spalten enthält.

In [None]:
numeric_features = [i for i in df.columns.values if is_numeric_dtype(df[i]) == True]
numeric_features

4. Schreiben Sie die Namen aller nicht-numerischen Spalten in eine Liste `categoric_features`.

In [None]:
categoric_features = [i for i in df.columns.values if is_numeric_dtype(df[i]) == False]
categoric_features

5. Visualisieren Sie für die Spalten `HST_Benennung`, `Neupreis Brutto`, `CO2-Emissionen` und `Produktgruppe` die Verteilung der Werte in einem Barplot bzw. Histogramm.

In [None]:
df_for_plot_hst = df['HST Benennung'].value_counts()
df_for_plot_neupreis = df['Neupreis Brutto'].value_counts()
df_for_plot_co2 = df['CO2-Emissionen'].value_counts()
df_for_plot_produkt = df['Produktgruppe'].value_counts()

In [None]:
df_for_plot_hst

In [None]:
fig, axes = plt.subplots(nrows=1, ncols=2)

df_for_plot_hst.plot(ax=axes[0], kind='bar', title='HST Benennung / BAR', figsize=(15, 10))
df_for_plot_hst.plot(ax=axes[1], kind='hist', title='HST Benennung / HIST', figsize=(15, 10))

fig.set_figheight(5)
fig.set_figwidth(15)

plt.show()

In [None]:
fig2, axes = plt.subplots(nrows=1, ncols=2)

df_for_plot_neupreis[:100].plot(ax=axes[0], kind='bar', title='Neupreis Brutto / BAR', figsize=(15, 10))
df_for_plot_neupreis.plot(ax=axes[1], kind='hist', title='Neupreis Brutto / HIST', figsize=(15, 10))

fig2.set_figheight(5)
fig2.set_figwidth(15)

plt.show()

In [None]:
fig3, axes = plt.subplots(nrows=1, ncols=2)

df_for_plot_co2.plot(ax=axes[0], kind='bar', title='CO2 Emission / BAR', figsize=(15, 10))
df_for_plot_co2.plot(ax=axes[1], kind='hist', title='CO2 Emission / HIST', figsize=(15, 10))

fig3.set_figheight(5)
fig3.set_figwidth(15)

plt.show()

In [None]:
fig4, axes = plt.subplots(nrows=1, ncols=2)

df_for_plot_produkt.plot(ax=axes[0], kind='bar', title='Produktgruppe / BAR', figsize=(15, 10))
df_for_plot_produkt.plot(ax=axes[1], kind='hist', title='Produktgruppe / HIST', figsize=(15, 10))

fig4.set_figheight(5)
fig4.set_figwidth(15)

plt.show()

## Machine Learning 1: Produktgruppenbestimmung

In diesem Abschnitt soll ein Klassifikator trainiert werden, welcher anhand von Eingabemerkmalen, wie *Breite*, *Höhe*, *Gewicht* usw. das zugehörige Fahrzeugsegment (`Produktgruppe`) vorhersagt.

In diesem Teilversuch sollen als Eingabemerkmale die zuvor in `numeric_features` definierten Spalten und die nicht-numerischen Spalten `Antrieb`, `Kraftstoffart`, `KSTA Motor` verwendet werden. Die Zielvariable (Ausgabe) stellt die Spalte `Produktgruppe` dar.


### Produktgrunppenspezifische Visualisierung

1. Plotten Sie für die drei oben angegebenen nicht-numerischen Merkmale jeweils eine Produktgruppen-spezifische Häufigkeitsverteilung in der unten dargestellten Form.<br>
<img src="https://maucher.home.hdm-stuttgart.de/Pics/antrieb_produktgruppe.png" style="width:500px" align="center">

In [None]:
df.groupby(['Produktgruppe', 'Antrieb']).size().unstack().plot(kind='barh', 
                                                               stacked=True, 
                                                               figsize=(10, 8), 
                                                               title='Antrieb pro Produktgruppe', 
                                                               xlabel='Anzahl')

In [None]:
df.groupby(['Produktgruppe', 'Kraftstoffart']).size().unstack().plot(kind='barh', 
                                                               stacked=True, 
                                                               figsize=(10, 8), 
                                                               title='Kraftstoffart pro Produktgruppe', 
                                                               xlabel='Anzahl')

In [None]:
df.groupby(['Produktgruppe', 'KSTA Motor']).size().unstack().plot(kind='barh', 
                                                               stacked=True, 
                                                               figsize=(10, 8), 
                                                               title='KSTA Motor pro Produktgruppe', 
                                                               xlabel='Anzahl')

2. Plotten Sie für alle numerischen Merkmale jeweils einen Produktgruppen-spezifischen Boxplot in der unten dargestellten Form.<br>
<img src="https://maucher.home.hdm-stuttgart.de/Pics/neupreis_produktgruppe.png" style="width:500px" align="center">

In [None]:
sns.boxplot(x="Neupreis Brutto", 
            y='Produktgruppe', 
            data=df,
            orient='h',
            hue='Produktgruppe',
            palette='tab10').set_title('Neupreis Brutto pro Produktgruppe')

sns.set(rc={"figure.figsize":(5, 12)})

In [None]:
sns.boxplot(x="CCM", 
            y='Produktgruppe', 
            data=df,
            orient='h',
            hue='Produktgruppe',
            palette='tab10').set_title('CCM pro Produktgruppe')

sns.set(rc={"figure.figsize":(5, 12)})

In [None]:
sns.boxplot(x="KW", 
            y='Produktgruppe', 
            data=df,
            orient='h',
            hue='Produktgruppe',
            palette='tab10').set_title('KW pro Produktgruppe')

sns.set(rc={"figure.figsize":(5, 12)})

In [None]:
sns.boxplot(x="HST PS", 
            y='Produktgruppe', 
            data=df,
            orient='h',
            hue='Produktgruppe',
            palette='tab10').set_title('HST PS pro Produktgruppe')

sns.set(rc={"figure.figsize":(5, 12)})

In [None]:
sns.boxplot(x="Anzahl der Türen", 
            y='Produktgruppe', 
            data=df,
            orient='h',
            hue='Produktgruppe',
            palette='tab10').set_title('Anzahl der Türen pro Produktgruppe')

sns.set(rc={"figure.figsize":(5, 12)})

In [None]:
sns.boxplot(x="Leergewicht", 
            y='Produktgruppe', 
            data=df,
            orient='h',
            hue='Produktgruppe',
            palette='tab10').set_title('Leergewicht pro Produktgruppe')

sns.set(rc={"figure.figsize":(5, 12)})

In [None]:
sns.boxplot(x="Zuladung", 
            y='Produktgruppe', 
            data=df,
            orient='h',
            hue='Produktgruppe',
            palette='tab10').set_title('Zuladung pro Produktgruppe')

sns.set(rc={"figure.figsize":(5, 12)})

In [None]:
sns.boxplot(x="Zulässiges GG", 
            y='Produktgruppe', 
            data=df,
            orient='h',
            hue='Produktgruppe',
            palette='tab10').set_title('Zulässiges GG pro Produktgruppe')

sns.set(rc={"figure.figsize":(5, 12)})

In [None]:
sns.boxplot(x="Länge", 
            y='Produktgruppe', 
            data=df,
            orient='h',
            hue='Produktgruppe',
            palette='tab10').set_title('Länge pro Produktgruppe')

sns.set(rc={"figure.figsize":(5, 12)})

In [None]:
sns.boxplot(x="Breite", 
            y='Produktgruppe', 
            data=df,
            orient='h',
            hue='Produktgruppe',
            palette='tab10').set_title('Breite pro Produktgruppe')

sns.set(rc={"figure.figsize":(5, 12)})

In [None]:
sns.boxplot(x="Höhe", 
            y='Produktgruppe', 
            data=df,
            orient='h',
            hue='Produktgruppe',
            palette='tab10').set_title('Höhe pro Produktgruppe')

sns.set(rc={"figure.figsize":(5, 12)})

In [None]:
sns.boxplot(x="CO2-Emissionen", 
            y='Produktgruppe', 
            data=df,
            orient='h',
            hue='Produktgruppe',
            palette='tab10').set_title('CO2-Emissionen pro Produktgruppe')

sns.set(rc={"figure.figsize":(5, 12)})

3. Erzeugen Sie mit [plotly.express scatter()](https://plotly.com/python/line-and-scatter/) einen 2-dimensionalen Plot, in dem alle Fahrzeuge wie folgt dargestellt werden (pro Fahrzeug ein Marker):
- x-Achse: `Länge`
- y-Achse: `Höhe`
- Farbe des Markers: `Produktgruppe`
- Größe des Markers: `Leergewicht`
- Bei *Mouse-Over* soll für den jeweiligen Marker der entsprechende Wert von `Neupreis Brutto` und `HST-HT Benennung` angezeigt werden. 

In [None]:
fig = px.scatter(df, 
                 x='Länge', 
                 y='Höhe', 
                 color='Produktgruppe',
                 size='Leergewicht', 
                 hover_data={'Neupreis Brutto': True, 
                             'HST-HT Benennung': True},
                title='Scatter Plot'
                )
fig.show()

### Data Encoding

1. Categoriale Merkmale ohne Ordnungsrelation (=nominale Merkmale) müssen One-Hot-Encodiert werden. Führen Sie für die drei categorialen Merkmale ein One-Hot-Encoding mit dem [scikit-learn LabelBinarizer](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelBinarizer.html) durch.

In [None]:
def one_hot_encoding(lb, feature):
    lb.fit(feature)
    return lb.transform(list(feature))

2. Fügen Sie die one-hot-encodierten Spalten mit den numerischen Spalten zusammen. Weisen Sie die entsprechende Eingabedatenmatrix einem 2-dimensionalen numpy-array `X` zu. 

In [None]:
lb = LabelBinarizer()

cat_features = ['Antrieb', 'Kraftstoffart', 'KSTA Motor']

for feature in cat_features:
    cats = df[feature].value_counts().index
    sep_cats = [i.strip() for i in cats]
    cats_count = len(sep_cats)

    ohe_values = one_hot_encoding(lb=lb, feature=df[feature])

    for i in range(cats_count):
        values_list = [j[i] for j in ohe_values]
        df[f"{feature}_{sep_cats[i]}"] = values_list

In [None]:
numeric_features = [i for i in df.columns.values if is_numeric_dtype(df[i]) == True]
X = df[numeric_features]

In [None]:
X

3. Führen Sie auf die Zielvariable `Produktgruppe` ein Label-Encoding mit [scikit-learn LabelEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html#sklearn.preprocessing.LabelEncoder) aus. Weisen Sie diese Daten dem 1-dimensionalen numpy-array `y` zu.

In [None]:
le = LabelEncoder()
le.fit(df['Produktgruppe'])
lb_produktgruppe = le.transform(df['Produktgruppe'])
y = lb_produktgruppe

In [None]:
y

### Generate Training- and Testpartition
Benutzen Sie die [scikit-learn Methode train_test_split()](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) um `X` und `y` in einer Trainings- und Testpartition aufzuteilen. 30% der Daten soll für das Testen, 70% für das Training benutzt werden.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
print(len(X))
print(len(X_train))
print(len(X_test))
print('-------------')
print(len(y))
print(len(y_train))
print(len(y_test))

### Decision Tree Training, Test and Evaluation

1. Trainieren Sie einen [Entscheidungsbaum](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html) mit den Trainingsdaten.

In [None]:
clf_dt = DecisionTreeClassifier(random_state=42)
clf_dt = clf_dt.fit(X_train, y_train)

2. Wenden Sie den gelernten Entscheidungsbaum auf die Testdaten an.

In [None]:
clf_dt.predict(X_test)

3. Evaluieren Sie die Qualität des Entscheidungsbaumes indem Sie 
     - einen [classification_report](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html) erzeugen. 

In [None]:
y_true = y_test
y_pred = clf_dt.predict(X_test)

In [None]:
print(classification_report(y_true, y_pred))

Antwort:<br><br>
- Aus der Precision lässt sich erkennen, dass ein Großteil der Produktgruppen meistes richtig erkannt wird (`True-Postive`). Allerdings werden Produktgruppen wie zum Beispiel der Kleinwagen, oder Kleintransporter/Pkw, öfter als `False-Positive` erkannt, als `True-Positive`.
- Aus dem Recall lässt sich der genaue Prozentwert der Treffer herauslesen. 
    - Die meisten werden tatsächlcih gut erkannt, bis auf den Pkw und den Kleinwagen
    - Die Luxuslimousine und Sprinterklasse haben wenig `False-Negative`
- F1-Score ist das harmonische Mittel aus Precision und Recall und bestätigt die bisherigen Annahmen

- die [confusion matrix](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.ConfusionMatrixDisplay.html) plotten.

In [None]:
cm = confusion_matrix(y_test, y_pred, labels=clf_dt.classes_)

disp = ConfusionMatrixDisplay(confusion_matrix=cm,
                              display_labels=clf_dt.classes_,)

fig, ax = plt.subplots(figsize=(20, 20))

disp.plot(ax=ax)

# Die Nummern auf den Axen entsprechen den Produktgruppen (labels)

4. Interpretieren Sie das Ergebnis.

Die Diagonale ist erkennbar, was auf `True-Positive` Werte hindeutet. Allerdings kommen bei ähnlichen Produktgruppen `False-Postiv` Werte raus. <br><br>
<b>Beipsiele:</b>
- Der Coupé Mittelklasse und sport Coupé werden öfter als `False-Postive` erkannt, da diese ähnliche Bausgröße/Krafstoffverbrauch haben
- Der LKW wird öfter mit dem Mini-Van und Van verwechselt

5. Führen Sie eine [10-fache Kreuzvalidierung](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html) des Entscheidungsbaumes mit den Daten `X` und `y` aus. Interpretieren Sie das Ergebnis.

In [None]:
print(cross_val_score(clf_dt, X, y, cv=10))

Antwort:<br><br>
Die 10-fache Kreuzvalidierung erzeugt 10 Partitionen des Datensatzes und trainiert 10 Mal den Decision Tree jeweils mit den Partitionen.<br>
Dadurch wird der trainierte Decision Tree auf unterschiedlichen Partitionen gestestet.<br>
Da wir eine Range ~9% haben, deutete es darauf hin, dass die unterschiedlichen Produktgruppen nicht gleich häufig im Datensatz vorkommen (Vermutung anhand der Abweichung).

6. Bestimmen Sie die *Wichtigkeit* der Eingabemerkmale für die Klassifikationsaufgabe, indem Sie auf den in 1.) gelernten DecisionTree das Attribut `feature_importance_` abfragen. Stellen Sie die Werte in einem Barplot dar.

In [None]:
clf_dt.feature_importances_

In [None]:
bar_df = pd.DataFrame({
    'feature': X.columns,
    'value': clf_dt.feature_importances_
})

sns.barplot(bar_df, x="value", y="feature", orient='y').set_title('Relevanz der features')
sns.set(rc={"figure.figsize":(7, 14)})

### Random Forest Training, Test and Evaluation
Wiederholen Sie die Teilaufgaben 1. bis 5. des Entscheidungsbaums für einen [Random Forest](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html). Vergelichen Sie die Performance der beiden Verfahren.

In [None]:
clf_rf = RandomForestClassifier(random_state=42)
clf_rf.fit(X_train, y_train)

In [None]:
clf_rf.predict(X_test)

In [None]:
y_true = y_test
y_pred = clf_rf.predict(X_test)

In [None]:
print(classification_report(y_true, y_pred))

Antwort:<br><br>
Die Ergebnisse haben sich im Vergleich zum Decision Tree deutlich verbessert.<br>
Trotz dessen gibt es kleine Ausreißer wie Kleintransporter/Pkw und Kleinwagen, welche immernoch einen schlechten Wert vorweisen.<br>
Ähnich lässt es sich aus der Cunfusion Matrix herauslesen. Die Accuracy wurde besser, jedoch nicht perfekt.

In [None]:
cm = confusion_matrix(y_test, y_pred, labels=clf_rf.classes_)

disp = ConfusionMatrixDisplay(confusion_matrix=cm,
                              display_labels=clf_rf.classes_,)

fig, ax = plt.subplots(figsize=(20,20))

disp.plot(ax=ax)

In [None]:
print(cross_val_score(clf_rf, X, y, cv=10))

Antwort:<br><br>
Die Abweichung der Werte liegt wieder bei ~9%. Die Werte sind generell höher als beim Decision Tree, dass heißt der Random Forest ist besser angepasst.

In [None]:
clf_rf.feature_importances_

In [None]:
bar_df = pd.DataFrame({
    'feature': X.columns,
    'value': clf_rf.feature_importances_
})

sns.barplot(bar_df, x="value", y="feature", orient='y').set_title('Relevanz der features')
sns.set(rc={"figure.figsize":(7, 14)})

## Machine Learning 2: Schätzung der CO2-Emission
In diesem Teilversuch soll aus den Eingabemerkmalen 

`"CCM","HST PS", "Anzahl der Türen", "Leergewicht", "Zuladung", "Länge", "Breite", "Höhe"`

die Zielvariable 

`CO2-Emissionen`

geschätzt werden. Hierzu soll ein möglichst gutes Regressionsmodell trainiert werden.

In [None]:
co2_df = df[["CCM", "HST PS", "Anzahl der Türen", "Leergewicht", "Zuladung", "Länge", "Breite", "Höhe", "CO2-Emissionen"]]

In [None]:
co2_df.head()

### Visuelle Korrelationsanalyse

1. Stellen Sie für jedes der 8 Eingabemerkmale die Korrelation mit der Zielvariablen visuell in einem Scatterplot dar, in dem das jeweilige Eingabemerkmal auf der x-Achse und die Zielvariable auf der y-Achse aufgetragen wird.

In [None]:
px.scatter(co2_df,
           x='CCM', 
           y='CO2-Emissionen',
           title='CCM im Vergleich zur CO2-Emissionen')

In [None]:
px.scatter(co2_df,
           x='HST PS', 
           y='CO2-Emissionen',
           title='HST PS im Vergleich zur CO2-Emissionen')

In [None]:
px.scatter(co2_df,
           x='Anzahl der Türen', 
           y='CO2-Emissionen',
           title='Anzahl der Türen im Vergleich zur CO2-Emissionen')

In [None]:
px.scatter(co2_df,
           x='Leergewicht', 
           y='CO2-Emissionen',
           title='Leergewicht im Vergleich zur CO2-Emissionen')

In [None]:
px.scatter(co2_df,
           x='Zuladung', 
           y='CO2-Emissionen',
           title='Zuladung im Vergleich zur CO2-Emissionen')

In [None]:
px.scatter(co2_df,
           x='Länge', 
           y='CO2-Emissionen',
           title='Länge im Vergleich zur CO2-Emissionen')

In [None]:
px.scatter(co2_df,
           x='Breite', 
           y='CO2-Emissionen',
           title='Breite im Vergleich zur CO2-Emissionen')

In [None]:
px.scatter(co2_df,
           x='Höhe', 
           y='CO2-Emissionen',
           title='Höhe im Vergleich zur CO2-Emissionen')

2. Diskutieren Sie die Korrelationen. Welche Merkmale korrelieren am stärksten mit der Zielvariable? Erscheint Ihnen das plausibel?

Antwort: <br><br>
- Anzahl der Türen erscheint nutzlos
- Am stärksten koorelieren CCM und HST PS, da diese direkt mit dem Spritverbrauch korrelieren
- Länge und Breite korrleiren einigermaßen mit der Zielvariable, weil ein längeres und breiteres Auto in der Regel mehr wiegt und somit einen höhren Spritverbrauch haben
    - Auch in Hinsicht auf den Luftwiderstand bei der Form/Länge/Breite des Wagens

### Data Encoding

1. Weisen Sie die Matrix der Eingabedaten dem 2-dimensionalen Array `X` und die Zielvariable dem 1-dimensionalen Array `y` zu.

In [None]:
X2 = co2_df.iloc[:, :-1]
y2 = co2_df.iloc[:, -1:]

In [None]:
X2.head()

In [None]:
y2.head()

2. Führen Sie auf `X` und `y` eine Partitionierung in Trainings- und Testdaten durch, wieder im Verhältnis 70/30.

In [None]:
X2_train, X2_test, y2_train, y2_test = train_test_split(X2, y2, test_size=0.3, random_state=42)

In [None]:
print(len(X2))
print(len(X2_train))
print(len(X2_test))
print('-------------')
print(len(y2))
print(len(y2_train))
print(len(y2_test))

3. Skalieren Sie die Eingabevariablen und die Zielvariable mit dem [MinMaxScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html). Die Skalierung muss sowohl auf Trainings- als auch auf Testdaten ausgeführt werden. Warum darf die Skalierung erst nach dem Split in die beiden Partitionen ausgeführt werden? Worauf ist zu achten? 

In [None]:
scaler = MinMaxScaler()

In [None]:
scaler.fit(X2_train)
X2_train = scaler.transform(X2_train)

In [None]:
scaler.fit(X2_test)
X2_test = scaler.transform(X2_test)

In [None]:
scaler.fit(y2_train)
y2_train = scaler.transform(y2_train)

In [None]:
scaler.fit(y2_test)
y2_test = scaler.transform(y2_test)

In [None]:
X2_train

In [None]:
X2_test

In [None]:
y2_train

In [None]:
y2_test

Antwort:<br><br>
- Man will in jeder Partition (Training und Test) jeweils eine Skala von 0 bis 1 haben
- Wenn man vor der Partition skalieren würde, könnte man nicht garantieren, dass beide Partitionen eine Skala von 0 bis 1 haben

### Training, Test und Evaluation verschiedener Regressionsmodelle

Führen Sie die folgenden Teilaufgaben sowohl für ein [Single Layer Perceptron](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html) als auch für ein [Multi Layer Perceptron](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPRegressor.html) mit 20 Neuronen in der Hidden-Schicht durch. Vergleichen Sie am Ende die Performance der beiden Verfahren.

In [None]:
def determineRegressionMetrics(y_test,y_pred,title=""):
    mse = mean_squared_error(y_test, y_pred)
    mad = mean_absolute_error(y_test, y_pred)
    rmsle=np.sqrt(mean_squared_error(np.log(y_test+1),np.log(y_pred+1)))# +1 for avoiding log(0) 
    r2=r2_score(y_test, y_pred)
    med=median_absolute_error(y_test, y_pred)
    print(title)
    print("Mean absolute error =", round(mad, 2))
    print("Mean squared error =", round(mse, 2))
    print("Median absolute error =", round(med, 2))
    print("R2 score =", round(r2, 2))
    print("Root Mean Squared Logarithmic Error =",rmsle)

### Single Layer Perceptron

1. Trainieren Sie den Algorithmus mit den Trainingsdaten.

In [None]:
reg_sl = SGDRegressor(random_state=42)
reg_sl.fit(X2_train, y2_train)

2. Wenden Sie das gelernte Modell auf die Testdaten an.

In [None]:
reg_sl.predict(X2_test)

### Multilayer Perceptron

1. Trainieren Sie den Algorithmus mit den Trainingsdaten.
2. Wenden Sie das gelernte Modell auf die Testdaten an.

In [None]:
reg_ml = MLPRegressor(random_state=42, hidden_layer_sizes=20)
reg_ml.fit(X2_train, y2_train)

In [None]:
reg_ml.predict(X2_test)

### Vergleich

3. Evaluieren Sie die Qualität der Modelle, indem Sie auf die vorhergesagten Ausgaben und die wahren Ausgaben die unten gegebene Funktion aufrufen.

In [None]:
single_metrics = determineRegressionMetrics(y_test=y2_test, y_pred=reg_sl.predict(X2_test))

In [None]:
multi_metrics = determineRegressionMetrics(y_test=y2_test, y_pred=reg_ml.predict(X2_test))

Antwort: <br><br>
- Die Modelle liefern sehr geringe Fehlerwerte und somit einen sehr guten Wert bei der Predictoin
- Die Ergebnisse der verschiedenen Metriken weichen nur minimal voneinander ab. Somit liefern die beiden Ansätze (Single Layer Perceptron und Multi Layer Perceptron) die gleichen Ergebnisse

4. Beschreiben Sie kurz die in der Funktion verwendeten Metriken

**Mean Absolute Error:** It measures the average absolute difference between the predicted values and the actual target values<br>
**Mean Squared Error:** It calculates the average of the squares of the errors<br>
**Median Absolute Error:** It calculates the median between the predicted values and the actual target values<br>
**R2 Score:** R² kann zwischen 0 un 1 liegen. Es erklärt wie gut ein Modell die Varianz der abhängigen Variablen erklärt.<br>
**Root Mean Squared Logarithmis Error:** It calculates the average of the squares of the errors, but focuse more on the error count and less on the values of the erros

### Hyperparameteroptimierung

Für ein [Multi Layer Perceptron](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPRegressor.html) soll eine Hyperparameteroptimierung durchgeführt werden. Ziel ist es innerhalb der unten vorgegebenen Wertebereiche für die Hyperparameter `hidden_layer_sizes`, `activation` und `learning_rate` die beste Konfiguration zu finden. Hierzu kann entweder [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCV) oder [RandomizedSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html) eingesetzt werden. GridSearchCV testet einfach alle Konfigurationen durch, benötigt daher aber viel Zeit. RandomizedSearchCV geht heuristisch und damit schneller durch den Suchraum. Wenden Sie eines dieser beiden Verfahren an, um für das unten gegebene Parameter-Grid die optimale Konfiguration zu finden. Welches ist die optimale Konfiguration und zu welchem `neg_mean_absolute_error` führt diese wenn man das scoring argument der Funktion entsprechend einstellt?

In [None]:
regr = MLPRegressor(random_state=42)

In [None]:
param_grid = [{'hidden_layer_sizes': [(10,),(20,),(30,),(40,),(50,),(100,),(10,10)], 
               'activation': ["logistic", "tanh", "relu"], 
               'learning_rate': ["constant", "invscaling", "adaptive"]}]

In [None]:
rs_m = RandomizedSearchCV(regr, param_distributions=param_grid, scoring='neg_mean_absolute_error')

In [None]:
rs_m.fit(X2_train, y2_train)

In [None]:
rs_m.best_params_

In [None]:
rs_m.best_score_

Beim neg_mean_absolute_error deutet ein Wert, der näher an Null liegt (also ein kleinerer negativer Wert), auf eine bessere Modellleistung hin.