## 1. Vorbereitungen

Sie versuchen mittels Business Intelligence im Kontext einer internationalen Hotelkette die Hotelstornierungen (abhängige Variable: canceled) vorherzusagen. Dafür stehen Ihnen insgesamt acht unabhängige Variablen zur Verfügung. Vergleichen Sie die Performance eines auf Statistik basierenden Business Intelligence Ansatzes mit der Performance eines Neuronalen Netz als Teilbereich der Künstlichen Intelligenz. Im Rahmen des Vergleichs sind insgesamt 15 Fragen vorgegeben, die gleichermaßen für die Bewertung Ihrer Prüfungsleistung im Modul "AI - Business Intelligence" herangezogen werden. Die maximal zu erreichende Punktezahl ist dabei für jede Frage ausgewiesen. Beantworten Sie die Fragen prägnant und präzise auf dem beigefügten Frage- / Antwortbogen und reichen diesen als PDF (max. 1 DIN A4 Seite) im Online Campus ein.

In [None]:
# Vorbereitungen
import numpy as np
import pandas as pd
import seaborn as sns
import tensorflow as tf
from tensorflow import keras
import statsmodels.api as sm
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import (confusion_matrix, accuracy_score) 

## 2. Datensatz, Features und Standardisierung

In diesem Abschnitt wird der zugrundeliegende Datensatz der internationalen Hotelkette eingelesen und für die verschiedenen Business Intelligence Ansätze vorbereitet. Die Varieblen des Datensatzes sind selbsterklärend und basieren - wie die abhängige Variable - teilweise auf dem Nominalskalenniveau. Mittels univariater und bivariater Datenanalyse wird Ihnen eine erste Übersicht über die Variablen und deren Zusammenhänge geboten. 

In [None]:
# Datensatz einlesen
df = pd.read_csv('hotel_project.csv')
df = df.dropna()

In [None]:
# Univariate Datenanalyse
df.describe()

In [None]:
# Bivariate Datenanalyse
matrix = df.corr()
sns.heatmap(matrix, annot=True, cmap='Purples')

In [None]:
# Features spezifizieren
x = df[['sum_nights', 'sum_adults', 'sum_children', 'sum_babies', 'repeated_guest', 'previous_cancellations', 'car_parking', 'sum_special_requests']] 
scaler = StandardScaler()
x = scaler.fit_transform(x)
y = df[['canceled']]

## 3. Business Intelligence (mit Statistik)

Der erste Business Intelligence Ansatz basiert auf einem Regressionsmodell aus dem Kontext der multivariaten Datenanalyse. Ziel ist die möglichst korrekte Vorhersage (Klassifikation) der abhängigen Variable (canceled). Neben den Regressionsgewichten ist zusammenfassend die Genauigkeit des Modells ausgewiesen.

In [None]:
# Multivariate Datenanalyse
log_reg = sm.Logit(y, x).fit()
log_reg.summary()

In [None]:
# Vorhersagegenauigkeit der multivariaten Datenanalyse
y_pred = log_reg.predict(x) 
prediction = list(map(round, y_pred)) 
print('Genauigkeit = ', accuracy_score(y, prediction))

## 4. Business Intelligence (mit Neuronalem Netz)

Als Alternative zu einem regressionsbasierten Klassifikationsmodell steht Ihnen ein Neuronales Netz zur Verfügung. Hier ist ebenfalls die abhängige Variable (canceled) korrekt vorherzusagen, so dass ebenfals zusammenfassend die Genauigkeit des Modells ausgewiesen wird.

In [None]:
# Trainings- und Validierungsdaten spezifizieren
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.10, random_state=0)

In [None]:
# Neuronales Netz
model = tf.keras.Sequential()
model.add(keras.layers.Dense(8, activation='relu'))
model.add(keras.layers.Dense(4,activation='tanh'))
model.add(keras.layers.Dense(2,activation='tanh'))
model.add(keras.layers.Dense(1,activation='sigmoid'))
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
history_1 = model.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test))

In [None]:
# Vorhersagegenauigkeit des Neuronalen Netzes
y_pred = model.predict(X_test)
prediction = np.around(y_pred)
print('Genauigkeit = ', accuracy_score(y_test, prediction))

## 5. Vorschau auf den bereitgestellten Frage- / Antwortbogen

Die nachfolgenden Fragen sind auf dem bereitgestellten Frage- / Antwortbogen zu beantworten und als PDF im Online Campus einzustellen. Dies sind die Fragen, die Ihnen bei einem entsprechendem Vortrag zu dem Datensatz gestellt werden können:

### Univariate Datenanalyse:
* (1P) Welche Variable weist die höchste Standardabweichung auf?
* (1P) Für wie viele Erwachsene wurden maximal Übernachtungen gebucht?
### Bivariate Datenanalyse:
* (2P) Welche unabhängige Variable hat den stärksten Einfluss auf die abhängige Variable?
* (2P) Zwischen welchen unabhängigen Variablen liegt der schwächste Korrelationskoeffizient vor?
### Features spezifizieren:
* (2P) Welche Funktion hat der StandardScaler() in der Datenvorverarbeitung?
### Multivariate Datenanalyse:
* (1P) Welches Regressionsmodell wird zur Vorhersage der abhängigen Variable verwendet?
* (2P) Welcher Grad an Varianzaufklärung wird mit dem Regressionsmodell erreicht?
* (2P) Welche unabhängige Variable hat den stärksten Einfluss auf die abhängige Variable?
* (2P) Welche unabhängige Variable reduziert das Risiko einer Hotelstornierung am stärksten?
* (1P) Welche Genauigkeit erzielt das Regressionsmodell?
### Neuronales Netz:
* (2P) Wie viele Neuronen weist das Neuronale Netz auf?
* (1P) Wie viele Epochen werden für das Training des Neuronalen Netzes verwendet?
* (2P) Verbessert sich die Performance des Neuronalen Netzes bei doppelter Epochenanzahl (N=20)?
* (1P) Welche Genauigkeit erzielt das Neuronale Netz?
### Modellentscheidung:
* (2P) Warum ist im vorliegenden Beispiel das statistische Modell vor dem Neuronalen Netz zu bevorzugen?
* (1P) Was unterscheidet das Regressionsmodell vom Neuronale Netz hinsichtlich der Datenverwendung?