# Bestmögliches Regressionsmodell - kaggle-Contest

Challenge: cml1/3Db Immobilienrechner <br/>
Team: Alexander Shanmugam, Si Ben Tran, Gabriel Torrez Gamez, Haris Alic <br/>
Aufgabe: 2.2 Bestmögliches Regressionsmodell - kaggle-Contest

Entwickle mit beliebigen Algorithmen das bestmögliche Modell im Sinne des Mean absolute percentage error (MAPE). Vegleiche dabei mindestens drei algorithmische Ansätze, wobei ein multiples lineares Modell Teil davon sein soll als Benchmark. Untersuche die ‘Variable Importance’ für dein bestes Modell.

Abgabe

Notebook und daraus erstellter Bericht (ohne Code) als pdf, welche die Entwicklung deines besten Modells, sowie der zwei weiteren Modelle dokumentiert, inklusive verwendeter Features, Preprocessing, Model Selection Prozess und Untersuchung der ‘Variable Importance’.

Eingabe der Vorhersage des Preises für den Testdatensatz mit deinem bestmöglichen Modell auf kaggle.



---
# Module importieren

Hier in diesem Abschnitt importieren wir die wichtigisten Module, die wir für die weitere Bearbeitung unserer Machine Learning Modelle benötigen, um die Vorhersage des Immobilienpreises zu erstellen.

In [2]:
# Basic Data Science modules
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Sklearn modules
## linear_model
from sklearn.linear_model import LinearRegression

## model_selection
from sklearn.model_selection import train_test_split, GridSearchCV

## metrics
from sklearn.metrics import mean_absolute_percentage_error


---
# Daten importieren

Hier in diesem Abschnitt importieren wir die Immobilien Daten, die uns Fernando zur Verfügung gestellt hat.

v1 ist der von uns bearbeitete und bereinigter Datensatz 

v2 ist der von Fernando bearbeitete und bereinigter Datensatz 

In [3]:
# url and relative path for the data

rel_path_v1 = "https://raw.githubusercontent.com/Immobilienrechner-Challenge/data/main/clean_gde.csv"
# Clean data einlesen
rel_path_v2 = "../data/immo_data_202208_v2.csv"

# Read data into pandas dataframe
raw_df_v1 = pd.read_csv(rel_path_v1, index_col=0)
raw_df_v2 = pd.read_csv(rel_path_v2)

  exec(code_obj, self.user_global_ns, self.user_ns)
  exec(code_obj, self.user_global_ns, self.user_ns)


---
# Daten vorbereiten

Hier werden die Daten vorbereitet, indem wir die Daten in Trainings- und Validierungsdaten aufteilen.
Die Testdaten befinden sich bereits auf der Kaggle Plattform und werden von Fernando zur Verfügung gestellt.

In [4]:
# drop the columns municipality, street, street_nr and zip_code
df_v1 = raw_df_v1.drop(columns=["municipality", "street", "street_nr", "zip_code", "availability"])

# count number of dtypes
print("Number of dtypes:", df_v1.dtypes.value_counts())

# print dtypes object columns
print("Dtypes object columns:", df_v1.select_dtypes(include="object").columns)

# make one hot encoding for the columns objects
df_v1 = pd.get_dummies(df_v1, columns = ['canton', 'type'])

# print shape of df_v1
print("Shape of df_v1:", df_v1.shape) 

# get top 10 cols with highest NA values
print("Top 10 cols with highest NA values:", df_v1.isna().sum().sort_values(ascending=False).head(30))


Number of dtypes: float64    54
object      2
int64       1
dtype: int64
Dtypes object columns: Index(['canton', 'type'], dtype='object')
Shape of df_v1: (21424, 124)
Top 10 cols with highest NA values: floor_space                18551
plot_area                  16586
floor                      15938
gde_politics_pda           10206
rooms                       8910
gde_politics_bdp            8207
gde_politics_rights         6156
gde_politics_glp            5340
gde_politics_evp            4153
living_space                1504
price                       1031
gde_politics_gps             495
gde_politics_cvp             334
gde_politics_fdp             157
gde_politics_sp              102
gde_politics_svp              55
canton_UR                      0
type_Farm house                0
canton_SO                      0
canton_SZ                      0
canton_TG                      0
type_Hobby room                0
type_Granny flat               0
type_Furnished dwelling        0
type_

## Daten V1 

Hier bearbeiten wir die Daten, die wir anfang 3. Semester erhalten haben.

In [5]:
# splitting dataframe into train and test set
train_v1, test_v1 = train_test_split(df_v1, test_size=0.2, random_state=42)

# splitting train_v1 and test_v1 into X and y 
X_train_v1 = train_v1.drop("price", axis=1)
y_train_v1 = train_v1["price"]

X_test_v1 = test_v1.drop("price", axis=1)
y_test_v1 = test_v1["price"]

# print shape of X_train_v1, y_train_v1, X_test_v1, y_test_v1
print("Shape of X_train_v1: ", X_train_v1.shape)
print("Shape of y_train_v1: ", y_train_v1.shape)
print("Shape of X_test_v1: ", X_test_v1.shape)
print("Shape of y_test_v1: ", y_test_v1.shape)

Shape of X_train_v1:  (17139, 123)
Shape of y_train_v1:  (17139,)
Shape of X_test_v1:  (4285, 123)
Shape of y_test_v1:  (4285,)


## Daten V2

Hier bearbeiten wir die Daten, die wir von Fernando in der Mitte des Semester (18.11.2022) erhalten haben. <br/>
Die Dokumentation der Features ist unter folgenden Link zu finden: [Link](www.gooogle.com)

In [6]:
# CODE

---
# Development Data 

Um unsere Modelle zu entwickeln, verwenden wir die Development Data fuer das erste. 
Im Zeiten druchlauf verwenden wir dann unseren Immobilien Datensatz. 

In [12]:
# Development data set

# Generate random DataFrame x1, x2, x3, y1
df = pd.DataFrame(np.random.randint(0, 1000, size=(1000, 10)), columns=list('ABCEFGHIJD'))

# split into train and test set
train_dev, test_dev = train_test_split(df, test_size=0.2, random_state=42)

# split train and test set into X and y
X_train_dev = train_dev.drop("D", axis=1)
y_train_dev = train_dev["D"]

X_test_dev = test_dev.drop("D", axis=1)
y_test_dev = test_dev["D"]

# print shape of X_train, y_train, X_test, y_test
print("Shape of X_train: ", X_train_dev.shape)
print("Shape of y_train: ", y_train_dev.shape)
print("Shape of X_test: ", X_test_dev.shape)
print("Shape of y_test: ", y_test_dev.shape)


Shape of X_train:  (800, 9)
Shape of y_train:  (800,)
Shape of X_test:  (200, 9)
Shape of y_test:  (200,)


---
# Modell 1 - Multiple Lineare Model 

Modell 1 ist ein multiples lineares Modell, welches wir als Benchmark für die weiteren Modelle verwenden werden. Wir haben uns für dieses Modell entschieden, da es ein einfaches Modell ist, welches wir schnell erstellen können und es uns ermöglicht, die Vorhersage des Preises zu erstellen.

In [13]:
# CODE

---
# Modell 2 - Lasso Regression

Modell 2 ist ein multiples lineares Lasso Modell. 

In [None]:
# CODE

---
# Modell 3 - Ridge Regression

Modell 3 ist ein multiples lineares Ridge Modell.

In [None]:
# CODE

---
# Modell 4 - Elastic Net Regression

Modell 4 ist ein multiples lineares Elastic Net Modell.

In [None]:
# CODE

---
# Modell 5 - KNN Regression

Modell 5 ist ein KNN Modell.

In [None]:
# Code

---
# Modell 6 - Decision Tree Regression

Modell 6 ist ein Decision Tree Modell.

In [None]:
# CODE

---
# Modell 7 - Random Forest Regression

Modell 7 ist ein Random Forest Modell.

In [5]:
# CODE

---
# Modell 8 - Gradient Boosting Regression

Modell 8 ist ein Gradient Boosting Modell.

In [6]:
# CODE

---
# Modell 9 - XGBoost Regression

Modell 9 ist ein XGBoost Modell.

In [None]:
# CODE

---
# Vergleiche der Modelle

Hier werden die Modelle miteinander verglichen und tabellerisch sowie visualisiert dargestellt.
Dabei dient das Modell 1 - Multiple Linear Model, als Benchmark.

In [None]:
# CODE

---
# Untersuchung der "Variable Importance" für das beste Modell

Hier untersuchen wir die "Variable Importance" für das beste Modell.
Es hat sich herausgestellt, dass die .....

In [None]:
# CODE

---
# Fazit

Hier schreiben wir unser Fazit.