# CO2-Prediction in Real Estate

## Initiales Setup

In [None]:
# Importieren der benötigten Algorithmen und Software-Libraries
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor, plot_tree
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_percentage_error
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import Adam

In [None]:
# Laden der Daten
df = pd.read_csv("https://raw.githubusercontent.com/casbdai/datasets/main/co2_data.csv")

## Datenexploration

In [None]:
df.head()

In [None]:
df.info()

In [None]:
# Erstellen eines Histogramms
df['CO2'].hist(bins=30)
plt.title('Distribution of CO2 Emissions per m2 EBF')
plt.xlabel('CO2 Emissions per m2 EBF')
plt.ylabel('Frequency')
plt.show()

## Lab Session 1: Trainieren eines ersten Entscheidungsbaums

In [None]:
# Definieren des "Outcomes" und der "Features"
X = df.drop('CO2', axis=1)
y = df['CO2']

In [None]:
X

In [None]:
y

In [None]:
# Initialisieren des DecisionTree
tree = DecisionTreeRegressor(max_depth=2)
tree.fit(X, y)

In [None]:
# Plotten des Modells
plt.figure(figsize=(12, 8))
plot_tree(tree, feature_names=X.columns, filled=True)
plt.show()

In [None]:
tree.predict(X)

### Spielen wir ein bisschen mit Hyperparametern

Zu variierende Hyperparameter

- **max_depth:** zulässige Anzahl der maximalen Splits
- **min_samples_leaf:** Die Mindestanzahl von Kunden, die in einem Blattknoten vorhanden sein müssen.

In [None]:
# Anpassen der Hyperparameter
tree = DecisionTreeRegressor(max_depth=____, min_samples_leaf=____)
tree.fit(X, y)

In [None]:
# Plotten des Modells
plt.figure(figsize=(20, 15))
plot_tree(tree, feature_names=X.columns, filled=True)
plt.show()

## Lab Session 2: Bestimmen der Genauigkeit unserer Vorhersagen
Um zu bestimmen, ob die gemachten Vorhersagen genau sind, müssen wir unsere Daten in Test- und Trainingsdaten splitten. Wir haben in einem vorherigen Schritt schon zwei Teildatensätze erstellt: y und X.
Diese werden nun jeweils in einen Test und einen Trainingsteil überführt

In [None]:
# Split the data into training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=2)

In [None]:
# Initialize and train the regressor on the training set
regressor = DecisionTreeRegressor(max_depth=10, random_state=2)
regressor.fit(X_train, y_train)

# Predict on the test set
y_pred = regressor.predict(X_test)

# Calculate RMSE
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f"Root Mean Squared Error: {rmse}")

# Calculate MAPE
mape = mean_absolute_percentage_error(y_test, y_pred)
print(f"Mean Absolute Percentage Error: {mape}")

## Lab Session 3: Trainieren eines Neuralen Netzwerks zum Vergleich

In [None]:
# Definieren des Ne the model
model = Sequential([
    Dense(56, activation='relu', input_shape=(56,)),
    Dense(32, activation='relu'),
    Dense(16, activation='relu'),
    Dense(1)
])

# Compile the model
model.compile(optimizer=Adam(learning_rate=0.001),
              loss='mean_squared_error')

In [None]:
# Train the model
model.fit(X_train, y_train, epochs=10, batch_size=16, validation_split=0.2)

In [None]:
y_pred =model.predict(X_test)

# Calculate RMSE
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f"Root Mean Squared Error: {rmse}")

# Calculate MAPE
mape = mean_absolute_percentage_error(y_test, y_pred)
print(f"Mean Absolute Percentage Error: {mape}")