## Beliebtesten Regressionsmodelle und Modellbewertung

### Aufgabenstellung

In dieser Aufgabe werden Sie verschiedene Regressionsmodelle anwenden, um Temperaturverläufe über die Zeit zu analysieren und vorherzusagen. Sie werden lernen, wie sich lineare Regression, Decision Tree Regression und K-Nearest Neighbors bei unterschiedlichen Datenmustern verhalten, deren Parameter zu optimieren und diese untereinander zu vergleichen.

Lesen Sie zunächst die folgenden Dokumentationen durch:
- [Grundlagen Machine Learning](https://abbts-dat-ski.github.io/wissensdatenbank/machine-learning/basics/)
- [Lineare Regression](https://abbts-dat-ski.github.io/wissensdatenbank/machine-learning/linear_regression/)
- [Weitere Regressionen](https://abbts-dat-ski.github.io/wissensdatenbank/machine-learning/other_regression_models/)
- [Modellevaluation](https://abbts-dat-ski.github.io/wissensdatenbank/machine-learning/model_evaluation/)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression 
from sklearn.tree import DecisionTreeRegressor 
from sklearn.neighbors import KNeighborsRegressor 

data = pd.read_csv('../data/temperature_simulation.csv')
data

In [None]:
# Wird für die Visualisierung und Berechnung der MSE verwendet
def plot_data(dataset, X_col, y_col, model):
    X = dataset[[X_col]]
    y = dataset[y_col]
    
    plt.scatter(X, y, color='blue', label='Datenpunkte', alpha=0.5)
    plt.scatter(X, model.predict(X), color='red', label='Vorhersage')
    plt.xlabel(X_col)
    plt.ylabel(y_col)
    plt.title(f'{y_col} vs {X_col} mit {model.__class__.__name__}')
    plt.legend()
    plt.show()

    print(f'MSE für {model.__class__.__name__}: {((y - model.predict(X)) ** 2).mean()}')

In [None]:
X = data[['time']]
y = data['temperature']

### Aufgabe 1
Beurteilen Sie, ob eine Lineare Regression für die Daten geeignet ist.

In [None]:
# Lineare Regression
linear_model = LinearRegression()
linear_model.fit(X, y)

# Vorhersage mit dem linearen Modell
plot_data(data, 'time', 'temperature', linear_model)

### Aufgabe 2
Passen Sie beim Decision Tree Regressor den Parameter `max_depth` an. Dieser Parameter begrenzt die maximale Tiefe des Entscheidungsbaums. Testen Sie verschiedene Werte und wählen Sie den besten aus.

In [None]:
# Decision Tree Regression
tree_model = DecisionTreeRegressor(max_depth=2) # --- HIER ANPASSEN ---
tree_model.fit(X, y)

# Vorhersage mit dem Decision Tree Modell
plot_data(data, 'time', 'temperature', tree_model)

### Aufgabe 3
Passen Sie beim K-Nearest Neigbors Regressor den Parameter `n_neighbors` an. Dieser Parameter gibt die Anzahl der Nachbarn an, die bei der Vorhersage berücksichtigt werden. Testen Sie verschiedene Werte und wählen Sie den besten aus.

In [None]:
# K-Nearest Neighbors Regression
knn_model = KNeighborsRegressor(n_neighbors=5) # --- HIER ANPASSEN ---
knn_model.fit(X, y)

# Vorhersage mit dem KNN Modell
plot_data(data, 'time', 'temperature', knn_model)

### Aufgabe 4
Beurteilen Sie, ob ein kleiner MSE (Mean Squared Error) ein Indikator für eine gute Vorhersage ist.

### Aufgabe 5
Im folgenden Beispiel wird der Datensatz in Trainings- und Testdaten aufgeteilt. Es werden zufällig 80% der Daten für das Training und 20% für den Test verwendet. Passen Sie hier den Parameter `n_neighbors` beim K-Nearest Neighbors Regressor an, um den tiefsten MSE zu erreichen. Beschreibt das hier gefundene Modell die Daten besser als das Modell aus Aufgabe 3?

In [None]:
# Aufteilen der Daten in Trainings- und Testdaten (80% Training, 20% Test)
train_data = data.sample(frac=0.8, random_state=42)
test_data = data.drop(train_data.index)

X_train = train_data[['time']]
y_train = train_data['temperature']

knn_model = KNeighborsRegressor(n_neighbors=5) # --- HIER ANPASSEN ---
knn_model.fit(X_train, y_train)

plot_data(test_data, 'time', 'temperature', knn_model)