<a href="https://colab.research.google.com/github/kampelmuehler/MLKurs/blob/main/LinearRegressionAufgaben.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Linear Regression: Gradient Descent Lösung

Linear Regression Probleme lassen sich zum einen mit numerischer Optimierung über Gradient Descent lösen.

$\hat{y} = kx + d$ entspricht $\hat{Y} = WX + b$

Die Kostenfunktion und dazugehörigen Ableitungen der einzelnen Parameter sind gegeben durch:

$$ J = \frac{1}{m} \sum_{i=1}^m  (y_i - \hat{y_i})^2$$

$$ \frac{\partial J}{\partial W} = -\frac{2}{m} \sum_{i=1}^m x_i (y_i - \hat{y_i})$$

$$ \frac{\partial J}{\partial b} = -\frac{2}{m} \sum_{i=1}^m (y_i - \hat{y_i})$$

Mittels Gradient Descent lassen sich die Parameter wie folgt aktualisieren:

$$ W_t = W_{t-1} - \lambda\frac{\partial J}{\partial W} $$

$$ b_t = b_{t-1} - \lambda\frac{\partial J}{\partial b} $$

Implementieren Sie die Funktionen `predict` und `update_weights` der Klasse `LinearRegression`.

Berechnen sie den $MAE=\frac{1}{m} \sum_{i=1}^m|y_i^{test} - \hat{y}_i^{test}|$ am Test Set.

In [None]:
import numpy as np
import matplotlib.pyplot as plt


class LinearRegression():	
	def __init__(self, learning_rate, iterations):		
		self.learning_rate = learning_rate
		self.iterations = iterations
		
	# Trainingsfunktion
	def fit(self, X, Y):
		# Initialisierung
		self.W = 0
		self.b = 0
		self.X = X[:, 0]
		self.Y = Y
		
		# Lernen mit Gradient Descent
		for i in range(self.iterations):	
			self.update_weights()
			
		return self

	# Einzelner Gradient Descent Schritt
	def update_weights(self):
		raise NotImplementedError

	# Y = wX + b
	def predict(self, X):
		raise NotImplementedError


def main() :
	# Daten laden
	import pandas as pd
	df = pd.read_csv("https://raw.githubusercontent.com/mohit-baliyan/references/master/salary_data.csv")
	X = df.iloc[:,:-1].values  # Vorerfahrung in Jahren (m, 1)
	Y = df.iloc[:,1].values  # Gehalt (m, 1)

	# Daten in Trainings- und Testdaten splitten - 80/20
	ids = np.arange(X.shape[0])
	np.random.shuffle(ids)
	np.random.seed(0)
	split = int(X.shape[0] * 0.8)
	train_ids = ids[:split]
	test_ids = ids[split:]
	X_train = X[train_ids]
	Y_train = Y[train_ids]
	X_test = X[test_ids]
	Y_test = Y[test_ids]
	
	# Model trainieren
	model = LinearRegression(iterations = 1000, learning_rate = 0.01)
	model.fit(X_train, Y_train)
	
	# Überprüfen am Test split
	Y_test_pred = model.predict(X_test)
	mae = None
	print(f"W_pred={model.W:.02f}")
	print(f"b_pred={model.b:.02f}")
	print(f"MAE={mae}")
	
	# Visualisierung am Test Set
	plt.figure()
	plt.scatter(X_test, Y_test, color='blue')
	plt.plot(X_test, Y_test_pred, color='orange')
	plt.title('Gehalt vs Berufserfahrung')
	plt.xlabel('Berufserfahrung in Jahren')
	plt.ylabel('Gehalt')
	plt.show()
	
if __name__ == "__main__" :
	main()


# Linear Regression: Analytische Lösung

Für Linear Regression Probleme gibt es eine analytische Lösung der Form

$$\Theta =  \begin{bmatrix} W \\ b \end{bmatrix}=(X^TX)^{-1}X^TY$$

wobei X die unabhängigen Variablen darstellt und Y die abhängigen Variablen.

Erweitern Sie die Klasse `LinearRegression` um eine Funktion `solve(X, Y)` welche die analytische Lösung für W und b berechnet.

Hinweis: `np.inv()`, `np.hstack()`, `np.ones()`, $X^T$ = `X.T`

# Linear Regression: Scikit-learn Lösung

Erweitern Sie die Klasse `LinearRegression` um eine Funktion `solve_sklearn(X, Y)` welche die Lösung für W und b mittels `sklearn` findet.

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

Hinweis: intercept entspricht b


---


Vergleichen Sie die Parameter und MAEs der 3 verschiedenen Lösungen.

Welche Methode verwendet `sklearn`?

Welche Methode erreicht denn geringsten Fehler?

Bonus: Berechnen Sie mittels `r2_score` aus `sklearn` die $R^2$ Metrik für die unterschiedlichen Lösungen. Was sagt diese aus?