# Supervised Learning (sul) - Mini-Challenge 1

**Ausgabe:** Montag, 5. Oktober 2020  
**Abgabe:** Montag, 26. Oktober 2020, bis 24 Uhr 

In diesem Mini-Challenge implementieren und verwenden wir verschiedene Methoden der Regression und machen Gebrauch von Model Selection-Prinzipien und -Algorithmen.

#### Vorgaben zu Umsetzung und Abgabe

- Code muss in python geschrieben werden.
- Wir entwickeln die meisten Algorithmen selber. Wenn nicht explizit anders verlangt, dürfen bloss die folgenden Bibliotheken verwendet werden: numpy, matplotlib, seaborn, pandas
- Der Code muss lauffähig sein bei Ausführung im Docker-Container des Trainingcenters. 
- Es darf kein Code ausgelagert werden.
- Sämtliche Plots sind komplett beschriftet (Achsen, Labels, Colorbar, ..) um den Plot verstehen zu können.
- Zu jedem Plot gibt es eine kurze Diskussion, welche den Plot erklärt und die wichtigsten Einsichten die damit sichtbar werden festhält.  
- Als Abgabe zählt der letzte Commit in deinem Fork des Trainingcenter Repos vor Abgabetermin.

Für die Erarbeitung der Inhalte darf zusammengearbeitet werden. Die Zusammenarbeit ist dabei aber auf algorithmische Fragen und Verständnisaspekte beschränkt.  

**Es darf kein zusammenhängender Code oder Text von anderen oder vom Internet kopiert werden.**

---

### Aufgabe 1 (3 Punkte)

Lade den Datensatz zu den Schalentieren (`data/schalentiere_training.csv`) und verschaffe dir einen Überblick mittels Visualisierungen und deskriptiver Statistik.  

Unser Ziel in diesem Mini-Challenge wird es sein, die Variable `alter` vorherzusagen unter Verwendung der anderen Variablen.  

Was lässt sich über dieses Vorhaben sagen? Diskutiere deine Einsichten.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

YOUR ANSWER HERE

### Aufgabe 2 (2 Punkte)

Ridge Regression ist eine regularisierte Form ($l_2$-Regularisierung) der Ordinary Least Squares (OLS) Kostenfunktion für die lineare Regression.  

Die Ridge Regression-Kostenfunktion für einen Datensatz $(x^{(i)}, y^{(i)})$ mit $x^{(i)} = (x_1^{(i)}, \dots , x_p^{(i)})$ von $N$ Datenpunkten ist: 

\begin{equation}
J(\beta) = \sum_{i=1}^{N} (y^{(i)}-\beta_0 - \sum_{j=1}^{p} x^{(i)}_j\beta_j)^2 + \alpha\sum_{j=1}^{p} \beta_j^2 
\end{equation}

$(\beta_0, \beta_1, \dots, \beta_p)$ sind dabei die Modellkoeffizienten.

Leite für diese Kostenfunktion den Gradienten her. (Schreibe die Herleitung in LaTex-Notation in die folgende Zelle).

YOUR ANSWER HERE

### Aufgabe 3 (6 Punkte)

Komplettiere die folgende Klasse so, dass sie bei Wahl der entsprechenden Initialisierungsoption, das Ausführen der `fit`-Methode die Kostenfunktion der Ridge Regression-Kostenfunktion mit Gradient Descent (`gd`) oder der regularisierten Normalengleichung (`neq`) optimiert.

Erstelle dann ein Modell für den gegebenen Datensatz unter Verwendung sämtlicher Input-Variablen.

Zeige mit Hilfe des Datensatzes, dass

- Gradient Deescent für `alpha=0` und `alpha=10` konvergiert. Wie kannst du dies graphisch untersuchen?
- die Normalengleichung für `alpha=0` und `alpha=10` die gleiche Lösung findet wie Gradient Descent.

In [None]:
from sklearn.base import BaseEstimator

class RidgeRegression(BaseEstimator):
    
    def __init__(self, opt_method='gd', alpha=1., eta=0.01, maxsteps=100, eps=0.00000001):
        '''Implements a Ridge Regression estimator.
        
        Arguments
        ---------
        alpha:      Regularization proportionality factor. Larger values
                    correspond with stronger regularization.
        opt_method: Optimization method to choose for the cost function.
                    Can be either 'gd' (Gradient Descent) or 'neq'.
        maxsteps:   Maximum number of Gradient Descent steps to take.
        eps:        Epsilon, length of gradient to be reached with Gradient
                    Descent.
        eta:        Fixed step lenght to take at each gradient descent
                    iteration.
        '''
        # parameters
        self.alpha = alpha
        self.opt_method = opt_method
        self.maxsteps = maxsteps
        self.eps = eps
        self.eta = eta
        # attributes
        # model coefficients
        self.beta_ = None
        # values of cost function along gradient descent iterations
        self.costs_ = []       
        
    def fit(self,X,y):
        '''
        '''
        # YOUR CODE HERE
        raise NotImplementedError()
        return self
        
    def gradient_descent(self,X,y):
        '''Computes the coefficients of the ridge regression cost function
        using gradient descent.
        '''
        # YOUR CODE HERE
        raise NotImplementedError()
        
    def normalequation(self,X,y):
        '''Computes the coefficients of the ridge regression cost function
        using the normalequation.
        '''
        # YOUR CODE HERE
        raise NotImplementedError()
    
    @staticmethod
    def gradient(beta,X,y,alpha):
        '''Computes and returns the gradient of the ridge regression cost function.
        '''
        # YOUR CODE HERE
        raise NotImplementedError()
    
    @staticmethod 
    def costfunction(beta,X,y,alpha):
        '''Computes and returns the value of the ridge regression cost function.
        '''
        # YOUR CODE HERE
        raise NotImplementedError()

    
    def predict(self,X):
        '''Computes the predictions of the current model.
        '''
        # YOUR CODE HERE
        raise NotImplementedError()

    
    def score(self,X,y):
        '''Returns R^2 for given input/output data given the model
        coefficients.
        '''
        # YOUR CODE HERE
        raise NotImplementedError()
    
    # YOUR CODE HERE
    raise NotImplementedError()

### Aufgabe 4 (3 Punkte)

Untersuche für die unregularisierte OLS-Lösung die Modell-Annahmen eines linearen Modells.  

Nimm, falls sinnvoll, korrektive Massnahmen vor, um dein Modell zu verbessern.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

### Aufgabe 5 (5 Punkte)

Berechne auf den obigen Resultaten jeweils die Metriken $R^2$ und Mean Absolute Error (MAE) auf den Trainingsdaten und auf den Testdaten (`data/schalentiere_test.csv`).  
Diskutiere die Ergebnisse.

Beschreibe die Bedeutung der Metriken in deinen eigenen Worten.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

YOUR ANSWER HERE

### Aufgabe 6 (3 Punkte)

Führe nun zusätzlich quadrierte Input-Variablen in dein Modell ein.  

Identifiziere den bestmöglichen Wert für $\alpha$ im Sinne von $R^2$ auf den Trainingsdaten und miss das Leistungsvermögen dieses Modells auf den Testdaten.  
Verwende hierbei deine regularisierte Normalengleichung zur Optimierung der Koeffizienten.  

Zur Parameteroptimierung kannst du scikit-learn-Funktionalität verwenden.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

### Aufgabe 7 (3 Punkte)

Lasso ist eine weitere Form einer regularisierten ($l_1$-Regulariesierung) OLS-Kostenfunktion.  

- Schreibe die Kostenfunktion in LaTex-Notation auf.
- Was ist der Effekt der $l_1$-Regularisierung im Vergleich zur $l_2$-Regularisierung?
- Kann Gradient Descent zur Optimierung verwendet werden? Begründe.

YOUR ANSWER HERE

### Aufgabe 8 (3 Punkte)

Identifiziere den bestmöglichen Wert für den Regularisierungsparameter des Lasso-Modells auf den quadratisch erweiterten Trainingsdaten, erneut im Sinne von $R^2$, und miss das Leistungsvermögen dieses Modells auf den Testdaten.  

Gib die Modell-Koeffizienten aus. Was stellst du fest?

Hierzu kannst du scikit-learn Funktionalität verwenden.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

YOUR ANSWER HERE

### Aufgabe 9 (3 Punkte)

Erkläre anhand von Kernel Ridge Regression (siehe beispielsweise Murphy K, *Machine Learning - A probabilistic perspective*, 2012. p. 492) den 'Kernel-Trick'.  
Welche Parameter müssen dadurch zusätzlich optimiert werden? Schau dir dazu auch die entsprechende Estimator-Klasse von scikit-learn an.

YOUR ANSWER HERE

### Aufgabe 10 (Bonus - 4 Punkte)

Finde das bestmögliche Modell mit Kernel Ridge Regression auf den quadratisch erweiterten Daten.  

Was ist das bestmögliche Modell, das du finden kannst, ohne Einschränkungen.

Hierzu kannst du scikit-learn Funktionalität verwenden.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()