# GML - Mini-Challenge 2 - FS 2022

**Ausgabe:** Montag, 25. April 2022  
**Abgabe:** Sonntag, 22. Mai 2022, bis 24 Uhr 

In diesem Mini-Challenge implementieren und verwenden wir verschiedene Methoden der Klassifikation, machen Gebrauch von Model Selection-Prinzipien und -Algorithmen und stellen Gedanken zu Ensemble Methoden an.

#### Vorgaben zu Umsetzung und Abgabe

- Code muss in python geschrieben werden.
- Wir entwickeln die meisten Algorithmen selber. Wenn nicht explizit anders verlangt, dürfen bloss die folgenden Bibliotheken verwendet werden: numpy, matplotlib, seaborn, pandas
- Der Code muss lauffähig sein bei Ausführung im Docker-Container des Trainingcenters. 
- Es darf kein Code ausgelagert werden.
- Sämtliche Plots sind komplett beschriftet (Achsen, Labels, Colorbar, ..) um den Plot verstehen zu können.
- Zu jedem Plot gibt es eine kurze Diskussion, welche den Plot erklärt und die wichtigsten Einsichten die damit sichtbar werden festhält.  
- Als **Abgabe** zählt der letzte Commit in deinem Fork des Trainingcenter Repos vor Abgabetermin.  



- **Bitte lösche, dupliziere oder verschiebe die vorhandenen Zellen nicht**. Dies führt zu Problemen bei der Korrektur. Du darfst aber beliebig viele weitere Zellen hinzufügen.
- Bitte importiere Daten mit **relativen Pfaden** innerhalb des Repos.

Für die Erarbeitung der Inhalte darf unter Studierenden zusammengearbeitet werden. Die Zusammenarbeit ist dabei aber auf algorithmische Fragen und Verständnisaspekte beschränkt.  

**Es darf kein Code oder Text von anderen oder vom Internet kopiert werden.**

---

### Aufgabe 1 - EDA (4 Punkte)

Lade den Datensatz `data/moto.csv` und verschaffe dir einen Überblick durch explorative Datenanalyse. Unser Ziel wird es sein, die Marke der Motorräder vorherzusagen unter Verwendung der übrigen Attribute. Teile deine Überlegungen zu diesem Problem.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

YOUR ANSWER HERE

### Aufgabe 2 - Testing / Metrics (4 Punkte)

Unterteile den Datensatz sinnvoll in Trainings- und Testteil. Wir werden von diesen Teilen in sämtlichen kommenden Aufgaben Gebrauch machen.

Als Zielmetrik werden wir über alle kommenden Aufgaben mit dem mittleren F1-Score arbeiten, individuell berechnet über alle Klassen.  
Erörtere, was die Eigenschaften dieser Metrik sind und wann sie sinnvoll ist, wann nicht. Trifft dies hier zu?

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

YOUR ANSWER HERE

### Aufgabe 3 - Logistic Regression (5 Punkte)

Als 'Baseline'-Modell verwenden wir logistische Regression.  

Setze einen einfachen regularisierten, rein linearen logistischen Regressionsansatz um. Verwende dazu scikit-learn.  

Evaluiere und diskutiere das Modell auf dem Testdatensatz. Zeichne die Confusion Matrix und berechne die Zielmetrik. 

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

YOUR ANSWER HERE

### Aufgabe 4 - Multi-Layer Perceptron (15 Punkte)

Implementiere ein Multi-Layer Perceptron mit sigmoider Aktivierungsfunktion und $l_2$-Regularisierung durch Ergänzen der folgenden Klasse.  

Zeige mit Hilfe des kleinen Entwicklungsdatensatzes `dev_data.csv`, dass die Umsetzung des Gradienten korrekt ist unter Verwendung der Methode `grad_check()`. 
Erkläre, was `grad_check` macht.

Zeige weiter, dass

- Gradient Descent konvergiert.
- eine Accuracy > 0.8 erzielt werden kann.
- die Regularisierung den gewünschten Effekt hat.

Verwende aus der Library `mlxtend.plotting` die Funktion `plot_decision_regions` zum Zeichnen der Decision Regions und der Decision Boundary.  
Bechreibe den Plot.  

Ermögliche weiter die Verwendung der Bibliotheksfunktion `scipy.optimize.minimize` zur Optimierung der Modell-Koeffizenten $\theta$.  
Zeige, dass auch das funktioniert. Zeichne insbesondere den Verlauf der Kostenfunktion über das Iterationsverfahren hinweg, wenn du den Solver `L-BFGS-B` verwendest.

In [None]:
import numpy as np
import sys

from sklearn.preprocessing import OneHotEncoder 

class MLP(object):
    ''' A Multi-Layer Perceptron.
    '''

    def __init__(self, layers, weight_init_int=(-.7, .7), method='fullbatch',
            max_iter=1000, learning_rate=0.3, dlr=0.1, alpha=0., epsilon=0.01,
            minimethod='CG', batchsize=30):
        '''
        layers: tuple
            The elements of the tuple define the number of units in all hidden
            layers (bias units not included), i.e. a tuple (20, 30, 40) defines
            a MLP with three hidden layers of 20, 30 and 40 hidden units plus
            bias units.

        weight_init_int: tuple =(-.7, .7)
            The interval on which the weights/thetas will be randomly initialized.

        alpha: float
            The l2 regularization strength.

        method: string
            'fullbatch', 'minibatch', 'sgd', 'minimize'

        epsilon: float
            The threshold value for the length of the gradient for stopping gradient
            descent iterations.
            
        learning_rate: float
            The (initial) step size.
            
        max_iter: int
            The maximal number of gradient descent iterations.
            
        dlr: float
            The adaptive learning rate constant d.
            
        batchsize: int
            The number of samples in batch when using the minibatch method for optimizing.
            
        minimethod: string
            The algorithm used by the minimize library function for optimizing the
            model coefficients / thetas / weights. (use 'CG' or 'L-BFGS-B')
        '''
        # the model
        self.layers = layers
        self.weight_init_int = weight_init_int
        self.alpha = alpha
        # basic gradient decscent params
        self.method = method
        self.epsilon = epsilon
        self.max_iter = max_iter
        self.learning_rate = learning_rate
        # batched gradient descent
        self.dlr = dlr
        self.batchsize = batchsize
        # when using scipy.optimize.minimize
        self.minimethod = minimethod

        print('MLP(layers={}, weight_init={}, method="{}", alpha={}, learning_rate={}, dlr={})'.format(
            self.layers, self.weight_init_int, self.method, self.alpha, self.learning_rate, self.dlr))
    
    def fit(self, X, y):
        '''
        Configures input and output layer, initializes weights and fits the
        model coefficients.
        '''
        # initialize the entire network, including input and ouput layer
        y_ = self._init_network(X, y)

        if self.method == 'fullbatch':
            # YOUR CODE HERE
            raise NotImplementedError()

        elif self.method == 'sgd':
            # YOUR CODE HERE
            raise NotImplementedError()

        elif self.method == 'minibatch':
            # YOUR CODE HERE
            raise NotImplementedError()

        elif self.method == 'minimize':
            # YOUR CODE HERE
            raise NotImplementedError()

        return self

    @staticmethod
    def cost_function(theta_, alpha, X, y, theta_shapes=None):
        '''Computes the cross-entropy cost function.

        Uses MLP.forward_propagation

        Arguments
        ---------
        theta_ : the weights of the neural network
        alpha : the regularization strength
        X, y : the data
        theta_shapes : a list of tuples defining the shapes of theta

        Returns
        -------
        J : cost function value given thetas

        '''
        # Implementation Hint:
        # Use np.nan_to_num to ensure numpy handles values very close to zero
        # correctly in the log function

        # YOUR CODE HERE
        raise NotImplementedError()

    @staticmethod
    def gradient_cost_function(theta_, alpha, X, y, theta_shapes=None):
        '''Computes the gradient of the cost function.

        Arguments
        ---------
        theta_ : the weights of the neural network
        theta_shapes : a list of tuples defining the shapes of theta
        alpha : the regularization strength
        X, y : the data

        If theta_shapes is provided (i.e. not None) the thetas are received as
        a 1-d array and rolled-up first. The gradient is then computed. After
        that, if rolled-up initially, the gradient is unrolled again, e.g. for
        further use in an optimizer.

        Returns
        -------
        grad : the gradient of the cost function
        '''
        # YOUR CODE HERE
        raise NotImplementedError()

    @staticmethod
    def forward_propagation(theta, x):
        '''Computes the activations for all units in an MLP given by theta for
        a single data point x.

        Returns
        -------
        a : activations of all units as a list of arrays
        '''
        # YOUR CODE HERE
        raise NotImplementedError()

    @staticmethod
    def back_propagation(theta, a, y):
        '''Computes the error d for all units.

        Returns
        -------
        d : the error (small delta) propagated back through the network as list
        of arrays.
        '''
        # YOUR CODE HERE
        raise NotImplementedError()

    def grad_check(self, X, y, epsilon=0.0001, decimal=3, verbose=False):
        '''Compare the gradient with finite differences around current point
        in parameter space.
        '''
        if not 'theta' in dir(self):
            _ = self._init_network(X, y)

        theta_ur = MLP.unroll(self.theta)

        # approximate the gradient with finite differences
        approxgrad = []
        for idx in range(len(theta_ur)):
            # modify theta[idx] +/- epsilon
            tplus = theta_ur.copy()
            tplus[idx] = tplus[idx]+epsilon
            tminus = theta_ur.copy()
            tminus[idx] = tminus[idx]-epsilon
            # calculate the costfunctions
            minuseps = MLP.cost_function(tminus, self.alpha, X, y, self._theta_shapes)
            pluseps = MLP.cost_function(tplus, self.alpha, X, y, self._theta_shapes)
            # finite diffs
            approxgrad.append((pluseps - minuseps)/(2*epsilon))

        approxgrad = np.array(approxgrad)

        # compare normalized gradients
        approxgrad /= np.linalg.norm(approxgrad)
        calcgrad = MLP.gradient_cost_function(theta_ur, self.alpha, X, y, self._theta_shapes)
        # compare normalized gradients
        calcgrad /= np.linalg.norm(calcgrad)

        if verbose:
            print('approx : ', approxgrad)
            print('backprop : ', calcgrad)

        np.testing.assert_array_almost_equal(approxgrad, calcgrad, decimal=decimal)

    def predict(self, X):
        '''Predicts the output for all data points in X.

        Makes use of MLP.forward_propagation

        Returns
        -------
        prediction of output
        '''
        # YOUR CODE HERE
        raise NotImplementedError()

    def score(self, X, y):
        '''Computes the accuracy metric for the predictions on X, given the
        true output y.

        Returns
        -------
        accuracy : metric computed for X and y, invoking a prediction on X,
        given the current model
        '''
        # YOUR CODE HERE
        raise NotImplementedError()

    @staticmethod
    def rollup_if(x_, shapes):
        '''Conditional uprolling if shapes is not None.

        Returns
        -------
        x : list of arrays, if shapes provided, input x_ otherwise
        True/False : True if input has been rolled up.
        '''
        # YOUR CODE HERE
        raise NotImplementedError()

    @staticmethod
    def unroll(xlist):
        '''Unrolling theta in a 1d array (that can be passed into minimize).

        Returns
        -------
        x : unrolled 1-d array
        '''
        # YOUR CODE HERE
        raise NotImplementedError()

    @staticmethod
    def rollup(xur, shapes):
        '''Rolling up theta into a list of 2d matrices.

        Returns
        -------
        xlist : list of 2-d arrays extracted from xur, reshaped into shapes.
        '''
        # YOUR CODE HERE
        raise NotImplementedError()

    @staticmethod
    def phi(t):
        '''Logistic / sigmoid function.'''
        return 1. / (1 + np.exp(-t))

    def _init_network(self, X, y):
        '''Initializes all that's necessary to start training.

        - transforms y as required to one-hot-encoding and returns encoded y_
        - completes self.layers
        - initializes thetas, using MLP.theta_init, as list of 2-d matrices
        - sets self._theta_shapes (needed for unrolling and uprolling)

        (uses init_theta())

        Returns
        -------
        y_ : one-hot encoded categories contained in y.
        '''
        # YOUR CODE HERE
        raise NotImplementedError()

    @staticmethod
    def init_theta(layers, weight_init_int):
        '''Initializes the thetas and returns them as a list of 2-d matrices.

        Returns
        -------
        theta : list of model coefficients 2-arrays according to the layer
        specification.
        '''
        # YOUR CODE HERE
        raise NotImplementedError()
        
    # ADD ADDITIONAL UTILITY METHODS HERE
    # YOU CAN REMOVE THE NotImplementedError right
    # YOUR CODE HERE
    raise NotImplementedError()

In [None]:
# Demo

# YOUR CODE HERE
raise NotImplementedError()

YOUR ANSWER HERE

### Aufgabe 5 - MLP Anwendung (5 Punkte)

Verwende deine Implementierung des Multi-Layer Perceptrons, um unseren Datensatz zu klassifizieren.  
(Falls deine Implementierung nicht funktionieren sollte, kann du scikit-learn verwenden. Damit kannst du noch 3 Punkte erreichen.)

Finde ein möglichst gutes Modell im Sinne der Zielmetrik.  

Evaluiere und diskutiere die Resultate, zeichne dabei auch die Confusion Matrix auf dem Testset.  

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

YOUR ANSWER HERE

### Aufgabe 6 - Decision Tree - Theorie (6 Punkte)

Erkläre wie ein Decision Tree erstellt wird.  

Welche Rolle spielen dabei Metriken wie die Entropie oder Gini-Index?  

Was sind die Eigenschaften der Decision Boundary bei Decision Trees?  

Wodurch kann bei Decision Trees Overfitting entstehen? Diskutiere welche Ansätze möglich sind, um Overfitting zu vermeiden.

YOUR ANSWER HERE

### Aufgabe 7 - Decision Tree - Anwendung I (4 Punkte)

Betrachte nun eine Vorhersage der Variablen `has_mfk`.  
Berechne dazu einen Entscheidungsbaum mit vier Teilräumen 'manuell', das heisst, bloss auf der Basis von Numpy-Funktionalität und unter Verwendung des Gini-Index.  

Visualisiere den resultierenden Baum und diskutiere seine Entstehung.  

Wie gut ist die Vorhersage? 

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

YOUR ANSWER HERE

### Aufgabe 8 - Decision Tree - Anwendung II (5 Punkte)

Verwende nun einen Decision Tree von scikit-learn zur Klassifikation von `brand`.

Zeichne den besten resultierenden Baum und erkläre ihn.

Evaluiere und diskutiere die Resultate, zeichne dabei auch die Confusion Matrix auf dem Testset.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

YOUR ANSWER HERE

### Aufgabe 9 - Bestes Modell (4 Punkte)

Nun bist du frei eine beliebiges scikit-learn Modell zur Vorhersage von `brand` zu verwenden, um eine möglichst gute Vorhersage im Sinne unserer Zielmetrik zu erreichen.  

Zeichne die Confusion Matrix auf dem Testset und diskutiere die Resultate.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

YOUR ANSWER HERE

### Aufgabe 10 - Übersicht der Resultate (3 Punkte)

Stelle die Resultate der verschiedenen Modelle zur Vorhersage von `brand` in einer Tabelle zusammen und auch graphisch dar.  

Diskutiere deine Einsichten.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

YOUR ANSWER HERE