# Binaire classificatie

We gaan deze week aan de slag met binaire classificatie: behoort een element wel (1) of niet (0) tot een verzameling? We werken met de standaard Iris-dataset van sklearn. We gaan proberen te voorspellen of bloemen wel of niet van de ondersoort Iris Virginica zijn. Hiervoor gebruiken we logistische regressie, de bijbehorende kostenfunctie en de stapsgewijze aanpassing daarvan middels gradient descent.

Download de dataset m.b.v. `load_iris()` uit `sklearn.datasets`.

In [48]:
import numpy as np
from sklearn.datasets import load_iris

iris: tuple = load_iris() # Load the iris dataset from scikit-learn

Vul je featurematrix X op basis van de *data*.
De uitkomstvector y ga je vullen op basis van *target*. Standaard bevat deze array de waardes 0, 1 en 2 (resp. 'setosa', 'versicolor', 'virginica'). Maak deze binair door 0 en 1 allebei 0 te maken (niet-virginica) en van elke 2 een 1 te maken (wel-virginica). Denk erom dat y het juiste datatype en de juiste *shape* krijgt.

In [49]:
X: np.ndarray = iris.data
y: np.ndarray = iris.target

y = np.where(y == 2, 1, 0) # Filter out the 2's and 1's and replace them with 1's and 0's


Definieer een functie `sigmoid()` die de sigmoïde-functie implementeert.

In [50]:
def sigmoid(x: np.ndarray) -> np.ndarray:
    """
    This function implements the sigmoid function.

    :param x: The ndarray to apply the sigmoid function to.
    :return: The ndarray with the sigmoid function applied to it.
    """
    return 1 / (1 + np.exp(-x))


Initialiseer een vector theta met 1.0'en in de juiste shape.

In [51]:
θ = np.zeros(X.shape[1]) # Initialize θ to a vector of zeros with the same length as the number of features in X


Nu kun je beginnen aan de loop waarin je in **1500** iteraties:

-   De voorspellingen (denk aan sigmoid!) en de errors berekent.
-   De gradient berekent en theta aanpast. Werk in eerste instantie met een *learning rate* van 0.01.
-   De kosten berekent.

In [52]:
def compute_cost(X: np.ndarray, y: np.ndarray, θ: np.ndarray) -> float:
    """
    Using the sigmoid function, this function calculates the cost of the current θ.

    :param X: The ndarray containing the input data.
    :param y: The ndarray containing the expected output data.
    :param θ: The ndarray containing the parameters.

    :return: The cost of the current θ.
    """
    m = X.shape[0] # The number of training examples
    h = sigmoid(X @ θ) # The predicted output
    return (1 / m) * (-y.T @ np.log(h) - (1 - y).T @ np.log(1 - h)) # The cost function

def gradient_descent(X: np.ndarray, y: np.ndarray, θ: np.ndarray, α: float, iterations: int) -> np.ndarray:
    """
    This function implements the gradient descent algorithm to find the
    optimal parameters θ. It uses the compute_cost function to calculate
    the cost of the current θ.

    :param X: The ndarray containing the input data.
    :param y: The ndarray containing the expected output data.
    :param θ: The ndarray containing the parameters.
    :param α: The learning rate.
    :param iterations: The number of iterations.

    :return: The optimal parameters θ.
    """
    m = X.shape[0] # The number of training examples
    costs = []
    for _ in range(iterations):
        θ = θ - (α / m) * (X.T @ (sigmoid(X @ θ) - y)) 
        costs.append(compute_cost(X, y, θ))
    return θ, costs

θ, costs = gradient_descent(X, y, θ, 0.01, 1500) # Run the gradient descent algorithm
print(θ) # Print the optimal parameters θ
print(costs) # Print the cost of the optimal parameters θ


[-0.89227297 -0.89325142  1.33838221  1.0120103 ]
[0.685368295578123, 0.6790914843605919, 0.6738967888308871, 0.6694835184607871, 0.6656367566944983, 0.6622029220286749, 0.6590721771230419, 0.6561658611671499, 0.6534275434184555, 0.6508166622273621, 0.6483040011897669, 0.6458684682427756, 0.6434947988023196, 0.6411719149105507, 0.6388917508775724, 0.6366484112990325, 0.6344375663758285, 0.6322560169993099, 0.6301013815183547, 0.6279718698769746, 0.6258661205854419, 0.6237830829423034, 0.6217219318847661, 0.6196820063908164, 0.61766276489673, 0.6156637530169725, 0.613684580164488, 0.6117249026134, 0.6097844112268138, 0.6078628225637426, 0.6059598724341806, 0.6040753112280537, 0.6022089005295421, 0.6003604106627565, 0.5985296189121695, 0.5967163082317987, 0.5949202663083049, 0.5931412848802582, 0.5913791592427278, 0.5896336878858504, 0.5879046722301813, 0.5861919164318791, 0.5844952272382231, 0.5828144138793436, 0.5811492879859596, 0.5794996635257484, 0.5778653567530245, 0.57624618616788

Als het goed is, zie je de kosten (vanaf een beginwaarde rond 8) steeds dalen kom je aan het einde rond 0,24 uit. Werk je met de niet-negatieve versie van de kostenfunctie, dan ga ja van ongeveer -8 naar -0,24.
Experimenteer eens met andere waardes van de *learning rate* (1.0 < alpha < 0.0) en het aantal iteraties.

In [59]:
θ = np.zeros(X.shape[1]) # Initialize θ to a vector of zeros with the same length as the number of features in X
θ, costs = gradient_descent(X, y, θ, 0.9, 2900) # Run the gradient descent algorithm
print(f"theta: {θ}") # Print the optimal parameters θ
print(f"Starting cost: {costs[0]} | Ending cost: {costs[-1]}") # Print the costs

θ = np.zeros(X.shape[1])
θ, costs = gradient_descent(X, y, θ, 0.02, 1900)
print(f"theta: {θ}")
print(f"Starting cost: {costs[0]} | Ending cost: {costs[-1]}")

θ = np.zeros(X.shape[1])
θ, costs = gradient_descent(X, y, θ, 0.01, 9500)
print(f"theta: {θ}")
print(f"Starting cost: {costs[0]} | Ending cost: {costs[-1]}")


theta: [-6.21430977 -6.35510317  8.31460907  9.7548795 ]
Starting cost: 1.920500471852352 | Ending cost: 0.07235023495499313
theta: [-1.46011986 -1.31528867  2.06097824  1.74019016]
Starting cost: 0.6784677832055396 | Ending cost: 0.19026654043913627
theta: [-2.20939586 -1.93586522  3.01279683  2.8101553 ]
Starting cost: 0.685368295578123 | Ending cost: 0.13583968745997235
