---
## Logistic regression with Sigmoid-Function

### IMPORTS 

In [17]:
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [18]:
class LogisticRegressionGD(object):
    '''Klassifizierer mit logistischer Regression und Gradient-Descent-Gewichtungsfindung
    
        Parameter
        --------
        eta: float
            Lernrate (zwischen 0.0 und 1.0)
        n_iter: int
            Anzahl der Durchläufe der Trainingsdatenmenge
        random_state: int
            Zufallszahlengenerator für zufällige Initialisierung der Gewichte
        
        Attributes
        ----------
        w_: 1-d array
            Gewichte nach Anpassung
        cost_: list
            Summe der quadrierten Werte der Straffunktion pro Epoche
    '''

    def __init__(self, eta:float =.05, n_iter:int =100, random_state:int =1):
        self._eta          = eta
        self._random_state = random_state
        self._n_iter       = n_iter
    
    def _net_input(self, X: np.array) -> np.array:
        '''Netzeingabe Funktion'''
        return np.dot(X, self.w_[1:]) + self.w_[0]
    
    def _activation_function(self, z: np.array) -> np.array:
        '''logistische Aktivierungsfunktion berechnen'''
        return 1.0 / (1.0 + np.exp(-np.clip(z, -250, +250)))
    
    def fit(self, X:np.array, y:np.array):
        '''Fit-auf Trainingsdatenmengen
        
            Parameter
            ---------
            X: {np.array}, shape = [n_samples, n_features]
                Trainingsvektoren, n_samples ist die Anzahl der Exemplare und n_features
                ist die Anzahl der Merkmale (features)
            y: {np.array}, shape = [n_samples]
                Zielwerte
            
            Rückgabewert
            ------------
            self: object
        '''
        rgen = np.random.RandomState(self._random_state)
        self.w_ = rgen.normal(loc=0.0, scale=0.01, size=X.shape[1]+1)

        self.cost_ = []
        for i in range(self._n_iter):
            _net_input = self._net_input(X=X)
            output = self._activation_function(_net_input)
            errors = (y - output)
            self.w_[1:] += self._eta * X.T.dot(errors)
            self.w_[0]  += self._eta * errors.sum()
            # Berechnung des Werts der Straffunktion der logistischen Regression
            # (nicht mehr die quadratischen Fehler)
            cost = (-y.dot(np.log(output)) - ((1-y).dot(np.log(1-output))))
            self.cost_.append(cost)
        return self
    
    def predict(self, X:np.array) -> np.array:
        '''Klassenbezeichnungen zurückgeben'''
        return np.where(self._net_input(X) >= 0.0, 1, 1)
        # Entspricht:  return np.where(self._activation_function(self._net_input(X) >= 0.5, 1, 0))

---
## Logistische Regressionen sind nur für binäre Klassifikationsaufgaben möglich
Daher nur entsprechende Teile der IRIS-Datensammlung verwenden

In [27]:
s = os.path.join('https://archive.ics.uci.edu', 'ml', 'machine-learning-databases', 'iris', 'iris.data')
# s = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
print('URL: ', s)
df = pd.read_csv('data/iris.data', header=None, encoding='utf-8')
df.head(10)

URL:  https://archive.ics.uci.edu\ml\machine-learning-databases\iris\iris.data


FileNotFoundError: [Errno 2] No such file or directory: 'data/iris.data'

X_train_01_subset = X_train[(y_train == 0) | (y_train == 1)]
y_train_01_subset = y_train[(y_train == 0) | (y_train == 1)]