In [1]:
import numpy as np
import pandas as pd
np.random.seed(42)

In [2]:
class LogisticRegression:
    
    def __init__(self, max_iter=100, penalty=None, alpha=0.001, C=0.001, treshold=0.5):
        
        self.intercept = None 
        self.weights = None
        self.alpha = alpha
        self.max_iter = max_iter
        self.penalty = penalty
        self.treshold = treshold
        self.C = C
        
    def cross_entropy(self, y, h):
        if self.penalty is None:
            return (-1./len(y)) * np.sum( np.dot(y, np.log(h+1e-10))  + np.dot(( 1 - y ), np.log(1-h+1e-10)) )
        
        reg_term = (1 / (2 * self.C * len(y))) * np.dot(self.weights.T, self.weights)
        return -1 * np.sum( y * np.log(h+1e-10)  + ( 1 - y ) * np.log(1-h+1e-10) ) + reg_term
    
    def sigmoid(self, p):
        return 1/((1+np.exp(-(p))) + 0.000000001)
    

    def fit(self, x, y):
        
        self.intercept = np.ones((x.shape[0], 1))
        x = np.concatenate((self.intercept, x), axis=1)
        self.weights = np.random.normal(size=(x.shape[1], 1))
        
        for i in range(self.max_iter):
            preds = x.dot(self.weights)
            z = self.sigmoid(preds)
            cost = self.cross_entropy(y.T, z)
            
            if self.penalty is None: 
                grads = np.dot(x.T, (z - y)) / len(x)
            else:               
                grads = (self.C * np.dot(x.T, (z - y)) + np.sum(self.weights))
                
            self.weights -= self.alpha * grads
            
    def predict(self, x):
        
        x = np.concatenate((self.intercept, x), axis=1)
        
        result = self.sigmoid(np.dot(x, self.weights))
        result = result >= self.treshold
        y_pred = np.zeros(result.shape[0])
        
        for i in range(len(y_pred)):
            
            if result[i] == True: 
                y_pred[i] = 1
            else:
                continue
                 
        return y_pred

In [3]:
df = pd.read_csv('diabetes.csv')
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [4]:
df.isna().sum()

Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64

In [5]:
y = df['Outcome']
x = df.drop(['Outcome'], axis=1)
y.values.reshape(-1,1)
x.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age
0,6,148,72,35,0,33.6,0.627,50
1,1,85,66,29,0,26.6,0.351,31
2,8,183,64,0,0,23.3,0.672,32
3,1,89,66,23,94,28.1,0.167,21
4,0,137,40,35,168,43.1,2.288,33


In [6]:
l = LogisticRegression()
y = y.values.reshape(-1,1)
l.fit(x,y)

In [7]:
l.predict(x)

array([0., 0., 0., 1., 0., 1., 0., 0., 0., 0., 1., 1., 0., 0., 0., 0., 1.,
       1., 0., 0., 1., 1., 0., 0., 0., 0., 1., 1., 0., 1., 0., 0., 1., 1.,
       0., 0., 1., 0., 1., 0., 0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 1.,
       0., 0., 0., 0., 1., 0., 1., 1., 1., 0., 0., 1., 0., 0., 0., 0., 1.,
       0., 0., 1., 0., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 1.,
       1., 0., 1., 0., 0., 1., 1., 1., 0., 0., 0., 1., 0., 0., 1., 1., 0.,
       1., 1., 1., 0., 1., 0., 1., 1., 0., 0., 1., 1., 0., 0., 1., 1., 0.,
       1., 1., 0., 1., 0., 1., 1., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0.,
       1., 1., 1., 1., 0., 0., 1., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.,
       1., 1., 0., 1., 0., 1., 0., 0., 0., 1., 1., 1., 0., 0., 1., 1., 1.,
       1., 1., 0., 1., 0., 0., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0.,
       0., 0., 0., 1., 0., 0., 1., 0., 0., 1., 0., 0., 0., 1., 1., 0., 0.,
       0., 0., 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 1.,
       0., 0., 0., 0., 1.

In [8]:
l.cross_entropy(y.T,l.predict(x))

9993.21930356076