In [1]:
import pandas as pd
import numpy as np
import math
from tqdm import tqdm as tq

In [2]:
df = pd.read_csv('haberman.csv')

df = df.sample(frac=1).reset_index(drop=True) #Shuffling Dataframe

x_train = df.iloc[ : 50, :] #Slicing Dataframe for Train Data
df_cv = df.iloc[50 : 76, :] #Slicing Dataframe for CV Data
df_test  = df.iloc[76 : , :] #Slicing Dataframe for Test Data

y_train = x_train.iloc[:, -1:]
x_train = x_train.drop('status', axis = 1)

y_cv = df_cv.iloc[:, -1:]
x_cv = df_cv.drop('status', axis = 1)

y_test = df_test.iloc[:, -1:]
x_test = df_test.drop('status', axis = 1)

In [3]:
def convt(inp_data): #Converting Categorical Feature to Binary
    temp = []
    for i in range(len(inp_data)):
        if list(inp_data['status'].values)[i] == 1:
            temp.append(1)
        else:
            temp.append(-1)
    return temp

In [4]:
y_train = convt(y_train)
y_cv = convt(y_cv)
y_test = convt(y_test)

## Stand Scaler

In [5]:
def scal(inpt_data):
    df1 = pd.DataFrame() #Empty DataFrame
    len_col = len(inpt_data.columns.values) #Number of coloumns
    for j in range(len_col): #
        summ = 0
        data = inpt_data.iloc[ : , j:j+1 ].values
        for i in data:
            summ += i # Taking sum of all row in a feature
        mean = summ/(len(data)) #Calculating mean

        diff = 0
        summ = 0
        for i in data:
            diff = (i - mean)**2
            summ += diff
        sd = summ / (len(data)) #Calculating SD
        sd = (sd)**(1/2)

        arr = []
        for i in data:
            arr.append((i - mean) / (sd))
        arr = np.array(arr)
        arr = pd.DataFrame(data = arr)
        df1 = pd.concat([df1, arr], axis = 1) #Appending Scaled Values in Empty DataFrame
    return df1

In [6]:
x_train = scal(x_train)
x_cv = scal(x_cv)
x_test = scal(x_test)

In [7]:
def solver(data, w, lam, y_true): #Using this equation -> https://imgur.com/a/Y98XxNC Eq.1
    data = data.reshape((len(data), 1))
    w_t = w.T
    y_pred, l2, temp, z = [0, 0, 0, 0]
    prod = np.dot(w_t, data)
    z = (y_true * prod)
    l2 = lam * (np.dot(w_t, w)) #Regularization Term
    y_pred = (1.0 +  math.exp(-z))
    y_pred = math.log(y_pred) + l2 #Adding L2 Norm
    return y_pred

In [8]:
def sgd(w, iterr, lr, lam, dataframe, y_true): #By differentiating Eq.1 we get -> https://imgur.com/a/IQzVTVe Eq.2
    for i in tq(range(iterr)):#To avoid math error take absolute equation i.e remove -ve sign from Eq.2 -> https://imgur.com/wAh6OeG
        err_sum = 0
        pred = []
        for j in range(dataframe.shape[0]):
            y_pred = solver(np.array(dataframe.loc[j]), w, lam, y_true[j])
            err = (y_true[j]) - (y_pred)
            err_sum += (err)**2
            for k in range(dataframe.shape[1]):
                num  = (w[k] * y_pred)
                prod = (w[k] * y_pred * dataframe.iloc[j,k])
                deno = (math.exp(prod)) + 1
                w[k] = w[k] - lr * (num/deno)
    return [err_sum, w]

## Tester

In [9]:
iterr = 500
lr = 0.00001
ini_w =  np.random.uniform(size = (x_train.shape[1], 1))
for i in range(1, 31):
    lam = i
    w = sgd(ini_w, iterr, lr, lam, x_train, y_train)
    print( 'When lambda:', lam, 'Error:',w[0][0][0])

100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:14<00:00, 33.77it/s]
  2%|█▎                                                                                | 8/500 [00:00<00:15, 32.41it/s]

When lambda: 1 Error: 152.78302073657267


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:15<00:00, 32.90it/s]
  1%|▋                                                                                 | 4/500 [00:00<00:13, 36.36it/s]

When lambda: 2 Error: 148.6896747339697


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:15<00:00, 32.92it/s]
  1%|▋                                                                                 | 4/500 [00:00<00:15, 33.06it/s]

When lambda: 3 Error: 127.01368319409156


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:15<00:00, 33.32it/s]
  1%|▋                                                                                 | 4/500 [00:00<00:14, 35.09it/s]

When lambda: 4 Error: 106.9469421526713


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:15<00:00, 33.29it/s]
  0%|▎                                                                                 | 2/500 [00:00<00:26, 19.05it/s]

When lambda: 5 Error: 91.62542991846614


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:14<00:00, 33.39it/s]
  2%|█▎                                                                                | 8/500 [00:00<00:12, 37.88it/s]

When lambda: 6 Error: 80.40723232037644


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:15<00:00, 33.32it/s]
  1%|▍                                                                                 | 3/500 [00:00<00:18, 27.03it/s]

When lambda: 7 Error: 72.20913388832226


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:14<00:00, 33.46it/s]
  1%|▋                                                                                 | 4/500 [00:00<00:14, 35.08it/s]

When lambda: 8 Error: 66.15410639492504


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:14<00:00, 33.68it/s]
  1%|▋                                                                                 | 4/500 [00:00<00:17, 28.78it/s]

When lambda: 9 Error: 61.61661620172714


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:14<00:00, 33.89it/s]
  1%|▋                                                                                 | 4/500 [00:00<00:15, 33.06it/s]

When lambda: 10 Error: 58.16400499245019


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:14<00:00, 33.50it/s]
  1%|▋                                                                                 | 4/500 [00:00<00:12, 39.21it/s]

When lambda: 11 Error: 55.49768768222807


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:14<00:00, 33.71it/s]
  2%|█▎                                                                                | 8/500 [00:00<00:13, 35.97it/s]

When lambda: 12 Error: 53.409889776540695


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:15<00:00, 32.04it/s]
  1%|▋                                                                                 | 4/500 [00:00<00:15, 32.52it/s]

When lambda: 13 Error: 51.754198380655374


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:14<00:00, 33.35it/s]
  1%|▋                                                                                 | 4/500 [00:00<00:14, 33.61it/s]

When lambda: 14 Error: 50.42596341976062


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:15<00:00, 32.85it/s]
  2%|█▎                                                                                | 8/500 [00:00<00:15, 32.33it/s]

When lambda: 15 Error: 49.34928730342917


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:15<00:00, 33.07it/s]
  1%|▍                                                                                 | 3/500 [00:00<00:17, 28.85it/s]

When lambda: 16 Error: 48.468333175914324


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:15<00:00, 32.81it/s]
  1%|▍                                                                                 | 3/500 [00:00<00:19, 25.64it/s]

When lambda: 17 Error: 47.74145641709464


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:15<00:00, 33.19it/s]
  1%|▍                                                                                 | 3/500 [00:00<00:20, 24.59it/s]

When lambda: 18 Error: 47.13719231794381


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:15<00:00, 32.46it/s]
  1%|▋                                                                                 | 4/500 [00:00<00:16, 30.07it/s]

When lambda: 19 Error: 46.63147618535889


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:15<00:00, 33.04it/s]
  1%|█▏                                                                                | 7/500 [00:00<00:13, 35.55it/s]

When lambda: 20 Error: 46.20569151194956


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:16<00:00, 30.37it/s]
  1%|▋                                                                                 | 4/500 [00:00<00:14, 35.08it/s]

When lambda: 21 Error: 45.845281650100716


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:15<00:00, 33.06it/s]
  1%|▊                                                                                 | 5/500 [00:00<00:12, 40.32it/s]

When lambda: 22 Error: 45.53874993730157


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:15<00:00, 32.96it/s]
  1%|▋                                                                                 | 4/500 [00:00<00:14, 35.40it/s]

When lambda: 23 Error: 45.27693101997136


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:14<00:00, 33.77it/s]
  1%|▋                                                                                 | 4/500 [00:00<00:14, 33.90it/s]

When lambda: 24 Error: 45.052453848318365


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:14<00:00, 33.91it/s]
  2%|█▎                                                                                | 8/500 [00:00<00:12, 38.39it/s]

When lambda: 25 Error: 44.85934172730315


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:14<00:00, 33.91it/s]
  1%|█▏                                                                                | 7/500 [00:00<00:17, 28.23it/s]

When lambda: 26 Error: 44.69271146056706


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:14<00:00, 33.39it/s]
  1%|▋                                                                                 | 4/500 [00:00<00:13, 37.38it/s]

When lambda: 27 Error: 44.548544890285214


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:14<00:00, 33.73it/s]
  1%|▍                                                                                 | 3/500 [00:00<00:16, 29.41it/s]

When lambda: 28 Error: 44.423513849629344


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:15<00:00, 33.13it/s]
  1%|▍                                                                                 | 3/500 [00:00<00:18, 27.03it/s]

When lambda: 29 Error: 44.314844887442185


100%|████████████████████████████████████████████████████████████████████████████████| 500/500 [00:15<00:00, 33.29it/s]

When lambda: 30 Error: 44.22021386685363





In [14]:
def tester(X, y_true, lam, w):
    y_pred = []
    for i in range(X.shape[0]):
        y_pred.append(solver(np.array(X.iloc[i]), w, lam, y_true[i]))
    crt = 0 #Counter for correct prediction
    incrt = 0 #Counter for incorrect prediction
    for j in range(len(y_true)):
        if (y_pred[j]) > 0.5: #Creating a ththreshold
            crt += 1
        elif (y_pred[j]) < 0.5:
            incrt += 1
    print('Correct: ', crt, 'Incorrect: ', incrt)
    print('Accuracy: ',crt/(X.shape[0])*100, '%')

In [15]:
tester(x_train, y_train, lam, w[1])

Correct:  50 Incorrect:  0
Accuracy:  100.0 %


In [16]:
tester(x_cv, y_cv, lam, w[1])

Correct:  26 Incorrect:  0
Accuracy:  100.0 %


In [17]:
tester(x_test, y_test, lam, w[1])

Correct:  24 Incorrect:  0
Accuracy:  100.0 %
