In [161]:
import numpy as np
import pandas as pd
import random
import cvxopt
from cvxopt import matrix, solvers
from cvxopt.modeling import variable
from tqdm.notebook import tqdm
from sklearn.svm import SVC

In [174]:
df = pd.read_csv('2019EE10577.csv',header=None)
df = df[(df[25] == 0) | (df[25] == 1)]
X = []
y = []
for i,row in df.iterrows():
    xi = []
    for j in range(0,25):
        xi.append(row[j])
    X.append(xi)
    if(row[25]==0):
        y.append(-1)
    else:
        y.append(row[25])

In [282]:
class SVM:
    def __init__(self,kernel='LINEAR',C = 3.0,gamma = 0.001, power = 4, coeff = 1):
        self.kernel = kernel
        self.C = C
        self.gamma = gamma
        self.power = power
        self.coeff = coeff
    
    def fit(self,X,y):
        X = np.array(X)
        y = np.array(y)
        num_samples,num_features = X.shape
        K = np.zeros((num_samples,num_samples))
        
        for i in tqdm(range(num_samples)):
            for j in range(num_samples):
                if self.kernel == 'LINEAR':
                    K[i][j] = np.dot(X[i],np.transpose(X[j]))
                elif self.kernel == 'POLY':
                    K[i][j] = (np.dot(X[i],np.transpose(X[j])) + self.coeff) ** self.power
                elif self.kernel == 'RBF':
                    K[i][j] = np.exp(-1 * self.gamma*np.sum(np.square(X[i]-X[j])))
        
        self.K = K
        
        H = np.zeros((num_samples,num_samples))
        for i in tqdm(range(num_samples)):
            for j in range(num_samples):
                H[i][j] = y[i]*y[j] * K[i][j]
        P = matrix(H)
        q = matrix(np.ones(num_samples) * -1)
        G = matrix(np.vstack(((np.identity(num_samples) * -1),np.identity(num_samples))))
        h = matrix(np.hstack((np.zeros(num_samples),np.ones(num_samples)*self.C)))
        A = matrix(y,(1,num_samples))
        b = matrix(0.0)
        
        soln = solvers.qp(P,q,G,h,A,b)
        alpha = np.array(soln['x']) 
        
        self.sup_idx = np.where(alpha>1e-5)[0]
        self.ind =  np.arange(len(alpha))[self.sup_idx]
        
        self.sup_x = X[self.sup_idx,:]
        self.sup_y = y[self.sup_idx]
        self.alpha = alpha[self.sup_idx]
                
#         self.b = np.sum(self.sup_y)
#         for idx in self.sup_idx:
#             self.b -= np.sum(self.alpha * self.sup_y * self.K[idx,self.sup_idx].reshape((-1,1)))
#         self.b /= self.sup_idx.shape[0]

        self.b = self.sup_y[0]
        for i in range(len(self.alpha)):
            if self.kernel == 'LINEAR':
                temp = np.dot(self.sup_x[i],np.transpose(self.sup_x[0]))
            elif self.kernel == 'POLY':
                temp = (np.dot(X[i],np.transpose(X[j])) + self.coeff) ** self.power
            elif self.kernel == 'RBF':
                temp = np.exp(-1 * self.gamma*np.sum(np.square(self.sup_x[i]-self.sup_x[0])))
            self.b -= self.alpha[i] * self.sup_y[i] * temp
        
    def predict(self,X):
        preds = []
        for x in X:
            pred = 0
            for i in range(len(self.alpha)):
                if self.kernel == 'LINEAR':
                    temp = np.dot(self.sup_x[i],np.transpose(x))
                elif self.kernel == 'POLY':
                    temp = (np.dot(X[i],np.transpose(X[j])) + self.coeff) ** self.power
                elif self.kernel == 'RBF':
                    temp = np.exp(-1 * self.gamma *np.sum(np.square(self.sup_x[i]-x)))
                pred += self.alpha[i] * self.sup_y[i] * temp
            pred += self.b
            if pred>=0:
                preds.append(1.0)
            else:
                preds.append(-1.0)
        return np.array(preds)
        

In [283]:
np.array(X).shape

(615, 25)

In [292]:
cf = SVM(kernel='RBF')

In [293]:
cf.fit(X,y)

HBox(children=(FloatProgress(value=0.0, max=615.0), HTML(value='')))




HBox(children=(FloatProgress(value=0.0, max=615.0), HTML(value='')))


     pcost       dcost       gap    pres   dres
 0:  1.6473e+01 -4.3268e+03  1e+04  9e-01  6e-15
 1:  1.2309e+02 -1.1689e+03  1e+03  5e-03  5e-15
 2: -1.6914e+01 -2.9782e+02  3e+02  9e-04  4e-15
 3: -4.3386e+01 -2.1405e+02  2e+02  5e-04  4e-15
 4: -6.0873e+01 -1.5893e+02  1e+02  2e-04  4e-15
 5: -7.0200e+01 -1.3249e+02  6e+01  1e-04  4e-15
 6: -7.6113e+01 -1.1834e+02  4e+01  8e-05  5e-15
 7: -8.1172e+01 -1.0562e+02  2e+01  3e-05  6e-15
 8: -8.3944e+01 -9.9954e+01  2e+01  2e-05  6e-15
 9: -8.6941e+01 -9.3638e+01  7e+00  4e-06  7e-15
10: -8.8038e+01 -9.1516e+01  3e+00  5e-08  8e-15
11: -8.9003e+01 -9.0280e+01  1e+00  4e-09  8e-15
12: -8.9251e+01 -8.9970e+01  7e-01  5e-15  8e-15
13: -8.9534e+01 -8.9661e+01  1e-01  2e-15  8e-15
14: -8.9594e+01 -8.9598e+01  4e-03  8e-15  9e-15
15: -8.9596e+01 -8.9596e+01  4e-05  7e-15  9e-15
Optimal solution found.


In [294]:
cf.sup_y

array([ 1.,  1.,  1., -1., -1., -1.,  1.,  1.,  1.,  1.,  1.,  1., -1.,
        1.,  1.,  1.,  1.,  1., -1., -1., -1.,  1., -1.,  1., -1., -1.,
       -1.,  1.,  1., -1., -1., -1.,  1., -1.,  1.,  1., -1., -1., -1.,
       -1.,  1., -1., -1., -1., -1.,  1.,  1.,  1.,  1., -1., -1.,  1.,
       -1.])

In [295]:
cf.sup_idx

array([  5,   6,  10,  12,  13,  14,  17,  27,  63,  70,  71,  77,  83,
        86, 102, 108, 119, 126, 127, 139, 148, 152, 183, 184, 232, 246,
       248, 259, 264, 275, 283, 297, 344, 354, 368, 379, 387, 393, 401,
       435, 446, 451, 458, 461, 462, 463, 493, 501, 541, 543, 546, 550,
       575], dtype=int64)

In [296]:
cf.b

array([-0.36463985])

In [297]:
cf.predict(X)

array([ 1., -1.,  1.,  1., -1.,  1.,  1., -1., -1.,  1.,  1., -1., -1.,
       -1., -1.,  1., -1.,  1., -1., -1.,  1.,  1.,  1.,  1.,  1.,  1.,
       -1.,  1.,  1., -1., -1., -1., -1., -1.,  1.,  1., -1.,  1.,  1.,
        1., -1., -1., -1.,  1.,  1., -1.,  1., -1., -1., -1.,  1., -1.,
        1.,  1.,  1., -1.,  1., -1.,  1.,  1., -1.,  1., -1.,  1.,  1.,
       -1.,  1.,  1.,  1., -1.,  1.,  1., -1.,  1., -1., -1.,  1.,  1.,
       -1., -1., -1., -1.,  1., -1., -1.,  1.,  1.,  1.,  1.,  1., -1.,
       -1.,  1., -1.,  1., -1., -1., -1., -1.,  1., -1., -1.,  1.,  1.,
        1., -1., -1., -1.,  1., -1., -1., -1.,  1., -1., -1., -1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1., -1.,  1., -1., -1.,  1.,
       -1.,  1.,  1.,  1.,  1.,  1., -1., -1., -1., -1., -1.,  1., -1.,
       -1.,  1.,  1., -1.,  1., -1., -1., -1., -1.,  1., -1., -1.,  1.,
       -1., -1.,  1.,  1., -1.,  1., -1., -1.,  1.,  1., -1., -1., -1.,
        1., -1., -1., -1.,  1., -1.,  1., -1.,  1., -1., -1.,  1

In [204]:
s = SVC(kernel='rbf',C = 3.0,gamma=0.001)
s.fit(X,y)
print(str(len(s.support_))+' support vectors using SVC:', sorted(s.support_))

53 support vectors using SVC: [5, 6, 10, 12, 13, 14, 17, 27, 63, 70, 71, 77, 83, 86, 102, 108, 119, 126, 127, 139, 148, 152, 183, 184, 232, 246, 248, 259, 264, 275, 283, 297, 344, 354, 368, 379, 387, 393, 401, 435, 446, 451, 458, 461, 462, 463, 493, 501, 541, 543, 546, 550, 575]


In [205]:
s.predict(X)

array([ 1., -1.,  1.,  1., -1.,  1.,  1., -1., -1.,  1.,  1., -1., -1.,
       -1., -1.,  1., -1.,  1., -1., -1.,  1.,  1.,  1.,  1.,  1.,  1.,
       -1.,  1.,  1., -1., -1., -1., -1., -1.,  1.,  1., -1.,  1.,  1.,
        1., -1., -1., -1.,  1.,  1., -1.,  1., -1., -1., -1.,  1., -1.,
        1.,  1.,  1., -1.,  1., -1.,  1.,  1., -1.,  1., -1.,  1.,  1.,
       -1.,  1.,  1.,  1., -1.,  1.,  1., -1.,  1., -1., -1.,  1.,  1.,
       -1., -1., -1., -1.,  1., -1., -1.,  1.,  1.,  1.,  1.,  1., -1.,
       -1.,  1., -1.,  1., -1., -1., -1., -1.,  1., -1., -1.,  1.,  1.,
        1., -1., -1., -1.,  1., -1., -1., -1.,  1., -1., -1., -1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1., -1.,  1., -1., -1.,  1.,
       -1.,  1.,  1.,  1.,  1.,  1., -1., -1., -1., -1., -1.,  1., -1.,
       -1.,  1.,  1., -1.,  1., -1., -1., -1., -1.,  1., -1., -1.,  1.,
       -1., -1.,  1.,  1., -1.,  1., -1., -1.,  1.,  1., -1., -1., -1.,
        1., -1., -1., -1.,  1., -1.,  1., -1.,  1., -1., -1.,  1

In [299]:
for e in cf.predict(X) == s.predict(X):
    if e == False:
        print("uh")

In [301]:
np.array(X).shape

(615, 25)

In [302]:
np.array(y).shape

(615,)