In [27]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.svm import SVC
import numpy as np

In [7]:
data = pd.read_csv('Iris.csv')

In [8]:
data.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


In [9]:
set(data['Species'])

{'Iris-setosa', 'Iris-versicolor', 'Iris-virginica'}

In [10]:
mapping = {'Iris-setosa':0, 'Iris-versicolor':1, 'Iris-virginica':2}

In [11]:
data['Sp_Numeric'] = data['Species'].apply(lambda x: mapping[x])

In [12]:
data.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species,Sp_Numeric
0,1,5.1,3.5,1.4,0.2,Iris-setosa,0
1,2,4.9,3.0,1.4,0.2,Iris-setosa,0
2,3,4.7,3.2,1.3,0.2,Iris-setosa,0
3,4,4.6,3.1,1.5,0.2,Iris-setosa,0
4,5,5.0,3.6,1.4,0.2,Iris-setosa,0


In [13]:
data.columns

Index(['Id', 'SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm',
       'Species', 'Sp_Numeric'],
      dtype='object')

In [14]:
data_proc = data[['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 
                  'PetalWidthCm', 'Sp_Numeric']]

In [15]:
data_proc.head()

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Sp_Numeric
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [16]:
X = data_proc[['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 
                  'PetalWidthCm']]
y = data_proc['Sp_Numeric']

In [19]:
train_x, test_x, train_y, test_y = train_test_split(X, y, test_size=0.2, random_state=32,
                                                   stratify=y)

## Logisitic Regression

In [20]:
train_x.shape

(120, 4)

In [21]:
train_y.shape

(120,)

In [22]:
test_x.shape

(30, 4)

In [23]:
test_y.shape

(30,)

In [40]:
logreg = LogisticRegression()

In [41]:
logreg.fit(train_x, train_y)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [42]:
yhat = logreg.predict(test_x)

In [43]:
accuracy_score(yhat, test_y)

0.9333333333333333

In [44]:
yhat_train = logreg.predict(train_x)

In [45]:
accuracy_score(yhat_train, train_y)

0.9555555555555556

## SVM With Grid Search

In [24]:
trn_x, val_x, trn_y, val_y = train_test_split(train_x, train_y, test_size=0.2, random_state=42)

In [26]:
print(trn_x.shape)
print(trn_y.shape)
print(val_x.shape)
print(val_y.shape)

(96, 4)
(96,)
(24, 4)
(24,)


In [32]:
np.logspace(-5, 5, num=10)

array([1.00000000e-05, 1.29154967e-04, 1.66810054e-03, 2.15443469e-02,
       2.78255940e-01, 3.59381366e+00, 4.64158883e+01, 5.99484250e+02,
       7.74263683e+03, 1.00000000e+05])

In [31]:
# Search over the logspace
for c in np.logspace(-5, 5, num=10):
    for gamma in np.logspace(-5, 5, num=10):
        svc = SVC(C=c, gamma=gamma)
        svc.fit(trn_x, trn_y)
        pred = svc.predict(val_x)
        print('C:{}, gamma:{}, acc:{}'.format(c, gamma, accuracy_score(pred, val_y)))

C:1e-05, gamma:1e-05, acc:0.2916666666666667
C:1e-05, gamma:0.0001291549665014884, acc:0.2916666666666667
C:1e-05, gamma:0.0016681005372000592, acc:0.2916666666666667
C:1e-05, gamma:0.021544346900318846, acc:0.2916666666666667
C:1e-05, gamma:0.2782559402207126, acc:0.2916666666666667
C:1e-05, gamma:3.593813663804626, acc:0.2916666666666667
C:1e-05, gamma:46.41588833612782, acc:0.2916666666666667
C:1e-05, gamma:599.4842503189421, acc:0.2916666666666667
C:1e-05, gamma:7742.636826811277, acc:0.2916666666666667
C:1e-05, gamma:100000.0, acc:0.2916666666666667
C:0.0001291549665014884, gamma:1e-05, acc:0.2916666666666667
C:0.0001291549665014884, gamma:0.0001291549665014884, acc:0.2916666666666667
C:0.0001291549665014884, gamma:0.0016681005372000592, acc:0.2916666666666667
C:0.0001291549665014884, gamma:0.021544346900318846, acc:0.2916666666666667
C:0.0001291549665014884, gamma:0.2782559402207126, acc:0.2916666666666667
C:0.0001291549665014884, gamma:3.593813663804626, acc:0.2916666666666667
C

In [33]:
for c in np.logspace(2.78255940e-01, 4.64158883e+01, num=20):
    for gamma in np.logspace(2.78255940e-01, 4.64158883e+01, num=20):
        svc = SVC(C=c, gamma=gamma)
        svc.fit(trn_x, trn_y)
        pred = svc.predict(val_x)
        print('C:{}, gamma:{}, acc:{}'.format(c, gamma, accuracy_score(pred, val_y)))

C:1.897824024257125, gamma:1.897824024257125, acc:1.0
C:1.897824024257125, gamma:508.80618275619923, acc:0.2916666666666667
C:1.897824024257125, gamma:136410.82012979122, acc:0.2916666666666667
C:1.897824024257125, gamma:36571709.383882284, acc:0.2916666666666667
C:1.897824024257125, gamma:9804866842.57567, acc:0.2916666666666667
C:1.897824024257125, gamma:2628682536862.9976, acc:0.2916666666666667
C:1.897824024257125, gamma:704749181253873.5, acc:0.2916666666666667
C:1.897824024257125, gamma:1.889430927900195e+17, acc:0.2916666666666667
C:1.897824024257125, gamma:5.065559955606058e+19, acc:0.2916666666666667
C:1.897824024257125, gamma:1.3580754546214918e+22, acc:0.2916666666666667
C:1.897824024257125, gamma:3.640997158476444e+24, acc:0.2916666666666667
C:1.897824024257125, gamma:9.761504975972303e+26, acc:0.2916666666666667
C:1.897824024257125, gamma:2.6170572304374874e+29, acc:0.2916666666666667
C:1.897824024257125, gamma:7.016324392851103e+31, acc:0.2916666666666667
C:1.897824024257

C:1.889430927900195e+17, gamma:1.3520693876706384e+39, acc:0.2916666666666667
C:1.889430927900195e+17, gamma:3.6248949068472726e+41, acc:0.2916666666666667
C:1.889430927900195e+17, gamma:9.718334876529545e+43, acc:0.2916666666666667
C:1.889430927900195e+17, gamma:2.6054833367434856e+46, acc:0.2916666666666667
C:5.065559955606058e+19, gamma:1.897824024257125, acc:1.0
C:5.065559955606058e+19, gamma:508.80618275619923, acc:0.2916666666666667
C:5.065559955606058e+19, gamma:136410.82012979122, acc:0.2916666666666667
C:5.065559955606058e+19, gamma:36571709.383882284, acc:0.2916666666666667
C:5.065559955606058e+19, gamma:9804866842.57567, acc:0.2916666666666667
C:5.065559955606058e+19, gamma:2628682536862.9976, acc:0.2916666666666667
C:5.065559955606058e+19, gamma:704749181253873.5, acc:0.2916666666666667
C:5.065559955606058e+19, gamma:1.889430927900195e+17, acc:0.2916666666666667
C:5.065559955606058e+19, gamma:5.065559955606058e+19, acc:0.2916666666666667
C:5.065559955606058e+19, gamma:1.358

C:1.3520693876706384e+39, gamma:36571709.383882284, acc:0.2916666666666667
C:1.3520693876706384e+39, gamma:9804866842.57567, acc:0.2916666666666667
C:1.3520693876706384e+39, gamma:2628682536862.9976, acc:0.2916666666666667
C:1.3520693876706384e+39, gamma:704749181253873.5, acc:0.2916666666666667
C:1.3520693876706384e+39, gamma:1.889430927900195e+17, acc:0.2916666666666667
C:1.3520693876706384e+39, gamma:5.065559955606058e+19, acc:0.2916666666666667
C:1.3520693876706384e+39, gamma:1.3580754546214918e+22, acc:0.2916666666666667
C:1.3520693876706384e+39, gamma:3.640997158476444e+24, acc:0.2916666666666667
C:1.3520693876706384e+39, gamma:9.761504975972303e+26, acc:0.2916666666666667
C:1.3520693876706384e+39, gamma:2.6170572304374874e+29, acc:0.2916666666666667
C:1.3520693876706384e+39, gamma:7.016324392851103e+31, acc:0.2916666666666667
C:1.3520693876706384e+39, gamma:1.8810749498774978e+34, acc:0.2916666666666667
C:1.3520693876706384e+39, gamma:5.04315759781854e+36, acc:0.2916666666666667

In [34]:
final_svc = SVC(C=1.8978, gamma=1.8978)

In [35]:
final_svc.fit(trn_x, trn_y)

SVC(C=1.8978, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=1.8978, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

In [36]:
yhat = final_svc.predict(test_x)

In [37]:
accuracy_score(yhat, test_y)

0.9666666666666667