In [139]:
%matplotlib inline
from matplotlib.colors import ListedColormap
import matplotlib.pyplot as plt
import pandas as pd

In [140]:
from ruruki.graphs import Graph

In [141]:
#Attribute Information:
#1. Number of times pregnant 
#2. Plasma glucose concentration a 2 hours in an oral glucose tolerance test 
#3. Diastolic blood pressure (mm Hg) 
#4. Triceps skin fold thickness (mm) 
#5. 2-Hour serum insulin (mu U/ml) 
#6. Body mass index (weight in kg/(height in m)^2) 
#7. Diabetes pedigree function 
#8. Age (years) 
#9. Class variable (0 or 1) 

In [142]:
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
diabetes = pd.read_csv("pima-indians-diabetes.data", names=names)
diabetes.head()

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [143]:
diabetes.columns

Index(['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'], dtype='object')

In [144]:
diabetes.groupby(['class'])['class'].count()

class
0    500
1    268
Name: class, dtype: int64

In [145]:
diabetes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
preg     768 non-null int64
plas     768 non-null int64
pres     768 non-null int64
skin     768 non-null int64
test     768 non-null int64
mass     768 non-null float64
pedi     768 non-null float64
age      768 non-null int64
class    768 non-null int64
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


In [146]:
from scipy.stats import zscore

X = diabetes[['plas','mass']]
X = diabetes[['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi','age']].apply(zscore)

In [147]:
X

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age
0,0.639947,0.848324,0.149641,0.907270,-0.692891,0.204013,0.468492,1.425995
1,-0.844885,-1.123396,-0.160546,0.530902,-0.692891,-0.684422,-0.365061,-0.190672
2,1.233880,1.943724,-0.263941,-1.288212,-0.692891,-1.103255,0.604397,-0.105584
3,-0.844885,-0.998208,-0.160546,0.154533,0.123302,-0.494043,-0.920763,-1.041549
4,-1.141852,0.504055,-1.504687,0.907270,0.765836,1.409746,5.484909,-0.020496
5,0.342981,-0.153185,0.253036,-1.288212,-0.692891,-0.811341,-0.818079,-0.275760
6,-0.250952,-1.342476,-0.987710,0.719086,0.071204,-0.125977,-0.676133,-0.616111
7,1.827813,-0.184482,-3.572597,-1.288212,-0.692891,0.419775,-1.020427,-0.360847
8,-0.547919,2.381884,0.046245,1.534551,4.021922,-0.189437,-0.947944,1.681259
9,1.233880,0.128489,1.390387,-1.288212,-0.692891,-4.060474,-0.724455,1.766346


In [148]:
y = diabetes['class']

In [149]:
y

0      1
1      0
2      1
3      0
4      1
5      0
6      1
7      0
8      1
9      1
10     0
11     1
12     0
13     1
14     1
15     1
16     1
17     1
18     0
19     1
20     0
21     0
22     1
23     1
24     1
25     1
26     1
27     0
28     0
29     0
      ..
738    0
739    1
740    1
741    0
742    0
743    1
744    0
745    0
746    1
747    0
748    1
749    1
750    1
751    0
752    0
753    1
754    1
755    1
756    0
757    1
758    0
759    1
760    0
761    1
762    0
763    0
764    0
765    0
766    1
767    0
Name: class, Length: 768, dtype: int64

In [150]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

In [151]:
import numpy as np
X_train = np.array(X_train)

In [152]:
y_train = np.array(y_train)
X_test = np.array(X_test)
y_test = np.array(y_test)

In [153]:
min = X_train.min(axis=0)

In [154]:
min[0]

-1.1418515161634994

In [155]:
max = X_train.max(axis=0)

In [156]:
max[0]

3.906578350084603

In [157]:
cols = X_train.shape[-1]

In [158]:
cols

8

In [159]:
## this a python function to create the buckets given 
## min, max and num of buckets

def get_buckets(min, max, num_buckets):
    buckets = []
    bucket_size= (max-min)/num_buckets
    for i in range(1,num_buckets):
        buckets.append((min+(i-1)*bucket_size))
    buckets.append(max)    
    return buckets  

In [160]:
bins = []
for i in range (0,cols):
    bins.append(get_buckets(X_train.min(axis=0)[i],X_train.max(axis=0)[i],1000))
bins   

[[-1.1418515161634994,
  -1.1368030862972514,
  -1.1317546564310033,
  -1.1267062265647552,
  -1.121657796698507,
  -1.116609366832259,
  -1.1115609369660109,
  -1.1065125070997628,
  -1.1014640772335147,
  -1.0964156473672666,
  -1.0913672175010185,
  -1.0863187876347704,
  -1.0812703577685223,
  -1.076221927902274,
  -1.071173498036026,
  -1.0661250681697778,
  -1.0610766383035297,
  -1.0560282084372816,
  -1.0509797785710335,
  -1.0459313487047854,
  -1.0408829188385373,
  -1.0358344889722892,
  -1.0307860591060412,
  -1.025737629239793,
  -1.020689199373545,
  -1.0156407695072969,
  -1.0105923396410488,
  -1.0055439097748007,
  -1.0004954799085526,
  -0.9954470500423045,
  -0.9903986201760564,
  -0.9853501903098083,
  -0.9803017604435602,
  -0.9752533305773121,
  -0.9702049007110639,
  -0.9651564708448158,
  -0.9601080409785677,
  -0.9550596111123196,
  -0.9500111812460715,
  -0.9449627513798234,
  -0.9399143215135753,
  -0.9348658916473273,
  -0.9298174617810792,
  -0.924769031914

In [161]:
bins[0][0]

-1.1418515161634994

In [162]:
def find_bin(bins,value):
    first_bin = bins[0]
    for i in range (1,len(bins)):
        if (value >= first_bin and value <= bins[i]):
            return i
        else:
            first_bin = bins[i]
    return -1       

In [163]:
find_bin(bins[0],0)

227

In [164]:
graph = Graph()

In [165]:
rows = X_train.shape[0]

In [166]:
rows

537

In [167]:
X_train[0][0]

-1.1418515161634994

In [168]:
cc= graph.get_or_create_vertex("mdata", wcol=-1, cbin=-1)

In [169]:
print(cc.as_dict().get("count"))

None


In [170]:
rows 

537

In [171]:
cols

8

In [172]:
for i in range (0,rows):
    for j in range (0,cols):
        wbin=find_bin(bins[j],X_train[i][j])
        #print(wbin)
        v = graph.get_or_create_vertex("data",col=j,cbin=wbin)
        #print(v)
        if(y_train[i] == 1):
            out = graph.get_or_create_vertex("outc",col=j,cbin=wbin,out="yes")
        else:
            out = graph.get_or_create_vertex("outc",col=j,cbin=wbin,out="no")
        
        #print(out.as_dict().get("count"))
        
        if(out.as_dict().get('properties').get("count") == None):
          # print("here")
            out.set_property(count=1)
        else:
            cc = int(str(out.as_dict().get('properties').get("count")))+1
            out.set_property(count=cc)
        
#        print(out.as_dict())
        graph.get_or_create_edge(v, "outcome", out)

In [173]:
graph.get_or_create_vertex("outc",row=0,col=0,cbin=1,out="yes")

<Vertex> ident: 2297, label: outc, properties: {'row': 0, 'col': 0, 'cbin': 1, 'out': 'yes'}

In [174]:
#graph.get_or_create_vertex("outc",col=0,cbin=1,out="yes")

In [175]:
result = graph.get_vertices("data")
result

<EntitySet> items: 952

In [176]:
graph.get_edges()

<EntitySet> items: 1344

In [177]:
print(result.all())

[<Vertex> ident: 672, label: data, properties: {'col': 1, 'cbin': 657}, <Vertex> ident: 1541, label: data, properties: {'col': 4, 'cbin': 138}, <Vertex> ident: 940, label: data, properties: {'col': 6, 'cbin': 55}, <Vertex> ident: 1371, label: data, properties: {'col': 7, 'cbin': 700}, <Vertex> ident: 999, label: data, properties: {'col': 6, 'cbin': 95}, <Vertex> ident: 1769, label: data, properties: {'col': 6, 'cbin': 277}, <Vertex> ident: 1826, label: data, properties: {'col': 6, 'cbin': 33}, <Vertex> ident: 2110, label: data, properties: {'col': 4, 'cbin': 347}, <Vertex> ident: 408, label: data, properties: {'col': 1, 'cbin': 581}, <Vertex> ident: 674, label: data, properties: {'col': 5, 'cbin': 583}, <Vertex> ident: 1543, label: data, properties: {'col': 6, 'cbin': 58}, <Vertex> ident: 1601, label: data, properties: {'col': 4, 'cbin': 133}, <Vertex> ident: 2285, label: data, properties: {'col': 4, 'cbin': 295}, <Vertex> ident: 1373, label: data, properties: {'col': 4, 'cbin': 84}, <

In [178]:
result

<EntitySet> items: 952

In [179]:
X_test

array([[-0.84488505,  2.44447821,  0.35643175, ...,  1.38436175,
         2.784923  , -0.95646168],
       [-0.54791859, -0.43485916,  0.25303625, ...,  0.20401277,
        -0.20499449, -0.87137393],
       [ 0.04601433, -1.40507067, -0.36733675, ...,  0.25478047,
        -0.24425603, -0.70119842],
       ...,
       [-0.84488505, -0.81042491, -0.47073225, ..., -1.02710391,
        -0.63989158, -0.95646168],
       [-0.84488505, -0.46615631,  0.35643175, ...,  0.69899783,
        -0.83015905, -0.61611067],
       [ 1.82781311,  0.03459802,  0.45982725, ..., -0.5575027 ,
         0.12117833,  1.00055664]])

In [180]:
wbin=find_bin(bins[0],X_test[0][0])
v1 = graph.get_or_create_vertex("data",col=0,cbin=wbin)
v1


<Vertex> ident: 17, label: data, properties: {'col': 0, 'cbin': 59}

In [181]:
wbin=find_bin(bins[2],X_test[0][2])
v2 = graph.get_or_create_vertex("data",col=2,cbin=wbin)
v2


<Vertex> ident: 239, label: data, properties: {'col': 2, 'cbin': 623}

In [182]:
rs = graph.get_vertices(label="data")

In [183]:
rs

<EntitySet> items: 952

In [184]:
 graph.get_edges()

<EntitySet> items: 1344

In [185]:
print(rs.all().count)

<built-in method count of list object at 0x1087595c8>


In [186]:
yes

467

In [187]:
no

715

In [188]:
import random 
y_pred =[]
for i in range (0,X_test.shape[0]):
    yes=0
    no=0
    totv = []
    for j in range (0,X_test.shape[-1]):
        wbin=find_bin(bins[j],X_test[i][j])
        for v in graph.get_vertices("data",col=j,cbin=wbin):
            totv.append(v)
    for r in totv:
        mv = r
        for m in mv.get_out_vertices():
            #print(m.as_dict())
            print(m.as_dict().get('properties'))
            if (m.as_dict().get('properties').get("out") == 'yes'):
               # print('yes')
                yes = yes+int(str(m.as_dict().get('properties').get("count")))
            else:
               # print('no')
                no = no+int(str(m.as_dict().get('properties').get("count"))) 
    print(yes)
    print(no)
    if( yes > no):
        y_pred.append(1)
    elif (yes == no):
        if(random.randint(1,2)==1):
            y_pred.append(1)
        else:
            y_pred.append(0)
    else:
        y_pred.append(0)

{'col': 0, 'cbin': 59, 'out': 'no', 'count': 68}
{'col': 0, 'cbin': 59, 'out': 'yes', 'count': 23}
{'col': 2, 'cbin': 623, 'out': 'no', 'count': 17}
{'col': 2, 'cbin': 623, 'out': 'yes', 'count': 12}
{'col': 3, 'cbin': 435, 'out': 'no', 'count': 2}
{'col': 4, 'cbin': 1, 'out': 'yes', 'count': 97}
{'col': 4, 'cbin': 1, 'out': 'no', 'count': 155}
{'col': 5, 'cbin': 640, 'out': 'yes', 'count': 1}
{'col': 5, 'cbin': 640, 'out': 'no', 'count': 1}
{'col': 7, 'cbin': 17, 'out': 'no', 'count': 45}
{'col': 7, 'cbin': 17, 'out': 'yes', 'count': 5}
138
288
{'col': 0, 'cbin': 118, 'out': 'yes', 'count': 13}
{'col': 0, 'cbin': 118, 'out': 'no', 'count': 59}
{'col': 1, 'cbin': 541, 'out': 'yes', 'count': 2}
{'col': 1, 'cbin': 541, 'out': 'no', 'count': 5}
{'col': 2, 'cbin': 607, 'out': 'yes', 'count': 10}
{'col': 2, 'cbin': 607, 'out': 'no', 'count': 25}
{'col': 3, 'cbin': 304, 'out': 'yes', 'count': 9}
{'col': 3, 'cbin': 304, 'out': 'no', 'count': 12}
{'col': 4, 'cbin': 119, 'out': 'no', 'count': 4

{'col': 0, 'cbin': 59, 'out': 'no', 'count': 68}
{'col': 0, 'cbin': 59, 'out': 'yes', 'count': 23}
{'col': 1, 'cbin': 369, 'out': 'no', 'count': 2}
{'col': 2, 'cbin': 410, 'out': 'yes', 'count': 4}
{'col': 2, 'cbin': 410, 'out': 'no', 'count': 3}
{'col': 3, 'cbin': 102, 'out': 'no', 'count': 1}
{'col': 4, 'cbin': 1, 'out': 'yes', 'count': 97}
{'col': 4, 'cbin': 1, 'out': 'no', 'count': 155}
{'col': 6, 'cbin': 71, 'out': 'no', 'count': 2}
{'col': 6, 'cbin': 71, 'out': 'yes', 'count': 1}
{'col': 7, 'cbin': 1, 'out': 'no', 'count': 34}
{'col': 7, 'cbin': 1, 'out': 'yes', 'count': 3}
128
265
{'col': 0, 'cbin': 236, 'out': 'yes', 'count': 14}
{'col': 0, 'cbin': 236, 'out': 'no', 'count': 28}
{'col': 1, 'cbin': 667, 'out': 'no', 'count': 2}
{'col': 1, 'cbin': 667, 'out': 'yes', 'count': 2}
{'col': 2, 'cbin': 705, 'out': 'no', 'count': 7}
{'col': 2, 'cbin': 705, 'out': 'yes', 'count': 6}
{'col': 3, 'cbin': 314, 'out': 'no', 'count': 9}
{'col': 3, 'cbin': 314, 'out': 'yes', 'count': 5}
{'col':

{'col': 0, 'cbin': 1, 'out': 'yes', 'count': 32}
{'col': 0, 'cbin': 1, 'out': 'no', 'count': 49}
{'col': 1, 'cbin': 516, 'out': 'yes', 'count': 1}
{'col': 1, 'cbin': 516, 'out': 'no', 'count': 5}
{'col': 2, 'cbin': 705, 'out': 'no', 'count': 7}
{'col': 2, 'cbin': 705, 'out': 'yes', 'count': 6}
{'col': 3, 'cbin': 172, 'out': 'yes', 'count': 1}
{'col': 3, 'cbin': 172, 'out': 'no', 'count': 8}
{'col': 4, 'cbin': 125, 'out': 'yes', 'count': 1}
{'col': 4, 'cbin': 125, 'out': 'no', 'count': 7}
{'col': 5, 'cbin': 437, 'out': 'yes', 'count': 1}
{'col': 5, 'cbin': 437, 'out': 'no', 'count': 1}
{'col': 6, 'cbin': 262, 'out': 'no', 'count': 1}
{'col': 7, 'cbin': 100, 'out': 'yes', 'count': 5}
{'col': 7, 'cbin': 100, 'out': 'no', 'count': 14}
47
92
{'col': 0, 'cbin': 118, 'out': 'yes', 'count': 13}
{'col': 0, 'cbin': 118, 'out': 'no', 'count': 59}
{'col': 1, 'cbin': 617, 'out': 'yes', 'count': 3}
{'col': 1, 'cbin': 617, 'out': 'no', 'count': 5}
{'col': 2, 'cbin': 427, 'out': 'no', 'count': 2}
{'co

{'col': 0, 'cbin': 1, 'out': 'yes', 'count': 32}
{'col': 0, 'cbin': 1, 'out': 'no', 'count': 49}
{'col': 1, 'cbin': 516, 'out': 'yes', 'count': 1}
{'col': 1, 'cbin': 516, 'out': 'no', 'count': 5}
{'col': 2, 'cbin': 615, 'out': 'yes', 'count': 1}
{'col': 2, 'cbin': 615, 'out': 'no', 'count': 6}
{'col': 3, 'cbin': 233, 'out': 'no', 'count': 13}
{'col': 3, 'cbin': 233, 'out': 'yes', 'count': 3}
{'col': 4, 'cbin': 1, 'out': 'yes', 'count': 97}
{'col': 4, 'cbin': 1, 'out': 'no', 'count': 155}
{'col': 5, 'cbin': 1, 'out': 'yes', 'count': 1}
{'col': 5, 'cbin': 1, 'out': 'no', 'count': 7}
{'col': 6, 'cbin': 209, 'out': 'no', 'count': 1}
{'col': 7, 'cbin': 1, 'out': 'no', 'count': 34}
{'col': 7, 'cbin': 1, 'out': 'yes', 'count': 3}
138
270
{'col': 0, 'cbin': 118, 'out': 'yes', 'count': 13}
{'col': 0, 'cbin': 118, 'out': 'no', 'count': 59}
{'col': 1, 'cbin': 546, 'out': 'yes', 'count': 2}
{'col': 1, 'cbin': 546, 'out': 'no', 'count': 5}
{'col': 2, 'cbin': 509, 'out': 'no', 'count': 15}
{'col': 2

{'col': 0, 'cbin': 177, 'out': 'no', 'count': 35}
{'col': 0, 'cbin': 177, 'out': 'yes', 'count': 19}
{'col': 2, 'cbin': 607, 'out': 'yes', 'count': 10}
{'col': 2, 'cbin': 607, 'out': 'no', 'count': 25}
{'col': 3, 'cbin': 1, 'out': 'yes', 'count': 56}
{'col': 3, 'cbin': 1, 'out': 'no', 'count': 97}
{'col': 4, 'cbin': 1, 'out': 'yes', 'count': 97}
{'col': 4, 'cbin': 1, 'out': 'no', 'count': 155}
{'col': 5, 'cbin': 455, 'out': 'no', 'count': 2}
{'col': 5, 'cbin': 455, 'out': 'yes', 'count': 2}
{'col': 6, 'cbin': 112, 'out': 'yes', 'count': 1}
{'col': 7, 'cbin': 134, 'out': 'no', 'count': 14}
{'col': 7, 'cbin': 134, 'out': 'yes', 'count': 10}
195
328
{'col': 0, 'cbin': 471, 'out': 'no', 'count': 10}
{'col': 0, 'cbin': 471, 'out': 'yes', 'count': 14}
{'col': 1, 'cbin': 995, 'out': 'no', 'count': 1}
{'col': 1, 'cbin': 995, 'out': 'yes', 'count': 1}
{'col': 2, 'cbin': 607, 'out': 'yes', 'count': 10}
{'col': 2, 'cbin': 607, 'out': 'no', 'count': 25}
{'col': 3, 'cbin': 1, 'out': 'yes', 'count':

{'col': 0, 'cbin': 589, 'out': 'no', 'count': 10}
{'col': 0, 'cbin': 589, 'out': 'yes', 'count': 8}
{'col': 1, 'cbin': 344, 'out': 'no', 'count': 2}
{'col': 2, 'cbin': 869, 'out': 'no', 'count': 1}
{'col': 3, 'cbin': 233, 'out': 'no', 'count': 13}
{'col': 3, 'cbin': 233, 'out': 'yes', 'count': 3}
{'col': 4, 'cbin': 58, 'out': 'no', 'count': 2}
{'col': 5, 'cbin': 530, 'out': 'no', 'count': 2}
{'col': 5, 'cbin': 530, 'out': 'yes', 'count': 3}
{'col': 6, 'cbin': 87, 'out': 'yes', 'count': 1}
{'col': 6, 'cbin': 87, 'out': 'no', 'count': 3}
{'col': 7, 'cbin': 434, 'out': 'no', 'count': 1}
{'col': 7, 'cbin': 434, 'out': 'yes', 'count': 2}
17
34
{'col': 0, 'cbin': 353, 'out': 'yes', 'count': 10}
{'col': 0, 'cbin': 353, 'out': 'no', 'count': 29}
{'col': 1, 'cbin': 778, 'out': 'no', 'count': 2}
{'col': 1, 'cbin': 778, 'out': 'yes', 'count': 1}
{'col': 2, 'cbin': 607, 'out': 'yes', 'count': 10}
{'col': 2, 'cbin': 607, 'out': 'no', 'count': 25}
{'col': 3, 'cbin': 324, 'out': 'yes', 'count': 10}
{

{'col': 7, 'cbin': 500, 'out': 'yes', 'count': 3}
{'col': 7, 'cbin': 500, 'out': 'no', 'count': 2}
37
30
{'col': 0, 'cbin': 1, 'out': 'yes', 'count': 32}
{'col': 0, 'cbin': 1, 'out': 'no', 'count': 49}
{'col': 1, 'cbin': 475, 'out': 'no', 'count': 5}
{'col': 2, 'cbin': 574, 'out': 'yes', 'count': 17}
{'col': 2, 'cbin': 574, 'out': 'no', 'count': 28}
{'col': 3, 'cbin': 273, 'out': 'no', 'count': 14}
{'col': 3, 'cbin': 273, 'out': 'yes', 'count': 5}
{'col': 4, 'cbin': 136, 'out': 'no', 'count': 2}
{'col': 4, 'cbin': 136, 'out': 'yes', 'count': 1}
{'col': 5, 'cbin': 649, 'out': 'no', 'count': 1}
{'col': 6, 'cbin': 113, 'out': 'yes', 'count': 1}
{'col': 7, 'cbin': 1, 'out': 'no', 'count': 34}
{'col': 7, 'cbin': 1, 'out': 'yes', 'count': 3}
59
133
{'col': 0, 'cbin': 59, 'out': 'no', 'count': 68}
{'col': 0, 'cbin': 59, 'out': 'yes', 'count': 23}
{'col': 1, 'cbin': 627, 'out': 'yes', 'count': 4}
{'col': 1, 'cbin': 627, 'out': 'no', 'count': 3}
{'col': 2, 'cbin': 607, 'out': 'yes', 'count': 10

{'col': 0, 'cbin': 118, 'out': 'yes', 'count': 13}
{'col': 0, 'cbin': 118, 'out': 'no', 'count': 59}
{'col': 1, 'cbin': 647, 'out': 'no', 'count': 3}
{'col': 1, 'cbin': 647, 'out': 'yes', 'count': 4}
{'col': 2, 'cbin': 525, 'out': 'yes', 'count': 7}
{'col': 2, 'cbin': 525, 'out': 'no', 'count': 20}
{'col': 3, 'cbin': 425, 'out': 'yes', 'count': 5}
{'col': 3, 'cbin': 425, 'out': 'no', 'count': 4}
{'col': 4, 'cbin': 1, 'out': 'yes', 'count': 97}
{'col': 4, 'cbin': 1, 'out': 'no', 'count': 155}
{'col': 5, 'cbin': 597, 'out': 'yes', 'count': 1}
{'col': 7, 'cbin': 50, 'out': 'yes', 'count': 6}
{'col': 7, 'cbin': 50, 'out': 'no', 'count': 25}
133
266
{'col': 0, 'cbin': 471, 'out': 'no', 'count': 10}
{'col': 0, 'cbin': 471, 'out': 'yes', 'count': 14}
{'col': 1, 'cbin': 546, 'out': 'yes', 'count': 2}
{'col': 1, 'cbin': 546, 'out': 'no', 'count': 5}
{'col': 2, 'cbin': 574, 'out': 'yes', 'count': 17}
{'col': 2, 'cbin': 574, 'out': 'no', 'count': 28}
{'col': 3, 'cbin': 1, 'out': 'yes', 'count': 5

{'col': 0, 'cbin': 59, 'out': 'no', 'count': 68}
{'col': 0, 'cbin': 59, 'out': 'yes', 'count': 23}
{'col': 2, 'cbin': 410, 'out': 'yes', 'count': 4}
{'col': 2, 'cbin': 410, 'out': 'no', 'count': 3}
{'col': 3, 'cbin': 162, 'out': 'no', 'count': 4}
{'col': 5, 'cbin': 386, 'out': 'no', 'count': 5}
{'col': 6, 'cbin': 245, 'out': 'no', 'count': 2}
{'col': 7, 'cbin': 50, 'out': 'yes', 'count': 6}
{'col': 7, 'cbin': 50, 'out': 'no', 'count': 25}
33
107
{'col': 0, 'cbin': 59, 'out': 'no', 'count': 68}
{'col': 0, 'cbin': 59, 'out': 'yes', 'count': 23}
{'col': 1, 'cbin': 561, 'out': 'no', 'count': 6}
{'col': 1, 'cbin': 561, 'out': 'yes', 'count': 2}
{'col': 2, 'cbin': 705, 'out': 'no', 'count': 7}
{'col': 2, 'cbin': 705, 'out': 'yes', 'count': 6}
{'col': 3, 'cbin': 192, 'out': 'yes', 'count': 2}
{'col': 3, 'cbin': 192, 'out': 'no', 'count': 8}
{'col': 4, 'cbin': 1, 'out': 'yes', 'count': 97}
{'col': 4, 'cbin': 1, 'out': 'no', 'count': 155}
{'col': 5, 'cbin': 449, 'out': 'no', 'count': 5}
{'col':

{'col': 1, 'cbin': 531, 'out': 'yes', 'count': 2}
{'col': 1, 'cbin': 531, 'out': 'no', 'count': 7}
{'col': 2, 'cbin': 1, 'out': 'no', 'count': 16}
{'col': 2, 'cbin': 1, 'out': 'yes', 'count': 9}
{'col': 3, 'cbin': 1, 'out': 'yes', 'count': 56}
{'col': 3, 'cbin': 1, 'out': 'no', 'count': 97}
{'col': 4, 'cbin': 1, 'out': 'yes', 'count': 97}
{'col': 4, 'cbin': 1, 'out': 'no', 'count': 155}
{'col': 5, 'cbin': 1, 'out': 'yes', 'count': 1}
{'col': 5, 'cbin': 1, 'out': 'no', 'count': 7}
{'col': 6, 'cbin': 95, 'out': 'no', 'count': 5}
{'col': 7, 'cbin': 50, 'out': 'yes', 'count': 6}
{'col': 7, 'cbin': 50, 'out': 'no', 'count': 25}
189
324
{'col': 0, 'cbin': 118, 'out': 'yes', 'count': 13}
{'col': 0, 'cbin': 118, 'out': 'no', 'count': 59}
{'col': 1, 'cbin': 410, 'out': 'no', 'count': 3}
{'col': 2, 'cbin': 492, 'out': 'yes', 'count': 7}
{'col': 2, 'cbin': 492, 'out': 'no', 'count': 17}
{'col': 3, 'cbin': 223, 'out': 'no', 'count': 6}
{'col': 3, 'cbin': 223, 'out': 'yes', 'count': 3}
{'col': 4, '

{'col': 0, 'cbin': 412, 'out': 'yes', 'count': 18}
{'col': 0, 'cbin': 412, 'out': 'no', 'count': 12}
{'col': 1, 'cbin': 576, 'out': 'no', 'count': 7}
{'col': 1, 'cbin': 576, 'out': 'yes', 'count': 1}
{'col': 2, 'cbin': 541, 'out': 'yes', 'count': 6}
{'col': 2, 'cbin': 541, 'out': 'no', 'count': 12}
{'col': 3, 'cbin': 1, 'out': 'yes', 'count': 56}
{'col': 3, 'cbin': 1, 'out': 'no', 'count': 97}
{'col': 4, 'cbin': 1, 'out': 'yes', 'count': 97}
{'col': 4, 'cbin': 1, 'out': 'no', 'count': 155}
{'col': 5, 'cbin': 489, 'out': 'no', 'count': 3}
{'col': 5, 'cbin': 489, 'out': 'yes', 'count': 2}
{'col': 6, 'cbin': 75, 'out': 'no', 'count': 5}
{'col': 6, 'cbin': 75, 'out': 'yes', 'count': 4}
{'col': 7, 'cbin': 350, 'out': 'yes', 'count': 4}
{'col': 7, 'cbin': 350, 'out': 'no', 'count': 7}
188
298
{'col': 0, 'cbin': 59, 'out': 'no', 'count': 68}
{'col': 0, 'cbin': 59, 'out': 'yes', 'count': 23}
{'col': 1, 'cbin': 500, 'out': 'no', 'count': 10}
{'col': 2, 'cbin': 476, 'out': 'no', 'count': 10}
{'c

{'col': 0, 'cbin': 353, 'out': 'yes', 'count': 10}
{'col': 0, 'cbin': 353, 'out': 'no', 'count': 29}
{'col': 1, 'cbin': 980, 'out': 'no', 'count': 1}
{'col': 1, 'cbin': 980, 'out': 'yes', 'count': 1}
{'col': 2, 'cbin': 640, 'out': 'no', 'count': 17}
{'col': 2, 'cbin': 640, 'out': 'yes', 'count': 14}
{'col': 3, 'cbin': 1, 'out': 'yes', 'count': 56}
{'col': 3, 'cbin': 1, 'out': 'no', 'count': 97}
{'col': 4, 'cbin': 1, 'out': 'yes', 'count': 97}
{'col': 4, 'cbin': 1, 'out': 'no', 'count': 155}
{'col': 5, 'cbin': 351, 'out': 'no', 'count': 1}
{'col': 6, 'cbin': 20, 'out': 'no', 'count': 1}
{'col': 7, 'cbin': 634, 'out': 'no', 'count': 1}
{'col': 7, 'cbin': 634, 'out': 'yes', 'count': 1}
179
302
{'col': 0, 'cbin': 59, 'out': 'no', 'count': 68}
{'col': 0, 'cbin': 59, 'out': 'yes', 'count': 23}
{'col': 1, 'cbin': 359, 'out': 'no', 'count': 3}
{'col': 2, 'cbin': 394, 'out': 'no', 'count': 2}
{'col': 2, 'cbin': 394, 'out': 'yes', 'count': 1}
{'col': 3, 'cbin': 182, 'out': 'no', 'count': 11}
{'c

{'col': 0, 'cbin': 295, 'out': 'yes', 'count': 16}
{'col': 0, 'cbin': 295, 'out': 'no', 'count': 26}
{'col': 2, 'cbin': 673, 'out': 'yes', 'count': 9}
{'col': 2, 'cbin': 673, 'out': 'no', 'count': 13}
{'col': 3, 'cbin': 415, 'out': 'no', 'count': 6}
{'col': 3, 'cbin': 415, 'out': 'yes', 'count': 6}
{'col': 5, 'cbin': 534, 'out': 'no', 'count': 1}
{'col': 5, 'cbin': 534, 'out': 'yes', 'count': 1}
{'col': 6, 'cbin': 31, 'out': 'no', 'count': 1}
{'col': 7, 'cbin': 234, 'out': 'no', 'count': 4}
{'col': 7, 'cbin': 234, 'out': 'yes', 'count': 4}
36
51
{'col': 0, 'cbin': 236, 'out': 'yes', 'count': 14}
{'col': 0, 'cbin': 236, 'out': 'no', 'count': 28}
{'col': 1, 'cbin': 556, 'out': 'no', 'count': 2}
{'col': 2, 'cbin': 623, 'out': 'no', 'count': 17}
{'col': 2, 'cbin': 623, 'out': 'yes', 'count': 12}
{'col': 3, 'cbin': 203, 'out': 'yes', 'count': 2}
{'col': 3, 'cbin': 203, 'out': 'no', 'count': 8}
{'col': 4, 'cbin': 119, 'out': 'no', 'count': 4}
{'col': 4, 'cbin': 119, 'out': 'yes', 'count': 1}

{'col': 0, 'cbin': 530, 'out': 'no', 'count': 7}
{'col': 0, 'cbin': 530, 'out': 'yes', 'count': 13}
{'col': 1, 'cbin': 450, 'out': 'no', 'count': 4}
{'col': 2, 'cbin': 509, 'out': 'no', 'count': 15}
{'col': 2, 'cbin': 509, 'out': 'yes', 'count': 10}
{'col': 3, 'cbin': 1, 'out': 'yes', 'count': 56}
{'col': 3, 'cbin': 1, 'out': 'no', 'count': 97}
{'col': 4, 'cbin': 1, 'out': 'yes', 'count': 97}
{'col': 4, 'cbin': 1, 'out': 'no', 'count': 155}
{'col': 5, 'cbin': 336, 'out': 'no', 'count': 2}
{'col': 6, 'cbin': 25, 'out': 'yes', 'count': 1}
{'col': 6, 'cbin': 25, 'out': 'no', 'count': 3}
{'col': 7, 'cbin': 200, 'out': 'no', 'count': 4}
{'col': 7, 'cbin': 200, 'out': 'yes', 'count': 6}
183
287
{'col': 0, 'cbin': 59, 'out': 'no', 'count': 68}
{'col': 0, 'cbin': 59, 'out': 'yes', 'count': 23}
{'col': 1, 'cbin': 596, 'out': 'no', 'count': 3}
{'col': 1, 'cbin': 596, 'out': 'yes', 'count': 1}
{'col': 2, 'cbin': 476, 'out': 'no', 'count': 10}
{'col': 2, 'cbin': 476, 'out': 'yes', 'count': 1}
{'co

{'col': 0, 'cbin': 295, 'out': 'yes', 'count': 16}
{'col': 0, 'cbin': 295, 'out': 'no', 'count': 26}
{'col': 1, 'cbin': 480, 'out': 'yes', 'count': 1}
{'col': 1, 'cbin': 480, 'out': 'no', 'count': 5}
{'col': 2, 'cbin': 591, 'out': 'no', 'count': 19}
{'col': 2, 'cbin': 591, 'out': 'yes', 'count': 10}
{'col': 3, 'cbin': 334, 'out': 'no', 'count': 7}
{'col': 3, 'cbin': 334, 'out': 'yes', 'count': 7}
{'col': 4, 'cbin': 1, 'out': 'yes', 'count': 97}
{'col': 4, 'cbin': 1, 'out': 'no', 'count': 155}
{'col': 5, 'cbin': 562, 'out': 'yes', 'count': 2}
{'col': 5, 'cbin': 562, 'out': 'no', 'count': 1}
{'col': 6, 'cbin': 123, 'out': 'no', 'count': 1}
{'col': 6, 'cbin': 123, 'out': 'yes', 'count': 1}
{'col': 7, 'cbin': 100, 'out': 'yes', 'count': 5}
{'col': 7, 'cbin': 100, 'out': 'no', 'count': 14}
139
228
{'col': 0, 'cbin': 59, 'out': 'no', 'count': 68}
{'col': 0, 'cbin': 59, 'out': 'yes', 'count': 23}
{'col': 1, 'cbin': 500, 'out': 'no', 'count': 10}
{'col': 2, 'cbin': 591, 'out': 'no', 'count': 1

{'col': 6, 'cbin': 73, 'out': 'no', 'count': 1}
{'col': 7, 'cbin': 734, 'out': 'no', 'count': 1}
192
308
{'col': 0, 'cbin': 177, 'out': 'no', 'count': 35}
{'col': 0, 'cbin': 177, 'out': 'yes', 'count': 19}
{'col': 1, 'cbin': 485, 'out': 'no', 'count': 7}
{'col': 2, 'cbin': 640, 'out': 'no', 'count': 17}
{'col': 2, 'cbin': 640, 'out': 'yes', 'count': 14}
{'col': 3, 'cbin': 394, 'out': 'no', 'count': 7}
{'col': 3, 'cbin': 394, 'out': 'yes', 'count': 5}
{'col': 4, 'cbin': 1, 'out': 'yes', 'count': 97}
{'col': 4, 'cbin': 1, 'out': 'no', 'count': 155}
{'col': 6, 'cbin': 66, 'out': 'no', 'count': 5}
{'col': 6, 'cbin': 66, 'out': 'yes', 'count': 1}
{'col': 7, 'cbin': 317, 'out': 'no', 'count': 5}
{'col': 7, 'cbin': 317, 'out': 'yes', 'count': 4}
140
231
{'col': 0, 'cbin': 236, 'out': 'yes', 'count': 14}
{'col': 0, 'cbin': 236, 'out': 'no', 'count': 28}
{'col': 1, 'cbin': 480, 'out': 'yes', 'count': 1}
{'col': 1, 'cbin': 480, 'out': 'no', 'count': 5}
{'col': 2, 'cbin': 525, 'out': 'yes', 'coun

In [189]:
random.randint(1,2)

1

In [190]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred)

### doing better than baseline accuracy.

0.7012987012987013

In [191]:
# calculate accuracy measures and confusion matrix
from sklearn import metrics
print(metrics.classification_report(y_test,y_pred))

             precision    recall  f1-score   support

          0       0.69      1.00      0.82       157
          1       1.00      0.07      0.13        74

avg / total       0.79      0.70      0.60       231



In [192]:
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier

lr = LogisticRegression();
lr.fit(X_train,y_train)
y_pred = lr.predict(X_test)
accuracy_score(y_test, y_pred)

0.7792207792207793

In [193]:
# calculate accuracy measures and confusion matrix
from sklearn import metrics
print(metrics.classification_report(y_test,y_pred))

             precision    recall  f1-score   support

          0       0.80      0.90      0.85       157
          1       0.71      0.53      0.60        74

avg / total       0.77      0.78      0.77       231



In [194]:
nb = GaussianNB();
nb.fit(X_train,y_train)
y_pred = nb.predict(X_test)
accuracy_score(y_test, y_pred)

0.7619047619047619

In [195]:
knn = KNeighborsClassifier();
knn.fit(X_train,y_train)
y_pred = knn.predict(X_test)
accuracy_score(y_test, y_pred)

0.7705627705627706

In [196]:
import ruruki_eye.server as s 

In [197]:
 #s.run("localhost",5000,True,graph)   

In [198]:
from sklearn.tree import DecisionTreeClassifier

In [199]:
dt_model = DecisionTreeClassifier(criterion = 'entropy' )

In [200]:
dt_model.fit(X_train, y_train)

DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

In [201]:
dt_model.score(X_test , y_test) 

0.7186147186147186

In [202]:
graph.get_vertices(label="outc",count__gt=1)

<EntitySet> items: 681