# Basic and intermediate features

In this notebook, we will predict whether two members will interact or not using linear regression and SVM. We will go in the following order:

1. Baseline model (just use the number of debates the member took part in, to make predictions)
    - First, we will train the model using all instances.
    - We expect the interaction matrix will be sparse, so we might need to balance the training data i.e. have equal number of instances with 0 and 1 labels.
2. Include more features in regression like type of debate, etc.

In [11]:
import pickle
import numpy as np
from random import shuffle
from bs4 import BeautifulSoup
import requests
import math
from sklearn.decomposition import FactorAnalysis
from datetime import datetime
import operator
from sklearn import datasets, linear_model, svm, cross_validation
import pandas as pd

In [12]:
f = open('../Results/Pickles/member_names.pickle', 'rb')
member_names = pickle.load(f)
f.close()

In [13]:
f = open('../Results/Pickles/edge_details.pickle', 'rb')
edge_details = pickle.load(f)
f.close()

In [14]:
interactions = {}

for rec in edge_details:
    interactions[rec] = 0
    for debate in edge_details[rec]:
        interactions[rec] += len(edge_details[rec][debate])

In [16]:
individual_interaction = {}

for rec in range(len(member_names)):
    individual_interaction[rec] = 0

for rec in edge_details:
    for debate in edge_details[rec]:
        individual_interaction[rec[0]] += len(edge_details[rec][debate])
        individual_interaction[rec[1]] += len(edge_details[rec][debate])

Here, we will just use how many people the leader has interacted with, and how many times (combined in one quantity). 

Most of the actual labels are zeros i.e. the matrix is sparse, so a high accuracy does not imply a good model.

In [17]:
data = []
labels = []

for i in range(len(member_names)):
    for j in range(i + 1, len(member_names)):
        if (i, j) in interactions:
            labels.append(1)
        else:
            labels.append(0)
        data.append([individual_interaction[i], individual_interaction[j], 1])
        
len(data)

144991

In [18]:
theta1, residuals1, rank1, s1 = np.linalg.lstsq(data[:int(4*len(data)/5)], labels[:int(4*len(data)/5)])

In [19]:
count = 0
total = 0

for i in range(int(4*len(data)/5), len(data)):
    val = 0.0
    for j in range(len(theta1)):
        val += theta1[j] * data[i][j]
    if val > 0.5:
        val = 1
    else:
        val = 0
    if val == labels[i]:
        count += 1
    total += 1
    print('Actual : ' + str(labels[i]) + ', Predicted: ' + str(val))

Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 1, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 1
Actual : 0, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 1, Predicted: 1
Actual : 1, Predicted: 0
Actual : 1, Predicted: 1
Actual : 1, Predicted: 1


Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 1
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 1
Actual : 1, Predicted: 1
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0


Actual : 0, Predicted: 0
Actual : 0, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 1
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0


Actual : 1, Predicted: 0
Actual : 1, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 1
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0


Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0


In [20]:
count * 1.0 / total

0.8183040794510156

In [21]:
#clf1 = svm.SVC(C = 100)
#clf1.fit(data[:int(4*len(data)/5)], labels[:int(4*len(data)/5)])
#pred = clf1.predict(data[int(4*len(data)/5):], labels[int(4*len(data)/5):])

In [22]:
#count = 0

#for i in range(len(pred)):
#    if pred[i] == labels[int(4*len(data)/5) + i]:
#        count += 1
        
#print(count / len(pred))

# Next step - balance data

Now, we will try to have an equal number of positive and negative samples in the training data, to have some sort of a balance.

In [23]:
count = 0

for i in range(len(data)):
    if labels[i] == 0:
        count += 1
        
print(count / len(data))

0.5376747522260003


We will now select an equal number of records having labels 1 and 0. This will ensure some balance in the model.

In [24]:
positive_data = []
negative_data = []

for i in range(len(data)):
    if labels[i] == 0:
        negative_data.append(data[i])
    else:
        positive_data.append(data[i])

In [25]:
indices1 = [i for i in range(len(positive_data))]
indices2 = [i for i in range(len(negative_data))]

shuffle(indices1)
shuffle(indices2)

In [26]:
train_data = []
train_labels = []

for i in range(int(4 * len(indices1) / 5)):
    train_data.append(positive_data[indices1[i]])
    train_labels.append(1)
    train_data.append(negative_data[indices2[i]])
    train_labels.append(0)

In [27]:
theta2, residuals2, rank2, s2 = np.linalg.lstsq(train_data, train_labels)

In [28]:
test_data = []
test_labels = []

for i in range(int(4 * len(indices1) / 5), len(indices1)):
    test_data.append(positive_data[indices1[i]])
    test_labels.append(1)
    test_data.append(negative_data[indices2[i]])
    test_labels.append(0)

In [29]:
count = 0
total = 0

for i in range(len(test_data)):
    val = 0.0
    for j in range(len(theta2)):
        val += theta2[j] * test_data[i][j]
    if val > 0.5:
        val = 1
    else:
        val = 0
    if val == test_labels[i]:
        count += 1
    total += 1
    print('Actual : ' + str(test_labels[i]) + ', Predicted: ' + str(val))

Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1


Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0


Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0


Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1


Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1


Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0


Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1


Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0


In [30]:
count * 1.0 / len(test_data)

0.7709032594913106

# Adding new features

Now we have a lower accuracy but the training data distribution is balanced compared to the skewed distribution we had earlier. Now we need to improve the features.

1. Adding one-hot vector for type of debate
2. Adding one-hot-type vectors for what types of debates a particular leader has interacted in

Here, we are taking a balanced number of positive and negative samples as the number of negative samples is many times greater than the number of positive samples.

In [31]:
link = 'http://164.100.47.194/Loksabha/Debates/DebateAdvSearch15.aspx'
contents = requests.get(link).content
soup = BeautifulSoup(contents, 'html.parser')

types_of_debates = []

records = soup.find('select', id = 'ContentPlaceHolder1_ddldebtype')
for option in records.find_all('option'):
    types_of_debates.append(option.text.replace('/', ' '))
    
types_of_debates.remove('--- Select Debate Type ---')

In [32]:
debate_participation = []

for rec in range(len(member_names)):
    debate_participation.append([0 for i in range(len(types_of_debates))])

for rec in edge_details:
    for debate in edge_details[rec]:
        debate_participation[rec[0]][types_of_debates.index(debate)] = 1
        debate_participation[rec[1]][types_of_debates.index(debate)] = 1

In [33]:
positive_data = []
negative_data = []
n = len(member_names)

for i in range(n):
    for j in range(i + 1, n):
        if (i, j) in edge_details:
            for debate in types_of_debates:
                if debate in edge_details[(i, j)]:
                    one_hot = [0 for i in range(len(types_of_debates))]
                    one_hot[types_of_debates.index(debate)] = 1
                    feature_vector = debate_participation[i] + debate_participation[j] + one_hot + [individual_interaction[i], individual_interaction[j], 1]
                    positive_data.append(feature_vector)
                else:
                    one_hot = [0 for i in range(len(types_of_debates))]
                    one_hot[types_of_debates.index(debate)] = 1
                    feature_vector = debate_participation[i] + debate_participation[j] + one_hot + [individual_interaction[i], individual_interaction[j], 1]
                    negative_data.append(feature_vector)
        else:
            for debate in types_of_debates:
                one_hot = [0 for i in range(len(types_of_debates))]
                one_hot[types_of_debates.index(debate)] = 1
                feature_vector = debate_participation[i] + debate_participation[j] + one_hot + [individual_interaction[i], individual_interaction[j], 1]
                negative_data.append(feature_vector)

In [34]:
indices1 = [i for i in range(len(positive_data))]
indices2 = [i for i in range(len(negative_data))]

shuffle(indices1)
shuffle(indices2)

In [35]:
train_data = []
train_labels = []

for i in range(int(4 * len(indices1) / 5)):
    train_data.append(positive_data[indices1[i]])
    train_labels.append(1)
    
for i in range(int(4 * len(indices1) / 5)):
    train_data.append(negative_data[indices2[i]])
    train_labels.append(0)

In [36]:
theta3, residuals3, rank3, s3 = np.linalg.lstsq(train_data, train_labels)

In [37]:
test_data = []
test_labels = []

for i in range(int(4 * len(indices1) / 5), len(indices1)):
    test_data.append(positive_data[indices1[i]])
    test_labels.append(1)
    

for i in range(int(4 * len(indices1) / 5), len(indices1)):
    test_data.append(negative_data[indices2[i]])
    test_labels.append(0)

In [38]:
count = 0
total = 0

for i in range(len(test_data)):
    val = 0.0
    for j in range(len(theta3)):
        val += theta3[j] * test_data[i][j]
    if val > 0.5:
        val = 1
    else:
        val = 0
    if val == test_labels[i]:
        count += 1
    total += 1

In [39]:
count * 1.0 / len(test_data)

0.9047411285631181