# Prediction using linear/logistic regression

In this notebook, the probability of two leaders interacting with each other will be found using linear and logistic regression. We will go in the following order:

1. Baseline model (just use the number of debates the leader took part in, to make predictions)
    - First, we will train the model using all instances.
    - We expect the interaction matrix will be sparse, so we might need to balance the training data i.e. have equal number of instances with 0 and 1 labels.
2. Include more features in regression like type of debate, etc.

In [1]:
import pickle
import numpy as np
from random import shuffle
from bs4 import BeautifulSoup
import requests
import math
from sklearn.decomposition import FactorAnalysis

In [2]:
f = open('member_names.pickle', 'rb')
member_names = pickle.load(f)
f.close()

In [3]:
f = open('edges.pickle', 'rb')
edges = pickle.load(f)
f.close()

In [4]:
interactions = {}

for rec in edges:
    interactions[(rec[0], rec[1])] = rec[2]

In [5]:
individual_interaction = {}

for rec in range(len(member_names)):
    individual_interaction[rec] = 0

for rec in edges:
    individual_interaction[rec[0]] += rec[2]
    individual_interaction[rec[1]] += rec[2]

Here, we will just use how many people the leader has interacted with, and how many times (combined in one quantity). 

Most of the actual labels are zeros i.e. the matrix is sparse, so a high accuracy does not imply a good model.

In [6]:
data = []
labels = []

for i in range(len(member_names)):
    for j in range(i + 1, len(member_names)):
        if (i, j) in interactions:
            labels.append(1)
        else:
            labels.append(0)
        data.append([individual_interaction[i], individual_interaction[j], 1])
        
len(data)

144991

In [7]:
theta1, residuals1, rank1, s1 = np.linalg.lstsq(data[:int(4*len(data)/5)], labels[:int(4*len(data)/5)])

In [8]:
count = 0
total = 0

for i in range(int(4*len(data)/5), len(data)):
    val = 0.0
    for j in range(len(theta1)):
        val += theta1[j] * data[i][j]
    if val > 0.5:
        val = 1
    else:
        val = 0
    if val == labels[i]:
        count += 1
    total += 1
    print('Actual : ' + str(labels[i]) + ', Predicted: ' + str(val))

Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0


Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0


Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0
Actual : 0, Predicted: 0


In [9]:
count * 1.0 / total

0.9301355219145487

# Next step - balance data

Now, we will try to have an equal number of positive and negative samples in the training data, to have some sort of a balance.

In [10]:
count = 0

for i in range(len(data)):
    if labels[i] == 0:
        count += 1
        
count * 1.0 / len(data)

0.7300729010766186

As we can see above, ~70% of the records are 0's. We will now select an equal number of records having labels 1 and 0.
This will ensure some balance in the model.

In [11]:
positive_data = []
negative_data = []

for i in range(len(data)):
    if labels[i] == 0:
        negative_data.append(data[i])
    else:
        positive_data.append(data[i])

In [12]:
indices1 = [i for i in range(len(positive_data))]
indices2 = [i for i in range(len(negative_data))]

shuffle(indices1)
shuffle(indices2)

In [13]:
train_data = []
train_labels = []

for i in range(int(4 * len(indices1) / 5)):
    train_data.append(positive_data[indices1[i]])
    train_labels.append(1)
    train_data.append(negative_data[indices2[i]])
    train_labels.append(0)

In [14]:
theta2, residuals2, rank2, s2 = np.linalg.lstsq(train_data, train_labels)

In [15]:
test_data = []
test_labels = []

for i in range(int(4 * len(indices1) / 5), len(indices1)):
    test_data.append(positive_data[indices1[i]])
    test_labels.append(1)
    test_data.append(negative_data[indices2[i]])
    test_labels.append(0)

In [16]:
count = 0
total = 0

for i in range(len(test_data)):
    val = 0.0
    for j in range(len(theta2)):
        val += theta2[j] * test_data[i][j]
    if val > 0.5:
        val = 1
    else:
        val = 0
    if val == test_labels[i]:
        count += 1
    total += 1
    print('Actual : ' + str(test_labels[i]) + ', Predicted: ' + str(val))

Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1


Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0


Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0


Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1


Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0


Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 0
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 1
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1
Actual : 0, Predicted: 0
Actual : 1, Predicted: 1


In [17]:
count * 1.0 / len(test_data)

0.8123403168114461

# Adding new features

Now we have a lower accuracy but the training data distribution is balanced compared to the skewed distribution we had earlier. Now we need to improve the features.

1. Adding one-hot vector for type of debate
2. Adding one-hot-type vectors for what types of debates a particular leader has interacted in

In [18]:
link = 'http://164.100.47.194/Loksabha/Debates/DebateAdvSearch15.aspx'
contents = requests.get(link).content
soup = BeautifulSoup(contents, 'html.parser')

types_of_debates = []

records = soup.find('select', id = 'ContentPlaceHolder1_ddldebtype')
for option in records.find_all('option'):
    types_of_debates.append(option.text.replace('/', ' '))
    
types_of_debates.remove('--- Select Debate Type ---')

In [19]:
f = open('edge_details.pickle', 'rb')
edge_details = pickle.load(f)
f.close()

In [20]:
edges = {}

for rec in edge_details:
    edges[rec[0]] = {}
    
for rec in edge_details:
    edges[rec[0]][rec[1][0]] = rec[1][1]

In [21]:
debate_participation = []

for rec in range(len(member_names)):
    debate_participation.append([0 for i in range(len(types_of_debates))])

for rec in edges:
    for debate in edges[rec]:
        debate_participation[rec[0]][types_of_debates.index(debate)] = 1
        debate_participation[rec[1]][types_of_debates.index(debate)] = 1

In [22]:
positive_data = []
negative_data = []

for i in range(len(member_names)):
    for j in range(i + 1, len(member_names)):
        if (i, j) in edges:
            for debate in types_of_debates:
                if debate in edges[(i, j)]:
                    one_hot = [0 for i in range(len(types_of_debates))]
                    one_hot[types_of_debates.index(debate)] = 1
                    feature_vector = debate_participation[i] + debate_participation[j] + one_hot + [individual_interaction[i], individual_interaction[j], 1]
                    positive_data.append(feature_vector)
                else:
                    one_hot = [0 for i in range(len(types_of_debates))]
                    one_hot[types_of_debates.index(debate)] = 1
                    feature_vector = debate_participation[i] + debate_participation[j] + one_hot + [individual_interaction[i], individual_interaction[j], 1]
                    negative_data.append(feature_vector)
        else:
            for debate in types_of_debates:
                one_hot = [0 for i in range(len(types_of_debates))]
                one_hot[types_of_debates.index(debate)] = 1
                feature_vector = debate_participation[i] + debate_participation[j] + one_hot + [individual_interaction[i], individual_interaction[j], 1]
                negative_data.append(feature_vector)

In [23]:
indices1 = [i for i in range(len(positive_data))]
indices2 = [i for i in range(len(negative_data))]

shuffle(indices1)
shuffle(indices2)

In [24]:
train_data = []
train_labels = []

for i in range(int(4 * len(indices1) / 5)):
    train_data.append(positive_data[indices1[i]])
    train_labels.append(1)
    train_data.append(negative_data[indices2[i]])
    train_labels.append(0)

In [25]:
train_data = []
train_labels = []

for i in range(int(4 * len(indices1) / 5)):
    train_data.append(positive_data[indices1[i]])
    train_labels.append(1)
    train_data.append(negative_data[indices2[i]])
    train_labels.append(0)

In [26]:
theta3, residuals3, rank3, s3 = np.linalg.lstsq(train_data, train_labels)

In [27]:
test_data = []
test_labels = []

for i in range(int(4 * len(indices1) / 5), len(indices1)):
    test_data.append(positive_data[indices1[i]])
    test_labels.append(1)
    
for i in range(int(4 * len(indices1) / 5), len(indices1)):
    test_data.append(negative_data[indices2[i]])
    test_labels.append(0)

In [28]:
count = 0
total = 0

for i in range(len(test_data)):
    val = 0.0
    for j in range(len(theta3)):
        val += theta3[j] * test_data[i][j]
    if val > 0.5:
        val = 1
    else:
        val = 0
    if val == test_labels[i]:
        count += 1
    total += 1

In [29]:
count * 1.0 / len(test_data)

0.5

# Adding time-dependent features

We now use the following features to see how the predictions vary with time-dependent features introduced in the model.

- Timestamp of the last date that a particular member interacted with other members of Parliament
- The number of times in each year that the leaders spoke in the House.

# Latent Factor Model

Now, we try to use the latent factor model to generate predictions for the interaction between 2 Members of Parliament. 

The dimension will be 2, so that we can visualize the results by using the 2-D coordinates.

In [34]:
train_data = np.array(train_data)
train_labels = np.array(train_labels)

test_data = np.array(test_data)
test_labels = np.array(test_labels)

In [37]:
fa = FactorAnalysis(n_components=2)
mapped_coordinates = fa.fit_transform(train_data, train_labels)

In [38]:
mapped_coordinates

array([[ 0.6733674 ,  0.70361732],
       [-1.28739521, -0.38521399],
       [-0.3670524 , -0.38998318],
       ..., 
       [-0.82932036, -0.46593077],
       [-0.75024514, -0.4375241 ],
       [-0.66335628, -0.50498912]])