In [20]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [21]:
data = np.loadtxt("data8.csv", delimiter=",")
N,n = data.shape
N,n

(300, 4)

In [22]:
X = data[:,0:n-1]
y = data[:,n-1]
for i in range(y.size):
    if (y[i] == -1):
        y[i] = 0
X.shape[1]

3

In [23]:
classes = set(y)
classes_list_ = list(classes)
no_of_class = len(classes)

In [24]:
classes_list_

[1.0, 2.0, 3.0]

In [25]:
# list of all the datapoints corresponding to each class
x_ = []
for i in range(no_of_class):
    x_.append(X[y == classes_list_[i]])
#print(x_)

In [26]:
def mean_vectors():
    mu_vector_ = []# list for storing all the mean vectors of each column of each class
    temp_mu = []
    for i in range(no_of_class):
        for j in range(X.shape[1]):
            temp_mu.append(x_[i][:,j].mean())
        mu_vector_.append(temp_mu)
        temp_mu = []
    return np.array(mu_vector_)

In [27]:
mu_vector_ = mean_vectors()
mu_vector_[1]

array([ 4.52535246,  4.3741836 , -2.93426428])

In [28]:
# covariance matrices for each class
def covariance_matrices():
    N,n = data.shape
    cov_mat_list_ = []
    for j in range(no_of_class):
        test = np.zeros((n-1,n-1)) 
        for i in range(x_[j].shape[0]):
            test = test + np.outer(x_[j][i] - mu_vector_[j],(x_[j][i] - mu_vector_[j]).T)
        cov_mat_list_.append(test/N)
    return (np.array(cov_mat_list_))

In [29]:
cov_mat_list_ = covariance_matrices()
cov_mat_list_

array([[[ 4.97991606,  3.26359846,  1.49228733],
        [ 3.26359846,  5.22116626,  0.47540649],
        [ 1.49228733,  0.47540649,  2.79250983]],

       [[ 2.43426575, -0.04892244, -0.14117587],
        [-0.04892244,  1.6184325 , -0.05703783],
        [-0.14117587, -0.05703783,  1.34733   ]],

       [[ 3.00157395, -0.36446682, -0.03127352],
        [-0.36446682,  2.68324119,  0.47444956],
        [-0.03127352,  0.47444956,  2.20996356]]])

In [30]:
# list of the inverses of the covariance matrices and their determinants

cov_inv_list_ = np.array([np.linalg.inv(cov) for cov in cov_mat_list_])
cov_det_list_ = np.array( [np.linalg.det(cov) for cov in cov_mat_list_] )

In [31]:
cov_det_list_

array([34.74276213,  5.26388061, 16.83789614])

In [32]:
def probability_y():
    prob_y_ = []
    actual_y_lst = list(y)
    for i in range(len(classes_list_)) :
        prob_y_.append( (actual_y_lst.count(classes_list_[i])) / len(actual_y_lst) )
    return prob_y_

In [33]:
prob_y_ = probability_y()
prob_y_

[0.3333333333333333, 0.3333333333333333, 0.3333333333333333]

In [34]:
def predict_y(): # to get the predicted y vector
    pred = []
    for i in range(X.shape[0]):
        tst = []
        for j in range(no_of_class):
            a = np.log(prob_y_[j]) - 0.5 * (np.dot( np.dot((mu_vector_[j]).T,cov_inv_list_[j]),mu_vector_[j] ) ) 
            b = a + np.dot(np.dot(X[i].T,cov_inv_list_[j]),mu_vector_[j])
            c = (-0.5) * ( np.dot( np.dot(X[i].T,cov_inv_list_[j]), X[i]) + np.log(cov_det_list_[j]) )
            d = b + c
            tst.append(d)
        e = max(tst)
        f = tst.index(e)
        #print(classes_list_[f])
        pred.append(classes_list_[f])
       # pred.append(tst.index(e)+1)
    #print(d)
    return np.array(pred)

In [35]:
predicted_y = predict_y()
predicted_y

array([1., 1., 1., 3., 1., 1., 1., 1., 1., 3., 1., 1., 1., 1., 1., 1., 1.,
       3., 1., 1., 1., 3., 1., 1., 3., 3., 1., 1., 1., 1., 1., 3., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 3., 1., 1., 1., 1., 3., 1., 1., 1., 3., 1., 1., 1., 1., 1., 1.,
       3., 1., 1., 1., 3., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       3., 1., 3., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 2., 2.,
       2., 2., 2., 2., 3., 2., 2., 2., 3., 2., 2., 2., 3., 2., 2., 2., 2.,
       3., 2., 2., 2., 3., 2., 2., 2., 2., 2., 2., 2., 2., 3., 3., 2., 2.,
       2., 2., 2., 2., 2., 2., 3., 2., 3., 2., 2., 2., 2., 2., 2., 2., 2.,
       2., 2., 2., 2., 2., 2., 3., 2., 2., 2., 2., 2., 2., 2., 2., 3., 2.,
       2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 3., 2., 2., 2., 2., 2., 2.,
       2., 2., 2., 2., 2., 3., 2., 2., 2., 2., 2., 2., 2., 1., 3., 3., 3.,
       3., 3., 3., 1., 3., 3., 3., 2., 3., 3., 3., 3., 3., 3., 3., 3., 3.,
       3., 3., 3., 3., 3.

In [36]:
y

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 2., 2.,
       2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2.,
       2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2.,
       2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2.,
       2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2.,
       2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2.,
       2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 3., 3., 3., 3.,
       3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3.,
       3., 3., 3., 3., 3.

In [37]:
def accuracy():
    correct_prediction = 0
    for i in range(y.shape[0]):
        if (predicted_y[i] == y[i]):
            correct_prediction += 1
    
    per = (correct_prediction *100) / y.size
    print(per)

In [38]:
acc = accuracy()

86.0
