In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import datasets
from sklearn import cross_validation, metrics
import sys
sys.path.append('../tools')
import tools
sys.path.append('../Unsupervised_Learning/')
from KMeans_Medians import KMeans_Medians
from FuzzyKmeans import FuzzyKmeans
%matplotlib inline



# Spectral Clustering

In [2]:
iris = datasets.load_iris()

In [3]:
def split_set(X,portion,y=None):
    X = np.array(X)
    y = np.array(y)
    size = int(X.shape[0]*portion)
    indexlist = np.arange(X.shape[0])
    testinds = np.random.choice(indexlist, size, replace=False)
    traininds = np.array([x for x in range(X.shape[0]) if x not in testinds])  
    if np.all(y == None):
        return X[traininds],X[testinds]
    else:
        return X[traininds],X[testinds],y[traininds],y[testinds]

In [4]:
X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = split_set(X,0.1,y)

In [5]:
def l2distance(X,y):
    '''
	   gets euclidian distance between vector X and matrix(or vector) y
    '''
    ones = np.ones(y.shape[0]).reshape(y.shape[0],1)
    X = ones.dot(X)
    dist = (y - X)**2
    dist = np.sqrt(np.sum(dist,axis=1))

    return dist

In [6]:
f = KMeans_Medians(X)
f.fit(3)
f.predict(X)

  out=out, **kwargs)
  ret, rcount, out=ret, casting='unsafe', subok=False)


array([2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2.,
       2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2.,
       2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 0.,
       1., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 1.,
       0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 1., 1., 0., 0., 0., 0.,
       1., 0., 1., 0., 1., 0., 0., 1., 1., 0., 0., 0., 0., 0., 1., 0., 0.,
       0., 0., 1., 0., 0., 0., 1., 0., 0., 0., 1., 0., 0., 1.])

In [13]:
f = FuzzyKmeans(X)
f.fit(3)
f.predict(X,True)

array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0,
       0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1])

In [8]:
def generate_similarity_matrix(X,sim_type='l2'):
    
    n = X.shape[0]
    p = X.shape[1]
    
    newmatrix = np.zeros((n,n))
    if sim_type == 'l2':
        for i in range(n):
            newmatrix[i] = (l2distance(X[i].reshape(1,p),X)).reshape(1,n)
        return newmatrix
    else:
        print("Please provide a distance measure")    

In [9]:
generate_similarity_matrix(X_train,'l2')

array([[0.        , 0.53851648, 0.50990195, ..., 4.45982062, 4.65080638,
        4.14004831],
       [0.53851648, 0.        , 0.3       , ..., 4.49888875, 4.71805044,
        4.15331193],
       [0.50990195, 0.3       , 0.        , ..., 4.66154481, 4.84871117,
        4.29883705],
       ...,
       [4.45982062, 4.49888875, 4.66154481, ..., 0.        , 0.6164414 ,
        0.64031242],
       [4.65080638, 4.71805044, 4.84871117, ..., 0.6164414 , 0.        ,
        0.76811457],
       [4.14004831, 4.15331193, 4.29883705, ..., 0.64031242, 0.76811457,
        0.        ]])

In [10]:
class SpectralClustering():
    """
        Clustering algorithm that uses the eigenvectors of the normalized laplacian
        Parameters:
            X: numpy array() data matrix
    """
    def __init__(self,X):
        self.X = X
        
    def generate_normalized_laplacian(self,distances='l2'):
        
        X = tools.generate_similarity_matrix(self.X,distances)
        distances = np.diag(np.sum(X,axis=1))
        l = distances - X
        distances_inv = np.diag(1/np.sum(X,axis=1))
        laplacian = distances_inv.dot(l)
        return laplacian
    
    def predict(self,k,distances='l2',clustering_algo=KMeans_Medians):
        
        laplacian = self.generate_normalized_laplacian(distances)
        eigenvalues, eigenvectors = np.linalg.eig(laplacian)
        indices = eigenvalues.argsort()[:k]
        eigenvectors = eigenvectors[:,indices]
        clustering = clustering_algo(eigenvectors)
        clustering.fit(k)
        return clustering.predict(eigenvectors)

In [11]:
sp = SpectralClustering(X)

In [12]:
sp.predict(3)

  out=out, **kwargs)
  ret, rcount, out=ret, casting='unsafe', subok=False)


array([2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2.,
       2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2.,
       2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 0.,
       0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.,
       1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 0., 0., 1., 1., 1., 1.,
       0., 1., 0., 1., 0., 1., 1., 0., 0., 1., 1., 1., 1., 1., 0., 1., 1.,
       1., 1., 0., 1., 1., 1., 0., 1., 1., 1., 0., 1., 1., 0.])