In [14]:
import numpy as np

In [15]:
def euclidean(x1,x2):
    return np.sqrt(np.sum((x1-x2)**2))

In [30]:
class kmeans:
    
    def __init__(self,num_of_clusters=5,max_iterations=10,plot_steps=False):
        self.num_of_clusters=num_of_clusters
        self.max_iterations=max_iterations
        self.plot_steps=plot_steps
        
        # Will store the indices of points in this cluster
        self.clusters=[[] for i in range(self.num_of_clusters)]
        # mean feature vector in each cluster
        self.centroid=[]
        
        
    def predict(self, x):
        
        self.x=x
        self.number_of_samples,self.num_of_features=x.shape
        
        
        #select centroid
        random_sample_idx=np.random.choice(self.number_of_samples,self.num_of_clusters,replace=False)
        self.centroid=[self.x[i] for i in random_sample_idx]
        
    
        #optimisation
        for iter in range(self.max_iterations):
            self.clusters=self.create_clusters(self.centroid)
            
            #update centroids
            centroid_old=self.centroid
            self.centroid=self.get_centroid(self.clusters)
            
            #Check convergence
            if self.is_converged(centroid_old,self.centroid):
                break
    
        return self.get_labels(self.clusters)
    
    def get_labels(self,clusters):
        labels=np.empty(self.number_of_samples)
        for cluster_idx,cluster in enumerate(clusters):
            for sample_idx in cluster:
                labels[sample_idx]=cluster_idx
        return labels
        
    
    def is_converged(self,old_centroid,new_centroid):
        distances=[euclidean(old_centroid[i],new_centroid[i]) for i in range(self.num_of_clusters)]
        return sum(distances)==0
        
            
    
    def get_centroid(self,clusters):
        centroids=np.zeros((self.num_of_clusters,self.num_of_features))
        for cluster_idx,cluster in enumerate(clusters):
            cluster_mean=np.mean(self.x[cluster],axis=0)
            centroids[cluster_idx]=cluster_mean
        return centroids
            
            
            
            
    def create_clusters(self,centroid):
        clusters=[[] for i in range(self.num_of_clusters)]
        
        for idx,sample in enumerate(self.x):
            centroid_idx=self.closest_centroid(sample,centroid)
            clusters[centroid_idx].append(idx)
            
        return clusters
    
    
    def closest_centroid(self,sample,centroids):
        distances=[euclidean(sample,point) for point in centroids]
        closest_centroid=np.argmin(distances)
        return closest_centroid
        
        

In [31]:
# Testing
if __name__ == "__main__":
    from sklearn.datasets import make_blobs

    X, y = make_blobs(
        centers=3, n_samples=500, n_features=2, shuffle=True, random_state=40
    )
    print(X.shape)

    clusters = len(np.unique(y))
    print(clusters)

    k = kmeans(num_of_clusters=clusters, max_iterations=150, plot_steps=False)
    y_pred = k.predict(X)



(500, 2)
3


In [32]:
y_pred

array([0., 1., 2., 2., 1., 1., 0., 0., 0., 0., 1., 1., 2., 0., 1., 2., 1.,
       1., 0., 2., 0., 1., 1., 1., 0., 0., 0., 1., 0., 2., 1., 0., 1., 2.,
       2., 0., 1., 2., 0., 0., 1., 0., 1., 1., 2., 2., 2., 2., 1., 1., 2.,
       2., 0., 2., 2., 1., 2., 1., 2., 1., 0., 2., 1., 0., 2., 0., 0., 1.,
       1., 2., 2., 0., 1., 2., 0., 1., 1., 0., 1., 2., 0., 2., 2., 1., 2.,
       1., 0., 2., 2., 0., 0., 0., 1., 0., 2., 1., 2., 0., 2., 1., 2., 1.,
       2., 1., 1., 0., 1., 1., 1., 2., 2., 2., 1., 1., 1., 0., 1., 0., 0.,
       1., 2., 2., 1., 2., 1., 0., 2., 1., 1., 1., 1., 2., 2., 2., 1., 0.,
       1., 2., 1., 1., 0., 2., 1., 0., 0., 1., 0., 0., 0., 0., 1., 1., 1.,
       1., 0., 2., 2., 2., 0., 2., 2., 0., 2., 2., 1., 0., 2., 2., 1., 1.,
       0., 2., 1., 2., 2., 2., 2., 2., 2., 0., 1., 2., 1., 0., 1., 0., 2.,
       0., 1., 1., 2., 2., 0., 1., 2., 2., 0., 2., 2., 0., 0., 2., 1., 1.,
       1., 0., 0., 0., 2., 1., 1., 1., 1., 0., 2., 0., 1., 2., 0., 0., 2.,
       1., 2., 2., 2., 1.

In [None]:
np.array([])