In [1]:
import numpy as np
import sys
import os
from sklearn import datasets
from sklearn.model_selection import train_test_split
sys.path.append("..")
from src.knn import KNNClassifier
from src.kmeans import KmeansClustering
from src.utils import accuracy

In [None]:

iris = datasets.load_iris()
X, y = iris.data, iris.target

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=1234
    )

k = 3
clf = KNNClassifier(k=k)
clf.fit(X_train, y_train)
predictions = clf.predict(X_test)
print("KNN classification accuracy", accuracy(y_test, predictions))

KNN classification accuracy 1.0


In [2]:
X, y = datasets.make_blobs(
        centers=4, n_samples=500, n_features=2, shuffle=True, random_state=40
    )
print(X.shape)

clusters = len(np.unique(y))
print(clusters)

(500, 2)
4


In [None]:
class KmeansClustering():
    
    def __init__(self, k, iterations):
        self.k = k
        self.iterations = iterations
    
    def predict(self, X):
        self.n_samples, self.n_features = X.shape
        for _ in range(self.iterations):

            centroids_idx = np.random.choice(X.shape[0], 4, replace=False)
            self.centroids = [X[idx] for idx in centroids_idx]

            self.clusters = self.create_clusters(X)
            old_centroids = self.centroids
            self.centroids = self.new_centroids(X)
            if self.is_converge(old_centroids):
                break
        labels = self.get_labels()
        return labels
        
    
    @staticmethod
    def get_centroids(point, centroids):
        distances = [euclidean_distance(point, centroid) for centroid in centroids]
        idx = np.argmin(distances)
        return idx
    
    def create_clusters(self, X):
        self.clusters = [[] for _ in range(self.k)]
        for idx, x in enumerate(X):
            centroid = self.get_centroids(x, self.centroids)
            self.clusters[centroid].append(idx)
        return self.clusters

    def new_centroids(self, X):
        centroids = np.zeros((self.k, X.shape[1]))
        for idx, cluster in enumerate(self.clusters):
            cluster_mean = np.mean(X[cluster], axis=0)
        centroids[idx] = cluster_mean
        return centroids
    
    def is_converge(self, new_centroids):
        val = sum([euclidean_distance(new_centroids[i], self.centroids[i]) for i in range(self.k)])
        return val==0

    def get_labels(self):
        labels = np.empty(self.n_samples)
        for idx, item in enumerate(self.clusters):
            for val in item:
                labels[val]=idx
        return labels

In [12]:
kmeans = KmeansClustering(k=4, iterations=200)
labels = kmeans.predict(X)

In [13]:
labels

array([1., 3., 0., 0., 1., 3., 0., 1., 1., 0., 0., 2., 1., 0., 3., 3., 3.,
       2., 0., 2., 3., 1., 1., 0., 0., 1., 2., 1., 1., 1., 2., 3., 1., 0.,
       1., 3., 1., 0., 3., 2., 0., 0., 3., 2., 1., 0., 1., 0., 3., 3., 0.,
       2., 0., 0., 3., 1., 0., 0., 0., 0., 3., 0., 0., 0., 1., 3., 2., 1.,
       3., 0., 3., 3., 1., 0., 1., 2., 1., 0., 0., 0., 0., 0., 0., 3., 3.,
       3., 0., 3., 1., 3., 1., 1., 0., 0., 1., 3., 0., 0., 1., 0., 3., 0.,
       0., 3., 3., 0., 1., 3., 2., 0., 2., 0., 3., 0., 0., 3., 1., 1., 1.,
       1., 0., 0., 0., 1., 3., 0., 0., 1., 0., 3., 1., 0., 0., 3., 2., 2.,
       3., 0., 0., 2., 0., 1., 3., 0., 1., 1., 0., 1., 1., 1., 1., 0., 0.,
       3., 3., 1., 0., 1., 0., 0., 1., 3., 3., 1., 0., 0., 0., 1., 3., 3.,
       3., 2., 3., 3., 0., 1., 2., 2., 3., 3., 3., 1., 1., 3., 0., 1., 0.,
       1., 2., 0., 3., 0., 2., 0., 1., 0., 2., 3., 1., 3., 0., 1., 1., 3.,
       2., 0., 3., 0., 1., 1., 0., 1., 3., 1., 0., 3., 1., 3., 1., 0., 3.,
       1., 0., 2., 3., 0.