In [49]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
import math

In [22]:
class KNN:
    def __init__(self, k_value):
        self.k = k_value

# dist: Veriseti üzerindeki iki satırın/örneğin özellik değerlerinin uzaklığını hesaplamaktadır. 
# Bunun için Öklid uzaklık formülü kullanılmaktadır.
    def dist(self, row0, row1): # Öklit
        total=0
        for i, j in zip(row0,row1):
            total += math.pow(i-j, 2)
        return math.sqrt(total)


# get_nearest_neighbors: Parametre olarak aldığı örneği, veriseti üzerindeki diğer örneklerle
# karşılaştırarak, herbirine olan uzaklığı hesaplamaktadır. Uzaklıkların tutulduğu distances listesi,
# nihayetinde en yakından uzağa doğru sıralanır ve baştan k tanesi neighbors listesine eklenerek geri döndürülür.
    def get_nearest_neighbors(self, row_to_search):
        
        distances, neighbors = [], []
        
        for i, x_row in enumerate(self.X_train):
            d = self.dist(row_to_search, x_row)
            distances.append([d,i])
            
        distances.sort(key = lambda x: x[0])
        
        
        for i in range(self.k):
             neighbors.append(distances[i])
        return neighbors

    
# predict: Kullanıcıdan test ve eğitim örneklerini almaktadır.
# Bahsettiğimiz gibi K-NN algoritması, model oluşturmaksızın çalışmaktadır.
# Dolayısıyla buradaki eğitim örnekleri, doğrudan test örnekleriyle karşılaştırılarak kullanılmaktadır.
# Her bir test örneği için en yakın k komşu hesaplanır ve bunların etiket değerleri targets listesine eklenir.
# Listede en fazla bulunan etiket değeri de, test örneğinin etiket değeri olarak atanır ve bu şekilde tahmin edilen tüm örnekler, y_predict listesiyle geri döndürülür.
    def predict(self, X_test, X_train, y_train):
        
        self.X_train, self.y_train = X_train, y_train
        
        y_predict = []
        
        for x_row in X_test:
            
            neighbors = self.get_nearest_neighbors(x_row)
            
            targets = []
            
            for n in neighbors:
                ind = n[1]
                targets.append(self.y_train[ind])
            
            y_predict.append(max(targets, key= targets.count))
        return y_predict

In [23]:
iris = datasets.load_iris()

In [24]:
x_train, x_test, y_train, y_test = train_test_split(
    iris['data'],
    iris['target'],
    test_size = 0.33,
    random_state = 0)

knn = KNN(k_value=5)

y_pred = knn.predict(x_test, x_train, y_train)

In [29]:
y_pred # Tahminler # y_test gerçekler

[2,
 1,
 0,
 2,
 0,
 2,
 0,
 1,
 1,
 1,
 2,
 1,
 1,
 1,
 1,
 0,
 1,
 1,
 0,
 0,
 2,
 1,
 0,
 0,
 2,
 0,
 0,
 1,
 1,
 0,
 2,
 1,
 0,
 2,
 2,
 1,
 0,
 2,
 1,
 1,
 2,
 0,
 2,
 0,
 0,
 1,
 2,
 2,
 2,
 2]

In [26]:
from sklearn import metrics

* #### Hata matriksini oluşturlarım

In [27]:
metrics.confusion_matrix(y_test ,y_pred)

array([[16,  0,  0],
       [ 0, 18,  1],
       [ 0,  0, 15]], dtype=int64)

### Hata Matrisinden Elde Edilen Bazı Metrikler
#### Doğruluk (Classification Accuracy)
> **Doğruluk = TN + TP / TOPLAM**

Şimdi Python ile bunu yapalım:

In [28]:
metrics.accuracy_score(y_test, y_pred)

0.98

### Hata Oranı (Error Rate / Misclassification Rate)
> **Hata Oranı = FN + FP / TOPLAM**

veya

> **1 - dogruluk**

In [31]:
1- metrics.accuracy_score(y_test,y_pred)

0.020000000000000018

### Precision
> **Precision = TP/(FP+TP)** 

Yani pozitif tahminlerin toplam pozitiflere oranı.

In [36]:
metrics.precision_score(y_test,y_pred, average='micro')

0.98