# kNN

## Часть 1. Наивный и взвешенный kNN, различные метрики.

Наивный kNN:

In [1]:
class Naive_kNN:
    def __init__(self, k=10, metrics=euclides):
        self._dataset = []
        self._metrics = metrics
        self._k = k

    def set_k(self, k):
        self._k = k

    def fit(self, data_x, data_y):
        self._dataset = [data_x, data_y]

    def predict(self, element):
        distances = []
        for i in range(len(self._dataset[0])):
            distances.append((self._metrics(self._dataset[0][i], element), self._dataset[1][i]))
        distances.sort()
        types = {}
        for i in range(self._k):
            if distances[i][1] not in types.keys():
                types[distances[i][1]] = 0
            types[distances[i][1]] += 1
        max_type = -1
        max_val = -1
        for k, v in types.items():
            if v > max_val:
                max_val = v
                max_type = k
        return max_type

Взвешенный kNN:

In [2]:
class Weighted_kNN:
    def __init__(self, k=10, metrics=euclides):
        self._dataset = []
        self._metrics = metrics
        self._k = k

    def fit(self, data_x, data_y):
        self._dataset = [data_x, data_y]
        data_size = len(self._dataset[0])
        vec_size = len(self._dataset[0][0])
        max_vec = [0 for i in range(vec_size)]
        for i in self._dataset[0]:
            for j in range(len(i)):
                max_vec[j] = max(max_vec[j], i[j])
        for i in range(data_size):
            for j in range(vec_size):
                self._dataset[0][j] /= max_vec[j]

    def set_k(self, k):
        self._k = k

    def predict(self, element):
        distances = []
        for i in range(len(self._dataset[0])):
            distances.append((self._metrics(self._dataset[0][i], element), self._dataset[1][i]))
        distances.sort()
        types = {}
        for i in range(self._k):
            if distances[i][1] not in types.keys():
                types[distances[i][1]] = 0
            types[distances[i][1]] += 1
        max_type = -1
        max_val = -1
        for k, v in types.items():
            if v > max_val:
                max_val = v
                max_type = k
        return max_type

Манхэттенское расстояние:

In [3]:
def manhattan(x, y):
    ans = 0.0
    for i in range(len(x)):
        ans += abs(x[i] - y[i])
    return ans

Евклидово расстояние:

In [4]:
def euclides(x, y):
    ans = 0.0
    for i in range(len(x)):
        ans += (x[i] - y[i]) ** 2
    return math.sqrt(ans)

Метрика l-inf:

In [5]:
def l_inf(x, y):
    ans = 0.0
    for i in range(len(x)):
        ans = max(ans, abs(x[i] - y[i]))
    return ans

### Примеры
Здесь набор из некоторых векторов классифицируется наивным и взвешенным kNN с различными метриками.

#### Евклидова метрика

In [1]:
import pickle
from kNN import *
from metrics import *

with open("iris.txt", "rb") as f:
    data, types = pickle.load(f, encoding="latin-1")

knn = Naive_kNN(metrics=euclides)
wknn = Weighted_kNN(metrics=euclides)
knn.fit(data, types)
wknn.fit(data, types)
test = [[6.8, 3.3, 4.6, 1.5],
        [5, 3, 1.4, 0.2],
        [5.1, 2, 3.1, 1.1],
        [6.9, 5, 3, 1.5],
        [7.1, 3.3, 5.1, 2]]
for v in test:
    print("kNN: %s, weighted kNN: %s" % (knn.predict(v), wknn.predict(v)))

kNN: 1, weighted kNN: 1
kNN: 0, weighted kNN: 0
kNN: 1, weighted kNN: 1
kNN: 1, weighted kNN: 1
kNN: 2, weighted kNN: 2


#### Манхэттенская метрика

In [2]:
import pickle
from kNN import *
from metrics import *

with open("iris.txt", "rb") as f:
    data, types = pickle.load(f, encoding="latin-1")

knn = Naive_kNN(metrics=manhattan)
wknn = Weighted_kNN(metrics=manhattan)
knn.fit(data, types)
wknn.fit(data, types)
test = [[6.8, 3.3, 4.6, 1.5],
        [5, 3, 1.4, 0.2],
        [5.1, 2, 3.1, 1.1],
        [6.9, 5, 3, 1.5],
        [7.1, 3.3, 5.1, 2]]
for v in test:
    print("kNN: %s, weighted kNN: %s" % (knn.predict(v), wknn.predict(v)))

kNN: 1, weighted kNN: 1
kNN: 0, weighted kNN: 0
kNN: 1, weighted kNN: 1
kNN: 1, weighted kNN: 1
kNN: 2, weighted kNN: 2


#### Метрика l-inf:

In [3]:
import pickle
from kNN import *
from metrics import *

with open("iris.txt", "rb") as f:
    data, types = pickle.load(f, encoding="latin-1")

knn = Naive_kNN(metrics=l_inf)
wknn = Weighted_kNN(metrics=l_inf)
knn.fit(data, types)
wknn.fit(data, types)
test = [[6.8, 3.3, 4.6, 1.5],
        [5, 3, 1.4, 0.2],
        [5.1, 2, 3.1, 1.1],
        [6.9, 5, 3, 1.5],
        [7.1, 3.3, 5.1, 2]]
for v in test:
    print("kNN: %s, weighted kNN: %s" % (knn.predict(v), wknn.predict(v)))

kNN: 1, weighted kNN: 1
kNN: 0, weighted kNN: 0
kNN: 1, weighted kNN: 1
kNN: 0, weighted kNN: 0
kNN: 2, weighted kNN: 2


## Часть 2. CV, тесты.

Для кросс-валидации реализованных kNN использовался k-fold из предыдущей лабораторной, для кросс-валидации sklearn использовался встроенный метод.

Результат sckearn:

In [9]:
from sklearn.neighbors import KNeighborsClassifier

with open("iris.txt", "rb") as f:
    data, types = pickle.load(f, encoding="latin-1")

skl_knn = KNeighborsClassifier(n_neighbors=10, algorithm="brute")
skl_knn.fit(data, types)
print("sklearn kNN result: %s" % skl_knn.score(data, types))

0.98


Тесты с различными k и метриками kNN из лабораторной:

#### Евклидова метрика

In [11]:
import pickle
from kNN import *
from metrics import *
from CV import *

with open("iris.txt", "rb") as f:
    data, types = pickle.load(f, encoding="latin-1")

knn = Naive_kNN(metrics=euclides)
wknn = Weighted_kNN(metrics=euclides)
for k in range(1, 10):
    skl_knn = KNeighborsClassifier(n_neighbors=k, algorithm="brute", metric="euclidean")
    skl_knn.fit(data, types)
    print("Using k = %s. Naive kNN result: %s; Weighted kNN result: %s; sklearn result: %s." %
          (k, k_fold(10, data, types, knn), k_fold(10, data, types, wknn), skl_knn.score(data, types)))

Using k = 1. Naive kNN result: 0.9333333333333333; Weighted kNN result: 0.9333333333333333; sklearn result: 1.0.
Using k = 2. Naive kNN result: 0.9333333333333333; Weighted kNN result: 0.9333333333333333; sklearn result: 0.98.
Using k = 3. Naive kNN result: 0.9333333333333333; Weighted kNN result: 0.9333333333333333; sklearn result: 0.96.
Using k = 4. Naive kNN result: 0.9333333333333333; Weighted kNN result: 0.9333333333333333; sklearn result: 0.96.
Using k = 5. Naive kNN result: 0.9333333333333333; Weighted kNN result: 0.9333333333333333; sklearn result: 0.966666666667.
Using k = 6. Naive kNN result: 0.9333333333333333; Weighted kNN result: 0.9333333333333333; sklearn result: 0.973333333333.
Using k = 7. Naive kNN result: 0.9333333333333333; Weighted kNN result: 0.9333333333333333; sklearn result: 0.973333333333.
Using k = 8. Naive kNN result: 0.9333333333333333; Weighted kNN result: 0.9333333333333333; sklearn result: 0.98.
Using k = 9. Naive kNN result: 0.9333333333333333; Weighted

#### Манхэттенская метрика

In [12]:
import pickle
from kNN import *
from metrics import *
from CV import *

with open("iris.txt", "rb") as f:
    data, types = pickle.load(f, encoding="latin-1")

knn = Naive_kNN(metrics=manhattan)
wknn = Weighted_kNN(metrics=manhattan)
for k in range(1, 10):
    skl_knn = KNeighborsClassifier(n_neighbors=k, algorithm="brute", metric="manhattan")
    skl_knn.fit(data, types)
    print("Using k = %s. Naive kNN result: %s; Weighted kNN result: %s; sklearn result: %s." %
          (k, k_fold(10, data, types, knn), k_fold(10, data, types, wknn), skl_knn.score(data, types)))

Using k = 1. Naive kNN result: 0.9333333333333336; Weighted kNN result: 0.9333333333333336; sklearn result: 1.0.
Using k = 2. Naive kNN result: 0.9333333333333336; Weighted kNN result: 0.9333333333333336; sklearn result: 0.973333333333.
Using k = 3. Naive kNN result: 0.9333333333333336; Weighted kNN result: 0.9333333333333336; sklearn result: 0.96.
Using k = 4. Naive kNN result: 0.9333333333333336; Weighted kNN result: 0.9333333333333336; sklearn result: 0.96.
Using k = 5. Naive kNN result: 0.9333333333333336; Weighted kNN result: 0.9333333333333336; sklearn result: 0.966666666667.
Using k = 6. Naive kNN result: 0.9333333333333336; Weighted kNN result: 0.9333333333333336; sklearn result: 0.953333333333.
Using k = 7. Naive kNN result: 0.9333333333333336; Weighted kNN result: 0.9333333333333336; sklearn result: 0.973333333333.
Using k = 8. Naive kNN result: 0.9333333333333336; Weighted kNN result: 0.9333333333333336; sklearn result: 0.96.
Using k = 9. Naive kNN result: 0.9333333333333336

#### Метрика l-inf:

In [8]:
import pickle
from kNN import *
from metrics import *
from CV import *

with open("iris.txt", "rb") as f:
    data, types = pickle.load(f, encoding="latin-1")

knn = Naive_kNN(metrics=l_inf)
wknn = Weighted_kNN(metrics=l_inf)
for k in range(1, 10):
    print("Using k = %s. Naive kNN result: %s; Weighted kNN result: %s." %
          (k, k_fold(10, data, types, knn), k_fold(10, data, types, wknn)))

Using k = 1. Naive kNN result: 0.9133333333333334; Weighted kNN result: 0.9133333333333334.
Using k = 2. Naive kNN result: 0.9133333333333334; Weighted kNN result: 0.9133333333333334.
Using k = 3. Naive kNN result: 0.9133333333333334; Weighted kNN result: 0.9133333333333334.
Using k = 4. Naive kNN result: 0.9133333333333334; Weighted kNN result: 0.9133333333333334.
Using k = 5. Naive kNN result: 0.9133333333333334; Weighted kNN result: 0.9133333333333334.
Using k = 6. Naive kNN result: 0.9133333333333334; Weighted kNN result: 0.9133333333333334.
Using k = 7. Naive kNN result: 0.9133333333333334; Weighted kNN result: 0.9133333333333334.
Using k = 8. Naive kNN result: 0.9133333333333334; Weighted kNN result: 0.9133333333333334.
Using k = 9. Naive kNN result: 0.9133333333333334; Weighted kNN result: 0.9133333333333334.


## Часть 3. Grid search

In [1]:
def grid_search(model, data_x, data_y):
    k = 1
    best_score = 0
    for i in range(1, 100):
        model.set_k(i)
        score = k_fold(10, data_x, data_y, model)
        if score > best_score:
            best_score = score
            k = i
    return k

Оптимальный k для датасета с ирисами:

In [2]:
import pickle
from kNN import *
from metrics import *
from CV import *

with open("iris.txt", "rb") as f:
    data, types = pickle.load(f, encoding="latin-1")
    
def grid_search(model, data_x, data_y):
    k = 1
    best_score = 0
    for i in range(1, 100):
        model.set_k(i)
        score = k_fold(10, data_x, data_y, model)
        if score > best_score:
            best_score = score
            k = i
    return k

knn = Naive_kNN(metrics=euclides)
k = grid_search(knn, data, types)
knn.set_k(k)
print("Optimal k: %s" % k)
print("CV result: %s" % k_fold(10, data, types, knn))

Optimal k: 1
CV result: 0.9600000000000002
