In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.model_selection import train_test_split
import sys
import seaborn as sns
from sklearn import model_selection
TRAIN_DATASET_PATH = 'train.csv'
TEST_DATASET_PATH = 'test.csv'

In [2]:
df = pd.read_csv(TRAIN_DATASET_PATH)
df_test = pd.read_csv(TEST_DATASET_PATH)
TARGET_NAME = 'choose'
FEATURE_NAMES = ['age', 'years_of_experience', 'lesson_price', 'qualification',
       'physics', 'chemistry', 'biology', 'english', 'geography', 'history', 'mean_exam_points']
X = df[FEATURE_NAMES].values
Y = df[TARGET_NAME].values
X_test_result = df_test[FEATURE_NAMES].values

X_norm = X.copy()
X_norm = X_norm.astype(np.float64)
for p in [0,1,2,3,10]:
    X_norm[p] = (X[p] - X[p].min()) / (X[p].max() - X[p].min())
X_norm

array([[1.62790698e-02, 0.00000000e+00, 1.00000000e+00, ...,
        0.00000000e+00, 0.00000000e+00, 3.44186047e-02],
       [4.16000000e-02, 1.60000000e-03, 1.00000000e+00, ...,
        0.00000000e+00, 8.00000000e-04, 4.56000000e-02],
       [1.65714286e-02, 1.71428571e-03, 1.00000000e+00, ...,
        0.00000000e+00, 0.00000000e+00, 3.77142857e-02],
       ...,
       [4.40000000e+01, 5.00000000e+00, 1.75000000e+03, ...,
        0.00000000e+00, 1.00000000e+00, 5.90000000e+01],
       [4.10000000e+01, 0.00000000e+00, 1.70000000e+03, ...,
        0.00000000e+00, 0.00000000e+00, 7.20000000e+01],
       [4.10000000e+01, 5.00000000e+00, 1.20000000e+03, ...,
        0.00000000e+00, 0.00000000e+00, 4.00000000e+01]])

In [3]:
X_train, X_test, y_train, y_test = model_selection.train_test_split(X_norm, Y, test_size=0.2, random_state=1)

In [4]:
def e_metrics(x1, x2):
    
    distance = 0
    for i in range(len(x1)):
        distance += np.square(x1[i] - x2[i])
    
    return np.sqrt(distance)

In [5]:
def knn(x_train, y_train, x_test, k):
    
    answers = []
    for x in x_test:
        test_distances = []
            
        for i in range(len(x_train)):
            
            # расчет расстояния от классифицируемого объекта до
            # объекта обучающей выборки
            distance = e_metrics(x, x_train[i])

            # Записываем в список значение расстояния и ответа на объекте обучающей выборки
            test_distances.append((distance, y_train[i]))
        
        # создаем словарь со всеми возможными классами
        classes = {class_item: 0 for class_item in set(y_train)}
        
        # Сортируем список и среди первых k элементов подсчитаем частоту появления разных классов
        n = 1
        j=20
        for d in sorted(test_distances)[0:k]:
            w = (j+1-n)/j
            classes[d[1]] = classes[d[1]] + 1*w
            n+=1
        # Записываем в список ответов наиболее часто встречающийся класс
        answers.append(sorted(classes, key=classes.get)[-1])
    return answers


In [6]:
def accuracy(pred, y):
    return (sum(pred == y) / len(y))

In [7]:
k = 5
y_pred = knn(X_train, y_train, X_test, k)
print(f'Точность алгоритма при k = {k}: {accuracy(y_pred, y_test):.3f}')

Точность алгоритма при k = 5: 0.895


In [8]:
k = 3
y_pred = knn(X_train, y_train, X_test, k)
print(f'Точность алгоритма при k = {k}: {accuracy(y_pred, y_test):.3f}')

Точность алгоритма при k = 10: 0.901


In [9]:
k = 1
y_pred = knn(X_train, y_train, X_test, k)
print(f'Точность алгоритма при k = {k}: {accuracy(y_pred, y_test):.3f}')

Точность алгоритма при k = 1: 0.861


In [10]:
k = 10
y_pred = knn(X_train, y_train, X_test, k)
print(f'Точность алгоритма при k = {k}: {accuracy(y_pred, y_test):.3f}')

Точность алгоритма при k = 10: 0.901


In [11]:
k = 2
y_pred = knn(X_train, y_train, X_test, k)
print(f'Точность алгоритма при k = {k}: {accuracy(y_pred, y_test):.3f}')

Точность алгоритма при k = 2: 0.861


In [12]:
k = 7
y_pred = knn(X_train, y_train, X_test, k)
print(f'Точность алгоритма при k = {k}: {accuracy(y_pred, y_test):.3f}')

Точность алгоритма при k = 7: 0.898
