In [4]:
import pandas as pd
import numpy as np
from collections import Counter
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [5]:
# вычисляем евклидово расстояние
def euclidean_distance(x1, x2):
    return np.sqrt(np.sum((x1 - x2) ** 2))

# реализация классификатора kNN
class kNN:
    def __init__(self, k=2):
        self.k = k

    def fit(self, X_train, y_train):
        self.X_train = X_train
        self.y_train = y_train

    def predict(self, X_test):
        y_pred = [self.predict_single(x) for x in X_test]
        return np.array(y_pred)

    def predict_single(self, x):
        # вычисляем расстояния от x до всех точек в обучающем наборе
        distances = [euclidean_distance(x, x_train) for x_train in self.X_train]
        
        # получаем индексы k ближайших соседей
        k_index = np.argsort(distances)[:self.k]
        
        # получаем метки классов для k ближайших соседей
        k_nearest_labels = [self.y_train[i] for i in k_index]
        
        # определяем класс на основе большинства голосов
        most_common = Counter(k_nearest_labels).most_common(1)
        return most_common[0][0]

In [7]:
url='https://drive.google.com/file/d/1fxO-zxmRcz7CTlN8o55ahqGttUfxRkiI/view?usp=sharing'
url='https://drive.google.com/uc?id=' + url.split('/')[-2]
df = pd.read_csv(url)
X = df.drop('Outcome',axis=1).values
y = df['Outcome'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [8]:
# обучаем полученную модель
knn_model = kNN(k=2)
knn_model.fit(X_train, y_train)

# предсказание на тестовой выборке
y_pred = knn_model.predict(X_test)

# оценка качества модели
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

Accuracy: 0.70
