In [10]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, f1_score
from sklearn.neighbors import KNeighborsClassifier

In [None]:
raw_data = pd.read_csv('our_file.csv')
df = raw_data.copy()
print(raw_data.head())
# здесь можно добавить блок замены пропущенных значений, если нужно, тот, что ниже - для тестовых данных
zero_not_accepted = ['Glucose', 'BloodPressure', 'SkinThickness', 'BMI', 'Insulin']
for col in zero_not_accepted:
    df[col] = df[col].replace(0, np.nan)
    mean = int(df[col].mean(skipna=True))
    df[col] = df[col].replace(np.nan, mean)

print(df.head())

   Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0            6      148             72             35        0  33.6   
1            1       85             66             29        0  26.6   
2            8      183             64              0        0  23.3   
3            1       89             66             23       94  28.1   
4            0      137             40             35      168  43.1   

   DiabetesPedigreeFunction  Age  Outcome  
0                     0.627   50        1  
1                     0.351   31        0  
2                     0.672   32        1  
3                     0.167   21        0  
4                     2.288   33        1  
   Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  \
0            6    148.0           72.0           35.0    155.0  33.6   
1            1     85.0           66.0           29.0    155.0  26.6   
2            8    183.0           64.0           29.0    155.0  23.3   
3            1 

In [None]:
def preprocess(column):
    # нормализация, пуступают данные в столбце, возвращаются в диапазоне [0, 1]
    min_val = column.min()
    max_val = column.max()
    return (column - min_val)/(max_val - min_val)

for column_name in df.columns:
    df[column_name] = preprocess(df[column_name])

df.to_csv('our_file_normalized.csv', index=False) # перезапись файла с нормализованными данными
print(df.head())

   Pregnancies   Glucose  BloodPressure  SkinThickness   Insulin       BMI  \
0     0.352941  0.670968       0.489796       0.304348  0.169471  0.314928   
1     0.058824  0.264516       0.428571       0.239130  0.169471  0.171779   
2     0.470588  0.896774       0.408163       0.239130  0.169471  0.104294   
3     0.058824  0.290323       0.428571       0.173913  0.096154  0.202454   
4     0.000000  0.600000       0.163265       0.304348  0.185096  0.509202   

   DiabetesPedigreeFunction       Age  Outcome  
0                  0.234415  0.483333      1.0  
1                  0.116567  0.166667      0.0  
2                  0.253629  0.183333      1.0  
3                  0.038002  0.000000      0.0  
4                  0.943638  0.200000      1.0  


In [None]:
# для X указываем все столбцы, кроме последнего
# для y - только последний столбец
X = df.iloc[: , 0:8]
y = df.iloc[: , 8]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
#num - количество соседей
classifier = KNeighborsClassifier(n_neighbors = 11, p = 2, metric='euclidean') # загружаем классификатор
classifier.fit(X_train, y_train) # обучаем модель
y_pred = classifier.predict(X_test) # делаем предсказания


In [12]:
cm = confusion_matrix(y_test, y_pred) # матрица ошибок
print(cm) 
'''по главной диагонали сверху вниз - правильно предсказанные положительные и отрицательные исходы (0 и 1 для последнего столбца), 
на побочной диагонали снизу вверх - положительные, ошибочно предск. как отрицательные и наоборот'''

print(f1_score(y_test, y_pred)) # f-метрика - насколько хорошо алгоритм определяет действительные и положительные и отрицательные, по этой метрике будем определять оптимальное число соседей
print(accuracy_score(y_test, y_pred)) # оценка точности

[[79 20]
 [20 35]]
0.6363636363636364
0.7402597402597403
