In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix
from sklearn.model_selection import KFold, cross_val_score, train_test_split

from tqdm import tqdm

In [2]:
iris = pd.read_csv('./datasets/iris.csv')

In [3]:
iris

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica


In [4]:
encoder = LabelEncoder()

encoder.fit(iris['Species'])
iris['Species'] = encoder.transform(iris['Species'])

iris

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,0
1,2,4.9,3.0,1.4,0.2,0
2,3,4.7,3.2,1.3,0.2,0
3,4,4.6,3.1,1.5,0.2,0
4,5,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,2
146,147,6.3,2.5,5.0,1.9,2
147,148,6.5,3.0,5.2,2.0,2
148,149,6.2,3.4,5.4,2.3,2


In [5]:
X = iris.iloc[:, 1:-1]
y = iris.iloc[:, -1]

In [6]:
# Train, Test 분리

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=2022, stratify=y, shuffle=True)

In [7]:
#표준화
scaler = StandardScaler()

scaler.fit(X_train)
X_train_scaler = scaler.transform(X_train)

In [8]:
X_test_scaler = scaler.transform(X_test)

In [9]:
y_train = y_train.to_numpy()

y_train

array([1, 2, 1, 2, 0, 2, 1, 0, 2, 0, 2, 1, 2, 1, 1, 2, 0, 2, 0, 1, 0, 1,
       0, 2, 2, 1, 2, 1, 1, 2, 1, 1, 2, 0, 0, 2, 0, 1, 0, 2, 0, 0, 1, 2,
       1, 2, 2, 1, 2, 1, 0, 2, 0, 2, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1,
       0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 2, 0, 1, 2, 1, 1, 2, 0, 2, 1, 0, 2,
       0, 2, 1, 0, 2, 1, 2, 2, 2, 1, 1, 0, 0, 0, 0, 1, 0, 2, 1, 2, 0, 2,
       1, 2, 2, 2, 2, 0, 2, 0, 2, 1])

In [10]:
hist = []

for k in tqdm(range(3, 50)):
    model = KNeighborsClassifier(n_neighbors=k)
    scores = cross_val_score(model, X_train_scaler, y_train, cv=5, scoring='accuracy')
    
    hist.append(scores.mean())
    
np.array(hist).mean()

100%|█████████████████████████████████████████████████████████████████████████████████| 47/47 [00:00<00:00, 113.10it/s]


0.9053191489361705

In [11]:
print("최대 k값 : ",np.argmax(hist) + 3)

최대 k값 :  13


In [12]:
hist

[0.9416666666666667,
 0.9333333333333333,
 0.95,
 0.95,
 0.95,
 0.95,
 0.9583333333333333,
 0.9583333333333333,
 0.9583333333333333,
 0.9583333333333333,
 0.9666666666666666,
 0.9583333333333333,
 0.95,
 0.9416666666666667,
 0.9666666666666666,
 0.9583333333333334,
 0.9583333333333334,
 0.9333333333333333,
 0.925,
 0.925,
 0.9166666666666666,
 0.9083333333333334,
 0.9083333333333332,
 0.9083333333333332,
 0.9,
 0.9083333333333332,
 0.8833333333333334,
 0.875,
 0.8833333333333334,
 0.8833333333333334,
 0.8583333333333334,
 0.85,
 0.85,
 0.85,
 0.8583333333333334,
 0.8583333333333334,
 0.8666666666666668,
 0.8583333333333334,
 0.8666666666666668,
 0.8583333333333332,
 0.8583333333333334,
 0.8666666666666666,
 0.8583333333333334,
 0.8666666666666666,
 0.85,
 0.8583333333333334,
 0.85]