In [2]:
# 라이브러리 호출 및 데이터 준비

import numpy as np # 백터 및 행렬의 연산 처리를 위한 라이브러리
import pandas as pd # 데이터 분석 및 조작을 위한 라이브러리
import matplotlib.pyplot as plt # 데이터를 차트나 플롯(plot)으로 그려 주는 라이브러리
from sklearn import metrics # 모델 성능 평가

names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class'] # 데이터셋에 열 이름 할당

dataset = pd.read_csv('data/ch3/iris.data', names=names) # 데이터를 판다스 데이터프레임(DataFrame)에 저장, 경로는 수정해서 진행
#  names=names는 열의 이름을 불러오는것이 아닌 열의 이름을 정해주는 것이다.

In [7]:
# 훈련과 테스트 데이터셋 분리

X = dataset.iloc[:, :-1].values # 모든 행을 사용하지만 열은 뒤에서 하나를 뺸 값을 가져와서 X에 저장
y = dataset.iloc[:, 4].values # 모든 행을 사용하지만 열은 앞에서 다섯 번째 값만 가져와서 y에 저장

from sklearn.model_selection import train_test_split
# X,y를 사용하여 훈련과 테스트 데이터셋으로 분리하며, 테스트 세트의 비율은 20%만 사용
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)

from sklearn.preprocessing import StandardScaler
s = StandardScaler() # 특성 스케일링(scaling), 평균이 0, 표준편차가 1이 되도록 반환
s.fit(X_train) # 훈련 데이터에 대해 적합화
# 평균과 표준편차을 구해 StandardScaler로 평균0으로 만들고 표준편자을 1로 만드는것이다.

X_train = s.transform(X_train) # 훈련 데이터를 스케일링 처리
X_test = s.transform(X_test) # 테스트 데이터를 스케일링 처리
# 위에 있는것의 변수의 정보을 평균을 0으로 만들고 표준편차을 1로 만든것이다.

In [9]:
# 모델 생성 및 훈련

from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=50)
# n_neighbors=는 이웃의 개수을 정하는것이고
# 이웃이라는 것은 주어진 값에서 가까이 있는 데이터 포인트이다
knn.fit(X_train, y_train)
#객체에 X_train, y_train값을 훈련 시키는것이다.

KNeighborsClassifier(n_neighbors=50)

In [11]:
# 모델 정확도

from sklearn.metrics import accuracy_score # 정확도 평가 정답값 배열과 예측값 배열을 입력
y_pred = knn.predict(X_test)
# X_test의 예측값을 만들어 y_pred에 담는다.
print("정확도 : {}".format(accuracy_score(y_test, y_pred)))
# .format()는 {}으로 구간을 정하고 구간에 값을 넣는다.
# accuracy_score()는 실제값과 예측값을 주어 정확도을 구한다.

정확도 : 0.8666666666666667


In [21]:
k = 10
# k는 이웃을 개수을 뜻함
acc_array = np.zeros(k)
# np.zeros()는 ()에 값을 정한 만큼 길이을 정함
for k in np.arange(1, k+1, 1):
    classifier = KNeighborsClassifier(n_neighbors=k).fit(X_train, y_train)
    # k는 이웃의 개수을 뜻하고 .fit(X_train, y_train)는 변수의 정보로 모델을 훈련한다.
    y_pred = classifier.predict(X_test)
    #classifier이라는 훈련 시킨 모델을 X_test라는 정보로 예측값을 구한다
    acc = metrics.accuracy_score(y_test, y_pred)
    # metrics.라는 것은 분류모델의 정확도을 구한는 함수이다
    #accuracy_score()는 실제값과 예측값을 입력받아 정확도을 구하는 함수이다.
    acc_array[k-1] = acc
    #그런게 구한 정확도을 acc_array의 배열에 넣는다.
    
max_acc = np.amax(acc_array)
# np.amax()는 배열에서 최대값을 구하는것이다.
acc_list = list(acc_array)
# acc_array을 리스트로 바꾸는것은 편의성과 호환성때문에 사용한다.
k = acc_list.index(max_acc)
# k는 acc_array을list로 바꾼것을 최대값의 인덱스을 k에 담는다. 
print("정확도", max_acc, "으로 최적의 k는", k+1, "입니다")
# K을 +1하는 이유는 k는 인덱스이기 때문에 +1을 한다.

[0.96666667 0.         0.         0.         0.         0.
 0.         0.         0.         0.        ]
[0.96666667 0.96666667 0.         0.         0.         0.
 0.         0.         0.         0.        ]
[0.96666667 0.96666667 0.96666667 0.         0.         0.
 0.         0.         0.         0.        ]
[0.96666667 0.96666667 0.96666667 1.         0.         0.
 0.         0.         0.         0.        ]
[0.96666667 0.96666667 0.96666667 1.         1.         0.
 0.         0.         0.         0.        ]
[0.96666667 0.96666667 0.96666667 1.         1.         1.
 0.         0.         0.         0.        ]
[0.96666667 0.96666667 0.96666667 1.         1.         1.
 0.96666667 0.         0.         0.        ]
[0.96666667 0.96666667 0.96666667 1.         1.         1.
 0.96666667 1.         0.         0.        ]
[0.96666667 0.96666667 0.96666667 1.         1.         1.
 0.96666667 1.         0.96666667 0.        ]
[0.96666667 0.96666667 0.96666667 1.         1.        