# k-NN



In [None]:
# 자작 예제 및 테스트용 코드

import numpy as np 
import time
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

# 1. 가상의 데이터 1,000개 생성 (공부 시간, 수면 시간 등 2개의 특징)
X, y = make_classification(n_samples=1000, n_features=2, n_redundant=0, 
                           n_informative=2, random_state=42, n_clusters_per_class=1)

# 데이터를 훈련용(80%)과 테스트용(20%)으로 나누기
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 2. 데이터 표준화 (거리 기반 알고리즘의 필수 단계)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 3. KNN 모델 정의 (K=3으로 설정)
# 모델을 '생성'한다기보다 '사용할 준비'를 한다고 이해하면됨
knn = KNeighborsClassifier(n_neighbors=3)

# 4. 훈련 (Lazy Learner라 데이터를 저장만함)
start_train = time.time()
knn.fit(X_train_scaled, y_train)
end_train = time.time()

# 5. 예측 및 시간 측정 (모든 데이터와 거리를 계산하느라 시간이 걸림)
start_pred = time.time()
y_pred = knn.predict(X_test_scaled)
end_pred = time.time()

# 6. 결과 출력
print(f"훈련 소요 시간: {end_train - start_train:.6f}초")
print(f"예측 소요 시간: {end_pred - start_pred:.6f}초")
print(f"테스트 데이터 정확도: {knn.score(X_test_scaled, y_test) * 100:.2f}%")

훈련 소요 시간: 0.001312초
예측 소요 시간: 0.000870초
테스트 데이터 정확도: 90.50%


# 자작 예제 및 테스트용 코드 분석

``` python
import numpy as np # 숫자 계산을 아주 빠르게 해주는 도구
import time # 시간을 재기 위한 도구
from sklearn.neighbors import KNeighborsClassifier # 오늘 주인공인 KNN 분류기
from sklearn.preprocessing import StandardScaler # 거리 계산을 위해 단위를 맞춰주는 도구
from sklearn.datasets import make_classification # 실습용 가짜 데이터를 만들어주는 도구
from sklearn.model_selection import train_test_split # 데이터를 공부용과 시험용으로 나눠주는 도구

# 1. 가상의 데이터 1,000개 생성 (공부 시간, 수면 시간 등 2개의 특징)
X, y = make_classification(n_samples=1000, n_features=2, n_redundant=0, 
                           n_informative=2, random_state=42, n_clusters_per_class=1)

# 데이터를 훈련용(80%)과 테스트용(20%)으로 나누기
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 2. 데이터 표준화 (거리 기반 알고리즘의 필수 단계)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 3. KNN 모델 정의 (K=3으로 설정)
# 모델을 '생성'한다기보다 '사용할 준비'를 한다고 이해하면됨
knn = KNeighborsClassifier(n_neighbors=3)

# 4. 훈련 (Lazy Learner라 데이터를 저장만함)
start_train = time.time()
knn.fit(X_train_scaled, y_train)
end_train = time.time()

# 5. 예측 및 시간 측정 (모든 데이터와 거리를 계산하느라 시간이 걸림)
start_pred = time.time()
y_pred = knn.predict(X_test_scaled)
end_pred = time.time()

# 6. 결과 출력
print(f"훈련 소요 시간: {end_train - start_train:.6f}초")
print(f"예측 소요 시간: {end_pred - start_pred:.6f}초")
print(f"테스트 데이터 정확도: {knn.score(X_test_scaled, y_test) * 100:.2f}%")
```


In [1]:
# 서강대 K-MOOC 1주차 - 3 예제
# 처음 배우는 용이라, 코드 따라치기만함 이후 학습 예정
import numpy as np

# 유클리드 거리 구하기
def cal_Eculiden_dist(vec1, vec2):
    import numpy as np
    Euclidean_dist = np.sqrt(np.sum((vec1-vec2)**2))
    return Euclidean_dist

# 다수결 투표 함수
def majority_vote(list):
    count = 0
    label_class = 0
    for x in list:
        if list.count(x) > count:
            count = list.count(x)
            label_class = x 
    return label_class

X = np.array([ [10,9], [1,4], [10,1], [7,10], [3,10], [1,1] ])
y = np.array([ ['과일'], ['단백질'], ['과일'], ['아채'], ['야채'], ['단백질'] ])

k = 3

Input_data = np.array([6,7])

# 입력 데이터와 X 사이의 거리 table
dist_table = []
for i in range(len(X)):
    euclidean_dist = cal_Eculiden_dist(Input_data, X[i])
    dist_table.append(euclidean_dist)

print("입력 데이터와 X 사이의 거리 테이블 = \n", dist_table)
print("\n")

# 계산된 거리를 이용하여 x와 y를 거리가 큰 순으로 정렬
# np.argsort() : 정렬한 후 해당 요소의 인덱스를 출력하는 함수
dist_table_array = np.array(dist_table)
X_sort = X[np.argsort(dist_table_array)]
y_sort = y[np.argsort(dist_table_array)]

print("X를 거리가 큰 순으로 정렬 = \n", X_sort)
print("\n")
print("y를 거리가 큰 순으로 정렬 = \n", y_sort)
print("\n")

# k=3이므로 가장 가까운 3개를 뽑아 다수결 투표하여 라벨 정하기
input_label = majority_vote(list(y_sort[:k]))
print("입력 데이터의 라벨 = ", input_label)
print("정렬된 거리 = ", dist_table_array[np.argsort(dist_table_array)])



입력 데이터와 X 사이의 거리 테이블 = 
 [np.float64(4.47213595499958), np.float64(5.830951894845301), np.float64(7.211102550927978), np.float64(3.1622776601683795), np.float64(4.242640687119285), np.float64(7.810249675906654)]


X를 거리가 큰 순으로 정렬 = 
 [[ 7 10]
 [ 3 10]
 [10  9]
 [ 1  4]
 [10  1]
 [ 1  1]]


y를 거리가 큰 순으로 정렬 = 
 [['아채']
 ['야채']
 ['과일']
 ['단백질']
 ['과일']
 ['단백질']]


입력 데이터의 라벨 =  ['아채']
정렬된 거리 =  [3.16227766 4.24264069 4.47213595 5.83095189 7.21110255 7.81024968]
