<a href="https://colab.research.google.com/github/imbiotech/skbtML/blob/main/4-4.KNN_Model.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### `4-4.KNN(K-Nearest Neighbor)`

* 가장 가까운 K개의 이웃의 대표 속성값을 통해 데이터를 예측하는 알고리즘

* KNN의 장점
    * 간단한 구조
    * 이해가 쉬움
    * 구현이 쉬움
    * 강력한 결과 (노력 대비 좋은 성능)
    * 데이터 수가 적어도 Model을 생성할 수 있음

* KNN의 특징
    * 가장 많은 자료 수가 존재하는 클래스/속성을 예측값으로 설정
    * 여러 개의 K값으로 테스트를 해본 후 가장 좋은 방법으로 나눔
        * K값에 따라서 분류 결과가 달라지고 정확도와 신뢰도까지 영향을 받음
    * 모든 계산이 이뤄진 후에 분류를 수행하므로 사례 기반 학습 또는 메모리 기반 학습으로 부름
    * 훈련 데이터에 Target이 존재하는 지도 학습 알고리즘
    * 각 속성에 맞춰 레벨을 분류하는 방식으로 예측 진행
    * KNN의 적용 분야
        * 분류에 해당하는 대부분의 업무 분야에 적용 가능
        * 얼굴 인식이나 글자 인식 등 이미지 인식
        * 적절한 상품 추천
        <br/>등

* KNN의 적용법
    1. 예측 대상을 기점으로 K개의 이웃이 포함된 대표 집단을 만듦
    2. 대표 집단 내에서 클래스 또는 속성을 설정하고 집단 내에서 우세한 레벨을 찾음
    3. 예측 대상이 우세한 레벨과 동일한 레벨이라고 가정하여 예측 진행
        1) 단순 KNN은 집단 내의 거리가 무시될 수 있음
        2) 거리를 고려한 weighted KNN을 사용하기도 함
        <br/> "거리의 역수"나 "거리의 역수의 제곱의 역수"를 가중치로 두어 정확도가 높아짐
    

* 용도에 따라 다음과 같은 python 함수를 사용
    * KNeighborsClassifier(): 분류 알고리즘
    * KNeighborsRegressor(): 연속 데이터 예측 알고리즘

---
#### 코드블럭1
**_KNN 예시 코드 1 시작_**

이상형 데이터에 대한 KNN Model

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# "ideal_type.csv"에서 데이터 프레임 생성 및 상위 5 개 데이터 확인
ideal_type = pd.read_csv("https://raw.githubusercontent.com/imbiotech/skbtML/main/4-4-1.ideal_type.csv")
ideal_type.head()

In [None]:
# 데이터와 결과를 분리
ideal_type_data = ideal_type.drop("attraction_label", axis=1)
ideal_type_target = ideal_type["attraction_label"]

# 데이터와 결과를 array로 변환
ideal_type_data_array = np.array(ideal_type_data)
ideal_type_target_array = np.array(ideal_type_target)

ideal_type_data_array, ideal_type_target_array

In [None]:
# 데이터 정규화를 위해 StandardScaler 함수 불러오고 StandardScaler 생성
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

# fit_transform 함수를 사용하여 데이터를 표준화
ideal_type_data_array = scaler.fit_transform(ideal_type_data_array)
ideal_type_data_array

In [1]:
# KNN 분류 모델 생성 및 훈련
from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier(n_neighbors=5) # KNN 분류 모델 생성, 이웃의 수는 5으로 설정
model.fit(ideal_type_data_array, ideal_type_target_array) # 모델 훈련

# 예측 결과 확인
ideal_type_pred = model.predict(ideal_type_data_array)
print(ideal_type_pred) # 모델이 예측한 결과

# confusion_matrix 함수를 사용하여 오차 행렬 출력
from sklearn.metrics import confusion_matrix, classification_report
print(confusion_matrix(ideal_type_target_array, model.predict(ideal_type_data_array))) # 오차 행렬(혼돈 행렬) 출력, 혼돈 행렬의 숫자는 데이터가 대각선일수록 좋음
print(classification_report(ideal_type_target_array, ideal_type_pred)) # 정밀도, 재현율, F1 점수 출력

NameError: name 'ideal_type_data_array' is not defined

**_KNN 예시 코드 1 종료_**

---

---
#### 코드블럭2
**_KNN 예시 코드 2 시작_**

구매 데이터에 대한 KNN Model

In [2]:
# 1. 필요한 라이브러리 불러오기
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [14]:
# 2. 필요한 데이터 불러오기

# "4-4-2.purchase.csv"에서 데이터 프레임 생성 및 상위 5 개 데이터 확인
purchase = pd.read_csv("https://raw.githubusercontent.com/imbiotech/skbtML/main/4-4-2.purchase.csv")
purchase.head()

Unnamed: 0,age,salary,purchase
0,26,160,구매
1,35,210,비구매
2,26,220,비구매
3,29,260,구매
4,22,110,비구매


In [16]:
# 3. 데이터 전처리

# "purchase" 컬럼을 범주형 데이터에서 수치형 데이터로 변환
purchase["purchase"] = purchase["purchase"].replace("구매", 1)
purchase["purchase"] = purchase["purchase"].replace("비구매", 0)
purchase

Unnamed: 0,age,salary,purchase
0,26,160,1
1,35,210,0
2,26,220,비구매
3,29,260,1
4,22,110,0
5,32,210,0
6,37,310,1
7,21,110,0
8,28,210,0
9,31,260,1
