<a href="https://colab.research.google.com/github/sehwan1214/sehwan1214/blob/main/KNN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**KNN**


---



1. 분류와 회귀
2. KNN의 개념
3. KNN의 적용(Classification, Regression)









##**1. 분류와 회귀**
---

* **분류(Classification)**


* **회귀(Regression)**


### **분류(Classification)**

In [None]:
# 분류는 미리 정의된, 가능성 있는 여러 클래스 레이블중 하나를 예측하는 것
# 주로 종속변수가 이름(숫자가 아님)
# 두 개로만 나누는 Binary classification, 셋 이상의 클래스로 분류하는 Multiclass classification으로 나뉨
# 분류 예시: 얼굴인식, 숫자 판별(MNIST), 스팸메일여부, 악성종양여부 등

### **회귀(Regression)**

In [None]:
# 연속적인 숫자 또는 부동소수점수(실수)를 예측하는 것
# 주로 종속변수가 숫자
# 회귀 예시: 판매량 예측, 주가 예측, 온도 변화량 예측 등

##**2. KNN의 개념**
---


*   **KNN이란?**
*   **KNN의 하이퍼파라미터(탐색할 이웃 수 k와 거리 측정 방법)**
*   **KNN의 K가 가지는 의미**
*   **KNN의 장단점 요약**



### **KNN이란?**

In [None]:
# 주변 K개 자료의 class중 가장 많은 클래스로 특정 자료를 분류하는 방식 -> 투표 방식!
# Training-data 자체가 모형일 뿐 어떠한 추정 방법도 모형도 없음 -> Wx + b 와 같은 모형이 존재x

# 게으른 학습(lazy learner) 또는 사례중심학습(instance-based learning) <-> model-based learning : Wx + b(Linear Classification) -> W,b(parameter)추정
# 게으른 학습: 알고리즘은 훈련 데이터에서 판별 함수(discrimination function = model-based learning)를 학습하는 대신 훈련 데이터 셋을 메로리에 저장하기 방법(instance-based learning)

# 데이터의 차원이 증가하면 차원의 저주(curse of dimension) 문제가 발생 -> KNN은 차원이 증가할 수록 성능 저하가 심함 특히, Classification에서!
# 거리추정방식: p=1 -> 맨하탄 거리, p=2 -> 유클리디언거리

### **KNN의 하이퍼파라미터(탐색할 이웃 수 k와 거리 측정 방법)**

In [None]:
# k가 작을 경우(1-NN) -> 데이터의 지역적 특성을 지나치게 반영하여 즉, 너무 세세하게 나눠서 overfitting 발생
# overfitting -> 새로 들어올 Data에 대한 대처를 할 수 없도록 되어버린 상태

# k가 클 경우(50-NN) -> 학습 Data, Test Data에 대한 표현력이 감소하여 underfitting 발생

# 학습을 통해 데이터의 경향성을 파악하는 것이 중요!, x - fitting은 모두 좋은 학습 결과가 아님!

### **KNN의 K가 가지는 의미**

In [None]:
# 새로운 자료에 대해 근접치 K의 개수에 따라 Group이 달리 분류된다
# 다수결 방식(Majority voting): 이웃 범주 가운데 빈도 기준 제일 많은 범주로 새 데이터의 범주를 예측하는 것 -> K의 크기에 따라 New object의 class가 변경된다
# 가중 합 방식(Weighted voting): 가까운 이웃의 정보에 좀 더 가중치를 부여 -> K의 크기와 상관없이 New object의 class는 불변이다

### **KNN의 장단점 요약**

In [None]:
# 장점
# 노이즈의 영향을 크게 안 받음
# 학습데이터 수가 많다면 꽤 효과적임
# 데이터의 분산을 고려할 경우 매우 강건한 방법

# 단점
# 최적 이웃의 수(K)와 어떤 거리 척도(distance metric)가 분석에 적합한지 불분명해 데이터 각각의 특성에 맞게 연구자가 임의로 선정해야 함
# 시간이 오래 걸림

##**3. KNN의 적용**
---

*   **기계 학습의 일반적인 실습 순서**
*   **Classification(분류)**    
*   **Regression(회귀)**



####  **기계 학습의 일반적인 실습 순서**
#### 1. 데이터셋 불러오기 -> seaborn 라이브러리 사용, 유명한 데이터 셋 대부분 지원(iris)
#### 2. 데이터셋 카테고리의 실수화 -> setosa, versicolor, virginica : [0,1,2]
#### 3. 데이터 분할 -> 학습데이터와 테스트 데이터로 나누기
#### 4. 모형 추정 혹은 사례중심학습
#### 5. 결과 분석 -> Confusion matrix로 확인
#### 6. (옵션) 입력데이터의 표준화

### **Classification(분류)**


In [None]:
# 1. 데이터셋 불러오기

import seaborn as sns # seaborn을 불러오고 sns로 축약함.
iris = sns.load_dataset('iris') # Iris라는 변수명으로 Iris data를 download함
print(iris.head()) #최초의 5개의 관측지를 print

# ------------------------------------------------------------------------------#

print(iris.shape) # iris data의 행과 열의 수
x = iris.drop('species', axis=1) # 'species' 열을 drop하고 input x를 정의함 -> x: 입력데이터 즉, 입력변수
print(x.shape)
y = iris['species'] # 'species'열을 lavel y로 정의함 -> y: 라벨이자 타겟 즉, 종속변수(목표)

   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa
(150, 5)
(150, 4)


In [None]:
# 2. 카테고리의 실수화(y를 실수화!)

from sklearn.preprocessing import LabelEncoder # LabelEncoder() method를 불러옴
import numpy as np # numpy를 불러옴
classle = LabelEncoder()
y = classle.fit_transform(iris['species'].values) # species 열의 문자열은 categorial 값으로 전환
print('species labels: ' , np.unique(y))

#-------------------------------------------------------------------------------#

yo = classle.inverse_transform(y) # 원래의 species 문자열로 전환
print('species: ' , np.unique(yo))

species labels:  [0 1 2]
species:  ['setosa' 'versicolor' 'virginica']


In [None]:
# 3. 데이터 분할

# 데이터 분할: 학습 데이터(train)와 시험 데이터(test)가 서로 겹치지 않도록 나누는 것
# 데이터 분할의 목적: 학습데이터로 학습하고 학습에 전혀 사용하지 않은 시험데이터에 적용해서 학습결과의 일반화(generalization)가 가능한지 알아보기 위함 
# 학습 데이터(train)도 나누는 경우가 존재 -> Validation(평가용) : overfitting에 의한 일반화 판별용 
# overfitting: 학습 data를 통째로 외워서 새로 들어오는 data에 대한 적응력이 낮은 상태

from sklearn.model_selection import train_test_split # Scikit-Learn의 model_selection library를 train_test_split로 명명
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size = 0.3, random_state = 1, stratify = y) # train:test = 70:30, stratify = y -> 편항 방지
print(x_train.shape)
print(x_test.shape)
print(y_train.shape)
print(y_test.shape)

(105, 4)
(45, 4)
(105,)
(45,)


In [None]:
# 4. 모형 추정 및 사례중심 학습

# 학습
from sklearn.neighbors import KNeighborsClassifier # KNN 불러오기
knn = KNeighborsClassifier(n_neighbors=5, p=2) # 5개의 인접한이웃, 거리측정기준: 유클리드(p=2이므로)
knn.fit(x_train,y_train) # 모델 fitting과정 -> 학습!

#-------------------------------------------------------------------------------#

# 예측, 평가
y_train_pred = knn.predict(x_train) # train data의 y값 예측치 -> 학습데이터 예측을 통해 틀린 갯수 줄이기
y_test_pred = knn.predict(x_test) # 모델을 적용한 test data의 y값 예측치
print('Misclassifed training samples: %d' %(y_train!=y_train_pred).sum()) #오분류 학습 데이터 갯수 확인
print('Misclassifed training samples: %d' %(y_test!=y_test_pred).sum()) #오분류 테스트 데이터 갯수 확인

Misclassifed training samples: 2
Misclassifed training samples: 1


In [None]:
# 5. 결과 분석

# 분류문제는 회귀분석과 달리 다양한 성능 평가 기준(metric)이 필요함 -> ex) confusion_matrix, accuracy_score, precision_score 등등

from sklearn.metrics import accuracy_score # 정확도 계산을 위한 모듈 import
print(accuracy_score(y_test,y_test_pred)) # 45개 test sample중 45-3 = 42개가 정확하게 분류됨

#-------------------------------------------------------------------------------#

# 혼합행렬(confusion matrix): 타겟의 원래 클래스와 모형이 예측한 클래스가 일치하는지를 갯수로 센 결과를 표로 나타낸 것 -> 대각 행렬의 갯수가 정답 갯수이다!
from sklearn.metrics import confusion_matrix #오분류표 작성을 위한 모듈 import
conf = confusion_matrix(y_true = y_test, y_pred = y_test_pred) #대각원소가 각각 setosa, versicolor, virginica를 정확하게 분류한 갯수
print(conf)

#-------------------------------------------------------------------------------#
# 정확도(accuracy): 전체 샘플(양성클래스 + 음성클래스) 중 맞게 예측한 샘플 수의 비율
# 정밀도(precision): 양성클래스에 속한다고 예측한 샘플 중 실제로 양성클래스에 속하는 샘플 수의 비율
# 재현율(recall): 실제 양성클래스에 속한 표본 중에 양성 클래스에 속한다고 예측한 표본의 수의 비율


0.9777777777777777
[[15  0  0]
 [ 0 15  0]
 [ 0  1 14]]


In [None]:
# 6. (옵션) 입력데이터의 표준화

# 특정 자료의 측정 단위에 의해 영향 받지 않도록 하는 과정
# 시험 데이터(test data)의 표준화는 학습 데이터(train data)에서 구한 특성 변수의 평균과 표준편차를 이용함

from sklearn.preprocessing import StandardScaler #Scikit-Learn의 model_selection library를 train_test_split로 명명
sc = StandardScaler()
sc.fit(x_train) # train data에만 fit을 해준다
x_train_std = sc.transform(x_train) # training data의 표준화
x_test_std = sc.transform(x_test) # test data의 표준화
print(x_train.head())
print(x_train_std[1:5,])

#-------------------------------------------------------------------------------#

# KNN의 적용
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=5, p=2)
knn.fit(x_train_std, y_train)

#-------------------------------------------------------------------------------#

# 예측, 평가
y_train_pred = knn.predict(x_train_std) #train data의 y값 예측치
y_test_pred = knn.predict(x_test_std) #모델을 적용한 test data의 y값 예측치
print('Misclassifed training samples: %d' %(y_train!=y_train_pred).sum()) #오분류 학습 데이터 갯수 확인
print('Misclassifed training samples: %d' %(y_test!=y_test_pred).sum()) #오분류 테스트 데이터 갯수 확인

#-------------------------------------------------------------------------------#

from sklearn.metrics import accuracy_score #정확도 계산을 위한 모듈 import
print(accuracy_score(y_test,y_test_pred))

     sepal_length  sepal_width  petal_length  petal_width
33            5.5          4.2           1.4          0.2
20            5.4          3.4           1.7          0.2
115           6.4          3.2           5.3          2.3
124           6.7          3.3           5.7          2.1
35            5.0          3.2           1.2          0.2
[[-0.55053619  0.76918392 -1.16537974 -1.30728421]
 [ 0.65376173  0.30368356  0.84243039  1.44587881]
 [ 1.0150511   0.53643374  1.0655204   1.18367281]
 [-1.03225536  0.30368356 -1.44424226 -1.30728421]]
Misclassifed training samples: 4
Misclassifed training samples: 3
0.9333333333333333


### **Regression(회귀)**


In [None]:
# KNN 회귀 -> y의 예측치 계산만 다룬다
# 단순 회귀: 가까운 이웃들의 단순한 평균을 구하는 방식
# 가중 회구: 거리가 가까울수록 데이터가 더 유사할 것이라고 보고 가중치를 부여하는 방식

In [None]:
from sklearn.neighbors import KNeighborsRegressor
regressor = KNeighborsRegressor(n_neighbors=3, weights="distance") # distance는 가중회귀
training_points = [ # 정보
  [0.5, 0.2, 0.1], # A
  [0.9, 0.7, 0.3], # B
  [0.4, 0.5, 0.7]  # C
]
training_labels = [5.0, 6.8, 9.0] # 등급
regressor.fit(training_points, training_labels)
unknown_points = [
  [0.2,0.1,0.7], # A
  [0.4,0.7,0.6], # B
  [0.5,0.8,0.1]  # C
]
guesses = regressor.predict(unknown_points)
guesses

array([7.28143288, 7.76451922, 6.8457845 ])