# 08차시 KNN(K-Nearest Neighbor)

## 01 KNN 개요

### KNN 분류(Classification)

- 새로운 값은 기존의 데이터를 기준으로 가장 가까운 k개의 최근접 값을 기준으로 분류됨
- k는 동률의 문제 때문에 짝수는 되도록이면 피하는 것이 좋음
- k가 1에 가까울수록 과적합, k가 클수록 과소적합이 되기 때문에 적절한 k값 선정 필요

### KNN 회귀(Regression)

- 기본 개념은 분류모델과 같으며 k개의 인접한 자료의 (가중)평균으로 예측

## 02 주요 함수 및 메서드 소개

### sklearn - KNeighborsClassifier()

- KNN 분류 모델을 학습하기 위한 sklearn의 함수
- n_neighbors 인자에 학습 시 고려할 이웃 데이터의 개수를 지정
- n_neighbors가 1에 가까울수록 과적합되며 커질수록 과소적합되는 경향 존재
- KNeighborsClassifier() 함수의 fit() 메서드에 독립변수와 종속변수 할당


In [1]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import KNeighborsRegressor

In [2]:
df = pd.read_csv("실습파일/iris.csv")
df.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [3]:
df["is_setosa"] = (df["Species"] == "setosa") + 0
df.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,is_setosa
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1
2,4.7,3.2,1.3,0.2,setosa,1
3,4.6,3.1,1.5,0.2,setosa,1
4,5.0,3.6,1.4,0.2,setosa,1


In [4]:
model_c = KNeighborsClassifier(n_neighbors = 3) # 홀수 사용 권장 
model_c.fit(X = df.iloc[:, :4],
           y = df["is_setosa"])

KNeighborsClassifier(n_neighbors=3)

In [5]:
model_c.predict(df.iloc[:, :4])[:5]

  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)


array([1, 1, 1, 1, 1])

In [8]:
from sklearn.metrics import accuracy_score

In [7]:
accuracy_score(y_true = df["is_setosa"],
              y_pred = model_c.predict(df.iloc[:, :4]))

  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)


1.0

### sklearn - KNeighborsRegressor()

- KNN 회귀 모델을 학습하기 위한 sklearn의 함수
- n_neighbors 인자에 학습 시 고려할 이웃 데이터의 개수를 지정
- n_neighbors가 1에 가까울수록 과적합되며 커질수록 과소적합되는 경향 존재
- KNeighborsClassifier() 함수의 fit() 메서드에 독립변수와 종속변수 할당

In [9]:
model_r = KNeighborsRegressor(n_neighbors = 3)
model_r.fit(X = df.iloc[:, :3],
           y = df["Petal.Width"])
model_r

KNeighborsRegressor(n_neighbors=3)

In [10]:
pred_r = model_r.predict(df.iloc[:, :3])
pred_r[:5]

array([0.26666667, 0.2       , 0.23333333, 0.2       , 0.16666667])

In [35]:
from sklearn.metrics import mean_squared_error as mse

In [12]:
mse(y_true = df["Petal.Width"],
   y_pred = pred_r)

0.018651851851851857

In [13]:
mse(y_true = df["Petal.Width"],
   y_pred = pred_r) ** 0.5  ## RMSE

0.13657178278052848

## Q1 당뇨 발생 여부를 예측하기 위해 임신 횟수, 혈당, 혈압을 사용할 경우 그 정확도는 얼마인가?
1) 데이터를 학습7, 평가3의 비율로 분할하시오. (Seed는 123)

In [2]:
Q1 = pd.read_csv("실습파일/diabetes.csv")
Q1.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [3]:
from sklearn.model_selection import train_test_split

In [4]:
Q1_train, Q1_test = train_test_split(Q1, train_size = 0.7, random_state = 123)

In [6]:
Q1_model = KNeighborsClassifier()
Q1_model.fit(X = Q1_train.loc[:, ["Pregnancies", "Glucose", "BloodPressure"]],
            y = Q1_train["Outcome"])
Q1_pred = Q1_model.predict(Q1_test.loc[:, ["Pregnancies", "Glucose", "BloodPressure"]])
Q1_pred[:5]

  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)


array([1, 0, 0, 0, 0], dtype=int64)

In [9]:
accuracy_score(y_pred = Q1_pred,
              y_true = Q1_test["Outcome"])

0.7272727272727273

## Q2 종속변수를 당뇨 발병 여부로 하고 임신여부, 혈당, 혈압, 인슐인, 체질량지수를 독립변수로 하여 정확도를 확인했을 때 그 k 값과 정확도가 올바르게 연결되지 않은 것은?
1) 데이터를 학습8, 평가2의 비율로 분할하시오. (Seed는 123)

In [12]:
Q1["pregnancies_is"] = (Q1["Pregnancies"] > 0) + 0
Q1.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,pregnancies_is
0,6,148,72,35,0,33.6,0.627,50,1,1
1,1,85,66,29,0,26.6,0.351,31,0,1
2,8,183,64,0,0,23.3,0.672,32,1,1
3,1,89,66,23,94,28.1,0.167,21,0,1
4,0,137,40,35,168,43.1,2.288,33,1,0


In [13]:
Q2_train, Q2_test = train_test_split(Q1, train_size = 0.8, random_state = 123)

In [33]:
for k in [3, 5, 10, 20]:
    Q2_model = KNeighborsClassifier(n_neighbors = k)
    Q2_model.fit(X = Q2_train.loc[:, ["pregnancies_is", "Glucose", "BloodPressure", "Insulin","BMI"]],
            y = Q2_train["Outcome"])
    Q2_pred = Q2_model.predict(Q2_test.loc[:, ["pregnancies_is", "Glucose", "BloodPressure", "Insulin","BMI"]])
    Q2_pred[:5]
    print(k, accuracy_score(y_pred = Q2_pred, y_true = Q2_test["Outcome"]))

3 0.7077922077922078
5 0.7337662337662337
10 0.7792207792207793
20 0.7597402597402597


  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)
  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)
  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)
  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)


In [34]:
#답안

X_cols = ["pregnancies_is", "Glucose", "BloodPressure", "Insulin","BMI"]
neighbors = [3, 5, 10, 20]
accs = []

for n_n in neighbors:
    model = KNeighborsClassifier(n_neighbors = n_n)
    model.fit(X = Q2_train.loc[:, X_cols], y = Q2_train["Outcome"])
    pred = model.predict(Q2_test.loc[:, X_cols])
    acc_sub = accuracy_score(y_pred = pred, y_true = Q2_test["Outcome"])
    accs = accs + [acc_sub]
    
Q2_score = pd.DataFrame({"neighbors":neighbors, "accs":accs})
Q2_score["accs"] = Q2_score["accs"].round(2)
Q2_score


  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)
  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)
  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)
  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)


Unnamed: 0,neighbors,accs
0,3,0.71
1,5,0.73
2,10,0.78
3,20,0.76


## Q3 종속변수를 체질량지수로 하고 임신여부, 혈당, 혈압, 인슐린을 독립변수로 하여 예측값을 확인했을 때 그 k값과 RMSE가 올바르게 연결되지 않은 것은?

In [41]:
for k in [3, 5, 10, 20]:
    model_r = KNeighborsRegressor(n_neighbors = k)
    model_r.fit(X = Q2_train.loc[:, ["pregnancies_is", "Glucose", "BloodPressure", "Insulin"]],
                y = Q2_train["BMI"])
    pred_r = model_r.predict(Q2_test.loc[:, ["pregnancies_is", "Glucose", "BloodPressure", "Insulin"]])
    RMSE = mse(y_true = Q2_test["BMI"], y_pred = pred_r) ** 0.5  ## RMSE
    print(k, RMSE.round(3))
    

3 8.508
5 8.706
10 8.517
20 8.514
