# KNN(K-Nearest Neighbor)

In [1]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressor

In [2]:
df = pd.read_csv('../datasets/iris.csv')
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [3]:
df['is_setosa'] = (df['Species'] == 'setosa') + 0
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,is_setosa
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1


In [4]:
model_c = KNeighborsClassifier(n_neighbors=3)
model_c.fit(X=df.iloc[:, :4], y=df['is_setosa'])
model_c

In [5]:
model_c.predict(df.iloc[:, :4])[:5]

array([1, 1, 1, 1, 1])

In [6]:
from sklearn.metrics import accuracy_score

In [7]:
accuracy_score(y_true=df['is_setosa'], y_pred=model_c.predict(df.iloc[:, :4]))

1.0

In [8]:
df.columns

Index(['Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width', 'Species',
       'is_setosa'],
      dtype='object')

In [9]:
model_r = KNeighborsRegressor(n_neighbors=3)
model_r.fit(X=df.iloc[:, :3], y=df['Petal.Width'])
model_r

In [10]:
pred_r = model_r.predict(df.iloc[:, :3])
pred_r[:5]

array([0.26666667, 0.2       , 0.23333333, 0.2       , 0.16666667])

In [11]:
from sklearn.metrics import mean_squared_error as mse

In [12]:
mse(y_true=df['Petal.Width'], y_pred=pred_r)

0.018651851851851857

In [13]:
mse(y_true=df['Petal.Width'], y_pred=pred_r) ** 0.5

0.13657178278052848

### 1. 당뇨 발생 여부를 예측하기 위해 임신 횟수, 혈당, 혈압을 사용할 경우 그 정확도는 얼마인가?

diabates.csv 파일 사용
데이터를 학습7, 평가3의 비율로 분할하시오. (Seed는 123)
설정은 모두 기본값으로 하시오.

1. 0.73
2. 0.64
3. 0.84
4. 0.67

In [14]:
df = pd.read_csv('../datasets/diabetes.csv')
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [15]:
from sklearn.model_selection import train_test_split

In [16]:
df_train, df_test = train_test_split(df, train_size=0.7, random_state=123)

In [20]:
model = KNeighborsClassifier().fit(X=df_train.loc[:, ['Pregnancies', 'Glucose', 'BloodPressure']],
                                   y=df_train['Outcome'])
model

In [21]:
accuracy_score(y_true=df_test['Outcome'],
               y_pred=model.predict(X=df_test.loc[:, ['Pregnancies', 'Glucose', 'BloodPressure']]))

0.7272727272727273

### 2. 종속변수를 당뇨 발생 여부로 하고 임신여부, 혈당, 혈압, 인슐린, 체질량지수를 독립변수로 하여 정확도를 확인했을 때 그 k값과 정확도가 올바르게 연결되지 않은 것은?

diabates.csv 파일 사용
데이터를 학습8, 평가2의 비율로 분할하시오. (Seed는 123)
k를 제외한 설정은 모두 기본값으로 하시오.

1. k = 3, Acc. = 0.71
2. k = 5, Acc. = 0.73
3. k = 10, Acc. = 0.78
4. k = 20, Acc. = 0.79

In [23]:
# 데이터 준비
df = pd.read_csv('../datasets/diabetes.csv')
df['is_preg'] = (df['Pregnancies'] > 0) + 0
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,is_preg
0,6,148,72,35,0,33.6,0.627,50,1,1
1,1,85,66,29,0,26.6,0.351,31,0,1


In [24]:
# 데이터 분리
df_train, df_test = train_test_split(df, train_size=0.8, random_state=123)

In [27]:
def get_acc(k):
    model = KNeighborsClassifier(n_neighbors=k).fit(
        X=df_train.loc[:, ['is_preg', 'Glucose', 'BloodPressure', 'Insulin', 'BMI']],
        y=df_train['Outcome']
    )
    acc = accuracy_score(y_true=df_test['Outcome'], y_pred=model.predict(
        X=df_test.loc[:, ['is_preg', 'Glucose', 'BloodPressure', 'Insulin', 'BMI']]))
    acc = round(acc, 2)

    return acc

In [28]:
print(get_acc(3))
print(get_acc(5))
print(get_acc(10))
print(get_acc(20))

0.71
0.73
0.78
0.76


### 3. 종속변수를 체질량지수로 하고 임신여부, 혈당, 혈압, 인슐린을 독립변수로 하여 예측값을 확인했을 때 그 k값과 RMSE가 올바르게 연결되지 않은 것은?

diabates.csv 파일 사용
데이터를 학습8, 평가2의 비율로 분할하시오. (Seed는 123)
k를 제외한 설정은 모두 기본값으로 하시오.

1. k = 3, RMSE = 8.455
2. k = 5, RMSE = 8.675
3. k = 10, RMSE = 8.404
4. k = 20, RMSE = 8.510

In [41]:
# 데이터 불러오기
df = pd.read_csv('../datasets/diabetes.csv')

## 임신 여부 설정
df['is_preg'] = (df['Pregnancies'] > 0) + 0

df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,is_preg
0,6,148,72,35,0,33.6,0.627,50,1,1
1,1,85,66,29,0,26.6,0.351,31,0,1


In [38]:
# 데이터 분리
df_train, df_test = train_test_split(df, train_size=0.8, random_state=123)

In [39]:
# rmse를 계산하는 함수
def get_rmse(k):
    model = KNeighborsRegressor(n_neighbors=k).fit(
        X=df_train.loc[:, ['is_preg', 'Glucose', 'BloodPressure', 'Insulin']],
        y=df_train['BMI']
    )
    rmse = mse(
        y_true=df_test['BMI'],
        y_pred=model.predict(X=df_test.loc[:, ['is_preg', 'Glucose', 'BloodPressure', 'Insulin']])) ** 0.5
    rmse = round(rmse, 3)

    return rmse

In [40]:
# 예측값 확인
k_list = [3, 5, 10, 20]

for k in k_list:
    print(f'k = {k}, RMSE = {get_rmse(k)}')

k = 3, RMSE = 8.508
k = 5, RMSE = 8.706
k = 10, RMSE = 8.517
k = 20, RMSE = 8.514
