## Key words
### 분류모델, 회귀모델, KNeighborsClassfier, KNeighborsRegressor

### KNN 분류(Classification)
- 새로운 값은 기존의 데이터를 기준으로 `가장 가까운` k개의 최근접 값을 기준으로 분류됨
- k는 동률의 문제 때문에 짝수는 되도록이면 피하는 것이 좋음
- k가 1에 가까울수록 과적합, k가 클수록 과소적합이 되기 때문에 적절한 k값 선정 필요
 - 반복문을 통해 여러개 넣어보고 정확도 측정 후 가장 적합한 k값 선정

### KNN 회귀(Regression)
- 기본 개념은 분류모델과 같으며 k개의 인접한 자료의 (가중)평균으로 예측

### sklearn - KNeighborsClassfier()
- KNN 분류 모델을 학습하기 위한 sklearn의 함수
- n_neighbors 인자에 학습 시 고려할 이웃 데이터의 개수를 지정
- n_neighbors가 1에 가까울수록 과적합되며 커질수록 과소적합되는 경향 존재
- KNeighborsClassifier() 함수의 fit() 메서드에 독립변수와 종속변수 할당

### sklearn - KNeighborsRegressorr()
- KNN 회귀 모델을 학습하기 위한 sklearn의 함수
- n_neighbors 인자에 학습 시 고려할 이웃 데이터의 개수를 지정
- n_neighbors가 1에 가까울수록 과적합되며 커질수록 과소적합되는 경향 존재
- KNeighborsRegressorr() 함수의 fit() 메서드에 독립변수와 종속변수 할당

In [1]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import KNeighborsRegressor

In [2]:
df = pd.read_csv("iris.csv")
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [5]:
df["is_setosa"] = (df.Species == "setosa") + 0
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,is_setosa
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1


In [7]:
model_c  = KNeighborsClassifier(n_neighbors=3)
model_c.fit(X = df.iloc[:, :4],
            y = df["is_setosa"])
model_c

KNeighborsClassifier(n_neighbors=3)

In [8]:
model_c.predict(df.iloc[:, :4])

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [9]:
from sklearn.metrics import accuracy_score

In [10]:
accuracy_score(y_true = df["is_setosa"],
               y_pred = model_c.predict(df.iloc[:, :4]))

1.0

회귀

In [11]:
model_r = KNeighborsRegressor(n_neighbors=3)
model_r.fit(X = df.iloc[:, :3],
            y = df["Petal.Width"])
model_r

KNeighborsRegressor(n_neighbors=3)

In [12]:
pred_r = model_r.predict(df.iloc[:, :3])
pred_r[:5]

array([0.26666667, 0.2       , 0.16666667, 0.2       , 0.16666667])

In [14]:
from sklearn.metrics import mean_squared_error as mse

In [15]:
mse(y_true = df["Petal.Width"],
   y_pred = pred_r)

0.01864444444444445

In [16]:
mse(y_true = df["Petal.Width"],
   y_pred = pred_r) ** 0.5

0.13654466098842696

### 1. 당뇨 발생 여부를 예측하기 위해 임신 횟수, 혈당, 혈압을 사용할 경우 그 정확도는 얼마인가?
- diabates.csv
- 학습 7 : 평가 3, seed 123
- 설정 모두 기본값

In [17]:
df = pd.read_csv('diabetes.csv')
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [18]:
from sklearn.model_selection import train_test_split

In [27]:
train, test = train_test_split(df, train_size=0.7, random_state=123)

In [28]:
model = KNeighborsClassifier()
model.fit(X = train.loc[:, ["Glucose", "BloodPressure", "Pregnancies"]],
          y = train["Outcome"])

KNeighborsClassifier()

In [29]:
pred = model.predict(test.loc[:, ["Glucose", "BloodPressure", "Pregnancies"]])

In [30]:
accuracy_score(y_true=test["Outcome"],
               y_pred=pred)

0.7272727272727273

### 2. 종속변수를 당뇨 발병 여부로 하고 임신여부, 혈당, 혈압, 인슐린, 체질량지수를 독립변수로 하여 정확도를 확인했을 때 그 k값과 정확도가 올바르게 연결되지 않은 것은?
- diabetes.csv
- 8:2, seed 123
- k를 제외한 설정은 모두 기본값

In [31]:
df = pd.read_csv('diabetes.csv')
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [32]:
df["is_preg"] = (df.Pregnancies > 0) + 0
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,is_preg
0,6,148,72,35,0,33.6,0.627,50,1,1
1,1,85,66,29,0,26.6,0.351,31,0,1


In [33]:
train, test = train_test_split(df, train_size=0.8, random_state=123)

In [36]:
X_cols = ['is_preg', 'Glucose', 'BloodPressure', 'Insulin', 'BMI']

neighbors = [3, 5, 10, 20]
accs = []
for n in neighbors:
    model = KNeighborsClassifier(n_neighbors= n)
    model.fit(X = train.loc[:, X_cols], y = train["Outcome"])
    pred = model.predict(test.loc[:, X_cols])
    acc_sub = accuracy_score(y_pred= pred, y_true=test["Outcome"])
    accs = accs + [acc_sub]

score = pd.DataFrame({"neighbors": neighbors, "accs": accs})
score['accs'] = score["accs"].round(2)
score

Unnamed: 0,neighbors,accs
0,3,0.71
1,5,0.73
2,10,0.78
3,20,0.76


### 3. 종속변수를 체질량지수로 하고 임신여부, 혈당, 혈압, 인슐린을 독립변수로하여 예측값을 확인 했을 때, 그 k값과 RMSE가 올바르게 연결되지 않은 것은?
- diabetes.csv
- 8:2, 123

정답 : 2번과 비슷한방식