# 데이터 불러오기

In [1]:
## 필요한 패키지를 불러옵니다.
import pandas as pd
import os

In [2]:
## 경로설정을 해줍니다.
os.chdir(r'C:\Users\kmlam\Documents\러닝스푼즈\기본 지도학습\data')
## 위의 경로설정은 제 컴퓨터를 기준으로 입력한 것으로 각자 데이터를 저장한 위치에 맞게 바꿔주시기 바랍니다.

In [3]:
## 데이터를 불러옵니다.
iris = pd.read_csv("IRIS.csv")
## 위의 실습 데이터는 러닝스푼즈 홈페이지에서도 다운받으실 수 있습니다.

In [4]:
## 타겟 변수의 구성을 살펴봅니다.
iris['species'].value_counts()

Iris-virginica     50
Iris-versicolor    50
Iris-setosa        50
Name: species, dtype: int64

In [5]:
## 아이디를 생성합니다.
iris['id'] = range(len(iris))

In [6]:
## 열의 순서를 바꿉니다.
iris = iris[['id','sepal_length','sepal_width','petal_length','petal_width','species']]

# knn 실습(분류)

<strong>특징</strong>
1. 데이터가 많으면 느리다.

<strong>파라미터</strong>
1. n_neighbors: 가장 가까운 몇 개를 볼건지

<strong>knn 학습시키기</strong>

In [7]:
## iris 중에서 100개를 랜덤으로 추출해 train 데이터로 지정합니다.
train = iris.sample(100,replace=False,random_state=2020).reset_index().drop(['index'],axis=1)

In [8]:
## 추출되지 않은 나머지를 test 데이터로 지정합니다.
test = iris.loc[ ~iris['id'].isin(train['id']) ]
test = test.reset_index().drop(['index'],axis=1)

In [9]:
## knn을 위한 패키지를 임포트합니다.
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=2)

In [11]:
## knn 모델을 train 데이터에서 학습시킵니다.
knn.fit( train[['sepal_length','sepal_width','petal_length','petal_width']] , train['species'] )

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=2, p=2,
                     weights='uniform')

In [12]:
## 예측을 진행합니다.
predictions = knn.predict( test[['sepal_length','sepal_width','petal_length','petal_width']] )

In [13]:
## 정확도를 살펴봅니다.
(pd.Series(predictions) == test['species']).mean()

0.94

<strong>최적의 k 찾기</strong>

In [14]:
## 최적의 k를 찾습니다.
## 아래의 결과값들은 운영하시는 컴퓨터에 따라 달라질 수 있습니다.
for k in range(1,30):
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit( train[['sepal_length','sepal_width','petal_length','petal_width']] , train['species'] )
    predictions = knn.predict( test[['sepal_length','sepal_width','petal_length','petal_width']] )
    print((pd.Series(predictions) == test['species']).mean())

0.94
0.94
0.98
0.98
0.98
0.96
0.98
0.98
0.98
0.98
0.98
0.98
0.98
0.98
0.98
0.98
0.98
0.98
0.98
0.96
0.96
0.96
0.96
0.96
0.96
0.96
0.96
0.96
0.96


In [16]:
## 필요한 패키지를 임포트합니다.
from sklearn.model_selection import cross_val_score
import numpy as np

<strong>Cross Validation</strong>

Cross validation을 통해 최적의 k를 찾습니다.<br>
<strong>해당 사항은 추후 cross validation을 다루는 강의에서 다룰 것이기에 지금은 넘어가셔도 좋습니다.</strong>

In [1]:
# for k in range(1,30):
#     knn = KNeighborsClassifier(n_neighbors=k)
#     scores = cross_val_score(knn, iris[['sepal_length','sepal_width','petal_length','petal_width']], iris['species'], cv=5)
#     print(np.mean(scores))

# knn 실습(회귀)

In [67]:
## 회귀를 위해 필요한 컬럼을 제거합니다.
del train['species']
del test['species']

In [69]:
## 모델을 정의합니다.
from sklearn.neighbors import KNeighborsRegressor

knn = KNeighborsRegressor(n_neighbors=2)

In [71]:
## knn 모델을 학습시킵니다.

knn.fit( train[['sepal_length','sepal_width','petal_length']] , train['petal_width'] )

KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',
                    metric_params=None, n_jobs=None, n_neighbors=2, p=2,
                    weights='uniform')

In [72]:
## 예측합니다.

predictions = knn.predict( test[['sepal_length','sepal_width','petal_length']] )

In [73]:
predictions

array([0.2 , 0.2 , 0.2 , 0.1 , 0.3 , 0.25, 0.25, 0.2 , 0.25, 0.15, 0.2 ,
       0.2 , 1.55, 1.4 , 1.25, 1.65, 1.35, 1.35, 1.25, 1.4 , 1.15, 1.4 ,
       1.65, 1.15, 1.15, 1.25, 1.9 , 1.3 , 1.65, 1.25, 1.  , 2.35, 2.3 ,
       2.  , 2.15, 2.05, 1.9 , 2.05, 2.4 , 2.4 , 1.8 , 2.1 , 2.35, 1.85,
       2.  , 2.05, 1.8 , 2.3 , 2.15, 2.  ])

<strong>mae</strong>

회귀문제에서 모델의 성능을 평가하는 방법

In [79]:
abs(test['petal_width'] - pd.Series(predictions)).mean()

0.16699999999999995

<strong>최적의 k 찾기</strong>

In [85]:
## 최적의 k를 찾습니다.
## 아래의 결과값들은 운영하시는 컴퓨터에 따라 달라질 수 있습니다.
for k in range(1,30):
    knn = KNeighborsRegressor(n_neighbors=k)

    knn.fit( train[['sepal_length','sepal_width','petal_length']] , train['petal_width'] )

    predictions = knn.predict( test[['sepal_length','sepal_width','petal_length']] )
    
    print(str(k)+' :'+str(abs(test['petal_width'] - pd.Series(predictions)).mean()))

1 :0.196
2 :0.16699999999999995
3 :0.1673333333333333
4 :0.1655
5 :0.16839999999999994
6 :0.1619999999999999
7 :0.16342857142857137
8 :0.16125
9 :0.16155555555555556
10 :0.16260000000000002
11 :0.16254545454545455
12 :0.1635
13 :0.1636923076923077
14 :0.1695714285714286
15 :0.1738666666666667
16 :0.17587499999999995
17 :0.18282352941176455
18 :0.18955555555555553
19 :0.1913684210526316
20 :0.19329999999999994
21 :0.19780952380952382
22 :0.20045454545454547
23 :0.20330434782608697
24 :0.2045
25 :0.2084800000000001
26 :0.2123076923076923
27 :0.21599999999999997
28 :0.21878571428571422
29 :0.22365517241379315


최적의 k는 8이다.