# 1. KNN으로 붓꽃 분류하기

- UCI 데이터셋 다운
- pandas로 읽기
- 입력(꽃잎, 꽃받침의 길이 너비)과 출력(품종) 분리
- 150개 샘플 : 학습(75%), 테스트(25%) 분리
- K(k::3-5개) NN 모델을 선정
- 목표 : 테스트 샘플의 분류 정확도를 높이기

In [1]:
import numpy as np

In [2]:
import pandas as pd

In [3]:
import matplotlib.pyplot as plt

In [9]:
# 0. 데이터 읽어들이기
df = pd.read_csv('iris.data', header=None)
df.shape

(150, 5)

In [10]:
# 0. 데이터 값 확인
df.head()

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [11]:
# 0. 데이터 정보 체크
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
0    150 non-null float64
1    150 non-null float64
2    150 non-null float64
3    150 non-null float64
4    150 non-null object
dtypes: float64(4), object(1)
memory usage: 5.9+ KB


In [15]:
X = df.iloc[:, :4]
y = df.iloc[:, -1]
X.shape, y.shape

((150, 4), (150,))

In [16]:
# 1. KNN Classifier로 분류하기 위한 라이브러리
# KNN Classifier / 회귀 - KNN Regressor
from sklearn.model_selection import train_test_split

In [17]:
# 1. 학습과 테스트 데이터 분류
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
X_train.shape, X_test.shape

((112, 4), (38, 4))

In [18]:
# 2. 학습을 위한 라이브러리
from sklearn.neighbors import KNeighborsClassifier

In [20]:
# 2. 학습
knn = KNeighborsClassifier(5)
knn.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=None, n_neighbors=5, p=2,
           weights='uniform')

In [24]:
# 3. 평가
knn.score(X_train, y_train), knn.score(X_test, y_test)

(0.9642857142857143, 1.0)

# 2. 코스피 200 일거래 데이터, 종가 예측하기
- 샘플 : 하루의 총 일거래 정보

In [38]:
# 0. 데이터 읽어들이기
url = '코스피200 _ 다음 금융.html'
tables = pd.read_html(url, index_col=0) #날짜로 인덱스
len(tables)

3

In [39]:
for table in tables:
    print(table.shape)

(10, 6)
(10, 8)
(10, 7)


In [40]:
kospi200 = tables[1]
kospi200

Unnamed: 0_level_0,종가,전일비,등락률,거래량,거래대금,개인(억),외국인(억),기관(억)
일자,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
19.07.02,276.86,▼0.41,-0.15%,21594,785504,327,36,-341
19.07.01,277.27,▼0.23,-0.08%,74357,3446049,-214,1286,365
19.06.28,277.5,▼0.25,-0.09%,67598,2879563,-1802,3011,-1189
19.06.27,277.75,▲2.22,+0.81%,66303,3357666,-4165,1837,2415
19.06.26,275.53,▲0.25,+0.09%,58818,2636531,-712,157,557
19.06.25,275.28,▼0.30,-0.11%,60506,2635188,-364,277,-12
19.06.24,275.58,▲0.10,+0.04%,55539,2235175,-978,-1048,1966
19.06.21,275.48,▼0.53,-0.19%,77279,3275700,538,206,-767
19.06.20,276.01,▲0.70,+0.25%,55336,2417864,-1342,-434,1762
19.06.19,275.31,▲3.95,+1.46%,69733,3134202,-4430,2876,1606


In [41]:
kospi200.info() # 전일비와 등락률이 obejct이므로 수치로 변환이 필요

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, 19.07.02 to 19.06.19
Data columns (total 8 columns):
종가        10 non-null float64
전일비       10 non-null object
등락률       10 non-null object
거래량       10 non-null int64
거래대금      10 non-null int64
개인(억)     10 non-null int64
외국인(억)    10 non-null int64
기관(억)     10 non-null int64
dtypes: float64(1), int64(5), object(2)
memory usage: 720.0+ bytes


In [46]:
# 전일비와 등락률이 수치로 변환
kospi200['전일비'] = kospi200['전일비'].replace('▼', '', regex=True)
kospi200['전일비'] = kospi200['전일비'].replace('▲', '', regex=True)
kospi200['등락률'] = kospi200['등락률'].replace('%', '', regex=True)
kospi200['전일비'] = kospi200['전일비'].astype(np.float)
kospi200['등락률'] = kospi200['등락률'].astype(np.float)

In [47]:
kospi200.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, 19.07.02 to 19.06.19
Data columns (total 8 columns):
종가        10 non-null float64
전일비       10 non-null float64
등락률       10 non-null float64
거래량       10 non-null int64
거래대금      10 non-null int64
개인(억)     10 non-null int64
외국인(억)    10 non-null int64
기관(억)     10 non-null int64
dtypes: float64(3), int64(5)
memory usage: 1.0+ KB


In [65]:
# 1. 데이터 x, y로 분류
X = kospi200.iloc[:, 1:]
y = kospi200.iloc[:, 0]
X.head(1)

Unnamed: 0_level_0,전일비,등락률,거래량,거래대금,개인(억),외국인(억),기관(억)
일자,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
19.07.02,0.41,-0.15,21594,785504,327,36,-341


In [76]:
# 1. 학습과 테스트 셋으로 분류
offset = 8 # 학습용 갯수
X_train = X[-offset:]
X_test = X[:-offset]
y_train = y[-offset:]
y_test = y[:-offset]

In [77]:
# 2. 학습을 위한 라이브러리
from sklearn.neighbors import KNeighborsRegressor # regressor 실수 예측용

In [78]:
# 2. 학습
knn = KNeighborsRegressor(n_neighbors=1)
knn.fit(X_train, y_train)

KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',
          metric_params=None, n_jobs=None, n_neighbors=1, p=2,
          weights='uniform')

In [79]:
# 3. 예측
knn.predict(X_test)

array([275.58, 277.75])

In [86]:
# 4. 평가 (p71, 결정계수 :R^2)
# score는 classification 정확도로 regression은 결정계수로
knn.score(X_test, y_test)

-21.23438429506702

knn 특징
- 이웃이 적으면 train이 예측에 주는 영향이 커서, test는 정확도가 낮다
- 이웃이 많으면 train에는 안맞아 질 수 있지만, test는 정확도가 높다

knn 장단점
- 장점 : 이해하기 쉽고, k를 많이 조정하지 않아도 좋은 성능이 나와 시작하기 좋은 모델
- 단점 : 전처리가 중요하며, 특성/컬럼이 많아지면 동작하지 않는 모델, 특성값이 0에 가까운 희소값이여도 결과가 잘 안나오는 모델

* 이런 많은 특성을 처리해서 예측하기에는 느린 k-최근접 이웃은 현업에서 잘 사용하지 않으며, 선형 모델을 현업에서 하용하고 있다.