#1. 기본 문법 익히기

In [None]:
from sklearn.neighbors import KNeighborsClassifier

# clf = KNeighborsClassifier(n_neighbors=5)
clf = KNeighborsClassifier(n_neighbors=3)

In [None]:
X_train = [
           [0.5,0.2,0.1],
           [0.9,0.7,0.3],
           [0.4,0.5,0.7]
]
y_train = [0,1,1]
clf.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=3, p=2,
                     weights='uniform')

In [None]:
X_test =[
         [0.2,0.1,0.4],
         [0.7,0.3,0.1],
         [0.5,0.5,0.5]
]
clf.predict(X_test)

array([1, 1, 1])

> 데이터의 개수보다 최근접 이웃의 개수가 적어야 함으로 n_neighbors를 조절해야 한다. 즉 n_neighbors는 feature의 개수보다 적게 작성해야 한다.

#2. 유방암 데이터 분석

##2.1 데이터 읽기

In [None]:
from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()
print(breast_cancer['DESCR'])

In [None]:
import pandas as pd

df_data = pd.DataFrame(breast_cancer.data)
df_labels = pd.DataFrame(breast_cancer.target)

##2.2 데이터 정제

In [None]:
df_data.info()

> 총 30개의 feature 정보를 갖고 있다.

In [None]:
df_data.head()

> 현재 데이터가 어떤 값은 1보다 큰 값으로 어떤 값은 1보다 작은 값으로 표현되어 이를 정규화(일반화) 시킬 것이다.

In [None]:
df_data.describe()

##2.3 데이터 정규화

In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
# scaler.fit(df_data)
# data_scaled = scaler.transform(dt_data)
data_scaled = scaler.fit_transform(df_data)
df_data_scaled = pd.DataFrame(data_scaled)
# df_data_scaled.head()
df_data_scaled.describe()

> 정규화 작업을 위해 MinMaxScaler클래스를 사용하였다. 현재 feature의 개수를 맞추기 위해 fit함수를 이용하여 데이터를 변환하기 위해 transform 함수를 이용한다. 이 두 가지는 항상 같이 동작시키기 때문에 두 기능을 합친 fit_transform 함수를 이용하였다. 이렇게 만들어진 데이터를 dataframe으로 변환한 후 head 및 describe로 0~1사이의 값으로 변환되었는지 확인하였다.

##2.4 모델 만들기

###2.4.1 데이터 분류

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df_data_scaled, df_labels, test_size=0.2, random_state=62)

##2.4.2 모델 생성

In [None]:
from sklearn.neighbors import KNeighborsClassifier

clf = KNeighborsClassifier()
clf.fit(X_train, y_train)

  after removing the cwd from sys.path.


KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                     weights='uniform')

##2.5 정확도 평가하기

In [None]:
clf.score(X_test, y_test)

0.956140350877193

##2.6 튜닝하기

In [None]:
from sklearn.neighbors import KNeighborsClassifier

knn_clf = KNeighborsClassifier()

In [None]:
from sklearn.model_selection import GridSearchCV

def  get_best_hyperparam():
  params ={
      'n_neighbors':n_neighbors_list,
      'weights':['uniform', 'distance'],
      'metric':['euclidean', 'manhattan', 'minkowski']
  }

  grid_cv = GridSearchCV(knn_clf, param_grid=params, scoring='accuracy', cv=5, verbose=1)
  grid_cv.fit(X_train, y_train)

  print('최고 점수 : ', grid_cv.best_score_)
  print('최적의 파라미터 : ', grid_cv.best_params_)

In [None]:
n_neighbors_list = range(1, 100, 10)
get_best_hyperparam()

> 다음과 같이 경고가 나타나는 이유는 fit 적용 시 y_train이 1차원 배열로 적용되어야 하기 때문이다.
- /usr/local/lib/python3.7/dist-packages/sklearn/model_selection/_validation.py:515: DataConversionWarning: A column-vector y was passed when a 1d array was expected. Please change the shape of y to (n_samples, ), for example using ravel().
  estimator.fit(X_train, y_train, **fit_params)

In [None]:
print(type(y_train))
y_train.shape

> 확인 결과 타입은 dataframe이며 2차원 데이터를 가지고 있다.

In [None]:
from sklearn.model_selection import GridSearchCV

def  get_best_hyperparam():
  params ={
      'n_neighbors':n_neighbors_list,
      'weights':['uniform', 'distance'],
      'metric':['euclidean', 'manhattan', 'minkowski']
  }

  grid_cv = GridSearchCV(knn_clf, param_grid=params, scoring='accuracy', cv=5, verbose=1)
  # y_train의 value 정보를 reshape을 이용하여 1차원배열로 변경
  grid_cv.fit(X_train, y_train.values.reshape(-1))

  print('최고 점수 : ', grid_cv.best_score_)
  print('최적의 파라미터 : ', grid_cv.best_params_)

In [None]:
# 1, 11, 21, ~~~~
n_neighbors_list = range(1, 100, 10)
get_best_hyperparam()

> 실행 결과 n_neighbors가 11일 때 최고의 점수를 얻게 되었다. 조금 더 자세한 값을 얻기 위해 n_neighbors를 2 ~ 20 사이의 범위로 지정하여 결과를 확인해 보자.

In [None]:
# 2, 5, 8, ~~~~
n_neighbors_list = range(2, 20, 3)
get_best_hyperparam()

> 확인 결과 n_neighbors는 8로 변경되었으며 weights가 uniform에서 distance로 변경된 것을 볼 수 있다. 마지막으로 6 ~ 10 사이의 수를 확인해 보자.

In [None]:
# 6, 7, 8, 9, 10
n_neighbors_list = range(6, 10, 1)
get_best_hyperparam()

> 확인 결과 6이 최고의 점수를 갖는 파라미터로 나타 났다. 하지만 8과 6 둘 다 최고점은 같은 값으로 나타났다. 그러면 7도 같은 값을 갖게 되는지 확인해 보자

In [None]:
# 6, 7, 8, 9, 10
n_neighbors_list = [7]
get_best_hyperparam()

Fitting 5 folds for each of 6 candidates, totalling 30 fits
최고 점수 :  0.9626373626373625
최적의 파라미터 :  {'metric': 'manhattan', 'n_neighbors': 7, 'weights': 'uniform'}


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done  30 out of  30 | elapsed:    0.2s finished


> 확인 결과 6, 8보다 작은 점수가 나타난 것을 볼 수 있다. 따라서 모델에 적용할 하이퍼 파라미터는 다음과 같이 적용할 수 있다.
- 'metric': 'manhattan'
- 'n_neighbors': 6 또는 8 
- 'weights': 'uniform'

> n_neighbors가 너무 작게 되면 이상치 처리에 문제게 될 수 있으나 너무 크게 되면 오랜 시간이 걸릴 수 있어 적당한 수치를 선택하여 사용하면 된다. 여기서는 오랜 시간이 걸리진 않음으로 8이 가장 좋은 파라미터가 될 수 있다.

## 2.7 최적화 적용

In [None]:
from sklearn.neighbors import KNeighborsClassifier
# 0.956140350877193
# clf = KNeighborsClassifier()

clf = KNeighborsClassifier(metric='manhattan', n_neighbors= 8, weights= 'uniform')
clf.fit(X_train, y_train)

clf.score(X_test, y_test)

  


0.9649122807017544