차원 축소에 군집을 사용하는 예를 위해 숫자 데이터셋을 다뤄보겠습니다.<br>
이 데이터셋은 MNIST와 비슷한 데이터셋으로<br>
0에서 9까지 숫자를 나타내는 8 * 8 크기 흑백 이미지 1797개를 담고 있습니다.

In [1]:
from sklearn.datasets import load_digits
X_digits, y_digits = load_digits(return_X_y=True)

In [2]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_digits, y_digits, random_state=42)

그다음 로지스틱 회귀 모델을 훈련합니다.

In [3]:
from sklearn.linear_model import LogisticRegression
log_reg = LogisticRegression(multi_class="ovr", solver="lbfgs", max_iter=5000, random_state=42)
log_reg.fit(X_train, y_train)

LogisticRegression(max_iter=5000, multi_class='ovr', random_state=42)

In [4]:
log_reg.score(X_test, y_test)

0.9688888888888889

기준값으로 96.9%의 정확도를 얻었습니다.

k-평균을 전처리 단계로 사용해서 더 좋아지는지 확인해보겠습니다.

In [5]:
from sklearn.pipeline import Pipeline
from sklearn.cluster import KMeans
pipeline = Pipeline([
    ('kmeans', KMeans(n_clusters=50, random_state=42)),
    ('log_reg', LogisticRegression(multi_class="ovr", solver="lbfgs", max_iter=5000, random_state=42))
])
pipeline.fit(X_train, y_train)

Pipeline(steps=[('kmeans', KMeans(n_clusters=50, random_state=42)),
                ('log_reg',
                 LogisticRegression(max_iter=5000, multi_class='ovr',
                                    random_state=42))])

여기서 숫자가 10갠데 왜 50개로 클러스터 수를 결정했는지 궁금할 수 있습니다.<br>
이는 숫자가 쓴 방식이 사람마다 달라서 50처럼 크게 하는 게 좋기 때문입니다.

In [6]:
pipeline.score(X_test, y_test)

0.9777777777777777

3.1%의 오차에서 2.2%의 오차로 오차를 줄여 30%정도를 줄였습니다.

k를 임의로 정했기 때문에 더 개선할 여지가 있습니다.

k-평균이 분류 파이프라인의 하나의 전처리 단계이기 때문에<br>
이전보다 더 좋은 k값을 찾는 일이 더 쉽습니다.

실루엣 분석이나 이너셔 분석이 필요없습니다.

가장 좋은 k값은 교차 검증에서 가장 좋은 분류 성능을 내는 값입니다.
GridSearchCV를 이용해 최적의 클러스터 개수를 찾아보겠습니다.

In [7]:
from sklearn.model_selection import GridSearchCV
import numpy as np

In [8]:
np.random.seed(42)
param_grid = {'kmeans__n_clusters': range(2, 100)}
grid_clf = GridSearchCV(pipeline, param_grid, cv=3, verbose=2)
grid_clf.fit(X_train, y_train)

Fitting 3 folds for each of 98 candidates, totalling 294 fits
[CV] END ...............................kmeans__n_clusters=2; total time=   0.1s
[CV] END ...............................kmeans__n_clusters=2; total time=   0.1s
[CV] END ...............................kmeans__n_clusters=2; total time=   0.1s
[CV] END ...............................kmeans__n_clusters=3; total time=   0.1s
[CV] END ...............................kmeans__n_clusters=3; total time=   0.1s
[CV] END ...............................kmeans__n_clusters=3; total time=   0.1s
[CV] END ...............................kmeans__n_clusters=4; total time=   0.1s
[CV] END ...............................kmeans__n_clusters=4; total time=   0.1s
[CV] END ...............................kmeans__n_clusters=4; total time=   0.1s
[CV] END ...............................kmeans__n_clusters=5; total time=   0.3s
[CV] END ...............................kmeans__n_clusters=5; total time=   0.2s
[CV] END ...............................kmeans_

[CV] END ..............................kmeans__n_clusters=35; total time=   2.3s
[CV] END ..............................kmeans__n_clusters=36; total time=   3.1s
[CV] END ..............................kmeans__n_clusters=36; total time=   3.0s
[CV] END ..............................kmeans__n_clusters=36; total time=   2.7s
[CV] END ..............................kmeans__n_clusters=37; total time=   3.2s
[CV] END ..............................kmeans__n_clusters=37; total time=   3.4s
[CV] END ..............................kmeans__n_clusters=37; total time=   3.2s
[CV] END ..............................kmeans__n_clusters=38; total time=   3.7s
[CV] END ..............................kmeans__n_clusters=38; total time=   3.1s
[CV] END ..............................kmeans__n_clusters=38; total time=   3.5s
[CV] END ..............................kmeans__n_clusters=39; total time=   3.9s
[CV] END ..............................kmeans__n_clusters=39; total time=   4.0s
[CV] END ...................

[CV] END ..............................kmeans__n_clusters=69; total time=   3.1s
[CV] END ..............................kmeans__n_clusters=70; total time=   3.3s
[CV] END ..............................kmeans__n_clusters=70; total time=   3.2s
[CV] END ..............................kmeans__n_clusters=70; total time=   3.2s
[CV] END ..............................kmeans__n_clusters=71; total time=   3.0s
[CV] END ..............................kmeans__n_clusters=71; total time=   3.1s
[CV] END ..............................kmeans__n_clusters=71; total time=   3.5s
[CV] END ..............................kmeans__n_clusters=72; total time=   2.9s
[CV] END ..............................kmeans__n_clusters=72; total time=   3.3s
[CV] END ..............................kmeans__n_clusters=72; total time=   3.4s
[CV] END ..............................kmeans__n_clusters=73; total time=   3.1s
[CV] END ..............................kmeans__n_clusters=73; total time=   2.9s
[CV] END ...................

GridSearchCV(cv=3,
             estimator=Pipeline(steps=[('kmeans',
                                        KMeans(n_clusters=50, random_state=42)),
                                       ('log_reg',
                                        LogisticRegression(max_iter=5000,
                                                           multi_class='ovr',
                                                           random_state=42))]),
             param_grid={'kmeans__n_clusters': range(2, 100)}, verbose=2)

In [9]:
grid_clf.best_params_

{'kmeans__n_clusters': 95}

In [10]:
grid_clf.score(X_test, y_test)

0.9777777777777777

99개의 군집을 사용했을 때 가장 좋은 것을 알 수 있습니다.

그리고 테스트 세트에서 98.22%의 정확도를 보입니다.