숫자 데이터셋에서 레이블된 50개 샘플에 로지스틱 회귀 모델을 훈련해보겠습니다.

In [1]:
from sklearn.datasets import load_digits
X_digits, y_digits = load_digits(return_X_y=True)

In [2]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_digits, y_digits, random_state=42)

In [3]:
from sklearn.linear_model import LogisticRegression
n_labeled = 50
log_reg = LogisticRegression(multi_class='ovr', solver='lbfgs', random_state=42)
log_reg.fit(X_train[:n_labeled], y_train[:n_labeled])
log_reg.score(X_test, y_test)

0.8333333333333334

정확도가 겨우 83.3%입니다.

전체 데이터셋을 사용했을 때보다 낮은 정확도가 나온 게 당연합니다.

이를 개선하기 위해 먼저 훈련 세트를 50개의 클러스터로 모으고,<br>
각 클러스터에서 센트로이드에 가장 가까운 이미지를 찾습니다.<br>
이런 이미지를 대표 이미지라고 합니다.

In [4]:
from sklearn.cluster import KMeans
import numpy as np
k = 50
kmeans = KMeans(n_clusters=k, random_state=42)
X_digits_dist = kmeans.fit_transform(X_train)
representative_digit_idx = np.argmin(X_digits_dist, axis=0)
X_representative_digits = X_train[representative_digit_idx]

In [5]:
y_train[representative_digit_idx]

array([4, 8, 0, 6, 8, 3, 7, 7, 9, 2, 5, 5, 8, 5, 2, 1, 2, 9, 6, 1, 1, 6,
       9, 0, 8, 3, 0, 7, 4, 1, 6, 5, 2, 4, 1, 8, 6, 3, 9, 2, 4, 2, 9, 4,
       7, 6, 2, 3, 1, 1])

추출된 대표 이미지 50개의 레이블을 수동으로 할당하겠습니다.

In [6]:
y_representative_digits = np.array([
    4, 8, 0, 6, 8, 3, 7, 7, 9, 2,
    5, 5, 8, 5, 2, 1, 2, 9, 6, 1,
    1, 6, 9, 0, 8, 3, 0, 7, 4, 1,
    6, 5, 2, 4, 1, 8, 6, 3, 9, 2,
    4, 2, 9, 4, 7, 6, 2, 3, 1, 1
])

이제 레이블된 50개 샘플로 이루어진 데이터셋이 준비되었습니다.<br>
하지만 무작위로 고른 샘플이 아니고 이 이미지들은 각 클러스터를 대표하는 이미지입니다.

성능이 조금이라도 높은지 확인해보겠습니다.

In [7]:
log_reg = LogisticRegression(multi_class='ovr', solver='lbfgs', max_iter=5000, random_state=42)
log_reg.fit(X_representative_digits, y_representative_digits)
log_reg.score(X_test, y_test)

0.9222222222222223

50개 샘플로 훈련했을 뿐인데 83.3%에서 92.2%로 엄청나게 정확도가 올라간 걸 볼 수 있습니다.<br>
샘플에 레이블을 부여하는 것은 비용이 많이 들고 어려우므로<br>
무작위 샘플 대신 대표 샘플에 레이블을 할당하는 것이 좋은 방법입니다.

여기서 한 단계 더 나아간다면<br>
이 레이블을 동일한 클러스터에 있는 모든 샘플로 전파하는 방법도 있습니다.

이 방식을 레이블 전파라고 합니다.

In [8]:
y_train_propagated = np.empty(len(X_train), dtype=np.int32)
for i in range(k):
    y_train_propagated[kmeans.labels_==i] = y_representative_digits[i]

이제 모델을 다시 훈련하고 성능을 보겠습니다.

In [9]:
log_reg = LogisticRegression(multi_class='ovr', solver='lbfgs', max_iter=5000, random_state=42)
log_reg.fit(X_train, y_train_propagated)
log_reg.score(X_test, y_test)

0.9333333333333333

성능을 어느 정도 올렸지만 놀라운 정도는 아닙니다.

각 대표 샘플의 레이블을 동일한 클러스터의 모든 샘플에 전파한 것이 문제입니다.<br>
클러스터 경계에 가깝게 위치한 샘플이 포함되어 있을 것이고 아마 잘못 레이블이 부여됐을 것입니다.

센트로이드와 가까운 샘플의 20%만 레이블을 전파해보고 어떻게 되는지 보겠습니다.

In [10]:
percentile_closest = 20

X_cluster_dist = X_digits_dist[np.arange(len(X_train)), kmeans.labels_]

In [11]:
for i in range(k):
    in_cluster = (kmeans.labels_ == i)
    cluster_dist = X_cluster_dist[in_cluster]
    cutoff_distance = np.percentile(cluster_dist, percentile_closest)
    above_cutoff = (X_cluster_dist > cutoff_distance)
    X_cluster_dist[in_cluster & above_cutoff] = -1
    
partially_propagated = (X_cluster_dist != -1)
X_train_partially_propagated = X_train[partially_propagated]
y_train_partially_propagated = y_train[partially_propagated]

In [12]:
log_reg = LogisticRegression(multi_class='ovr', solver='lbfgs', max_iter=5000, random_state=42)
log_reg.fit(X_train_partially_propagated, y_train_partially_propagated)
log_reg.score(X_test, y_test)

0.9466666666666667

94.6%라는 높은 정확도를 보입니다.<br>
레이블이 있는 전체 데이터셋에서 훈련한 로지스틱 회귀 성능(96.9%)에 거의 가깝습니다.

이렇게 좋은 이유는 전파된 레이블이 실제로 매우 좋기 때문입니다.
다음 코드에서 볼 수 있듯이 100% 실제 데이터와 같습니다.

In [13]:
np.mean(y_train_partially_propagated == y_train[partially_propagated])

1.0