<a href="https://colab.research.google.com/github/aiseongjun/Hands-On-Machine-Learning/blob/main/8_%EC%B0%A8%EC%9B%90_%EC%B6%95%EC%86%8C_9_%EB%B9%84%EC%A7%80%EB%8F%84_%ED%95%99%EC%8A%B5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **8. 차원 축소**

**차원의 저주**
```
많은 경우 머신러닝 문제는 훈련 샘플 각각이 수천 심지어 수백만 개의 특성을 가지고 있습니다.
이런 많은 특성은 훈련을 느리게 할 뿐만 아니라 좋은 솔루션을 찾기 어렵게 만듭니다.
이런 문제를 종종 차원의 저주라고 합니다.
```

# **8.1 차원의 저주**

**고차원 공간**
```
고차원은 많은 공간을 가지고 있기 때문에 훈련 데이터가 서로 멀리 떨어져 있습니다.
이는 새로운 샘플도 훈련 샘플과 멀리 떨어져 있을 가능성이 높다는 뜻입니다.
이 경우 예측을 위해 훨씬 많은 외삽을 해야 하기 때문에 저차원일 때보다 예측이 더 불안정합니다.
간단히 말해 훈련 세트의 차원이 클수록 과대적합 위험이 커집니다.
```

# **8.2 차원 축소를 위한 접근법**

## **8.2.1 투영**

**부분 공간과 투영**
```
다른 특성들은 서로 강하게 연관되어 있습니다.
결과적으로 모든 훈련 샘플이 고차원 공간 안의 저차원 부분 공간에 놓여 있습니다.
부분 공간에 수직으로 투영하면 저차원 데이터셋을 얻을 수 있니다.
```
**스위스 롤**
```
일부 데이터셋은 부분 공간이 뒤틀리거나 휘어 있기도 합니다.
```

## **8.2.2 매니폴드 학습**

**매니폴드 학습**
```
많은 차원 축소 알고리즘이 훈련 샘플이 놓여 있는 매니폴드를 모델링하는 식으로 작동합니다.
이를 매니폴드 학습이라고 합니다.
이는 대부분 실제 고차원 데이터셋이나 더 낮은 저차원 매니폴드에 가깝게 놓여 있다는 매니폴드 가정 또는 매니폴드 가설에 근거합니다.
매니폴드 가정은 종종 암묵적으로 다른 가정과 병행되곤 합니다.
이는 저차원의 매니폴드 공간에 표현되면 더 간단해질 것이란 가정입니다.
요약하면 모델을 훈련시키기 전에 훈련 세트의 차원을 감소시키면 훈련 속도는 빨라지지만 항상 더 낫거나 간단한 솔루션이 되는 것은 아닙니다.
```

# **8.3 주성분 분석**

**주성분 분석**
```
먼저 데이터에 가장 가까운 초평면을 정의한 다음, 데이터를 이 평면에 투영시킵니다.
```

## **8.3.1 분산 보존**

**분산 보존**
```
저차원의 초평면에 훈련 세트를 투영하기 전에 먼저 올바른 초평면을 선택해야 합니다.
다른 방향으로 투영하는 것보다 분산이 최대로 보존되는 축을 선택하는 것이 정보가 가장 적게 손실되므로 합리적으로 보입니다.
이 선택을 다른 방식으로 설명하면 원본 데이터셋과 투영된 것 사이의 평균 제곱 거리를 최소화하는 축입니다.
```

## **8.3.2 주성분**

**PCA**
```
PCA는 훈련 세트에서 분산이 최대인 축을 찾습니다.
또한 첫 번째 축에 직교하고 남은 분산을 최대한 보존하는 두 번째 축을 찾습니다.
고차원 데이터셋이라면 PCA는 이전 두 축에 직교하는 세 번째 축을 찾으며 데이터셋에 있는 차원의 수만큼 네 번째, 다섯 번째, ..., n 번째 축을 찾습니다.
i번째 축을 이 데이터의 i번째 주성분이라고 부릅니다.

+ CAUTION
PCA는 데이터셋의 평균을 0이라고 가정합니다.
PCA를 직접 구현하거나 다른 라이브러리를 사용한다면 먼저 데이터를 원점에 맞추는 것을 잊어서는 안 됩니다.
```

In [1]:
import numpy as np

X = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

X_centered = X - X.mean(axis=0)
u, s, vt = np.linalg.svd(X_centered)
c1 = vt[0]
c2 = vt[1]
print('c1: {}'.format(c1))
print('c2: {}'.format(c2))

c1: [0.57735027 0.57735027 0.57735027]
c2: [-0.81649658  0.40824829  0.40824829]


## **8.3.3 d차원으로 투영하기**

**d차원 투영**
```
주성분을 모두 추출해냈다면 처음 d개의 주성분을로 정의한 초평면에 투영하여 데이터셋의 차원을 d차원으로 축소시킬 수 있습니다.
이 초평면은 분산을 가능한 한 최대로 보존하는 투영임을 보장합니다.
```
**[식 8-2] 훈련 세트를 d차원으로 투영하기**
$$X_{d-proj} = XW_{d}$$

In [2]:
W2 = vt[:2].T
X2D = X_centered @ W2
print('X2D:\n {}'.format(X2D))

X2D:
 [[-5.19615242e+00 -1.33226763e-15]
 [ 0.00000000e+00  0.00000000e+00]
 [ 5.19615242e+00  1.33226763e-15]]


## **8.3.4 사이킷런 사용하기**

In [3]:
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X2D = pca.fit_transform(X)
print('X2D:\n {}'.format(X2D))

X2D:
 [[-5.19615242e+00 -2.56395025e-16]
 [ 0.00000000e+00 -0.00000000e+00]
 [ 5.19615242e+00 -2.56395025e-16]]


## **8.3.5 설명된 분산의 비율**

**설명된 분산의 비율**
```
explained_variance_ratio_ 변수에 저장된 주성분의 설명된 분산의 비율도 유용한 정보입니다.
이 비율은 각 주성분의 축을 따라 있는 데이터셋의 분산 비율을 나타냅니다.
```

In [4]:
pca.explained_variance_ratio_

array([1.00000000e+00, 2.43475588e-33])

## **8.3.6 적절한 차원 수 선택**

**적절한 차원 수 선택**
```
축소할 차원 수를 임의로 정하기보다는 충분한 분산(예: 95%)이 될 때까지 더해야 할 차원 수를 선택하는 것이 간단합니다.
```

In [5]:
from sklearn.datasets import fetch_openml

mnist = fetch_openml('mnist_784', as_frame=False)
X_train, y_train = mnist.data[:60_000], mnist.target[:60_000]
X_test, y_test = mnist.data[60_000:], mnist.target[60_000:]

pca = PCA()
pca.fit(X_train)
cumsum = np.cumsum(pca.explained_variance_ratio_)
d = np.argmax(cumsum >= 0.95) + 1
print(d)

154


In [6]:
pca = PCA(n_components=0.95)
X_reduced = pca.fit_transform(X_train)
print('pca.n_components_: {}'.format(pca.n_components_))

pca.n_components_: 154


**차원을 선택하는 다른 방법**
```
또 다른 방법은 설명된 분산을 차원 수에 대한 함수로 그리는 것입니다.
일반적으로 이 그래프에는 설명된 분산의 빠른 성장이 멈추는 변곡점이 있습니다.
마지막으로 지도 학습 작업의 전처리 단계로 차원 축소를 사용하는 경우, 다른 하이퍼파라미터와 마찬가지로 차원 수를 튜닝할 수 있습니다.
```

In [7]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV
from sklearn.pipeline import make_pipeline

clf = make_pipeline(PCA(random_state=42),
                    RandomForestClassifier(random_state=42))
param_distrib = {
    'pca__n_components': np.arange(10, 80),
    'randomforestclassifier__n_estimators': np.arange(50, 500)
}
rnd_search = RandomizedSearchCV(clf, param_distrib, n_iter=10, cv=3,
                                random_state=42).fit(X_train[:1000], y_train[:1000])
print(rnd_search.best_params_)

{'randomforestclassifier__n_estimators': 475, 'pca__n_components': 57}


## **8.3.7 압축을 위한 PCA**

**재구성 오차**
```
원본 데이터와 재구성된 데이터 사이의 평균 제곱 거리를 재구성 오차라고 합니다.
```
**[식 8-3] 원본의 차원 수로 되돌리는 PCA 역변환**
$$X_{recovered} = X_{d-proj}W^{T}_{d}$$

In [8]:
X_recovered = pca.inverse_transform(X_reduced)

## **8.3.8 랜덤 PCA**

**랜덤 PCA**
```
svd_solver 매개변수를 'randomized'로 지정하면 사이킷런은 랜덤 PCA라 부르는 확률적 알고리즘을 사용해 처음 d개의 주성분에 대한 근삿값을 찾습니다.
```

In [9]:
rnd_pca = PCA(n_components=154, svd_solver='randomized', random_state=42)
X_reduced = rnd_pca.fit_transform(X_train)

## **8.3.9 점진적 PCA**

**점진적 PCA(IPCA)**
```
PCA 구현의 문제는 SVD 알고리즘을 실행하기 위해 전체 훈련 세트를 메모리에 올려야 한다는 것입니다.
훈련 세트를 미니배치로 나눈 뒤 IPCA 알고리즘에 한 번에 하나씩 주입합니다.
이런 방식은 훈련 세트가 클 때 유용하고 온라인으로 PCA를 적용할 수도 있습니다.
```

In [10]:
from sklearn.decomposition import IncrementalPCA

n_batches = 100
inc_pca = IncrementalPCA(n_components=154)
for X_batch in np.array_split(X_train, n_batches):
  inc_pca.partial_fit(X_batch)

X_reduced = inc_pca.transform(X_train)

filename = 'my_mnist.mmap'
X_mmap = np.memmap(filename, dtype='float32', mode='write', shape=X_train.shape)
X_mmap[:] = X_train
X_mmap.flush()

X_mmap = np.memmap(filename, dtype='float32', mode='readonly').reshape(-1, 784)
batch_size = X_mmap.shape[0] // n_batches
inc_pca = IncrementalPCA(n_components=154, batch_size=batch_size).fit(X_mmap)

# **8.4 랜덤 투영**

**랜덤 투영**
```
랜덤 투영 알고리즘은 랜덤한 선형 투영을 사용하여 데이터를 저차원 공간에 투영합니다.
랜덤한 투영은 실제로 거리를 상당히 잘 보존할 가능성이 매우 높다는 것이 밝혀졌습니다.
따라서 투영 후에도 비슷한 두 개의 샘플은 비슷한 채로 남고 매우 다른 두 개의 샘플은 매우 다른 채로 남습니다.
```

In [11]:
from sklearn.random_projection import johnson_lindenstrauss_min_dim

m, e = 5_000, 0.1
d = johnson_lindenstrauss_min_dim(m, eps=e)

n = 20_000
np.random.seed(42)
P = np.random.randn(d, n) / np.sqrt(d)

X = np.random.randn(m, n)
X_reduced = X @ P.T

In [12]:
from sklearn.random_projection import GaussianRandomProjection

gaussian_rnd_proj = GaussianRandomProjection(eps=e, random_state=42)
X_reduced = gaussian_rnd_proj.fit_transform(X)

# **8.5 지역 선형 임베딩**

**지역 선형 임베딩(비선형 차원 축소 기술)**
```
LLE는 먼저 각 훈련 샘플이 최근접 이웃에 얼마나 선형적으로 연관되어 있는지 측정합니다.
그런 다음 국부적인 관계가 가장 잘 보존되는 훈련 세트의 저차원 표현을 찾습니다.
이 방법은 특히 잡음이 너무 많지 않은 경우 꼬인 매니폴드를 펼치는 데 좋습니다.
```
**[식 8-4] LLE 단계 1: 선형적인 지역 관계 모델링**
$$\hat{W} = argmin_{w}\sum^{m}_{i=1}(X^{(i)}-\sum^{m}_{j=1}w_{i, j}X^{(j)})^2$$
* $w_{i, j} = 0$ $X^{(j)}$가 $X^{(i)}$의 최근접 이웃 k개 중 하나가 아닐 때
* $\sum^{m}_{j=1}w_{i, j} = 1$ $i = 1, 2, …, m$일 때

**[식 8-5] LLE 단계 2: 관계를 보존하는 차원 축소**
$$\hat{Z} = argmin\sum^{m}_{i=1}(z^{(i)}-\sum^{m}_{j=1}\hat{w}_{i, j}z^{(j)})$$

In [13]:
from sklearn.datasets import make_swiss_roll
from sklearn.manifold import LocallyLinearEmbedding

X_swiss, t = make_swiss_roll(n_samples=1000, noise=0.2, random_state=42)
lle = LocallyLinearEmbedding(n_components=2, n_neighbors=10, random_state=42)
X_unrolled = lle.fit_transform(X_swiss)

# **8.6 다른 차원 축소 기법**

**다차원 스케일링**
```
다차원 스케일링은 샘플 간의 거리를 보존하면서 차원을 축소합니다.
랜덤 투영은 고차원 데이터에는 적합하지만 저차원 데이터에는 잘 작동하지 않습니다.
```
**Isomap**
```
Isomap은 각 샘플을 가장 가까운 이웃과 연결하는 식으로 그래프를 만듭니다.
그런 다음 샘플 간의 지오데식 거리를 유지하면서 차원을 축소합니다.
그래프에서 두 노드 사이의 지오데식 거리는 두 노드 사이의 최단 경로를 이루는 노드의 수입니다.
```
**t-SNE**
```
t-SNE는 비슷한 샘플은 가까이, 비슷하지 않은 샘플은 멀리 떨어지도록 하면서 차원을 축소합니다.
주로 시각화에 많이 사용되며 특히 고차원 공간에 있는 샘플의 군집을 시각화할 때 사용됩니다.
```
**선형 판별 분석**
```
선형 판별 분석은 선형 분류 알고리즘입니다.
하지만 클래스 사이를 가장 잘 구분하는 축을 학습합니다.
이 축은 데이터가 투영되는 초평면을 정의하는 데 사용될 수 있습니다.
이 알고리즘의 장점은 투영을 통해 가능한 한 클래스를 멀리 떨어지게 유지시키므로 다른 분류 알고리즘을 적용하기 전에 차원을 축소시키는 데 좋습니다.
```

# **9. 비지도 학습**

**군집**
```
비슷한 샘플을 클러스터로 모읍니다.
군집은 데이터 분석, 고객 분류, 추천 시스템, 검색 엔진 등에 사용할 수 있는 훌륭한 도구입니다.
```
**이상치 탐지**
```
'정상' 데이터가 어떻게 보이는지 학습합니다.
그다음 비정상 샘플을 감지하는 데 사용합니다.
이러한 샘플을 이상치라고 하고 정상 샘플을 정상치라고 합니다.
```
**밀도 추정**
```
데이터셋 생성 확률 과정의 확률 밀도 함수를 추정합니다.
밀도 추정은 이상치 탐지에 널리 사용됩니다.
밀도가 매우 낮은 영역에 놓인 샘플이 이상치일 가능성이 높습니다.
또한 데이터 분석과 시각화에도 유용합니다.
```

# **9.1 군집**

**군집**
```
군집은 비슷한 샘플을 구별해 하나의 클러스터 또는 비슷한 샘플의 그룹으로 할당하는 작업입니다.
```

## **9.1.1 k-평균**

**k-평균**
```
k-평균은 반복 몇 번으로 이런 종류의 데이터셋을 빠르고 효율적으로 클러스터로 묶을 수 있는 간단한 알고리즘입니다.
```

In [14]:
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import numpy as np

X, y = make_blobs(n_samples=2000, random_state=42)

k = 5
kmeans = KMeans(n_clusters=k, random_state=42)
y_pred = kmeans.fit_predict(X)
print('y_pred:\n {}'.format(y_pred))
print('\ny_pred is kmeans.labels_: {}'.format(y_pred is kmeans.labels_))
print('\nkmeans.cluster_centers_:\n {}'.format(kmeans.cluster_centers_))

X_new = np.array([[0, 2], [3, 2], [-3, 3], [-3, 2.5]])
print('\nkmeans.predict(X_new):\n {}'.format(kmeans.predict(X_new)))

y_pred:
 [2 4 2 ... 4 1 4]

y_pred is kmeans.labels_: True

kmeans.cluster_centers_:
 [[-1.98634961  8.4238017 ]
 [-6.88074384 -6.90211374]
 [ 4.46534689  1.23916602]
 [-2.97468946  9.69770001]
 [ 4.78857951  2.78554639]]

kmeans.predict(X_new):
 [2 2 0 0]


**하드 군집과 소프트 군집**
```
샘플을 하나의 클러스터에 할당하는 하드 군집보다 클러스터 마다 샘플에 점수를 부여하는 소프트 군집이 유용할 수 있습니다.
KMeans 클래스의 transform() 메서드는 샘플과 각 센트로이드 사이의 거리를 반환합니다.
```

In [15]:
kmeans.transform(X_new).round(2)

array([[ 6.72, 11.25,  4.53,  8.25,  4.85],
       [ 8.13, 13.3 ,  1.65,  9.74,  1.95],
       [ 5.52, 10.64,  7.67,  6.7 ,  7.79],
       [ 6.01, 10.17,  7.57,  7.2 ,  7.79]])

**k-평균 알고리즘**
```
처음에는 센트로이드를 랜덤하게 선정합니다.
그다음 샘플에 레이블을 할당하고 센트로이드를 업데이트하고,
샘플에 레이블을 할당하고 센트로이드를 업데이트하는 식으로 센트로이드에 변화가 없을 때까지 계속합니다.
샘플과 가장 가까운 센트로이드 사이의 평균 제곱 거리는 각 단계마다 내려갈 수만 있고 음수가 될 수 없기 때문에 수렴이 보장됩니다.
```
**센트로이드 초기화 방법**
```
센트로이드를 초기화하는 방법은 랜덤 초기화를 다르게 하여 여러 번 알고리즘을 실행하고 가장 좋은 솔루션을 선택하는 것입니다.
랜덤 초기화 횟수는 n_init 매개변수로 조절합니다. 기본값은 10입니다.
모델의 이너셔는 각 샘플과 가장 가까운 센트로이드 사이의 제곱 거리 합으로, 사용하는 성능 지표입니다.
```

In [16]:
good_init = np.array([[-3, 3], [-3, 2], [-3, 1], [-1, 2], [0, 2]])
kmeans = KMeans(n_clusters=5, init=good_init, n_init=1, random_state=42).fit(X)
print('kmeans.inertia_: {}'.format(kmeans.inertia_))
print('kmeans.score: {}'.format(kmeans.score(X)))

kmeans.inertia_: 3213.992161105195
kmeans.score: -3213.9921611051946


**k-평균 속도 개선**
```
클러스터가 많은 일부 대규모 데이터셋에서 불필요한 거리 계산을 피함으로써 알고리즘의 속도를 상당히 높일 수 있다는 것입니다.
엘칸은 이를 위해 삼각 부등식을 사용했습니다.
샘플과 센트로이드 사이의 거리를 위한 하한선과 상한선을 유지합니다.
그러나 엘칸의 알고리즘이 항상 훈련 속도를 높일 수 있는 것은 아니며 때로는 훈련 속도가 상당히 느려질 수도 있는데, 이는 데이터셋에 따라 다릅니다.
```
**미니배치 k-평균**
```
전체 데이터셋을 사용해 반복하지 않고 각 반복마다 미니배치 사용해 센트로이드를 조금씩 이동합니다.
이는 일반적으로 알고리즘의 속도를 높입니다.
또한 메모리에 들어가지 않은 대량의 데이터셋에 군집 알고리즘을 적용할 수 있습니다.
미니배치 k-평균 알고리즘이 일반 k-평균 알고리즘보다 훨씬 빠르지만 이너셔는 일반적으로 조금 더 나쁩니다.
```

In [17]:
from sklearn.cluster import MiniBatchKMeans

minibatch_kmeans = MiniBatchKMeans(n_clusters=5, random_state=42).fit(X)

**최적의 클러스터 개수 찾기**
```
최선의 클러스터 개수를 선택하는 방법은 실루엣 점수입니다.
이 값은 모든 샘플에 대한 실루엣 계수의 평균입니다.
샘플의 실루엣 계수는 (b-a)/max(a, b)로 계산됩니다.
a는 동일한 클러스터에 있는 다른 샘플까지 평균 거리입니다.
b는 가장 가까운 클러스터까지 평균 거리입니다.
실루엣 계수는 -1에서 +1까지 바뀔 수 있습니다.
+1에 가까우면 자신의 클러스터 안에 잘 속해 있고 다른 클러스터와는 멀리 떨어져 있다는 뜻입니다.
실루엣 계수가 0에 가까우면 클러스터 경계에 위치한다는 의미이고 -1에 가까우면 이 샘플이 잘못된 클러스터에 할당되었다는 의미입니다.
```

In [18]:
from sklearn.metrics import silhouette_score

print('silhouette_score: {}'.format(silhouette_score(X, kmeans.labels_)))

silhouette_score: 0.6603376174628922


## **9.1.2 k-평균의 한계**

**k-평균의 한계**
```
k-평균이 완벽한 것은 아닙니다.
최적이 아닌 솔루션을 피하려면 알고리즘을 여러 번 실행해야 합니다.
또한 클러스터 개수를 지정해야 합니다.
그리고 k-평균은 클러스터의 크기 또는 밀집도가 서로 다르거나 원형이 아닐 경우 잘 작동하지 않습니다.
k-평균을 실행하기 전에 입력 특성의 스케일을 맞추는 것이 중요합니다.
그렇지 않으면 클러스터가 길쭉해지고 k-평균의 결과가 좋지 않습니다.
```

## **9.1.3 군집을 사용한 이미지 분할**

**이미지 분할**
```
이미지 분할은 이미지를 여러 개의 세그먼트로 분할하는 작업입니다.
```
* **색상 분할**
  * 동일한 색상을 가진 픽셀을 같은 세그먼트에 할당합니다.
* **시맨틱 분할**
  * 동일한 종류의 물체에 속한 모든 픽셀을 같은 세그먼트에 할당합니다.
* **인스턴스 분할**
  * 개별 객체에 속한 모든 픽셀을 같은 세그먼트에 할당합니다.

## **9.1.4 군집을 사용한 준지도 학습**

**준지도 학습**
```
군집을 사용하는 또 다른 사례는 준지도 학습입니다. 레이블이 없는 데이터가 많고 레이블이 있는 데이터는 적을 때 사용합니다.
```

In [19]:
from sklearn.datasets import load_digits
from sklearn.linear_model import LogisticRegression

X_digits, y_digits = load_digits(return_X_y=True)
X_train, y_train = X_digits[:1400], y_digits[:1400]
X_test, y_test = X_digits[1400:], y_digits[1400:]

n_labeled = 50
log_reg = LogisticRegression(max_iter=10_000).fit(X_train[:n_labeled], y_train[:n_labeled])
print('log_reg.score: {}'.format(log_reg.score(X_test, y_test)))

log_reg.score: 0.7581863979848866


In [20]:
k = 50
kmeans = KMeans(n_clusters=k, random_state=42)
X_digits_dist = kmeans.fit_transform(X_train)
representative_digit_idx = np.argmin(X_digits_dist, axis=0)
X_representative_digits = X_train[representative_digit_idx]
y_representative_digits = np.array([
    8, 0, 1, 3, 6, 7, 5, 4, 2, 8,
    2, 3, 9, 5, 3, 9, 1, 7, 9, 1,
    4, 6, 9, 7, 5, 2, 2, 1, 3, 3,
    6, 0, 4, 9, 8, 1, 8, 4, 2, 4,
    2, 3, 9, 7, 8, 9, 6, 5, 6, 4
])

log_reg = LogisticRegression(max_iter=10_000).fit(X_representative_digits, y_representative_digits)
print('log_reg.score: {}'.format(log_reg.score(X_test, y_test)))

log_reg.score: 0.8312342569269522


In [21]:
y_train_propagated = np.empty(len(X_train), dtype=np.int64)
for i in range(k):
  y_train_propagated[kmeans.labels_ == i] = y_representative_digits[i]

log_reg = LogisticRegression().fit(X_train, y_train_propagated)
print('log_reg.score: {}'.format(log_reg.score(X_test, y_test)))

log_reg.score: 0.8664987405541562


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [22]:
percentile_closest = 99

X_cluster_dist = X_digits_dist[np.arange(len(X_train)), kmeans.labels_]
for i in range(k):
  in_cluster = (kmeans.labels_ == i)
  cluster_dist = X_cluster_dist[in_cluster]
  cutoff_distance = np.percentile(cluster_dist, percentile_closest)
  above_cutoff = (X_cluster_dist > cutoff_distance)
  X_cluster_dist[in_cluster & above_cutoff] = -1

partially_propagated = (X_cluster_dist != -1)
X_train_partially_propagated = X_train[partially_propagated]
y_train_partially_propagated = y_train_propagated[partially_propagated]

log_reg = LogisticRegression(max_iter=10_000).fit(X_train_partially_propagated, y_train_partially_propagated)
print('log_reg.score: {}'.format(log_reg.score(X_test, y_test)))

log_reg.score: 0.8614609571788413


## **9.1.5 DBSCAN**

**DBSCAN**
```
DBSCAN 알고리즘은 밀집된 연속적 지역을 클러스터로 정의합니다.
작동 방식은 다음과 같습니다.
```
* 알고리즘이 각 샘플에서 작은 거리인 $\epsilon$ 내에 샘플이 몇 개 놓여 있는지 셉니다. 이 지역을 샘플의 $\epsilon$-이웃이라고 부릅니다.
* $\epsilon$-이웃 내에 적어도 min_samples개 샘플이 있다면 이를 핵심 샘플로 간주합니다. 즉, 핵심 샘플은 밀집된 지역에 있는 샘플입니다.
* 핵심 샘플의 이웃에 있는 모든 샘플은 동일한 클러스터에 속합니다. 이웃에는 다른 핵심 샘플이 포함될 수 있습니다. 따라서 핵심 샘플의 이웃의 이웃은 계속해서 하나의 클러스터를 형성합니다.
* 핵심 샘플이 아니고 이웃도 아닌 샘플은 이상치로 판단합니다.


In [23]:
from sklearn.cluster import DBSCAN
from sklearn.datasets import make_moons

X, y = make_moons(n_samples=1000, noise=0.05)
dbscan = DBSCAN(eps=0.05, min_samples=5).fit(X)
print('dbscan.labels_: {}'.format(dbscan.labels_[:5]))
print('\ndbscan.core_sample_indices_: {}'.format(dbscan.core_sample_indices_[:5]))
print('\ndbscan.components_: \n{}'.format(dbscan.components_[:5]))

dbscan.labels_: [ 0  1  2 -1  1]

dbscan.core_sample_indices_: [0 1 2 4 5]

dbscan.components_: 
[[-0.99798925  0.23770659]
 [ 0.98654074  0.23788903]
 [ 1.88685205  0.02653525]
 [ 1.01675881  0.17760595]
 [ 2.03971642  0.35384904]]


In [24]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=50).fit(dbscan.components_, dbscan.labels_[dbscan.core_sample_indices_])
X_new = np.array([[-0.5, 0], [0, 0.5], [1, -0.1], [2, 1]])
print('knn.predict: \n{}'.format(knn.predict(X_new)))
print('\nknn.predict_proba: \n{}'.format(knn.predict_proba(X_new)))

knn.predict: 
[0 5 1 2]

knn.predict_proba: 
[[0.7  0.   0.   0.   0.14 0.16 0.   0.   0.  ]
 [0.   0.   0.   0.02 0.22 0.52 0.   0.24 0.  ]
 [0.   0.48 0.   0.   0.36 0.   0.16 0.   0.  ]
 [0.   0.   1.   0.   0.   0.   0.   0.   0.  ]]


## **9.1.6 다른 군집 알고리즘**

**사이킷런에는 살펴볼 만한 여러 군집 알고리즘이 구현되어 있습니다.**
* **병합 군집**
* **BIRCH**
* **평균-이동**
* **유사도 전파**
* **스펙트럼 군집**

# **9.2 가우스 혼합**

**가우스 혼합**
```
가우스 혼합 모델은 샘플이 파라미터가 알려지지 않은 여러 개의 혼합된 가우스 분포에서 생성되었다고 가정하는 확률 모델입니다.
하나의 가우스 분포에서 생성된 모든 샘플은 하나의 클러스터를 형성합니다.
일반적으로 이 클러스터는 타원형입니다.
샘플이 주어지면 가우스 분포 중 하나에서 생성되었다는 것은 알지만 어떤 분포인지 또 이 분포의 파라미터는 무엇인지 알지 못합니다.
```
**GaussianMixture 클래스**
```
사전에 가우스 분포의 개수 k를 알아야 합니다.
데이터셋 X가 다음 확률 과정을 통해 생성되었다고 가정합니다.
```
* 샘플마다 $k$개의 클러스터에서 랜덤하게 한 클러스터가 선택됩니다. $j$번째 클러스터를 선택할 확률은 클러스터의 가중치 $\phi^{(j)}$입니다. $i$번째 샘플을 위해 선택한 클러스터 인덱스는 $z^{(i)}$로 표시됩니다.
* $i$번째 샘플이 $j$번째 클러스터에 할당되었다면$(z^{(i)}=j)$이 샘플의 위치 $x^{(i)}$는 평균이 $\mu^{(j)}$이고 공분산 행렬이 $\sum^{(j)}$인 가우스 분포에서 랜덤하게 샘플링됩니다. 이를 $x^{(i)}$ ~ $𝒩(\mu^{(j)}, \sum^{(j)})$와 같이 씁니다.

In [25]:
from sklearn.mixture import GaussianMixture

gm = GaussianMixture(n_components=3, n_init=10, random_state=42).fit(X)
print('gm.weights_: \n{}'.format(gm.weights_))
print('\ngm.means_: \n{}'.format(gm.means_))
print('\ngm.covariances_: \n{}'.format(gm.covariances_))

print('\ngm.converged_: {}'.format(gm.converged_))
print('\ngm.n_iter_: {}'.format(gm.n_iter_))
print('\ngm.predict: \n{}'.format(gm.predict(X)))
print('\ngm.predict_proba: \n{}'.format(gm.predict_proba(X).round(3)))

X_new, y_new = gm.sample(6)
print('\nX_new: \n{}'.format(X_new))
print('\ny_new: {}'.format(y_new))
print('\ngm.score_smaples: {}'.format(gm.score_samples(X).round(2)))

gm.weights_: 
[0.59168733 0.20153089 0.20678177]

gm.means_: 
[[ 0.49248283  0.25581333]
 [-0.7545737   0.55520819]
 [ 1.73222992 -0.06668853]]

gm.covariances_: 
[[[ 0.16818325 -0.10138525]
  [-0.10138525  0.28754971]]

 [[ 0.05015     0.05923078]
  [ 0.05923078  0.08398829]]

 [[ 0.05556608  0.06385008]
  [ 0.06385008  0.08804306]]]

gm.converged_: True

gm.n_iter_: 15

gm.predict: 
[1 0 2 0 0 2 0 1 1 1 1 0 2 2 0 0 0 1 2 0 0 0 1 0 0 2 1 2 0 0 0 0 0 0 0 1 0
 1 2 0 2 2 0 0 1 1 1 0 0 2 1 0 1 2 0 1 0 0 1 0 2 1 0 1 0 1 0 1 1 1 1 0 0 0
 0 0 2 0 1 0 2 0 2 1 2 2 2 0 0 1 1 1 0 1 2 2 2 0 1 0 0 0 0 2 0 0 0 2 0 1 0
 1 0 0 0 0 2 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0
 0 2 0 1 0 0 0 0 0 0 1 0 0 1 2 0 0 0 0 0 0 0 1 0 0 0 1 0 0 2 0 2 0 1 0 0 0
 0 2 0 0 2 1 0 1 0 0 0 2 1 1 0 1 2 0 1 2 0 0 2 1 0 2 0 0 2 0 1 0 0 2 2 0 0
 1 0 1 0 2 2 0 0 0 2 2 0 0 1 2 0 0 2 0 2 1 0 0 2 2 1 0 0 0 1 0 0 1 0 0 1 2
 1 0 1 0 0 1 0 0 1 0 0 0 0 1 1 1 2 0 1 1 0 0 1 0 0 0 0 0 2 2 0 0 0 0 0 0 0
 1 0 0 0 0 1

**covariance_type 매개변수**
* **"full"**
  * 각 클러스터는 모양, 크기, 방향에 제약이 없습니다.
* **"spherical"**
  * 모든 클러스터가 원형입니다. 하지만 지름은 다를 수 있습니다.
* **"diag"**
  * 클러스터는 크기에 상관없이 어떤 타원형도 가능합니다. 하지만 타원의 축은 좌표축과 나란해야 합니다.
* **"tied"**
  * 모든 클러스터가 동일한 타원 모양, 크기, 방향을 가집니다.

## **9.2.1 가우스 혼합을 사용한 이상치 탐지**

**가우스 혼합을 사용한 이상치 탐지**
```
가우스 혼합 모델을 이상치 탐지에 사용하는 방법은 매우 간단합니다.
밀도가 낮은 지역에 있는 모든 샘플을 이상치로 볼 수 있습니다.
만약 거짓 양성이 너무 많다면 임곗값을 낮추고 반대로 거짓 음성이 너무 많다면 임곗값을 더 높입니다.
```

In [26]:
densities = gm.score_samples(X)
density_threshold = np.percentile(densities, 2)
anomalies = X[densities < density_threshold]
print(anomalies[:5])

[[-0.22539919  0.90832444]
 [ 1.93139162  0.42163138]
 [-0.88678123  0.10686975]
 [ 1.96766534  0.52144872]
 [ 1.97812567  0.486804  ]]


## **9.2.2 클러스터 개수 선택**

**이론적 정보 기준(BIC/AIC)**
```
k-평균에서는 이너셔나 실루엣 점수를 사용해 적절한 클러스터 개수를 선택합니다.
가우스 혼합에서는 이런 지표를 사용할 수 없습니다.
이런 지표들은 클러스터가 타원형이거나 크기가 다를 때 안정적이지 않기 때문입니다.
```
**[식 9-1] BIC와 AIC**
$$BIC = log(m)p - 2log(\hat{ℒ})$$
$$AIC = 2p - 2log(\hat{ℒ})$$
* $m$은 샘플의 개수입니다.
* $p$는 모델이 학습할 파라미터 개수입니다.
* $\hat{ℒ}$은 모델의 가능도 함수의 최댓값입니다.

In [27]:
print('gm.bic: {}'.format(gm.bic(X)))
print('gm.aic: {}'.format(gm.aic(X)))

gm.bic: 2718.649829537455
gm.aic: 2635.2179897947585


## **9.2.3 베이즈 가우스 혼합 모델**

**베이즈 가우스 혼합 모델**
```
최적의 클러스터 개수를 수동으로 찾지 않고 불필요한 클러스터의 가중치를 0으로 만드는 BayesianGaussianMixture 클래스를 사용할 수 있습니다.
클러스터 개수 n_components를 최적의 클러스터 개수보다 크다고 믿을 만한 값으로 지정합니다.
이 알고리즘은 자동으로 불필요한 클러스터를 제거합니다.
```

In [28]:
from sklearn.mixture import BayesianGaussianMixture

bgm = BayesianGaussianMixture(n_components=10, n_init=10, random_state=42).fit(X)
print('bgm.weights_: {}'.format(bgm.weights_.round(2)))

bgm.weights_: [0.09 0.12 0.17 0.13 0.16 0.13 0.1  0.11 0.   0.  ]


## **9.2.4 이상치 탐지와 특이치 탐지를 위한 알고리즘**

**사이킷런에는 이상치 탐지와 특이치 탐지 전용으로 사용할 수 있는 몇 가지 알고리즘이 구현되어 있습니다.**
* **Fast-MCD**
* **아이솔레이션 포레스트**
* **LOF**
* **one-class SVM**
* **PCA**