### Mean Shift 개요

### Mean Shift: 비지도 학습 알고리즘
1. Mean Shift란?
Mean Shift는 비지도 학습의 한 종류로서, 주로 클러스터링에 사용되는 알고리즘입니다. 이 알고리즘은 데이터 포인트들이 높은 밀도를 가진 공간으로 이동하도록 하는 'shift' 과정을 반복적으로 수행함으로써 작동합니다.

2. Mean Shift의 작동 방식
Mean Shift 알고리즘의 주요 단계는 다음과 같습니다:

- Mean Shift 벡터 계산: 각 데이터 포인트에 대해, 주변의 데이터 포인트들을 고려하여 'Mean Shift' 벡터를 계산합니다. 이 벡터는 데이터 포인트를 더 높은 밀도를 가진 방향으로 이동시킵니다.

- 데이터 포인트 이동: 모든 데이터 포인트에 대해 이 Mean Shift 벡터를 계산하고, 데이터 포인트를 이동시킵니다.

- 수렴 확인: 이 과정을 수렴할 때까지 반복합니다. 수렴이란, 데이터 포인트들이 더 이상 움직이지 않거나, 움직임이 특정 임계값 이하로 떨어질 때를 말합니다.

3. Mean Shift의 장점
Mean Shift의 주요 장점 중 하나는 클러스터의 수를 미리 지정할 필요가 없다는 것입니다. 이는 K-means와 같은 다른 클러스터링 알고리즘과 대조적입니다.

4. Mean Shift의 단점
그러나 반면에, Mean Shift는 'bandwidth'라는 하이퍼파라미터를 설정해야 하는데, 이는 알고리즘의 성능에 큰 영향을 미칩니다. Bandwidth는 알고리즘이 각 데이터 포인트 주변의 얼마나 많은 이웃을 고려할 것인지를 결정합니다.

가우시안 Radial Basis Function (RBF) 커널은 머신러닝에서 널리 사용되는 커널 중 하나입니다. 이 커널은 두 벡터 간의 유사성을 측정하는 데 사용되며, 두 벡터 간의 유클리드 거리에 기반한 가우시안 함수를 사용합니다.

가우시안 RBF 커널은 다음과 같이 정의됩니다:


K(x,y)=exp(−γ∣∣x−y∣∣2)

∣∣x−y∣∣는 두 벡터 간의 유클리드 거리를 나타냅니다. 

γ는 커널의 폭을 결정하는 하이퍼파라미터로, 이 값이 크면 커널의 폭이 좁아져 각 데이터 포인트의 영향 범위가 줄어들고, 이 값이 작으면 커널의 폭이 넓어져 각 데이터 포인트의 영향 범위가 커집니다.

이 커널 함수는 두 벡터가 동일할 때 최대값 1을 가지며, 두 벡터가 멀어질수록 0에 가까워집니다. 따라서 가우시안 RBF 커널은 두 벡터의 유사성을 측정하는 데 사용할 수 있습니다.

In [None]:
import numpy as np
from sklearn.datasets import make_blobs
from sklearn.cluster import MeanShift

X, y = make_blobs(n_samples=200, n_features=2, centers=3, 
                  cluster_std=0.7, random_state=0)

meanshift= MeanShift(bandwidth=0.8)
cluster_labels = meanshift.fit_predict(X)
print('cluster labels 유형:', np.unique(cluster_labels))

In [None]:
meanshift= MeanShift(bandwidth=1)
cluster_labels = meanshift.fit_predict(X)
print('cluster labels 유형:', np.unique(cluster_labels))

In [None]:
from sklearn.cluster import estimate_bandwidth

bandwidth = estimate_bandwidth(X)
print('bandwidth 값:', round(bandwidth,3))

In [None]:
import pandas as pd


clusterDF = pd.DataFrame(data=X, columns=['ftr1', 'ftr2'])
clusterDF['target'] = y

# estimate_bandwidth()로 최적의 bandwidth 계산
best_bandwidth = estimate_bandwidth(X)

meanshift= MeanShift(bandwidth=best_bandwidth)
cluster_labels = meanshift.fit_predict(X)
print('cluster labels 유형:',np.unique(cluster_labels))    

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

clusterDF['meanshift_label']  = cluster_labels
centers = meanshift.cluster_centers_
unique_labels = np.unique(cluster_labels)
markers=['o', 's', '^', 'x', '*']

for label in unique_labels:
    label_cluster = clusterDF[clusterDF['meanshift_label']==label]
    center_x_y = centers[label]
    # 군집별로 다른 마커로 산점도 적용
    plt.scatter(x=label_cluster['ftr1'], y=label_cluster['ftr2'], edgecolor='k', marker=markers[label] )
    
    # 군집별 중심 표현
    plt.scatter(x=center_x_y[0], y=center_x_y[1], s=200, color='gray', alpha=0.9, marker=markers[label])
    plt.scatter(x=center_x_y[0], y=center_x_y[1], s=70, color='k', edgecolor='k', marker='$%d$' % label)
    
plt.show()

In [None]:
print(clusterDF.groupby('target')['meanshift_label'].value_counts())