# 5. K-Means

In [None]:
import os # 경고 대응
os.environ['OMP_NUM_THREADS'] = '1'

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
df = pd.read_csv('KMeansData.csv')
df[:5]

In [None]:
X = df.iloc[:, :].values
# X = dataset.values
# X = dataset.to_numpy() # 공식 홈페이지 권장
X[:5]

### 데이터 시각화 (전체 데이터 분포 확인)

In [None]:
plt.scatter(X[:, 0], X[:, 1]) # x축 : hour, y축 : score
plt.title('Score by hours')
plt.xlabel('hours')
plt.ylabel('score')
plt.show()

|유클리디안 거리(Euclidean distance): 가장 흔하게 사용되는 거리 측정 방식입니다. 두 점 사이의 직선 거리를 계산합니다.           
|맨하탄 거리(Manhattan distance 또는 L1 거리): 각 차원의 차이의 절대값의 합을 계산합니다.           
|코사인 유사도(Cosine Similarity): 벡터 간의 각도에 대한 코사인을 측정합니다. 값이 0이면 방향이 다르고, 1이면 완전히 같은 방향입니다.           

### 데이터 시각화 (축 범위 통일)

In [None]:
plt.scatter(X[:, 0], X[:, 1]) # x축 : hour, y축 : score
plt.title('Score by hours')
plt.xlabel('hours')
plt.xlim(0, 100)
plt.ylabel('score')
plt.ylim(0, 100)
plt.show()

### 피처 스케일링 (Feature Scaling)

In [None]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X = sc.fit_transform(X)
X[:5]

### 데이터 시각화 (스케일링된 데이터)

In [None]:
plt.figure(figsize=(5, 5))
plt.scatter(X[:, 0], X[:, 1])
plt.title('Score by hours')
plt.xlabel('hours')
plt.ylabel('score')
plt.show()

### 최적의 K 값 찾기 (엘보우 방식 Elbow Method)

In [None]:
from sklearn.cluster import KMeans
inertia_list = []
for i in range(1, 11):
    kmeans = KMeans(n_clusters=i, init='k-means++', random_state=0)
    kmeans.fit(X)
    inertia_list.append(kmeans.inertia_) # 각 지점으로부터 클러스터의 중심(centroid) 까지의 거리의 제곱의 합
 
# 리스트 컴프리헨션: inertia_list = [KMeans(n_clusters=i, init='k-means++', random_state=0).fit(X_scaled).inertia_ for i in range(1, 11)]
   
plt.plot(range(1, 11), inertia_list)
plt.title('Elbow Method')
plt.xlabel('n_clusters')
plt.ylabel('inertia')
plt.show()

### 최적의 K (4) 값으로 KMeans 학습

In [None]:
K = 4 # 최적의 K 값

In [None]:
kmeans = KMeans(n_clusters=K, random_state=0)
# kmeans.fit(X)
y_kmeans = kmeans.fit_predict(X)

In [None]:
y_kmeans

### 데이터 시각화 (최적의 K)

In [None]:
centers = kmeans.cluster_centers_ # 클러스터의 중심점 (centroid) 좌표
centers

In [None]:
for cluster in range(K):
    plt.scatter(X[y_kmeans == cluster, 0], X[y_kmeans == cluster, 1], s=50, edgecolor='black') # 각 데이터
    plt.scatter(centers[cluster, 0], centers[cluster, 1], s=150, edgecolor='black', color='yellow', marker='s') # 중심점 네모
    plt.text(centers[cluster, 0], centers[cluster, 1], cluster, va='center', ha='center') # 클러스터 텍스트 출력
  
plt.title('Score by hours')
plt.xlabel('hours')
plt.ylabel('score')
plt.show()

### 데이터 시각화 (스케일링 원복)

In [None]:
X_org = sc.inverse_transform(X) # Feature Scaling 된 데이터를 다시 원복
X_org[:5]

In [None]:
centers_org = sc.inverse_transform(centers)
centers_org

In [None]:
for cluster in range(K):
    plt.scatter(X_org[y_kmeans == cluster, 0], X_org[y_kmeans == cluster, 1], s=50, edgecolor='black') # 각 데이터
    plt.scatter(centers_org[cluster, 0], centers_org[cluster, 1], s=150, edgecolor='black', color='yellow', marker='s') # 중심점 네모
    plt.text(centers_org[cluster, 0], centers_org[cluster, 1], cluster, va='center', ha='center') # 클러스터 텍스트 출력
    # print('X:', X_org[y_kmeans == cluster, 0])
    # print('y:', X_org[y_kmeans == cluster, 1])
plt.title('Score by hours')
plt.xlabel('hours')
plt.ylabel('score')
plt.show()