In [None]:
!pip install kneed # To install only knee-detection algorithm
!pip install kneed[plot] # To also install plotting functions for quick visualizations


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.preprocessing import OneHotEncoder, StandardScaler

In [None]:
data = pd.read_csv('Mall_Customers.csv')
data.head()

# 연간 소득과 쇼핑몰 점수로 최적의 k 찾기

In [None]:
data_1 = data[['Annual Income (k$)', 'Spending Score (1-100)']]
data_1

In [None]:
# data_1 스케일링

scaler = StandardScaler()
scaler.fit(data_1)
data_1 = pd.DataFrame(scaler.transform(data_1))     # 스케일링한 데이터를 다시 DataFrame으로
data_1

In [None]:
# 스케일링한 데이터로 SSE 계산
# 클러스터 개수 변화에 따른 SSE 확인, Elbow Point 찾기 - SSE_graph 함수 활용해서 진행하자!

from kneed import KneeLocator
def SSE_graph(K, data):
    SSE = []
    k = 1
    while 1 <= k <= K:
        k_means = KMeans(n_clusters = k)     # 클러스터 개수가 k개인 모델 생성
        k_means.fit(data_1)
        SSE.append(k_means.inertia_)     # inertia : sum of squared distances of samples to their closest cluster center
        k += 1

    plt.plot(range(1, K+1), SSE, 'o')     # K값에 따른 SSE 표시
    plt.plot(range(1, K+1), SSE, '--')     # SSE값을 연결하는 직선 그리기
    plt.xlabel('K')
    plt.ylabel('SSE')
    kn = KneeLocator(range(1, K+1), SSE, curve = 'convex', direction = 'decreasing')     # Elbow Point 찾기
    plt.vlines(kn.knee, plt.ylim()[0], plt.ylim()[1], linestyles = 'dashed')     # Elbow Point를 수직선으로 표시
    return SSE

In [None]:
SSE_graph(K = 9, data = data_1)

In [None]:
# K = 4일 때 K-Means Clustering 알고리즘 구현

k_means = KMeans(n_clusters = 4).fit(data_1)

# data에서 각 행이 어느 클러스터로 분류되었는지 확인할 수 있도록 'k=4' column 추가

data['k=4'] = k_means.labels_     # labels_ : Labels of each point

data

In [None]:
KMeans.predict([15, 39])
dt = data[['Annul Income (k$)',	'Spending Score (1-100)']].iloc[: , :].values
data['label_pred'] = KMeans.predict(dt)
df[['k=4', 'label_pred']]

In [None]:
# K = 4일 때 K-Means Clustering의 결과를 시각화

plt.title("K-Means Clustering", fontsize=15)
plt.scatter(data['Annual Income (k$)'], data['Spending Score (1-100)'], c = data['k=4'])
plt.xlabel("Annual Income", fontsize = 12)
plt.ylabel("Spending Score", fontsize = 12)
plt.grid()
plt.show()

In [None]:
# K = 5일 때 K-Means Clustering 알고리즘 구현

k_means = KMeans(n_clusters = 5).fit(data_1)

data['k=5'] = k_means.labels_
data

In [None]:
# K = 5일 때 K-Means Clustering의 결과를 시각화

plt.title("K-Means Clustering", fontsize=15)
plt.scatter(data['Annual Income (k$)'], data['Spending Score (1-100)'], c = data['k=5'])
plt.xlabel("Annual Income", fontsize = 12)
plt.ylabel("Spending Score", fontsize = 12)
plt.grid()
plt.show()

#나이와 쇼핑몰 점수로 최적의 K 찾기

In [None]:
data_2 = data[['Age', 'Spending Score (1-100)']]
data_2

In [None]:
# data_2 스케일링

scaler = StandardScaler()
scaler.fit(data_2)
data_2 = pd.DataFrame(scaler.transform(data_2))     # 스케일링한 데이터를 다시 DataFrame으로
data_2

In [None]:
# 위에서 정의한 SSE_graph 함수를 활용하여 Elbow Point를 찾기
# K는 임의로 지정 (K = 10)

SSE_graph(K = 10, data = data_2)

In [None]:
# K = 5일 때 K-Means Clustering 알고리즘 구현

k_means = KMeans(n_clusters = 5).fit(data_2)

data['k=5_2'] = k_means.labels_
data

In [None]:
# K = 5일 때 K-Means Clustering의 결과를 시각화 (Age, Spending Score (1-100) 기준)

plt.title("K-Means Clustering", fontsize=15)
plt.scatter(data['Age'], data['Spending Score (1-100)'], c = data['k=5_2'])
plt.xlabel("Age", fontsize = 12)
plt.ylabel("Spending Score", fontsize = 12)
plt.grid()
plt.show()

#나이와 연간 소득과 쇼핑몰 점수로 최적의 k 찾기

In [None]:
data_3 = data[["Age", "Annual Income (k$)",	"Spending Score (1-100)"]]
data_3

In [None]:
# data_3 스케일링

scaler = StandardScaler()
scaler.fit(data_3)
data_3 = pd.DataFrame(scaler.transform(data_3))     # 스케일링한 데이터를 다시 DataFrame으로
data_3

In [None]:
# 위에서 정의한 SSE_graph 함수를 활용하여 Elbow Point를 찾기
# K는 임의로 지정 (K = 12)

SSE_graph(K = 12, data = data_3)