In [None]:
# 군집화(clustering) : 데이터를 n개의 클러스터로 분할
# 군집화 연습 1
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

# 사용할 데이터 : make_blobs

# 인위적으로 군집화 데이터 생성 : make_blobs
# scikit-learn make_blobs 설명 참조 : https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html
X, y = make_blobs(random_state=1, centers=3)  # 3개의 군집으로 데이터 생성

# 1차 시각화
import matplotlib.pyplot as plt

plt.scatter(X[:, 0], X[:, 1])
plt.show()

In [None]:
# target label 확인
print("Targets:", y)

In [None]:
# KMeans 모델 생성
kmeans = KMeans(n_clusters=3)  # 3개의 클러스터로 군집화
kmeans.fit(X)
# 예측된 클러스터 레이블
print("예측된 레이블:", kmeans.labels_)

In [None]:
# 데이터 프레임 생성
import pandas as pd
df = pd.DataFrame({
    "Feature 1": X[:, 0],
    "Feature 2": X[:, 1],
    "cluster":kmeans.labels_
})
display(df)

In [None]:
# 시각화
# 그룹별 시각화
# 유일한 값 찾기
for cluster in sorted(df['cluster'].unique()):
#     print(cluster)
    data = df[df['cluster'] == cluster]  # 필터링 : cluster가 0, 1, 2인 데이터만 추출
    plt.scatter(data['Feature 1'], data['Feature 2'], label=cluster)

# 클러스터의 중심 시각화
# print(kmeans.cluster_centers_)
# (0번째, 1번째)가 (x좌표, y좌표)
for center in kmeans.cluster_centers_:
    plt.plot(center[0], center[1], marker="^", c="red")
# 각 클러스터별로 중심을 빨강색 삼각형으로 표시

plt.legend()  # 범례 표시
plt.show()

In [None]:
# 군집화 연습 2
# 사용할 데이터 : iris 데이터셋
from sklearn.datasets import load_iris

iris = load_iris()
# print(iris)
# print(iris["DESCR"])
print("Shape of data:", iris['data'].shape)
# 출력값 : (150, 4)
# 데이터의 갯수 : 150개,
# 변수의 갯수 : 4개
print(iris.feature_names)  # 변수의 이름
print(iris.target_names)   # target의 이름  
# 3개 -> n_clusters = 3으로 하면 되겠다.

In [None]:
# 알고리즘 생성
model = KMeans(n_clusters = 3)  # 중심이 3개인 클러스터링을 하겠다.
model.fit(iris.data)  # iris['data'] 로 학습시킨다.
print("예측된 클러스터:", model.cluster_centers_)

In [None]:
# 데이터 프레임 생성
import numpy as np
cluster_df = pd.DataFrame(
    data = np.c_[iris.data, model.labels_],  # np.c_ : 열방향으로(세로로) 붙인다.
    columns = iris.feature_names + ["label"]  # 컬럼에 기존의 변수명 4개 + "label" 이라는 컬럼 1개 더 추가
)
display(cluster_df)

cluster_df.label = cluster_df.label.astype("uint8")  # 0.0, 1.0, 2.0(실수형) -> 0, 1, 2(정수형) 변환
display(cluster_df)

In [None]:
# 변수들 중 sepal length vs sepal width로 시각화해보자.
for label in sorted(cluster_df.label.unique()):
    print("label:", label)
    # label에는 0, 1, 2가 있다.

    # 필터링 : label이 0인 데이터, 1인 데이터, 2인 데이터만 추출
    cluster_data = cluster_df[cluster_df.label == label]
    plt.scatter(
        cluster_data.iloc[:, 0],  # x축 : 0번 변수(sepal length)
        cluster_data.iloc[:, 1],  # y축 : 1번 변수(sepal width)
        label=label
    )

plt.xlabel("sepal length")
plt.ylabel("sepal width")
plt.legend()
plt.show()