# **비지도학습(Unsupervised Learning)**



---



## **비지도학습이란?**

- **레이블(정답)이 없는 데이터에서 패턴, 구조, 관계를 스스로 찾아내는 머신러닝 방법**
- **현실 세계의 대부분 데이터는 레이블이 없음.**
    - ex) 유튜브에 업로드 되는 수억 개의 영상에 일일이 사람이 분류 태그를 달기는 불가능함. 이처럼 레이블링 비용이 너무 크거나, 데이터의 숨겨진 패턴을 발견하고 싶을 때 비지도학습이 필수적임
- 주로 데이터를 비슷한 특성을 가진 그룹으로 묶는 **군집화(Clustering)**,
- 데이터의 복잡성을 줄이는 **차원 축소(Dimensionality Reduction)**,
- 데이터 간의 연관성을 파악하는 **연관 규칙 학습(Association Rule Learning)** 등에 사용됨

## **언제 비지도학습을 사용해야 할까?**

- **적합한 상황**
    - 레이블링 비용이 너무 높을 때
    - 데이터의 숨겨진 패턴을 탐색하고 싶을 때
    - 데이터 전처리 단계 (차원 축소, 이상치 제거)
    - 지도학습의 사전 단계 (특징 추출)
- **부적합한 상황**
    - 명확한 예측 목표가 있고 충분한 레이블 데이터가 있을 때
    - 실시간 정확도가 중요한 의료 진단, 금융 거래 등

### **[실습] 과일사진 자동 분류하기**

**1. 과일 사진 데이터 준비하기**

In [None]:
# 웹에서 데이터 다운로드하기
!wget https://bit.ly/fruits_300_data -O fruits_300.npy

In [None]:
# 데이터 로드하기
import numpy as np
import matplotlib.pyplot as plt

fruits = np.load('fruits_300.npy')

print(fruits.shape)
# (300, 100, 100) :  300개의 100x100 사이즈 데이터

In [None]:
# 첫 번째 행 데이터 출력하기
print(fruits[0, 0, :])

In [None]:
# 첫 번째 행 데이터를 시각화하기
plt.imshow(fruits[0], cmap='gray')
plt.show()

In [None]:
# 우리가 관심있는 것이 과일이란 것을 강조하기 위해 바탕색과 과일색 반전해서 보기(gray_r)
plt.imshow(fruits[0], cmap='gray_r')
plt.show()

In [None]:
# 100번, 200번째 데이터 시각화하기
fig, axs = plt.subplots(1, 2)
axs[0].imshow(fruits[100], cmap='gray_r')
axs[1].imshow(fruits[200], cmap='gray_r')
plt.show()

**2. 픽셀 값 분석하기**

In [None]:
# 각 과일별로 데이털르 1차원 배열(100개의 10,000:100x100)로 만들기
apple = fruits[0:100].reshape(-1, 100*100)
pineapple = fruits[100:200].reshape(-1, 100*100)
banana = fruits[200:300].reshape(-1, 100*100)

print(apple.shape)          # apple 데이터의 모양
print(apple.mean(axis=1))   # apple 데이터들의 평균

In [None]:
# 각 샘플 데이터의 평균을 히스토그램을 시각화
plt.hist(np.mean(apple, axis=1), alpha=0.8)
plt.hist(np.mean(pineapple, axis=1), alpha=0.8)
plt.hist(np.mean(banana, axis=1), alpha=0.8)
plt.legend(['apple', 'pineapple', 'banana'])
plt.show()

In [None]:
# 전체 샘플에 대한 픽셀의 평균 시각화
fig, axs = plt.subplots(1, 3, figsize=(20, 5))
axs[0].bar(range(10000), np.mean(apple, axis=0))
axs[1].bar(range(10000), np.mean(pineapple, axis=0))
axs[2].bar(range(10000), np.mean(banana, axis=0))
plt.show()

In [None]:
# 100x100 크기로 바꿔서 픽셀의 평균값 계산
apple_mean = np.mean(apple, axis=0).reshape(100, 100)
pineapple_mean = np.mean(pineapple, axis=0).reshape(100, 100)
banana_mean = np.mean(banana, axis=0).reshape(100, 100)

# 픽셀 평균값을 시각화 --> 과일별 대표 이미지
fig, axs = plt.subplots(1, 3, figsize=(20, 5))
axs[0].imshow(apple_mean, cmap='gray_r')
axs[1].imshow(pineapple_mean, cmap='gray_r')
axs[2].imshow(banana_mean, cmap='gray_r')
plt.show()

**3. 평균값과 가까운 사진 고르기**

In [None]:
# 절대값 오차의 평균
abs_diff = np.abs(fruits - apple_mean)
abs_mean = np.mean(abs_diff, axis=(1,2))
print(abs_mean.shape)

In [None]:
# 절대값 오차 평균 값이 작은수 100개 시각화
apple_index = np.argsort(abs_mean)[:100]
fig, axs = plt.subplots(10, 10, figsize=(10,10))
for i in range(10):
    for j in range(10):
        axs[i, j].imshow(fruits[apple_index[i*10 + j]], cmap='gray_r')
        axs[i, j].axis('off')
plt.show()

- **[확인문제]**
    - 앞에서 사과의 평균값과 가까운 사진 고르기 방법을 이용하여 바나나의 평균값과 가까운 사진을 골라 시각화 해보세요.

In [None]:
abs_diff = np.abs(fruits - banana_mean)
abs_mean = np.mean(abs_diff, axis=(1,2))

banana_index = np.argsort(abs_mean)[:100]
fig, axs = plt.subplots(10, 10, figsize=(10,10))
for i in range(10):
    for j in range(10):
        axs[i, j].imshow(fruits[banana_index[i*10 + j]], cmap='gray_r')
        axs[i, j].axis('off')
plt.show()



---



# **군집화(Clustering)**

## **1. K-평균 군집화**

- K-평균 군집화 알고리즘
    - K개의 군집을 나누기 위해 군집의 중심(Centroid)과 데이터 간의 평균 거리를 활용함
    - 각 군집 내 분산을 최소화하는 것을 목적으로 군집화 진행
    - 계산량이 적기 때문에 대용량 데이터도 빠르게 처리할 수 있는 장점이 있다

### **[실습] K-평균 알고리즘으로 과일 사진 분류하기**  

**1. 데이터 준비**

In [None]:
# 필요한 라이브러리를 불러옵니다.
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

# 1.fruits_300.npy 파일 로드하기
# (300, 100, 100) : 100x100 크기의 이미지 300장.
fruits = np.load('fruits_300.npy')

# 2. 머신러닝 모델에 사용하기 위해 3차원 배열을 2차원 배열로 변경
# (300, 100, 100) -> (300, 10000): 각 이미지를 10000개의 픽셀 값을 가진 하나의 샘플로 만듦
fruits_2d = fruits.reshape(-1, 100*100)


**2. K-평균 모델 훈련**

In [None]:
# 3. K-평균 모델을 생성하고 훈련시킴
# n_clusters=3 : 데이터를 3개의 그룹으로 나누도록 설정. (사과, 바나나, 파인애플)
km = KMeans(n_clusters=3, random_state=42)
km.fit(fruits_2d)

# 4. 각 이미지(샘플)가 어떤 클러스터에 속하는지 확인.
# km.labels_ : 0, 1, 2 중 하나의 값을 가진 300개의 원소로 이루어진 배열
print("각 샘플의 클러스터 레이블:")
print(km.labels_)
print("샘플의 고유 클러스터 레이블:")
print(np.unique(km.labels_, return_counts=True))

**3. 클러스터링 결과 시각화**

In [None]:
def draw_fruits(arr, ratio=1):
    n = len(arr)    # n은 샘플 개수입니다

    # 한 줄에 10개씩 이미지를 그린다. 샘플 개수를 10으로 나누어 전체 행 개수를 계산
    rows = int(np.ceil(n/10))

    # 행이 1개 면 열 개수는 샘플 개수, 그렇지 않으면 10개.
    cols = n if rows < 2 else 10
    print(f'rows:{rows}, cols:{cols}')

    fig, axs = plt.subplots(rows, cols,
                            figsize=(cols*ratio, rows*ratio), squeeze=False)
    for i in range(rows):
        for j in range(cols):
            if i*10 + j < n:    # n 개까지만 그린다.
                axs[i, j].imshow(arr[i*10 + j], cmap='gray_r')
            axs[i, j].axis('off')
    plt.show()

draw_fruits(fruits[km.labels_==0])

In [None]:
draw_fruits(fruits[km.labels_==1])

In [None]:
draw_fruits(fruits[km.labels_==2])

**4. 클러스터 중심 확인하기**

In [None]:
# fruits_2d 샘플의 클러스터 중심을 이미지로 확인하기
draw_fruits(km.cluster_centers_.reshape(-1, 100, 100), ratio=3)

In [None]:
# transform() : 훈련 데이터 샘플에서 클러스터 중심까지 거리로 변환해주는 함수
# 인덱스가 100인 샘플 --> 가장 작은 값으로 분류됨
print(km.transform(fruits_2d[100:101]))

In [None]:
# 앞의 분류 결과가 맞는지 확인
print(km.predict(fruits_2d[100:101]))

In [None]:
# 그림으로도 확인
draw_fruits(fruits[100:101])

In [None]:
# k-means 알고리즘은 반복적으로 클러스터 중심을 옮기면서 최적의 클러스터를 찾는다.
# 알고리즘의 반복한 횟수 확인: (n_iter_ 속성에 저장됨)
print(km.n_iter_)

### **최적의 k 찾기**

- 군집 알고리즘에서 적절한 K값을 찾기 위한 완벽한 방법은 없다.
- 대표적인 방법인 엘보우( ellbow)
    - 클러스터 개수를 늘려가면서 이너셔의 변화를 관찰하여 최적의 클러스터 개수를 찾는 방법
    - **이너셔(inertia)** : 클러스터 중심과 클러스터에 속한 샘플 사이의 거리의 제곱 합
    - 사이킷런은 **km.inertia_** 옵션 제공함
    - 이너셔 그래프에서 감소하는 속도가 꺽이는 지점을 보통 k로 지정함--> 이 지점부터 클러스터 개수를 늘려도 클러스터에 잘 밀집된 정도가 크게 개선되지 않는다.

In [None]:
inertia = []
for k in range(2, 7):
    km = KMeans(n_clusters=k, n_init='auto', random_state=42)
    km.fit(fruits_2d)
    inertia.append(km.inertia_)

plt.plot(range(2, 7), inertia)
plt.xlabel('k')
plt.ylabel('inertia')
plt.show()

### **주성분 분석(PCA)을 이용한 2D 시각화**
차원 축소하여 Clustering 시각화

In [None]:
# 고차원(10000) 데이터를 2차원으로 축소하기 위해 PCA 모델을 생성
pca = PCA(n_components=2)
fruits_pca = pca.fit_transform(fruits_2d)

# 축소된 데이터를 산점도로 시각화
optimal_k = 3
plt.figure(figsize=(8, 6))
colors = ['red', 'green', 'blue']
for i in range(optimal_k):
    cluster_data = fruits_pca[km.labels_ == i]
    plt.scatter(cluster_data[:, 0], cluster_data[:, 1], c=colors[i], label=f'Cluster {i}')

plt.title('PCA Visualization of Fruit Clusters')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.legend()
plt.grid(True)
plt.show()

## **2. DBSCAN**

### **예제: DBSCAN 실습하기**
centers = [[1, 1], [-1, -1], [1, -1]]를 갖는 임의의 실수데이터 750개를 만들어 DBSCAN 실습하기

**1. 샘플 데이터 만들기**
- **make_blobs**: '덩어리(blob)' 형태의 가상 데이터를 만들어주는 함수
- 주로 클러스터링(Clustering, 군집화) 알고리즘이나 분류(Classification) 알고리즘을 테스트하고 시각적으로 이해하는 데 사용되는, 일종의 '연습용 데이터 세트 제조기'

In [None]:
from sklearn.datasets import make_blobs
from sklearn.preprocessing import StandardScaler

# 실습용 데이터 생성하기
centers = [[1, 1], [-1, -1], [1, -1]]
X, labels_true = make_blobs(
    n_samples=750, centers=centers, cluster_std=0.4, random_state=0
)

# 데이터 정규화
# fit_transform()은 fit()과 transform()을 합한 메소드임
X = StandardScaler().fit_transform(X)

# 데이터 시각화하기
plt.scatter(X[:, 0], X[:, 1])
plt.show()

**2. DBSCAN으로 Clustering하기**

In [None]:
import numpy as np
from sklearn.cluster import DBSCAN
from sklearn import metrics

# DBSCAN 모델을 생성하고 데이터 X에 대해 학습(fit)을 수행함
# eps=0.3 : 하나의 점을 기준으로 반경 0.3 안에 있는 다른 점을 이웃으로 판단
# min_samples=10 : 핵심 포인트(Core Point)가 되기 위해 필요한 최소 이웃 개수 (자기 자신 포함)
db = DBSCAN(eps=0.3, min_samples=10).fit(X)

# 학습 결과, 각 데이터 포인트에 할당된 클러스터 레이블을 가져옴 (노이즈는 -1로 레이블링됨)
labels = db.labels_


# 노이즈(-1)를 제외한 실제 클러스터의 개수를 계산함
# set(labels)를 통해 유일한 레이블 값을 구하고, -1이 있으면 1을 빼서 클러스터 개수만 남김
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)

# Noisy samples 개수 확인하기
n_noise_ = list(labels).count(-1)

print("Estimated number of clusters: %d" % n_clusters_)
print("Estimated number of noise points: %d" % n_noise_)

In [None]:
# 평가 지표 출력하기
print(f"Homogeneity: {metrics.homogeneity_score(labels_true, labels):.3f}")
print(f"Completeness: {metrics.completeness_score(labels_true, labels):.3f}")
print(f"V-measure: {metrics.v_measure_score(labels_true, labels):.3f}")
print(f"Rand Index: {metrics.adjusted_rand_score(labels_true, labels):.3f}")
print(f"AMI: {metrics.adjusted_mutual_info_score(labels_true, labels):.3f}")
print(f"Silhouette Coefficient: {metrics.silhouette_score(X, labels):.3f}")

**3. 시각화하기**

In [None]:
# 레이블 유일값 설정하기
unique_labels = set(labels)

# 핵심 포인트(Core Point)를 구분하기 위한 마스크(mask)를 생성함
# 우선 모든 값을 False로 채운, labels와 동일한 크기의 boolean 배열을 만듦
core_samples_mask = np.zeros_like(labels, dtype=bool)

# DBSCAN 결과에서 핵심 포인트로 식별된 샘플들의 인덱스를 가져와, 해당 위치의 값을 True로 변경함
core_samples_mask[db.core_sample_indices_] = True


# 클러스터 구분 색상 설정하기
colors = [plt.cm.Spectral(each) for each in np.linspace(0, 1, len(unique_labels))]

# 각 유일한 레이블(k)과 해당 색상(col)을 하나씩 순회하며 점을 시각화하기
for k, col in zip(unique_labels, colors):
    if k == -1:
        # 레이블이 -1로 지정된 Noise Point는 검은색으로 지정하기
        col = [0, 0, 0, 1]

    # 현재 순회 중인 클러스터(k)에 속하는 데이터만 True로 표시하는 마스크를 생성함
    class_member_mask = labels == k

    # [핵심 포인트 그리기]
    # 현재 클러스터에 속하면서(&) 핵심 포인트인 데이터의 좌표(xy)를 선택함
    xy = X[class_member_mask & core_samples_mask]
    plt.plot(
        xy[:, 0],
        xy[:, 1],
        "o",
        markerfacecolor=tuple(col),
        markeredgecolor="k",
        markersize=14,
    )

    # [경계 포인트 그리기]
    # 현재 클러스터에 속하면서(&) 핵심 포인트가 아닌(~, 경계 포인트) 데이터의 좌표(xy)를 선택함
    xy = X[class_member_mask & ~core_samples_mask]
    plt.plot(
        xy[:, 0],
        xy[:, 1],
        "o",
        markerfacecolor=tuple(col),
        markeredgecolor="b",
        markersize=6,
    )

plt.title(f"Estimated number of clusters: {n_clusters_}")
plt.show()



---



## **[실습] 고객 세분화 모델 구현 실습하기**

### **1) 데이터 로드 및 전처리하기**

In [None]:
# openpyxl 설치하기
!pip install openpyxl

In [None]:
# 필요한 라이브러리 불러오기
import datetime
import numpy as np
import datetime as dt
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# 경고 메시지를 무시하도록 설정하기
import warnings
warnings.filterwarnings("ignore")

In [None]:
# 엑셀파일에서 데이터를 로드해서 데이터프레임으로 저장하기
df = pd.read_excel(
    'https://archive.ics.uci.edu/ml/machine-learning-databases/00502/online_retail_II.xlsx',
    engine="openpyxl")

In [None]:
# 데이터프레임의 처음 20개행의 데이터 출력하기
df.head(5)

In [None]:
# 데이터셋 정보 확인하기
df.info()
df.describe()

In [None]:
# 결측치의 합계를 구해서 내림차순으로 정렬하기
df.isnull().sum().sort_values(ascending=False)

In [None]:
# 제품 수량과 가격이 0 이하인 데이터를 제거하기
df = df[(df['Quantity']>0) & (df['Price']>0)]

# 중복 데이터를 제거하기
df = df.drop_duplicates()

### **2) RFM 분석 기법을 이용한 고객 분류하기**
- 고객관리(CRM, Customer Relation Management) 기법으로 고객 세분화를 위해
    - **Recency(구매 최신성)**:  얼마나 최근에 구매했는가?
        - 마지막 구매 날짜의 다음날
        - last_date = df.InvoiceDate.max() +  datetime.timedelta(days=1)
    - **Frequency(구매 빈도)**: 얼마나 자주 구매했는가?
    - **Monetary(구매 금액)**: 얼마나 많은 금액을 지출했는가?  RFM 측면에서 데이터를 확인해 본다.
        - 구매금액 = 구매수량x제품가격
        - df['Amount'] = df['Quantity'] * df['Price']

- **RFM 지표 계산하기**

In [None]:
# 최신성(Recency) = 마지막 구매 날짜의 다음날
last_date = df.InvoiceDate.max() +  datetime.timedelta(days=1)

# 구매금액 = 구매수량 x 제품가격
df['Amount'] = df['Quantity'] * df['Price']

# 구매빈도 = groupby 함수로 고객별로 구매건수
rfm = df.groupby('Customer ID').agg(
{'InvoiceDate': lambda InvoiceDate: (last_date - InvoiceDate.max()).days,
 'Invoice': lambda Invoice: Invoice.nunique(),
 'Amount': lambda Amount: Amount.sum()})

rfm.head()

In [None]:
# 데이터프레임의 칼럼명 변경하기
rfm.columns = ['recency', 'frequency', 'monetary']
rfm.head()

- **고객 점수 계산하기**

In [None]:
# 최신성, 구매빈도, 구매금액을 1에서 5까지의 점수로 환산하기
rfm['recency_score'] = pd.qcut(rfm['recency'], 5,
                            labels=[5, 4, 3, 2, 1]).astype(int)
rfm['frequency_score'] = pd.qcut(rfm['frequency'].rank(method="first"), 5,
                            labels=[1, 2, 3, 4, 5]).astype(int)
rfm['monetary_score'] = pd.qcut(rfm['monetary'], 5,
                            labels=[1, 2, 3, 4, 5]).astype(int)

# 최신성, 구매빈도, 구매금액의 환산점수 합계를 고객 점수(customer_score)로 저장하기
rfm['customer_score'] = rfm['recency_score'] + \
                        rfm['frequency_score'] + rfm['monetary_score']

# 데이터 확인하기
rfm.head(10)

In [None]:
# 고객 점수(customer_score)가 만점(15점)인 고객 ID 확인하기
rfm[rfm['customer_score']==15].sort_values(
    'monetary', ascending=False).head()

In [None]:
# 고객 등급 분류 함수 만들기
def level(score):
    if  score > 12 :
        return 'VIP'
    elif 9 < score <= 12:
        return 'GOLD'
    elif 5 < score <= 9 :
        return 'SILVER'
    else:
        return 'WHITE'

# 고객 등급 분류 함수를 적용하여 고객 등급(level) 데이터 생성하기
rfm['level'] = rfm['customer_score'].apply(
    lambda customer_score : level(customer_score))
rfm.head()

In [None]:
# 고객 등급별 고객 수 그래프 출력하기
sns.countplot(x=rfm['level'])

### **3) K-평균 군집화 알고리즘을 이용한 고객 분류**(Customer Segmentation)

In [None]:
# 데이터프레임의 요약 통계량 확인하기
rfm.describe()

- **이상치(outlier) 제거하기**

In [None]:
#이상치 제거 함수 작성하기

def processing_outlier(df, col_nm):
    Q1 = df[col_nm].quantile(0.25)
    Q3 = df[col_nm].quantile(0.75)
    IQR = Q3 - Q1
    df = df[(df[col_nm] >= Q1 - 1.5*IQR) & (df[col_nm] <= Q3 + 1.5*IQR)]
    return df

In [None]:
# 비교를 위해 이상치 제거 전 데이터 저장하기
rfm_tmp = rfm.copy()

In [None]:
# recency 이상치 제거하기
rfm = processing_outlier(rfm, 'recency')

# 이상치 제거 전후 비교하기
fig = plt.figure(figsize=(14, 5)) # 그림 사이즈 지정 (가로 14인치, 세로 5인치)
ax1 = fig.add_subplot(1, 2, 1)
ax2 = fig.add_subplot(1, 2, 2)

# 이상치 제거 전 그래프 시각화
ax1.boxplot(rfm_tmp.recency)

# 이상치 제거 후 그래프 시각화
ax2.boxplot(rfm.recency)

In [None]:
# frequency 이상치 제거하기
rfm = processing_outlier(rfm, 'frequency')

# 이상치 제거 전후 비교하기
fig = plt.figure(figsize=(14, 5)) # 그림 사이즈 지정 (가로 14인치, 세로 5인치)
ax1 = fig.add_subplot(1, 2, 1)
ax2 = fig.add_subplot(1, 2, 2)

# 이상치 제거 전 그래프 시각화
ax1.boxplot(rfm_tmp.frequency)

# 이상치 제거 후 그래프 시각화
ax2.boxplot(rfm.frequency)

In [None]:
# monetary 이상치 제거하기
rfm = processing_outlier(rfm, 'monetary')

# 이상치 제거 전후 비교하기
fig = plt.figure(figsize=(14, 5)) # 그림 사이즈 지정 (가로 14인치, 세로 5인치)
ax1 = fig.add_subplot(1, 2, 1)
ax2 = fig.add_subplot(1, 2, 2)

# 이상치 제거 전 그래프 시각화
ax1.boxplot(rfm_tmp.monetary)

# 이상치 제거 후 그래프 시각화
ax2.boxplot(rfm.monetary)

In [None]:
rfm_k = rfm[['recency','frequency','monetary']]

# 데이터 표준화하기
scaler = StandardScaler()
rfm_scaled = scaler.fit_transform(rfm_k)

print(rfm_scaled)

In [None]:
ks = range(1,11)
inertias=[]
for k in ks :
    kc = KMeans(n_clusters=k,random_state=42)
    kc.fit(rfm_scaled)
    cluster = kc.fit_predict(rfm_scaled)
    inertias.append(kc.inertia_)

# k vs inertia 그래프 그리기
plt.subplots(figsize=(10, 6))
plt.plot(ks, inertias, "bo-")
plt.xlabel("$k$", fontsize=14)
plt.ylabel('Inertia')
plt.annotate('Elbow',
             xy=(3, inertias[2]),
             xytext=(0.55, 0.55),
             textcoords='figure fraction',
             fontsize=16,
             arrowprops=dict(facecolor='black', shrink=0.1)
            )
plt.xticks(ks)
plt.style.use('ggplot')
plt.title('Best Number for KMeans')
plt.show()

In [None]:
# K를 3으로 설정하고 군집 중심 찾기
kc = KMeans(3,random_state=42)
kc.fit(rfm_scaled)
identified_clusters = kc.fit_predict(rfm_k)
clusters_scaled = rfm_k.copy()
clusters_scaled['cluster_pred'] = kc.fit_predict(rfm_scaled)

print(f'Identified Clusters : {identified_clusters}')
print(f'Cluster Centers :\n{kc.cluster_centers_}')

In [None]:
# cluster_pred 칼럼의 값별로 count 하기
f, ax = plt.subplots(figsize=(25, 5))
ax = sns.countplot(x='cluster_pred', data=clusters_scaled)

In [None]:
# Pandas groupby 함수로 cluster_pred별 개수 집계하기
print(clusters_scaled.groupby(['cluster_pred']).count())

In [None]:
rfm_k['cluster'] = clusters_scaled['cluster_pred']
rfm_k['level'] = rfm['level']

# recency, frequency, monetary의 평균값, 최솟값, 최댓값 구하기
rfm_k.groupby('cluster').agg({
    'recency' : ['mean','min','max'],
    'frequency' : ['mean','min','max'],
    'monetary' : ['mean','min','max','count']
})