# Clustering
FIRA Big Data Platform < Data Mining >

### 1. Data
- 1-1. `BathSoap.xlsx`
- 1-2. Data Load : `pd.read_xlsx`
- 1-3. Join Table : `pd.merge`
- 1-4. Delete Rows & Columns

### 2. Hierarchical Clustering 
- 2-1. `sklearn.cluster.AgglomerativeClustering`
- 2-2. Clustering with Dendrogram : `scipy.cluster.hierarchy`

### 3. K-means
- 3-1. `sklearn.cluster.KMeans`

### 4. Analysis 
- 4-1. Choose K : Using Silhouette Plot
- 4-2. .groupby()

### 5. 실습 : 비누 판매 마케팅 전략 수립을 위한 데이터 분석
- 5-1. More Preprocessing
- 5-2. 비누 구매 고객 세분화
- 5-3. 타겟 클러스터 선정 및 마케팅 기획

### 1. Data
---
- 1-1. `BathSoap.xlsx`
- 1-2. Data Load : `pd.read_xlsx`
- 1-3. Join Table : `pd.merge`
- 1-4. Delete Rows & Columns

#### 1-1.  `BathSoap.xlsx`
---
- sheet3 : DM_Sheet, 멤버 정보 및 비누 구입 정보
- sheet4 : Durables, 멤버들의 비누 이외 타물품 소유 정보
---
비누를 구매한 고객들의 데이터를 토대로 군집화를 이용하여 효과적인 마케팅 전략을 수립하려고 한다. 총 600개의 표본을 각종 변수를 고려하여 치밀하게 표집하였다. 주어진 데이터는 각종 인구통계자료, 내구재 소유 자료, 제품의 카테고리와 각 브랜드에 대한 구매 데이터이다.

*Q. 군집화는 마케팅 전략을 세우는데 어떤 역할을 할 수 있는가?*

#### 1-2. Data Load : `pd.read_excel`
---
`BathSoap.xlsx` 파일에서 데이터가 있는 sheet를 DataFrame으로 변환
* pd.read_excel document 참고
* sheet 위치, header로 쓸 row를 잘 지정할 것
* row의 시작은 0

In [1]:
import pandas as pd

In [2]:
# df
df = pd.read_excel('BathSoap.xlsx', 2, header=2)

In [3]:
# durable_df
durable_df = pd.read_excel('BathSoap.xlsx', 3, header=4)

#### 1-3. Join Table : `pd.merge`
---
DM_Sheet와 Durables의 DataFrame을 통합
* 'Member id', 'MEM'을 기준으로 통합, Inner Join

In [4]:
# merged_df & set_index
merged_df = df.merge(durable_df, how="inner", left_on='Member id', right_on='MEM').set_index('Member id')

#### 1-4. Delete Rows & Columns
---
* Delete Rows : 결측치가 있는 행은 지울 것
* Delete Columns : 겹치거나 문제가 있는 열을 지울 것

In [5]:
# Delete Rows : no_nan_df 
no_nan_df = merged_df[merged_df.isnull().sum(axis=1) == 0]

In [6]:
# Delete columns : X_df
X_df = no_nan_df.drop(['MEM', 'Unnamed: 1'], axis=1)

### 2. Hierarchical Clustering 
---


#### 2-1. `sklearn.cluster.AgglomerativeClustering`
---
- Parameter
    - `n_cluster` - 클러스터의 개수
- Return : 모든 데이터의 Label

In [7]:
# import packages
from sklearn.cluster import AgglomerativeClustering

In [8]:
# parameter setting
n_clusters = 5

In [9]:
# sklearn_hc_model
sklearn_hc_model = AgglomerativeClustering(n_clusters=n_clusters)

In [10]:
# fit to model
sklearn_hc_model.fit(X_df)

AgglomerativeClustering(affinity='euclidean', compute_full_tree='auto',
            connectivity=None, linkage='ward',
            memory=Memory(cachedir=None), n_clusters=5,
            pooling_func=<function mean at 0x7f92b40f7400>)

In [11]:
# get predicted labels
predicted_labels_sklearn = sklearn_hc_model.labels_
#sklearn_model.fit_predict(X_df)

In [12]:
# add result column to copied df
result_df = preprocessed_df.copy()
result_df['sklearn_hc_labels'] = predicted_labels_sklearn

NameError: name 'preprocessed_df' is not defined

#### 2-2. Clustering with Dendrogram : `scipy.cluster.hierarchy`
---
- Linkage Matrix
- Dendromgram & Set k
- get predicted_labels 

##### Linkage Matrix : `scipy.cluster.hierarchy.linkage`

In [None]:
# import packages
from scipy.cluster.hierarchy import linkage

In [None]:
# Z = linkage(X, method)
Z = linkage(preprocessed_df, 'centroid')

In [None]:
# What is Z, linkage?
Z[:10]

##### Dendrogram & Set k : `scipy.cluster.hierarchy.dendrogram`

In [None]:
from matplotlib import pyplot as plt
from scipy.cluster.hierarchy import dendrogram

In [None]:
def plot_dendrogram(title, xlabel, ylabel, Z, max_d=None, p=None):
    # Settings for figure
    plt.figure(figsize=(25, 10))
    plt.title('Hierarchical Clustering Dendrogram')
    plt.xlabel('Index of Data')
    plt.ylabel('Distance')

    # Dendrogram
    if p:
        dendrogram(
            Z,
            leaf_rotation=90.,  # rotates the x axis labels
            leaf_font_size=8.,  # font size for the x axis labels
            truncate_mode = 'lastp',
            p=p,
            show_contracted = True
        )
    else:
        dendrogram(
            Z,
            leaf_rotation=90.,  # rotates the x axis labels
            leaf_font_size=8.,  # font size for the x axis labels
        )
    
    if max_d:
        plt.axhline(y=max_d, c='k')
    plt.show()

In [None]:
# plot dendrogram
plot_dendrogram('Hierarhcical Clustering Dendrogram', 'Index of Data', 'Distance', 
                Z)

In [None]:
# Dendrogram에 표현할 가지의 개수 정하기 - set p
plot_dendrogram('Hierarhcical Clustering Dendrogram', 'Index of Data', 'Distance', 
                Z, p=6)

In [None]:
# k를 결정하기 위해, k보다 큰 개수의 p를 가진 dendrogram을 그리고, max_distance를 결정한다.
plot_dendrogram('Hierarhcical Clustering Dendrogram', 'Index of Data', 'Distance', 
                Z, p=6)
max_d = 45000

In [None]:
# max_distance에 해당하는 선을 Dendrogram에 그려서 원하는 k를 표현하기 위한 max_distance를 확정한다.
plot_dendrogram('Hierarhcical Clustering Dendrogram', 'Index of Data', 'Distance', 
                Z, p=6, max_d=max_d)

##### predicted_labels : `scipy.cluster.hierarchy.fcluster`

In [None]:
# import packages
from scipy.cluster.hierarchy import fcluster

In [None]:
# predicted_labels
predicted_labels_scipy = fcluster(Z, max_d, criterion='distance')

In [None]:
# save to result_df
result_df['scipy_hc_labels'] = predicted_labels_scipy

### 3. K-Means
---
##### 3-1. `sklearn.cluster.KMeans`
---
- Parameter
    - `n_cluster` - 클러스터의 개수
- Return : 모든 데이터의 Label

In [None]:
from sklearn.cluster import KMeans

In [None]:
# set parameters
n_clusters = 5

In [None]:
# kmeans_model
kmeans_model = KMeans(n_clusters=n_clusters)

In [None]:
kmeans_model.fit(preprocessed_df)

In [None]:
# predicted_labels
predicted_labels_kmeans = kmeans_model.labels_
#kmeans_model.fit_predict(preprocessed_df)

In [None]:
# cluster_centers_
kmeans_model.cluster_centers_

In [None]:
# add result to result_df
result_df['kmeans_labels'] = predicted_labels_kmeans

### 4. Analysis
---
#### 4-1. Choose k : Using Silhouette Plot
---

In [None]:
# import packages
from sklearn.metrics import silhouette_score, silhouette_samples
import matplotlib.cm as cm

In [None]:
# silhouette_avg
silhoutette_avg = silhouette_score(X_df, result_df['kmeans_labels'])

In [None]:
# silhouette_value of each data
sample_silhouette_values = silhouette_samples(X_df, result_df['kmeans_labels'])

In [None]:
def plot_silhouette(X_df, labels):
    cluster_labels = sorted(np.unique(labels))
    n_clusters = len(cluster_labels)
    
    plt.figure()

    # axis setting
    ax = plt.gca()
    ax.set_xlim([-0.5, 1])
    ax.set_ylim([0, X_df.shape[0] + (n_clusters + 1) * 10])

    y_lower = 10
    
    silhouette_avg = silhouette_score(X_df, labels)
    print("k : {}".format(n_clusters))
    print("silhouette_avg : {}".format(silhouette_avg))
    data_silhouette_values = silhouette_samples(X_df, labels)

    for i in cluster_labels:
        # 특정 클러스터의 silhouette 값만 추출
        ith_cluster_silhouette_values = data_silhouette_values[labels == i]
        
        # 내림차순으로 정렬
        ith_cluster_silhouette_values.sort()

        # 해당 클러스터의 크기
        size_cluster_i = len(ith_cluster_silhouette_values)
       
        # 클러스터의 silhouette을 표시할 y축 최고값 결정
        y_upper = y_lower + size_cluster_i

        # 색
        color = cm.spectral(float(i) / n_clusters)
        
        # plot silhouette
        ax.fill_betweenx(np.arange(y_lower, y_upper),
                          0, ith_cluster_silhouette_values,
                          facecolor=color, edgecolor=color, alpha=0.7)

        # y축에 클러스터 이름 표시
        ax.text(-0.05, y_lower + 0.5 * size_cluster_i, str(i))

        # 다음 클러스터의 silhouette을 표시할 최저점 조정
        y_lower = y_upper + 10  # 10 for the 0 samples

    ax.set_title("The silhouette plot for k={}".format(n_clusters))
    ax.set_xlabel("The silhouette coefficient values")
    ax.set_ylabel("Cluster label")

    # silhouette 평균 값을 나타내는 선
    ax.axvline(x=silhouette_avg, color="red", linestyle="--")

    # y축 값 제거
    ax.set_yticks([])

    plt.show() 

In [None]:
# plot silhouette for choosing k
k_candidates = [2, 3, 4, 5]
for i in k_candidates:
    ith_model = KMeans(n_clusters=i)
    labels = ith_model.fit_predict(preprocessed_df)
    plot_silhouette(preprocessed_df, labels)

#### 4-2. groupby()

In [None]:
result_df.groupby('scipy_labels').mean()

*Q. 지금까지 진행해온 분석의 문제점은?*
- 범주형 변수를 수치형 변수처럼 분석함
- 수치형 데이터가 동일한 범위를 갖지 않음
- 구매와 관련된 변수만 선택되지 않았음

In [None]:
# Hint 1
result_df.groupby('sklearn_labels').mean().iloc[:, :10]

In [None]:
# Hint 2 
X_df.iloc[:10, 11:46]

In [None]:
# Hint 3 : 현재 변수의 개수
X_df.columns

### 5. 실습 : 비누 판매 마케팅 전략 수립을 위한 데이터 분석
---
#### 5-1. More Preprocessing
---
##### 1. ???

In [None]:
list(X_df.columns)

In [None]:
# dummify needed cols =
# dummified_df
dummy_needed_cols = ['FEH','MT', 'SEX', 'CHILD', 'CS']
dummified_df = pd.get_dummies(X_df, columns=dummy_needed_cols)

In [None]:
list(dummified_df.columns)

##### 2. ???

In [None]:
# scale needed cols = 
# scaled_df 
scale_needed_cols = dummified_df.columns[4:13]
scaled_df = dummified_df.copy()
scaled_df[scale_needed_cols] = (X_df[scale_needed_cols] - X_df[scale_needed_cols].mean())/ X_df[scale_needed_cols].std()

In [None]:
scaled_df[scale_needed_cols]

#### 5-2. 비누 구매 고객 세분화
---
- 구매 행동(구매량, 빈도, 할인에 대한 민감성, 브랜드 충성도), 구매 기반(가격, 구매제의) 등의 변수를 이용하여 군집화하라
- 어떤 군집화 방법을 선택할 것인가? 그 이유는 무엇인가?
- k는 몇 개로 선택할 것인가? 한번에 진행 가능한 마케팅 전략이 2~5개라고 할 때 k의 개수는 타당한가? 

##### 변수 선택
---
구매행태에 관련있는 No. of Brands ~ PropCat 15까지를 구매 패턴과 관련된 군집화의 변수로 사용한다.

In [None]:
# Select Features
selected_feautures = scaled_df.columns[5:40]
selected_features_df = scaled_df[selected_feautures]

##### 방법 선정
---
AgglomerativeClustering을 사용한다. Dendrogram을 통해 클러스터의 거리 차를 토대로 k를 선정할 수 있으며, 

In [None]:
# Choose Methods
Z = linkage(selected_features_df, 'ward')
plot_dendrogram('Bath Soap Member Clustering', "Index", 'Distance'
                , Z)

##### k 선정
---
Dendrogram 상으로 보았을 때 4개의 k를 선정하는 것이 가장 타당한 것으로 보인다. 수립할 수 있는 마케팅 전략의 개수와 유사하다.

In [None]:
plot_dendrogram('Bath Soap Member Clustering', "Index", 'Distance'
                , Z, p=10, max_d=40)

In [None]:
predicted_labels_bath_soap = fcluster(Z, 40, criterion='distance')

In [None]:
scaled_df['predicted_labels'] = predicted_labels_bath_soap 

#### 5-3. 타겟 클러스터 선정 및 마케팅 기획
---
* 분석된 세분화에서 두 개의 클러스터를 선정하고, 그 집단의 특성에 대해 분석하시오.
* 선정한 두 클러스터에 대한 마케팅 전략을 수립하시오.

In [None]:
# Analysis
scaled_df.groupby('predicted_labels').mean().iloc[:, :40]