In [None]:
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

from elice_utils import EliceUtils
elice_utils = EliceUtils()

# 데이터를 불러오고, 데이터 프레임 형태로 만든 후 반환하는 함수입니다.

def load_data():
    
    iris = load_iris()
    
    irisDF = pd.DataFrame(data = iris.data, columns = iris.feature_names)
    
    irisDF['target'] = iris.target
    
    return irisDF
    
"""
1. K-means 클러스터링을 
   수행하는 함수를 구현합니다.
   
   Step01. K-Means 객체를 불러옵니다.
           
           군집의 개수는 3, 
           중심점 초기화는 랜덤,
           random_state = 100으로 설정합니다.
           
   Step02. K-means 클러스터링을 수행합니다.
           
           클러스터링은 정답이 없는 데이터를
           사용하기 때문에 target 변수를 제거한
           데이터를 학습시켜줍니다.
           
   Step03. 군집화 결과 즉, 각 데이터가 속한 군집
           중심점들의 label을 
           iris 데이터 프레임에 추가합니다.
"""
def k_means_clus(irisDF):
    
    kmeans = KMeans(init='random', n_clusters=3, random_state=100)
    
    kmeans.fit(irisDF.drop('target', axis=1))
    
    irisDF['cluster'] = kmeans.labels_
    
    # 군집화 결과를 보기 위해 groupby 함수를 사용해보겠습니다.
    iris_result = irisDF.groupby(['target','cluster'])['sepal length (cm)'].count()
    print(iris_result)
    
    return iris_result, irisDF


# 군집화 결과 시각화하기

def Visualize(irisDF):
    
    pca = PCA(n_components=2)
    pca_transformed = pca.fit_transform(irisDF)


    irisDF['pca_x'] = pca_transformed[:,0]
    irisDF['pca_y'] = pca_transformed[:,1]

    # 군집된 값이 0, 1, 2 인 경우, 인덱스 추출
    idx_0 = irisDF[irisDF['cluster'] == 0].index
    idx_1 = irisDF[irisDF['cluster'] == 1].index

    idx_2 = irisDF[irisDF['cluster'] == 2].index
    
    # 각 군집 인덱스의 pca_x, pca_y 값 추출 및 시각화
    fig, ax = plt.subplots()
    
    ax.scatter(x=irisDF.loc[idx_0, 'pca_x'], y= irisDF.loc[idx_0, 'pca_y'], marker = 'o')
    ax.scatter(x=irisDF.loc[idx_1, 'pca_x'], y= irisDF.loc[idx_1, 'pca_y'], marker = 's')
    ax.scatter(x=irisDF.loc[idx_2, 'pca_x'], y= irisDF.loc[idx_2, 'pca_y'], marker = '^')
    ax.set_title('K-menas')
    ax.set_xlabel('PCA1')
    ax.set_ylabel('PCA2')
    
    fig.savefig("plot.png")
    elice_utils.send_image("plot.png")




def main():
    
    irisDF = load_data()
    
    iris_result, irisDF = k_means_clus(irisDF)
    
    Visualize(irisDF)
    
if __name__ == "__main__":
    main()


In [None]:
import pandas as pd
import numpy as np
from sklearn.mixture import GaussianMixture
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

from elice_utils import EliceUtils
elice_utils = EliceUtils()

# 데이터를 불러오고, 데이터 프레임 형태로 만든 후 반환하는 함수입니다.

def load_data():
    
    iris = load_iris()
    
    irisDF = pd.DataFrame(data = iris.data, columns = iris.feature_names)
    
    irisDF['target'] = iris.target
    
    return irisDF
    
"""
1. GMM 클러스터링을 
   수행하는 함수를 구현합니다.
   
   Step01. GMM 객체를 불러옵니다.
           
           군집의 개수는 3,
           일관된 결과 확인을 위해 
           random_state를 100으로 설정합니다.
           
   Step02. GMM 클러스터링을 수행합니다.
           
           클러스터링은 정답이 없는 데이터를
           사용하기 때문에 target 변수를 제거한
           데이터를 학습시켜줍니다.
           
   Step03. 군집화 결과를 
           iris 데이터 프레임에 추가합니다.
           
"""
def gmm_clus(irisDF):
    
    gmm = GaussianMixture(n_components=3, random_state=100)
    
    gmm.fit(irisDF.drop('target',axis = 1))
    
    irisDF['cluster'] = gmm.predict(irisDF.drop('target',axis=1))
    
    # 군집화 결과를 보기 위해 groupby 함수를 사용해보겠습니다.
    iris_result = irisDF.groupby(['target','cluster'])['sepal length (cm)'].count()
    print(iris_result)
    
    return iris_result, irisDF


# 군집화 결과 시각화하기

def Visualize(irisDF):
    
    pca = PCA(n_components=2)
    pca_transformed = pca.fit_transform(irisDF)


    irisDF['pca_x'] = pca_transformed[:,0]
    irisDF['pca_y'] = pca_transformed[:,1]

    # 군집된 값이 0, 1, 2 인 경우, 인덱스 추출
    idx_0 = irisDF[irisDF['cluster'] == 0].index
    idx_1 = irisDF[irisDF['cluster'] == 1].index

    idx_2 = irisDF[irisDF['cluster'] == 2].index
    
    # 각 군집 인덱스의 pca_x, pca_y 값 추출 및 시각화
    fig, ax = plt.subplots()
    
    ax.scatter(x=irisDF.loc[idx_0, 'pca_x'], y= irisDF.loc[idx_0, 'pca_y'], marker = 'o')
    ax.scatter(x=irisDF.loc[idx_1, 'pca_x'], y= irisDF.loc[idx_1, 'pca_y'], marker = 's')
    ax.scatter(x=irisDF.loc[idx_2, 'pca_x'], y= irisDF.loc[idx_2, 'pca_y'], marker = '^')
    ax.set_title('GMM')
    ax.set_xlabel('PCA1')
    ax.set_ylabel('PCA2')
    
    fig.savefig("plot.png")
    elice_utils.send_image("plot.png")




def main():
    
    irisDF = load_data()
    
    iris_result, irisDF = gmm_clus(irisDF)
    
    Visualize(irisDF)
    
    
if __name__ == "__main__":
    main()


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.mixture import GaussianMixture
from sklearn.datasets import make_blobs
from elice_utils import EliceUtils
elice_utils = EliceUtils()

"""
1. 지시 사항과 동일한 타원형 분포의 데이터를 생성하여 

   반환하는 함수를 구현합니다.
   
   Step01. 타원형 분포의 데이터를 생성합니다.
           
           데이터의 개수는 300개,
           데이터 변수의 개수는 2개,
           군집의 개수는 3개,
           데이터의 표준편차는 0.8,
           random_state 는 0으로 설정합니다.
"""
# make_blobs()으로 데이터를 생성해보세요.
X, y = make_blobs(n_samples = 300, n_features =2, centers =3, cluster_std = 0.8, random_state=0)


# 데이터의 분포를 변형시키기 위해 transformation을 진행합니다.
transformation = [[0.60834549, -0.63667341],[-0.40887718,0.85253229]]
X_aniso = np.dot(X, transformation)

# 데이터 프레임 만들기 
clusterDF = pd.DataFrame(data = X_aniso, columns= ['ftr1','ftr2'])
clusterDF['target'] = y
target_list = np.unique(y)

# 생성된 데이터 시각화
def data_visualize():
    fig, ax = plt.subplots()
    for target in target_list:
        target_cluster = clusterDF[clusterDF['target'] == target]

        ax.scatter(x = target_cluster['ftr1'], y = target_cluster['ftr2'])
    
    fig.savefig("plot.png")
    elice_utils.send_image("plot.png")
    
    
"""
2. K-Means Clustering을 수행하여
   클러스터링 결과를 데이터 프레임 내에 저장하는 함수를 완성합니다.
   
   Step01. 데이터 X_aniso에 대한 K-Means 군집화를 수행합니다.
           
           초기화 방식은 랜덤,
           군집의 개수는 3개, 
           random_state는 0으로 설정합니다.
           
    Step02. kmeans_label 변수에
            클러스터링 결과를 저장합니다.
"""
def K_means():
    
    k_means = KMeans(init = 'random', n_clusters = 3, random_state = 0)
    
    kmeans_label = k_means.fit_predict(X_aniso)
    
    clusterDF['kmeans_label']=kmeans_label
    
    # Kmeans 군집의 중심값을 뽑아 저장합니다.
    center = k_means.cluster_centers_
    
    # KMeans 군집 결과를 시각화합니다.
    unique_labels = np.unique(kmeans_label)
    fig, ax = plt.subplots()
    
    for label in unique_labels:
        label_cluster = clusterDF[clusterDF['kmeans_label'] == label]
        center_x_y = center[label]
        ax.scatter(x = label_cluster['ftr1'], y = label_cluster['ftr2'])
        ax.scatter(x = center_x_y[0], y = center_x_y[1], s = 70,color = 'k', marker = '$%d$' % label)
    
    fig.savefig("plot.png")
    elice_utils.send_image("plot.png")


    print("K-means Clustering")

    print(clusterDF.groupby('target')['kmeans_label'].value_counts())
    
    return kmeans_label
    
"""
3. GMM Clustering을 수행하여
   클러스터링 결과를 데이터 프레임 내에 저장하는 함수를 완성합니다.
   
   Step01. 데이터 X_aniso에 대한 GMM 군집화를 수행합니다.
           
           군집의 개수는 3개, 
           random_state는 0으로 설정합니다.
           
   Step02. gmm_label 변수에
           클러스터링 결과를 저장합니다.
            
"""
def GMM():
    
    gmm = GaussianMixture(n_components=3, random_state=0)
    
    gmm_label = gmm.fit(X_aniso).predict(X_aniso)
    
    clusterDF['gmm_label']=gmm_label
    
    unique_labels = np.unique(gmm_label)
    
    # GMM 군집 결과를 시각화합니다.
    fig, ax = plt.subplots()
    for label in unique_labels:
        label_cluster = clusterDF[clusterDF['gmm_label'] == label]
        plt.scatter(x = label_cluster['ftr1'], y = label_cluster['ftr2'])
    
    fig.savefig("plot.png")
    elice_utils.send_image("plot.png")
    
    print("Gaussian Mixture Model")
    print(clusterDF.groupby('target')['gmm_label'].value_counts())
    
    return gmm_label


def main():
    data_visualize()
    K_means()
    GMM()

if __name__ == "__main__":
    main()