# 실습 - PCA와 Clustering


# **1. 필요한 라이브러리 불러오기**

In [1]:
# 데이터, 시각화 관련 라이브러리
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# PCA 라이브러리 
from sklearn.decomposition import PCA

# Clustering 라이브러리 
from sklearn.cluster import KMeans

# Iris data를 불러오기 위한 라이브러리
from sklearn.datasets import load_iris

# **2. PCA 간단한 예제**

In [None]:
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
pca = PCA(n_components=2)

# 적합(fitting, training)
pca.fit(X)

In [None]:
X

In [None]:
# feature space에서의 데이터 
plt.scatter(X[:, 0], X[:, 1])
plt.xlabel('X1')
plt.ylabel('X2')
plt.grid()
plt.show()

In [5]:
# PC score
Z = pca.fit_transform(X)

In [None]:
Z

In [None]:
# PC space에서의 데이터 
plt.scatter(Z[:, 0], Z[:, 1])
plt.xlabel('Z1')
plt.ylabel('Z2')
plt.grid()
plt.show()

In [8]:
# PC loading 벡터 
phi = pca.components_

In [None]:
phi

In [None]:
# Z 
np.matmul(X, phi.T)

In [None]:
# PVE(proportion of variance explained)
pca.explained_variance_ratio_

# **3. PCA 예제(Iris 데이터)**

In [12]:
# Iris data 불러오기
iris = load_iris()

# 데이터를 feature와 response로 분리
X_iris, y_iris = iris.data, iris.target

In [None]:
X_iris

In [None]:
pca = PCA(n_components=3)

# 적합(fitting, training)
pca.fit(X_iris)

In [15]:
# PC score
Z = pca.fit_transform(X_iris)

In [None]:
Z

In [None]:
# PC space에서의 데이터 
fig = plt.figure(figsize=(8, 8))
ax = fig.add_subplot(projection='3d')
ax.scatter(Z[:, 0], Z[:, 1], Z[:, 2], c=y_iris, s=15)
ax.set_xlabel('Z1')
ax.set_ylabel('Z2')
ax.set_zlabel('Z3')
plt.show()

In [None]:
# proportion of variance explained
pca.explained_variance_ratio_

# **4. K-means clustering 간단한 예제**

In [19]:
X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])

In [None]:
plt.scatter(X[:, 0], X[:, 1])
plt.xlabel('X1')
plt.ylabel('X2')
plt.grid()
plt.show()

In [None]:
# 적합(fitting, training)
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)

# 각각의 데이터가 어느 클러스터에 포함되는지 표시
kmeans.labels_

In [None]:
# 클러스터링 결과, 서로 다른 색깔은 서로 다른 클러스터를 표현
plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels_)
plt.xlabel('X1')
plt.ylabel('X2')
plt.grid()
plt.show()

# **5. K-means clustering 예제(Iris 데이터)**

In [None]:
y_iris

In [None]:
# 원본 데이터, 서로 다른 색깔은 원본 데이터의 클래스를 표현
plt.scatter(X_iris[:, 0], X_iris[:, 1], c=y_iris)
plt.xlabel('sepal length (cm)')
plt.ylabel('sepal width (cm)')
plt.grid()
plt.show()

In [None]:
# 적합(fitting, training)
kmeans = KMeans(n_clusters=2, random_state=0).fit(X_iris)

# 각각의 데이터가 어느 클러스터에 포함되는지 표시
kmeans.labels_

In [None]:
# 클러스터링 결과, 서로 다른 색깔은 서로 다른 클러스터를 표현
plt.scatter(X_iris[:, 0], X_iris[:, 1], c=kmeans.labels_)
plt.xlabel('sepal length (cm)')
plt.ylabel('sepal width (cm)')
plt.grid()
plt.show()