# [ LG전자_DIC ] 시계열 데이터 시각화

## 주성분분석 & MDS & t-SNE

### 강의 복습
강의자료 : 시계열 데이터 시각화

- 주성분분석 : 대표적인 선형 차원 감소 기법으로써 원래 데이터의 분산을 최대한 보존하는 새로운 기저(축, basis)를 찾고, 그 축에 데이터를 사영(projection)시키는 기법
- MDS : 두 객체 사이의 상대적인 거리 정보가 최대한 정확하게 보존되는 저차원의 좌표계를 찾는 것
- Isomap : 데이터 포인트 간의 근접성을 기반으로 그래프를 만들고 모든 데이터 포인트 쌍 간의 최단 경로를 찾아 고차원 공간에서의 '거리'를 추정, 최단 경로로 구한 거리 행렬을 사용하여, 데이터를 저차원 공간으로 임베딩
- LLE : 각 데이터 포인트에 대해 가장 가까운 이웃들을 찾고 각 데이터 포인트를 그 이웃들의 선형 조합으로 재구성할 수 있는 가중치를 계산, 계산된 재구성 가중치를 유지하면서 고차원 데이터를 저차원 공간으로 매핑
- t-SNE : 가까운 이웃 객체들과의 거리 정보를 잘 보존하는 것이 멀리 떨어진 객체들과의 거리 정보를 보존하는 것보다 더 중요함을 가정으로 local pairwise distance를 확정적(deterministic)이 아닌 확률적(probabilistic)으로 정의함

<img src="./image/PCA01.png" width="800">

### 실습 요약
1. 본 실습에서는 주성분분석을 통해 차원 축소를 진행합니다.
2. 분류 과업을 위해 선형 회귀 모델과 로지스틱 모델을 통해 차원 축소 성능을 확인합니다.

---

In [None]:
import numpy as np  # 다차원 배열과 연산을 다루는 모듈
import pandas as pd  # 데이터 조작 및 분석을 위한 모듈
import matplotlib.pyplot as plt  # 데이터 시각화를 위한 모듈
%matplotlib inline

import warnings  # 경고 메시지를 관리하기 위한 모듈
warnings.filterwarnings("ignore")  # 경고 메시지를 무시하도록 설정

### 주성분 분석 (PCA)

데이터의 분산(정보량)을 최대한 보존할 수 있는 기저 벡터를 찾는 것 (기저 벡터에 원래 벡터를 사영하여 새로운 좌표 생성)

In [None]:
rng = np.random.RandomState(1)
X = np.dot(rng.rand(2, 2), rng.randn(2, 200)).T
plt.scatter(X[:, 0], X[:, 1])
plt.axis('equal');

In [None]:
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
pca.fit(X)

주성분분석을 통해 새로운 기저에 사영된 데이터의 분산이 어느정도인지 계산 가능함

<img src="./image/PCA02.png" width="500">

In [None]:
print(pca.components_)

In [None]:
print(pca.explained_variance_)

이 숫자들이 무엇을 의미하는지 알아보기 위해 입력 데이터 위에 벡터로 시각화하여 '구성 요소'를 사용하여 벡터의 방향을 정의하고 '설명 분산'을 사용하여 벡터의 제곱 길이를 정의

In [None]:
def draw_vector(v0, v1, ax=None):
    ax = ax or plt.gca()
    arrowprops=dict(arrowstyle='->',
                    linewidth=2,
                    shrinkA=0, shrinkB=0)
    ax.annotate('', v1, v0, arrowprops=arrowprops)

# plot data
plt.scatter(X[:, 0], X[:, 1], alpha=0.2)
for length, vector in zip(pca.explained_variance_, pca.components_):
    v = vector * 3 * np.sqrt(length)
    draw_vector(pca.mean_, pca.mean_ + v)
plt.axis('equal');

이러한 벡터는 데이터의 주축을 나타내며, 벡터의 길이는 데이터의 분포를 설명하는 데 있어 해당 축이 얼마나 '중요한지', 더 정확하게는 해당 축에 투영되었을 때 데이터의 분산을 나타내는 척도입니다. 각 데이터 포인트를 주축에 투영하는 것이 데이터의 '주성분'입니다.

#### 차원 축소

차원 축소를 위해 PCA를 사용하면 가장 작은 주성분 중 하나 이상을 제로화하여 최대 데이터 분산을 보존하는 저차원 데이터 투영을 할 수 있습니다.

In [None]:
pca = PCA(n_components=1)
pca.fit(X)
X_pca = pca.transform(X)
print("original shape:   ", X.shape)
print("transformed shape:", X_pca.shape)

In [None]:
X_new = pca.inverse_transform(X_pca)
plt.scatter(X[:, 0], X[:, 1], alpha=0.2)
plt.scatter(X_new[:, 0], X_new[:, 1], alpha=0.8)
plt.axis('equal');

중요하지 않은 주축의 정보는 제거되고 분산이 가장 큰 데이터의 구성 요소만 남게 됩니다. 잘려나간 분산의 비율(이 그림에서 형성된 선에 대한 점의 확산에 비례)은 이 차원 축소에서 얼마나 많은 '정보'가 버려지는지 대략적으로 측정할 수 있습니다.

### Manifold learning

주성분 분석은 유연하고 빠르며 쉽게 해석할 수 있지만, 데이터 내에 비선형 관계가 있는 경우에는 그다지 좋은 성능을 발휘하지 못합니다.

이러한 결함을 해결하기 위해, 데이터 집합을 고차원 공간에 포함된 저차원 다양체로 설명하는 비지도 추정기인 매니폴드 학습으로 알려진 방법 클래스를 사용할 수 있습니다. 

In [None]:
from sklearn.datasets import make_swiss_roll
X, t = make_swiss_roll(n_samples=1000, noise=0.2, random_state=42)

In [None]:
axes = [-11.5, 14, -2, 23, -12, 15]

fig = plt.figure(figsize=(12, 10))
ax = fig.add_subplot(111, projection='3d')

ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=t, cmap=plt.cm.hot)
ax.view_init(10, -70)
ax.set_xlabel("$x_1$", fontsize=18)
ax.set_ylabel("$x_2$", fontsize=18)
ax.set_zlabel("$x_3$", fontsize=18)
ax.set_xlim(axes[0:2])
ax.set_ylim(axes[2:4])
ax.set_zlim(axes[4:6])

plt.show()

스위스롤은 2D manifold의 한 예로 고차원 공간에서 휘어지거나 뒤틀린 2D 모양입니다.국부적으로 2D 평면으로 보이지만 3차원으로 말려 있습니다.

단순히 평면에 투영시키면 뭉개집니다.

왼쪽은 평면에 그냥 투영시켜서 뭉개진것, 오른쪽은 스위스 롤을 펼쳐 놓은 것

In [None]:
plt.figure(figsize=(11, 4))

plt.subplot(121)
plt.scatter(X[:, 0], X[:, 1], c=t, cmap=plt.cm.hot)
plt.axis(axes[:4])
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$x_2$", fontsize=18, rotation=0)
plt.grid(True)

plt.subplot(122)
plt.scatter(t, X[:, 1], c=t, cmap=plt.cm.hot)
plt.axis([4, 15, axes[2], axes[3]])
plt.xlabel("$z_1$", fontsize=18)
plt.grid(True)

plt.show()

#### PCA

In [None]:
pca = PCA(n_components=2)
X_reduced_pca = pca.fit_transform(X)

In [None]:
plt.title("Unrolled swiss roll using PCA", fontsize=14)
plt.scatter(X_reduced_pca[:, 0], X_reduced_pca[:, 1], c=t, cmap=plt.cm.hot)
plt.xlabel("$z_1$", fontsize=18)
plt.ylabel("$z_2$", fontsize=18)
plt.grid(True)

plt.show()

#### MDS
- 두 객체 사이의 상대적인 거리 정보가 최대한 정확하게 보존되는 저차원의 좌표계를 찾는 것

<img src="./image/MDS01.png" width="800">

In [None]:
from sklearn.manifold import MDS

mds = MDS(n_components=2, random_state=42)
X_reduced_mds = mds.fit_transform(X)

In [None]:
plt.title("Unrolled swiss roll using MDS", fontsize=14)
plt.scatter(X_reduced_mds[:, 0], X_reduced_mds[:, 1], c=t, cmap=plt.cm.hot)
plt.xlabel("$z_1$", fontsize=18)
plt.ylabel("$z_2$", fontsize=18)
plt.grid(True)

plt.show()

#### Isometric Feature Mapping (Isomap)
- PCA와 MDS의 알고리즘적 속성을 응용
- MDS의 방식을 차용하되, 데이터의 내재적 기하정보를 사용

1. 근접 그래프 생성: 데이터 포인트 간의 근접성을 기반으로 그래프를 만듭니다. 일반적으로 각 데이터 포인트에서 가장 가까운 k개의 이웃(k-nearest neighbors)을 연결하거나, 특정 거리 이내에 있는 모든 포인트를 연결하는 방법을 사용합니다.
2. 최단 경로 계산: 생성된 그래프에서 모든 데이터 포인트 쌍 간의 최단 경로를 찾아 고차원 공간에서의 '거리'를 추정합니다. 이를 통해 데이터 포인트 간의 기하학적 관계를 파악합니다.
3. 다차원 척도법(MDS) 적용: 최단 경로로 구한 거리 행렬을 사용하여, 데이터를 저차원 공간으로 임베딩합니다. 이 과정에서 데이터의 본래의 기하학적 구조를 가능한 한 유지하면서 차원을 축소합니다.

<img src="./image/Isomap01.png" width="800">

In [None]:
from sklearn.manifold import Isomap

isomap = Isomap(n_components=2)
X_reduced_isomap = isomap.fit_transform(X)

In [None]:
plt.title("Unrolled swiss roll using Isomap", fontsize=14)
plt.scatter(X_reduced_isomap[:, 0], X_reduced_isomap[:, 1], c=t, cmap=plt.cm.hot)
plt.xlabel("$z_1$", fontsize=18)
plt.ylabel("$z_2$", fontsize=18)
plt.grid(True)

plt.show()

#### LLE

- 비선형 차원 축소를 위한 고유벡터 기반의 방법론

1. 근접 이웃 찾기: 각 데이터 포인트에 대해 가장 가까운 k개의 이웃을 찾습니다. 이 이웃은 해당 데이터 포인트와 국소적으로 선형적인 관계에 있다고 간주됩니다.
2. 재구성 가중치 계산: 각 데이터 포인트를 그 이웃들의 선형 조합으로 재구성할 수 있는 가중치를 계산합니다. 이 가중치는 데이터 포인트 간의 국소적인 기하학적 구조를 캡처합니다.
3. 저차원 매핑 최적화: 계산된 재구성 가중치를 유지하면서 고차원 데이터를 저차원 공간으로 매핑합니다. 이 과정은 재구성 오류를 최소화하는 방식으로 저차원에서 데이터 포인트의 위치를 조정합니다.

<img src="./image/LLE01.png" width="800">

In [None]:
from sklearn.manifold import LocallyLinearEmbedding

lle = LocallyLinearEmbedding(n_components=2, n_neighbors=10, random_state=42)
X_reduced_lle = lle.fit_transform(X)

In [None]:
plt.title("Unrolled swiss roll using LLE", fontsize=14)
plt.scatter(X_reduced_lle[:, 0], X_reduced_lle[:, 1], c=t, cmap=plt.cm.hot)
plt.xlabel("$z_1$", fontsize=18)
plt.ylabel("$z_2$", fontsize=18)
plt.grid(True)

plt.show()

#### t-SNE
- 가까운 이웃 객체들과의 거리 정보를 잘 보존하는 것이 멀리 떨어진 객체들과의 거리 정보를 보존하는 것보다 더 중요함
- SNE는 local pairwise distance를 확정적(deterministic)이 아닌 확률적(probabilistic)으로 정의함
- 원래 차원과 임베딩(embedding)된 이후의 저차원에서 두 객체간의 이웃 관계는 잘 보존이 되어야 함
- 정규 분포를 사용하는 SNE와 달리 t-SNE는 t 분포를 사용하면 좀 더 멀리있는 객체에 대한 정보까지도 잘 반영함

In [None]:
from sklearn.manifold import TSNE

tsne = TSNE(n_components=2, random_state=42)
X_reduced_tsne = tsne.fit_transform(X)

In [None]:
plt.title("Unrolled swiss roll using t-SNE", fontsize=14)
plt.scatter(X_reduced_tsne[:, 0], X_reduced_tsne[:, 1], c=t, cmap=plt.cm.hot)
plt.xlabel("$z_1$", fontsize=18)
plt.ylabel("$z_2$", fontsize=18)
plt.grid(True)

plt.show()

In [None]:
titles = ["PCA", "MDS", "LLE", "Isomap", "t-SNE"]

plt.figure(figsize=(21,4))

for subplot, title, X_reduced in zip((151, 152, 153, 154, 155), titles,
                                     (X_reduced_pca, X_reduced_mds, X_reduced_lle, X_reduced_isomap, X_reduced_tsne)):
    plt.subplot(subplot)
    plt.title(title, fontsize=14)
    plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=t, cmap=plt.cm.hot)
    plt.xlabel("$z_1$", fontsize=18)
    if subplot == 151:
        plt.ylabel("$z_2$", fontsize=18, rotation=0)
    plt.grid(True)

plt.show()

---

### STEP 1. 데이터: malwares 데이터
금일 실습에서는 Malwares Classification 데이터셋을 사용합니다.
- Malware를 분류하는 것을 목적으로 하는 데이터 셋
- 총 68개의 독립 변수를 통해 종속 변수(Not Malware=0, Malware=1)를 예측해야 함

In [None]:
# github에서 데이터 불러오기
# !git clone https://github.com/hwk0702/2024_LGE_TSVisulaization.git
# %cd 2024_LGE_TSVisulaization

In [None]:
#Malware Classification 데이터 셋 load
malware_data = pd.read_csv('./data/Malwares Classification.csv')

In [None]:
malware_data = malware_data.dropna(axis=0)
malware_labels = malware_data.loc[:,'class']
malware_data = malware_data.drop('class',axis=1)

In [None]:
malware_data

In [None]:
malware_labels

### STEP 2. Data Split

In [None]:
from sklearn.model_selection import train_test_split
malware_X_train, malware_X_test, malware_y_train, malware_y_test = train_test_split(malware_data, malware_labels, test_size=0.2, random_state=42)

### STEP 3. 산포 비교
- 기법들을 활용하여 2차원, 3차원 상에서의 class별 산포를 확인함

#### STEP 3.1. 2차원 산포 비교

In [None]:
#malware 데이터 셋 차원 축소 결과, 정규화X
malware_pca = PCA(n_components=2).fit_transform(malware_X_train)
malware_mds = MDS(n_components=2, random_state=42).fit_transform(malware_X_train)
malware_isomap = Isomap(n_components=2).fit_transform(malware_X_train)
malware_LLE = LocallyLinearEmbedding(n_components=2, eigen_solver='dense').fit_transform(malware_X_train)
malware_tsne = TSNE(n_components = 2, random_state=42).fit_transform(malware_X_train)

In [None]:
titles = ["PCA", "MDS", "LLE", "Isomap", "t-SNE"]

plt.figure(figsize=(21,4))

for subplot, title, malware_reduced in zip((151, 152, 153, 154, 155), titles,
                                     (malware_pca, malware_mds, malware_isomap, malware_LLE, malware_tsne)):
    plt.subplot(subplot)
    plt.title(title, fontsize=14)
    plt.scatter(malware_reduced[:, 0], malware_reduced[:, 1], c=malware_y_train)
    plt.xlabel("$z_1$", fontsize=18)
    if subplot == 151:
        plt.ylabel("$z_2$", fontsize=18, rotation=0)
    plt.grid(True)

plt.show()

정규화 수행

In [None]:
# train 데이터를 기반으로 train/test 데이터에 대하여 standard scaling 적용 (평균 0, 분산 1) 
from sklearn.preprocessing import StandardScaler
malware_scaler = StandardScaler()
malware_scaler = malware_scaler.fit(malware_X_train)

In [None]:
malware_X_train_s = pd.DataFrame(malware_scaler.transform(malware_X_train),
                                 columns=malware_X_train.columns,
                                 index=malware_X_train.index)
malware_X_test_s  = pd.DataFrame(malware_scaler.transform(malware_X_test),
                                 columns=malware_X_test.columns,
                                 index=malware_X_test.index)

In [None]:
#malware 데이터 셋 차원 축소 결과, 정규화O
malware_pca = PCA(n_components=2).fit_transform(malware_X_train_s)
malware_mds = MDS(n_components=2, random_state=42).fit_transform(malware_X_train_s)
malware_isomap = Isomap(n_components=2).fit_transform(malware_X_train_s)
malware_LLE = LocallyLinearEmbedding(n_components=2, eigen_solver='dense').fit_transform(malware_X_train_s)
malware_tsne = TSNE(n_components = 2, random_state=42).fit_transform(malware_X_train_s)

In [None]:
titles = ["PCA", "MDS", "LLE", "Isomap", "t-SNE"]

plt.figure(figsize=(21,4))

for subplot, title, malware_reduced in zip((151, 152, 153, 154, 155), titles,
                                     (malware_pca, malware_mds, malware_isomap, malware_LLE, malware_tsne)):
    plt.subplot(subplot)
    plt.title(title, fontsize=14)
    plt.scatter(malware_reduced[:, 0], malware_reduced[:, 1], c=malware_y_train)
    plt.xlabel("$z_1$", fontsize=18)
    if subplot == 151:
        plt.ylabel("$z_2$", fontsize=18, rotation=0)
    plt.grid(True)

plt.show()

#### STEP 3.2. 3차원 산포 비교

In [None]:
# ! pip install ipympl
from mpl_toolkits.mplot3d import Axes3D
# %matplotlib inline
# %matplotlib notebook
%matplotlib widget

from google.colab import output
output.enable_custom_widget_manager()

In [None]:
#malware 데이터 셋 PCA 결과, 정규화O
malware_pc = PCA(n_components=3).fit_transform(malware_X_train_s)

In [None]:
fig = plt.figure(figsize=(9, 12))
ax = fig.add_subplot(111, projection='3d')
plt.scatter(malware_pc[malware_y_train==0, 0], 
            malware_pc[malware_y_train==0, 1], 
            malware_pc[malware_y_train==0, 2],
            c='blue', label='0')
plt.scatter(malware_pc[malware_y_train==1, 0], 
            malware_pc[malware_y_train==1, 1],
            malware_pc[malware_y_train==1, 2],
            c='orange', label='1')
ax.set_xlabel('component 0')
ax.set_ylabel('component 1')
ax.set_zlabel('component 2')
ax.set_xlim([-5, 5])
ax.set_ylim([-5, 10])
ax.set_zlim([-0.05, 0])
plt.legend()
plt.show()

In [None]:
malware_tsne = TSNE(n_components = 3, random_state=42).fit_transform(malware_X_train_s)

In [None]:
fig = plt.figure(figsize=(9, 12))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(malware_tsne[malware_y_train==0, 0], 
            malware_tsne[malware_y_train==0, 1], 
            malware_tsne[malware_y_train==0, 2],
            c='blue', label='0')
ax.scatter(malware_tsne[malware_y_train==1, 0], 
            malware_tsne[malware_y_train==1, 1],
            malware_tsne[malware_y_train==1, 2],
            c='orange', label='1')
plt.xlabel('component 0')
plt.ylabel('component 1')
plt.legend()
plt.show()

### STEP 4. PCA Variable Extraction
- PCA를 활용하여 variable extraction을 진행한 후 분류 모델을 학습함
- 기존 분류 모델과의 성능 비교를 통해 PCA variable extracion 효과를 확인함

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
# malware 데이터
malware_ranfo = RandomForestClassifier(n_estimators=100,n_jobs=-1,max_depth=10)
malware_ranfo.fit(malware_X_train, malware_y_train)

malware_pred_train = malware_ranfo.predict(malware_X_train)
malware_pred_test  = malware_ranfo.predict(malware_X_test)
malware_acc_train  = np.sum(malware_pred_train==malware_y_train)/len(malware_y_train)
malware_acc_test   = np.sum(malware_pred_test==malware_y_test)/len(malware_y_test)

In [None]:
print("malware_train ACC:", malware_acc_train)
print("malware_test ACC:", malware_acc_test)

In [None]:
pca = PCA().fit(malware_X_train_s)
plt.plot(np.cumsum(pca.explained_variance_ratio_))
plt.xlabel('number of components')
plt.ylabel('cumulative explained variance');

In [None]:
#malware 데이터 셋 PCA 결과, 정규화O
pca = PCA(n_components=30)
malware_X_train_new = pca.fit_transform(malware_X_train_s)
malware_X_test_new  = pca.transform(malware_X_test_s)

malware_ranfo_new = RandomForestClassifier(n_estimators=100,n_jobs=-1,max_depth=15)
malware_ranfo_new.fit(malware_X_train_new, malware_y_train)

malware_pred_train_new = malware_ranfo_new.predict(malware_X_train_new)
malware_pred_test_new  = malware_ranfo_new.predict(malware_X_test_new)
malware_acc_train_new  = np.sum(malware_pred_train_new==malware_y_train)/len(malware_y_train)
malware_acc_test_new   = np.sum(malware_pred_test_new==malware_y_test)/len(malware_y_test)

In [None]:
print("malware_train ACC:", malware_acc_train_new)
print("malware_test ACC:", malware_acc_test_new)

---