<a href="https://colab.research.google.com/github/jfjoung/AI_For_Chemistry/blob/main/notebooks/week5/Week_5_Dimensionality_Reduction.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


## 🎯 **학습 목표:**  
- **비지도 학습(unsupervised learning)의 기본 개념**과 **화학 데이터에서의 활용**을 이해한다.  
- **고차원 분자 데이터를 저차원 공간으로 변환하는 차원 축소(dimensionality reduction) 기법**을 익힌다.  
- **PCA(Principal Component Analysis), t-SNE(t-Distributed Stochastic Neighbor Embedding), UMAP(Uniform Manifold Approximation and Projection)과 같은 주요 차원 축소 기법을 실습한다.**  
- **화학 데이터셋에서 분자 표현을 시각화하고, 차원 축소 기법이 데이터 구조를 어떻게 반영하는지 분석한다.**  
- **차원 축소를 활용하여 데이터 군집화(clustering) 및 특징 분석을 수행한다.**  
- **비지도 학습을 통해 분자 구조 간의 유사성을 파악하고, 머신러닝 모델의 입력으로 활용할 수 있는 특징을 추출한다.**  


# 0. 관련 패키지

### **Scikit-learn**
이번 실습에서는 다시 `scikit-learn` 패키지를 사용합니다.  
이 패키지에는 **주성분 분석(PCA, Principal Component Analysis)** 및 **t-SNE(T-distributed Stochastic Neighbor Embedding)** 등 차원 축소 기법이 포함되어 있습니다.

우선 필요한 라이브러리를 설치하고, 해당 데이터셋을 가져옵니다.


In [None]:
# 데이터 분석 및 시각화를 위한 필수 라이브러리 설치
!pip install numpy scipy matplotlib scikit-learn pandas rdkit seaborn plotly umap-learn

# ESOL 데이터셋 다운로드
!mkdir -p data/
!wget https://raw.githubusercontent.com/jfjoung/AI_For_Chemistry/main/data/week3/esol.csv -O data/esol.csv


# 1. 차원 축소 (Dimensionality Reduction)

**차원 축소(Dimensionality Reduction)**는 비지도 학습(unsupervised learning)의 핵심 개념 중 하나로,  
고차원 데이터셋에서 **핵심적인 정보는 유지하면서 변수(feature)의 개수를 줄이는 기법**입니다.  
특히, 많은 특징을 포함하는 **대규모 복잡한 데이터셋을 다룰 때 유용**합니다.  

또한, 차원 축소는 데이터를 시각화하고, **데이터의 근본적인 구조와 관계를 이해하는 데 도움을 줄 수 있습니다.**  
다음은 대표적인 차원 축소 기법입니다.

- **PCA (Principal Component Analysis, 주성분 분석)**
- **t-SNE (t-distributed Stochastic Neighbor Embedding)**
- **NMF (Non-Negative Matrix Factorization, 비음수 행렬 분해)**
- **UMAP (Uniform Manifold Approximation and Projection, 균일 매니폴드 근사 및 투영법)**

차원 축소를 통해 데이터의 시각화 및 해석이 더 쉬워지고,  
더 **효율적이고 정확한 예측 모델**을 개발하는 데 활용할 수도 있습니다.  
이 노트북에서는 다양한 차원 축소 기법을 탐색하고 실습해 보겠습니다.


# 2. PCA (주성분 분석)

[PCA](https://towardsdatascience.com/principal-component-analysis-pca-explained-visually-with-zero-math-1cbf392b9e7d) (Principal Component Analysis, 주성분 분석)은 **차원 축소를 위한 비지도 학습 기법**으로 매우 널리 사용됩니다.  
PCA의 목적은 **고차원 데이터를 저차원 공간으로 변환하면서 중요한 정보를 최대한 보존하는 것**입니다.  
이를 위해 데이터의 **주성분(principal components)**을 식별하여, 고차원 데이터의 구조를 간소화합니다.  

PCA는 **데이터 분석, 시각화 및 특징 추출** 등 다양한 분야에서 폭넓게 활용됩니다.


### 연습 1: ESOL 데이터셋의 차원 축소(PCA) 적용

이 연습에서는 **ESOL 데이터셋에 있는 분자들을 나타내는 2048차원 지문(fingerprint)**에 PCA를 적용할 것입니다.  
우리는 이 공간을 **2차원으로 축소**하고 결과 공간을 시각화할 것입니다.  

일반적으로 PCA를 적용하기 전에 데이터를 표준화해야 하지만, **이 경우는 이진 특징(binary features)을 사용하므로 표준화가 필요하지 않습니다.**


In [None]:
import pandas as pd
from rdkit import Chem
from rdkit.Chem import AllChem
from rdkit.Chem import PandasTools
import numpy as np

### YOUR CODE #####

# ESOL 데이터셋 로드
# pd.read_csv 를 사용해서 data/esol.csv에 있는 데이터를 로드해보세요.


# Chem.MolFromSmiles를 사용해 rdkit.Mol 객체를 생성하여 'Molecule' 열에 저장해보세요
# apply를 사용해서 'smiles'열에 일괄적으로 적용해보세요.


# Molecule 변환이 실패한 행 제거
# 'Molecule' 열에 있는 NaN을 제거하기 위해 dropna를 사용해보세요.


# 'Molecule' 열을 이용하여 Morgan fingerprint (r=4, nBits=2048) 생성
# lambda mol: AllChem.GetMorganFingerprintAsBitVect(mol, radius=4, nBits=2048) 를 사용해보세요.


# 결과 확인


#Solution
# %load https://raw.githubusercontent.com/jfjoung/AI_For_Chemistry/main/notebooks/week5/solution_01.py



이제 `PCA` 분해를 적용합니다. 해당 메서드의 문서는 [여기](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html#sklearn.decomposition.PCA)에서 확인할 수 있습니다.


In [None]:
from sklearn.decomposition import PCA
import numpy as np
# PCA 객체 생성 (주성분 2개)
pca = PCA(n_components=2)

# Morgan fingerprint 열을 numpy 배열로 변환
fingerprint_array = np.array(esol['MorganFP'].tolist())  # RDKit BitVect를 numpy 배열로 변환

# fit_transform 메서드를 사용하여 PCA 적용 및 결과 저장
coordinates = pca.fit_transform(fingerprint_array)

# PC1과 PC2 값을 각 행에 추가
esol['PC1'] = coordinates[:, 0]
esol['PC2'] = coordinates[:, 1]


PC1과 PC2를 사용하여 데이터를 시각화합니다.


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# PCA 결과를 사용하여 산점도 플롯 생성
sns.scatterplot(data=esol, x='PC1', y='PC2')

# 플롯 제목 설정
plt.title('ESOL PCA plot')

# 플롯 표시
plt.show()


마지막으로, 이 플롯에 추가할 특별한 범주(label)를 생성합니다. 범주는 용해도 카테고리를 나타내며, 간단함을 위해 3개의 카테고리를 정의합니다:

- **Low**: log 용해도가 -5보다 작은 경우
- **Medium**: log 용해도가 -5와 -1 사이인 경우
- **High**: log 용해도가 -1보다 큰 경우

이 분류의 목적은 플롯에 추가 정보를 제공하여, 축소된 공간에서 다른 해석을 탐색하는 것입니다.


In [None]:
# 용해도 값을 기준으로 카테고리 라벨을 생성하는 함수
def solubility_class(log_sol):
    '''용해도 값에 따라 해당하는 라벨을 반환하는 함수'''
    if log_sol < -5:
        return 'Low'
    elif log_sol > -1:
        return 'High'
    else:
        return 'Medium'

# 'log solubility (mol/L)' 값을 이용해 'Solubility_Label' 열에 라벨 추가
# solubility_class 함수를 apply를 사용해서 'Solubility_Label' 열에 라벨을 추가합니다.




# 새로운 라벨을 포함한 PCA 플롯 생성
plt.figure(figsize=(8, 6))
sns.scatterplot(x=esol['PC1'], y=esol['PC2'], hue=esol['Solubility_Label'], palette='viridis', alpha=0.7)

# X, Y축 라벨 및 제목 설정
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title('ESOL PCA plot with solubility label')

# 범례 제목 설정
plt.legend(title='Solubility')

# 플롯 표시
plt.show()

#Solution
# %load https://raw.githubusercontent.com/jfjoung/AI_For_Chemistry/main/notebooks/week5/solution_02.py



보시다시피, 라벨 카테고리들이 많이 섞여 있어서 플롯에서 데이터의 명확한 경향을 확인하기 어렵습니다. 그러나, 다양한 시각화를 시도할 수 있습니다. 예를 들어, **PC3**을 포함시켜 3D로 시각화하면 더 많은 정보를 얻을 수 있을지 확인할 수 있습니다.


# 3. t-SNE

**t-분포 확률적 이웃 임베딩(t-SNE)**(t-distributed Stochastic Neighbor Embedding)은 PCA와는 달리 **비선형 데이터를 분리할 수 있는 기법**입니다.  
따라서 **데이터 포인트들 간의 유사한 특징을 가진 군집을 식별하고, 지역적인 구조(local structures)를 포착하는 데 유용**합니다.  
하지만 t-SNE는 **PCA보다 계산 비용이 더 많이 들며**, **매우 큰 데이터셋에 적합하지 않을 수 있습니다.**


### 연습 2: ESOL 데이터셋의 차원 축소(t-SNE) 적용

다음 예제에서는 이전에 생성된 데이터셋에 t-SNE를 적용하고, 그 결과를 PCA 분해와 비교할 것입니다.  
해당 메서드의 문서는 [여기](https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html)에서 확인할 수 있습니다.


In [None]:
from sklearn.manifold import TSNE

### YOUR CODE ####
# n_components=2로 t-SNE 객체 생성하고, random_state=42 설정
# random_state는 재현성을 보장하기 위해 사용됩니다 (이 알고리즘은 비결정적입니다).

# Morgan fingerprint 배열 가져오기

# fit_transform()을 데이터에 적용

# 원본 데이터프레임에 tSNE 좌표를 새로운 열로 추가

#####

# Solution
# %load https://raw.githubusercontent.com/jfjoung/AI_For_Chemistry/main/notebooks/week5/solution_03.py


이제 용해도 라벨을 포함한 결과를 시각화하고, 이를 PCA 플롯과 비교해 보세요. 알고리즘 간에 차이가 있는지 관찰해 보세요.


In [None]:
### YOUR CODE ####

# t-SNE 결과를 포함하여 용해도 라벨을 색상으로 구분하여 시각화

#####
plt.title('ESOL t-SNE plot')

# Solution
# %load https://raw.githubusercontent.com/jfjoung/AI_For_Chemistry/main/notebooks/week5/solution_04.py


# 4. UMAP
균일 매니폴드 근사화 및 투영(UMAP, Uniform Manifold Approximation and Projection)은 비선형 차원 축소 기법으로, 고차원 데이터를 저차원으로 변환할 때 **데이터의 지역적인 구조(local structures)**를 잘 유지하는 특성을 가지고 있습니다.
UMAP은 t-SNE와 유사하게 지역적인 구조를 포착하며, 군집화 및 데이터의 구조적 패턴을 발견하는 데 유용합니다.
또한, UMAP은 t-SNE보다 계산 속도가 빠르고, 대규모 데이터셋에도 효과적으로 적용할 수 있습니다.

In [None]:
import umap

# Initialize UMAP model
umap_model = umap.UMAP(n_components=2, random_state=42)  

# Fit and transform the data
umap_data = umap_model.fit_transform(fingerprint_array)

# 원본 데이터프레임에 UMAP 좌표 추가
esol['UMAP1'] = umap_data[:, 0]
esol['UMAP2'] = umap_data[:, 1]


In [None]:
plt.figure(figsize=(8, 6))
sns.scatterplot(x=esol['UMAP1'], y=esol['UMAP2'], hue=esol['Solubility_Label'], palette='viridis', alpha=0.7)

# X, Y축 라벨 및 제목 설정
plt.xlabel('UMAP Component 1')
plt.ylabel('UMAP Component 2')
plt.title('ESOL UMAP plot') 

# 범례 제목 설정
plt.legend(title='Solubility')

# 플롯 표시
plt.show()