### 다양한 데이터 변환 - PCA, NMF, LDA 등

### 학습 내용
  * 데이터 준비
  * PCA
  * TruncatedSVD
  * NMF
  * LDA
  * t-sne
  * UMAP
  * 클러스터링

### 데이터 및 라이브러리 준비

In [3]:
# ---------------------------------
# 데이터 등 준비
# ----------------------------------
import numpy as np
import pandas as pd

# train_x는 학습 데이터, train_y는 목적 변수, test_x는 테스트 데이터
# pandas의 DataFrame, Series의 자료형 사용(numpy의 array로 값을 저장하기도 함.)

train = pd.read_csv('../input/sample-data/train_preprocessed_onehot.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('../input/sample-data/test_preprocessed_onehot.csv')

# 설명용으로 학습 데이터와 테스트 데이터의 원래 상태를 복제해 두기
train_x_saved = train_x.copy()
test_x_saved = test_x.copy()

In [4]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# 표준화한 학습 데이터와 테스트 데이터를 반환하는 함수
def load_standarized_data():
    train_x, test_x = train_x_saved.copy(), test_x_saved.copy()

    scaler = StandardScaler()
    scaler.fit(train_x)
    train_x = scaler.transform(train_x)
    test_x = scaler.transform(test_x)
    return pd.DataFrame(train_x), pd.DataFrame(test_x)


# MinMax 스케일링을 수행한 학습 데이터와 테스트 데이터를 반환하는 함수
def load_minmax_scaled_data():
    train_x, test_x = train_x_saved.copy(), test_x_saved.copy()

    # Min-Max Scaling 진행
    scaler = MinMaxScaler()
    scaler.fit(pd.concat([train_x, test_x], axis=0))
    train_x = scaler.transform(train_x)
    test_x = scaler.transform(test_x)

    return pd.DataFrame(train_x), pd.DataFrame(test_x)

### 주성분 분석 - PCA(Principal Component Analysis)
 * 다변량 데이터의 주성분을 추출하여 데이터를 저차원 공간으로 변환하는 방법.

In [5]:
# 표준화된 데이터를 사용
train_x, test_x = load_standarized_data()
# -----------------------------------
# PCA
from sklearn.decomposition import PCA

# 데이터는 표준화 등의 스케일을 갖추기 위한 전처리가 이루어져야 함

# 학습 데이터를 기반으로 PCA에 의한 변환을 정의
pca = PCA(n_components=5)
pca.fit(train_x)

# 변환 적용
train_x = pca.transform(train_x)
test_x = pca.transform(test_x)

### TruncatedSVD
 * 특이값 분해(Singular Value Decomposition, SVD)의 일종으로 행렬의 차원을 축소하기 위해 사용되는 기법.
 * 주성분 분석(PCA)의 변형.

In [6]:
# -----------------------------------
# 표준화된 데이터를 사용
train_x, test_x = load_standarized_data()
# -----------------------------------
# TruncatedSVD
from sklearn.decomposition import TruncatedSVD

# 데이터는 표준화 등의 스케일을 갖추기 위한 전처리가 이루어져야 함

# 학습 데이터를 기반으로 SVD를 통한 변환 정의
svd = TruncatedSVD(n_components=5, random_state=71)
svd.fit(train_x)

# 변환 적용
train_x = svd.transform(train_x)
test_x = svd.transform(test_x)

### NMF(Non-Negative Matrix Factorization)
 * 비음수 행렬 분해의 일종.
 * 주어진 비음수 행렬을 두 개의 비음수 행렬의 곱으로 분해하는 방법.
 * NMF는 음수 값이 없는 행렬 데이터에 적용.
 * 데이터의 특징을 추출하거나 차원 축소를 위해 사용.

In [7]:
# 비음수의 값이기 때문에 MinMax스케일링을 수행한 데이터를 이용
train_x, test_x = load_minmax_scaled_data()
# -----------------------------------
from sklearn.decomposition import NMF

# 데이터는 음수가 아닌 값으로 구성

# 학습 데이터를 기반으로 NMF에 의한 변환 정의
model = NMF(n_components=5, init='random', random_state=71)
model.fit(train_x)

# 변환 적용
train_x = model.transform(train_x)
test_x = model.transform(test_x)

### LDA(LatentDirichletAllocation)
 * 토픽 모델링의 하나의 종류
 * 텍스트 데이터에 적용되어 주제(topic)의 구조를 추론하는 확률적 생성 모델
 * LDA는 비지도 학습 알고리즘.
 * 주어진 문서 집합에서 각 문서가 어떤 주제들로 구성되어 있는지를 추론하고, 주제와 단어간의 관계를 모델링
 * 주로 텍스트 데이터에서 주제를 추출하고, 문서간의 유사성을 평가하는데 사용된다.
 * 텍스트 분석, 문서 요약, 토픽 추천, 정보 검색 등 다양한 분야에서 활용 가능

In [8]:
# -----------------------------------
# LatentDirichletAllocation
# -----------------------------------
# MinMax스케일링을 수행한 데이터를 이용
# 카운트 행렬은 아니지만, 음수가 아닌 값이면 계산 가능
train_x, test_x = load_minmax_scaled_data()
# -----------------------------------
from sklearn.decomposition import LatentDirichletAllocation

# 데이터는 단어-문서의 카운트 행렬 등으로 함

# 학습 데이터를 기반으로 LDA에 의한 변환을 정의
model = LatentDirichletAllocation(n_components=5, random_state=71)
model.fit(train_x)

# 변환 적용
train_x = model.transform(train_x)
test_x = model.transform(test_x)

### LDA(LinearDiscriminantAnalysis)

* 선형 판별 분석(LDA)은 분류 문제에서 사용되는 머신러닝 알고리즘.
* 두개 이상의 클래스에 속하는 데이터를 분류하는데 사용.
* LDA는 차원을 줄이고 클래스간 분산을 최대화하고, 클래스 내 분산을 최소화하는 방식으로 데이터를 분류

In [9]:
# -----------------------------------
# LinearDiscriminantAnalysis
# -----------------------------------
# 표준화된 데이터를 사용
train_x, test_x = load_standarized_data()
# -----------------------------------
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA

# 데이터는 단어-문서의 카운트 행렬 등으로 함

# 학습 데이터를 기반으로 LDA에 의한 변환을 정의
lda = LDA(n_components=1)
lda.fit(train_x, train_y)

# 변환 적용
train_x = lda.transform(train_x)
test_x = lda.transform(test_x)

### t-sne

 * 2023/06 확인 결과 bhtsne에서 에러 발생, 최신 버전에 맞춰, TSNE로 변경

In [10]:
from sklearn.manifold import TSNE

In [12]:
# 표준화된 데이터를 사용
train_x, test_x = load_standarized_data()
# -----------------------------------

# 데이터는 표준화 등의 스케일을 갖추기 위한 전처리가 이루어져야 함
## 주석처리(23/06)
#import bhtsne
## t-sne에 의한 변환 - 
# data = pd.concat([train_x, test_x])
# embedded = bhtsne.tsne(data.astype(np.float64), dimensions=2, rand_seed=71)

# t-SNE에 의한 변환(23/06/21 수정)
data = pd.concat([train_x, test_x])
tsne = TSNE(n_components=2, random_state=71)
embedded = tsne.fit_transform(data.astype(np.float64))



In [None]:
# 결과 - 23/06 추가 
plt.scatter(embedded[:, 0], embedded[:, 1], c=train_x['label'], s=10)
plt.show()

### UMAP

* 2023/06 확인 결과 에러 발생, 추후 확인 필요.

In [58]:
import umap

In [59]:
# 표준화된 데이터를 사용
train_x, test_x = load_standarized_data()
# -----------------------------------

# 데이터는 표준화 등의 스케일을 갖추는 전처리가 이루어져야 함

# 학습 데이터를 기반으로 UMAP에 의한 변환을 정의
# um = umap.UMAP()
um = umap.UMAP()
um.fit(train_x)

# 변환 적용
train_x = um.transform(train_x)
test_x = um.transform(test_x)

AttributeError: module 'umap' has no attribute 'UMAP'

### 클러스터링

* 2023/06 확인 결과 에러 발생, 추후 확인 필요.

In [67]:
# -----------------------------------
# 클러스터링
# -----------------------------------
# 표준화된 데이터를 사용
train_x, test_x = load_standarized_dataA()
# -----------------------------------
from sklearn.cluster import MiniBatchKMeans

# 데이터는 표준화 등의 스케일을 갖추는 전처리가 이루어져야 함

# 학습 데이터를 기반으로 Mini-Batch K-Means를 통한 변환 정의
kmeans = MiniBatchKMeans(n_clusters=10, random_state=71)
kmeans.fit(train_x)

# 해당 클러스터를 예측
train_clusters = kmeans.predict(train_x)
test_clusters = kmeans.predict(test_x)

# 각 클러스터 중심까지의 거리를 저장
train_distances = kmeans.transform(train_x)
test_distances = kmeans.transform(test_x)

AttributeError: 'NoneType' object has no attribute 'split'