In [1]:
# 데이터 로드
from sklearn.datasets import fetch_openml
mnist=fetch_openml('mnist_784', version=1)

In [2]:
# train, test split
X_train = mnist['data'][:60000]
y_train = mnist['target'][:60000]
X_test = mnist['data'][60000:]
y_test = mnist['target'][60000:]

* 랜덤포레스트에 적용

In [4]:
# 랜덤포레스트에 적용 (n_estimators=10, random_state=42)
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 랜덤 포레스트 모델 생성
rf_clf = RandomForestClassifier(n_estimators=10, random_state=42)

# 모델 학습
rf_clf.fit(X_train, y_train)

# 테스트 데이터에 대한 예측
y_pred = rf_clf.predict(X_test)

In [5]:
# 정확도 결과
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.4f}")

Accuracy: 0.9492


# 1. PCA

* PCA로 변환한 데이터 세트에 랜덤 포레스트 적용

In [6]:
# PCA 라이브러리 불러오기
from sklearn.decomposition import PCA

In [7]:
# PCA 적용 95% : n_components=0.95
pca = PCA(n_components=0.95)  # PCA 적용: 분산의 95%를 유지하도록 설정
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)  # 테스트 데이터에도 동일한 변환 적용

In [8]:
# PCA 이후 랜덤포레스트 훈련
rf_clf_pca = RandomForestClassifier(n_estimators=10, random_state=42) # 랜덤 포레스트 모델 생성 및 학습
rf_clf_pca.fit(X_train_pca, y_train)

y_pred_pca = rf_clf_pca.predict(X_test_pca) # 예측

In [9]:
# 정확도 결과 (X_test도 PCA 적용해야합니다.)
accuracy_pca = accuracy_score(y_test, y_pred_pca)
print(f"PCA 적용 후 랜덤 포레스트 정확도: {accuracy_pca:.4f}")

PCA 적용 후 랜덤 포레스트 정확도: 0.8925


# 2. LDA

- LDA로 변환한 데이터 세트에 랜덤 포레스트 적용

In [10]:
# LDA 라이브러리 불러오기
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA

In [11]:
# LDA 적용 : n_components=5
lda = LDA(n_components=5)  # MNIST 데이터는 6개의 클래스 -> 최대 5개의 주성분 가능
X_train_lda = lda.fit_transform(X_train, y_train)
X_test_lda = lda.transform(X_test)  # 테스트 데이터에도 동일한 변환 적용

In [12]:
# LDA 이후 랜덤포레스트 훈련
rf_clf_lda = RandomForestClassifier(n_estimators=10, random_state=42)
rf_clf_lda.fit(X_train_lda, y_train)

y_pred_lda = rf_clf_lda.predict(X_test_lda)

In [13]:
# 정확도 결과 (X_test도 LDA 적용해야합니다.)
accuracy_lda = accuracy_score(y_test, y_pred_lda)
print(f"LDA 적용 후 랜덤 포레스트 정확도: {accuracy_lda:.4f}")

LDA 적용 후 랜덤 포레스트 정확도: 0.8301
