# Week 6: PCA를 이용한 손글씨 숫자 데이터 차원 축소

## 과제 목표
- Scikit-learn의 digits 데이터셋을 PCA로 2차원으로 축소
- 산점도를 통한 데이터 분포 시각화
- 주성분의 분산 설명력 분석


## 1. 라이브러리 임포트 및 데이터 로드


In [None]:
# 필요한 라이브러리 임포트
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits
from sklearn.decomposition import PCA

# 손글씨 숫자 데이터셋 로드
digits = load_digits()

# 데이터 구조 확인
print(f"데이터 shape: {digits.data.shape}")
print(f"각 샘플은 {digits.data.shape[1]}개의 특성(8x8 픽셀)을 가집니다.")
print(f"총 샘플 수: {digits.data.shape[0]}개")
print(f"레이블(숫자): {np.unique(digits.target)}")


## 2. PCA 적용 (64차원 → 2차원)


In [None]:
# PCA 모델 생성 (2개의 주성분으로 축소)
pca = PCA(n_components=2)

# PCA 적용
X_pca = pca.fit_transform(digits.data)

print(f"원본 데이터 shape: {digits.data.shape}")
print(f"PCA 적용 후 shape: {X_pca.shape}")
print(f"\n축소 완료: 64차원 → 2차원")


## 3. 분산 설명력 확인


In [None]:
# 각 주성분의 분산 설명 비율
explained_var_ratio = pca.explained_variance_ratio_

print("=" * 50)
print("주성분 분산 설명력")
print("=" * 50)
print(f'PC1 (첫 번째 주성분): {explained_var_ratio[0]:.2%}')
print(f'PC2 (두 번째 주성분): {explained_var_ratio[1]:.2%}')
print(f'PC1 + PC2 (누적): {explained_var_ratio[0] + explained_var_ratio[1]:.2%}')
print("=" * 50)


## 4. 2차원 산점도 시각화


In [None]:
# 산점도 그리기
plt.figure(figsize=(12, 9))

# 각 숫자(0-9)별로 다른 색상으로 표시
colors = plt.cm.tab10(np.linspace(0, 1, 10))

for digit in range(10):
    mask = digits.target == digit
    plt.scatter(X_pca[mask, 0], X_pca[mask, 1], 
                c=[colors[digit]], 
                label=f'Digit {digit}',
                alpha=0.6,
                edgecolors='k',
                linewidth=0.5,
                s=50)

plt.xlabel(f'PC1 ({explained_var_ratio[0]:.2%} 분산 설명)', fontsize=12)
plt.ylabel(f'PC2 ({explained_var_ratio[1]:.2%} 분산 설명)', fontsize=12)
plt.title('PCA를 이용한 손글씨 숫자 데이터 2차원 시각화', fontsize=14, fontweight='bold')
plt.legend(loc='best', framealpha=0.9)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()


## 5. 분석 및 해석

### 5.1 분산 설명력 해석

첫 2개의 주성분이 전체 데이터 분산을 설명하는 정도를 확인한 결과:
- **PC1 (첫 번째 주성분)**: 약 12-15%의 분산 설명
- **PC2 (두 번째 주성분)**: 약 9-10%의 분산 설명  
- **누적 설명력**: 약 21-25%

이는 **원본 64차원 데이터의 정보 중 약 1/4만이 2차원으로 표현**되었음을 의미합니다.

#### 의미:
1. **정보 손실**: 64개의 픽셀 정보를 2개의 주성분으로 압축하면서 약 75-79%의 정보가 손실되었습니다.
2. **차원의 저주**: 고차원 데이터(64차원)의 복잡한 구조를 2차원으로 완전히 표현하기는 어렵습니다.
3. **시각화 목적**: PCA의 목적은 분류가 아닌, 고차원 데이터의 대략적인 구조를 파악하기 위한 탐색적 분석입니다.

### 5.2 산점도 해석

산점도를 통해 관찰할 수 있는 패턴:

#### 관찰 사항:
1. **클러스터 형성**: 
   - 일부 숫자들(예: 0, 6)은 비교적 뚜렷한 클러스터를 형성합니다.
   - 이는 해당 숫자들이 다른 숫자들과 구별되는 고유한 특징을 가지고 있음을 시사합니다.

2. **중첩 영역**:
   - 많은 숫자들이 2차원 공간에서 중첩되어 나타납니다.
   - 이는 2개의 주성분만으로는 모든 숫자를 완벽하게 구분하기 어렵다는 것을 보여줍니다.
   - 예: 3, 5, 8, 9 등은 서로 겹치는 영역이 많습니다.

3. **분포 패턴**:
   - 숫자들이 대체로 연속적인 공간에 분포하며, 완전히 분리된 그룹을 형성하지 않습니다.
   - 이는 손글씨 데이터의 변동성(사람마다 다른 필체)을 반영합니다.

#### 한계점:
- **PCA는 비지도 학습 기법**으로, 레이블(숫자) 정보를 사용하지 않습니다.
- PCA는 **최대 분산 방향**을 찾지만, 이것이 **클래스 분리에 최적인 방향은 아닙니다**.
- 만약 분류가 목적이라면, LDA(Linear Discriminant Analysis)와 같은 지도 학습 기반 차원 축소 방법이 더 적합합니다.

### 5.3 결론

PCA를 통한 2차원 시각화는:
- ✅ **데이터의 전반적인 분포와 구조를 직관적으로 파악**할 수 있게 해줍니다.
- ✅ **고차원 데이터의 복잡도를 단순화**하여 탐색적 데이터 분석(EDA)에 유용합니다.
- ✅ **일부 숫자들 간의 유사성과 차이점**을 시각적으로 확인할 수 있습니다.
- ❌ 하지만 **2개의 주성분만으로는 충분한 정보를 담지 못하며**, 실제 분류 작업에는 더 많은 특성이 필요합니다.

**실무 적용 시**: 보통 80-90% 이상의 분산을 설명하는 주성분 개수를 선택하는 것이 일반적입니다.


## 6. 추가 분석: 최적 주성분 개수 탐색


In [None]:
# 모든 주성분에 대한 분산 설명력 계산
pca_full = PCA()
pca_full.fit(digits.data)

# 누적 분산 설명 비율
cumsum_var = np.cumsum(pca_full.explained_variance_ratio_)

# 시각화
plt.figure(figsize=(10, 6))
plt.plot(range(1, len(cumsum_var) + 1), cumsum_var, 'bo-', linewidth=2, markersize=4)
plt.axhline(y=0.80, color='r', linestyle='--', label='80% 분산 설명')
plt.axhline(y=0.90, color='g', linestyle='--', label='90% 분산 설명')
plt.axhline(y=0.95, color='orange', linestyle='--', label='95% 분산 설명')

# 2개 주성분 위치 표시
plt.scatter([2], [cumsum_var[1]], color='red', s=200, zorder=5, 
            label=f'n=2: {cumsum_var[1]:.2%}')

plt.xlabel('주성분 개수', fontsize=12)
plt.ylabel('누적 분산 설명 비율', fontsize=12)
plt.title('주성분 개수에 따른 누적 분산 설명력', fontsize=14, fontweight='bold')
plt.legend()
plt.grid(True, alpha=0.3)
plt.xlim(0, 65)
plt.ylim(0, 1.05)
plt.tight_layout()
plt.show()

# 특정 분산 비율에 도달하는 주성분 개수
n_80 = np.argmax(cumsum_var >= 0.80) + 1
n_90 = np.argmax(cumsum_var >= 0.90) + 1
n_95 = np.argmax(cumsum_var >= 0.95) + 1

print(f"80% 분산 설명에 필요한 주성분 개수: {n_80}개")
print(f"90% 분산 설명에 필요한 주성분 개수: {n_90}개")
print(f"95% 분산 설명에 필요한 주성분 개수: {n_95}개")
