<a href="https://colab.research.google.com/github/zzhining/ml_basic/blob/main/pca_skeleton.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PCA

**[참고자료]** 
- [sklearn pca](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html)

# [실습 01] Iris Dataset

## 실습 목표
---
- 차원 축소의 필요성 및 효과에 대해 이해합니다.
- PCA를 수행하여 차원 축소하는 방법에 대해 실습합니다.

## 실습 목차
---

1. **데이터 읽기:** iris 데이터를 불러오고 Dataframe 구조를 확인

2. **데이터 전처리:** 머신러닝 모델에 필요한 입력값 형식으로 데이터 처리

3. **머신러닝 모델 학습:** 분류 모델을 사용하여 학습 수행, 평가 및 예측 수행

3. **PCA 적용 후 머신러닝 모델 학습:** PCA로 차원 축소한 변수의 성능 비교

## 실습 개요
---
머신러닝 프로세스 과정을 이해하고, 데이터 전처리, 학습, 평가 단계를 구현합니다.

## 1. 데이터 읽기
---



### 1.1 라이브러리 불러오기
---
머신러닝에 필요한 주요 라이브러리를 불러옵니다.

 - **numpy**: 수치형 데이터를 배열 구조로 처리하기 위한 라이브러리
 - **pandas**: 데이터프레임을 다루기 위한 라이브러리
 - **matplotlib.pyplot**: 데이터시각화를 위한 라이브러리
 - **seaborn**: 데이터시각화를 위한 라이브러리

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.datasets import load_iris

seed = 42

### 1.2 데이터 불러오기
---
pandas를 사용하여 dataframe 형태로 데이터를 불러옵니다. 데이터프레임을 담을 변수는 `df`로 설정합니다.

In [None]:
# 사이킷런 내장 데이터 셋 API 호출
iris = load_iris()
df = pd.DataFrame(iris.data , columns=iris.feature_names)
df['species']=iris.target
df.head()


### 1.3 데이터 탐색
---

`df`의 컬럼별 요약정보(info)를 확인합니다. 각 컬럼별 데이터 타입과 결측치 여부를 확인합니다.

## 2. 데이터 전처리(원본)
----
머신러닝을 하기 위한 데이터 전처리를 수행합니다. 독립변수(X)와 종속변수(Y)로 각 컬럼을 나누고, 학습용 데이터와 테스트용 데이터로 분할하는 데이터 분할을 수행합니다. 독립변수(X)에 대해서 정규화를 수행합니다.

### 2.1 종속변수, 독립변수 할당
-----

X에 `species`를 제외한 모든 컬럼이 할당되었습니다.

### 2.2 학습용, 테스트용 데이터 분할
-----
train_test_split()을 사용하여 전처리가 완료된 데이터를 분할합니다.

150개의 데이터가 학습용 데이터 120개, 테스트용 데이터 30개로 분할되었습니다.

0과 1의 비율이 학습용 데이터셋과 테스트용 데이터 셋 모두 약 59:41로 기존 데이터의 비율과 동일하게 분할되었습니다.

## 3. 머신러닝 모델 수행(원본)
-----

RandomForestClassifier 알고리즘을 사용하여 분류(classifier) 모델을 생성하는 머신러닝 학습을 수행합니다.


### 3.1 학습

RandomForestClassifier 클래스의 기본 매개변수를 사용하여 모델을 학습시킵니다.

### 3.2 평가
-----

### 3.3 예측
-----

예측값과 실제값의 분포를 확인하기 위해 혼동행렬을 사용하여 시각화 합니다.

In [None]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import ConfusionMatrixDisplay






## 4. 데이터 전처리 - 차원축소(PCA)
----
PCA를 사용하여 차원축소를 진행합니다.

### 4.1 차원축소(PCA)

In [None]:
from sklearn.decomposition import PCA



### 4.2 종속변수, 독립변수 할당
----------


### 4.3 학습용, 테스트용 데이터 분할
----------

## 5. 머신러닝 모델 수행(PCA)
-----

### 5.1 학습
---

### 5.2 평가
---

### 5.3 예측
-----

# [실습 02] 

- 데이터셋1 : https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud
- 데이터셋2 : 유방암 데이터 셋
- EDA
    * 모델 생성을 위해 고려해야할 요소 및 전처리 활동은 무엇이 있을까?
- PCA를 사용하여 차원 축소 
    * 몇 개의 차원으로 축소하는 것이 좋을까?


In [None]:
credit_df = pd.read_csv('creditcard.csv')
credit_df.head()

In [None]:
from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()

breast_cancer_df = pd.DataFrame(data=breast_cancer.data, columns=breast_cancer.feature_names)
breast_cancer_df['label'] = breast_cancer.target
breast_cancer_df.head()