### [1] 차원 축소
### - PCA(Principal Component Analysis) : 주성분 분석
1) 차원 축소 알고리즘, 비지도 학습
2) 이미지 데이터의 차원 축소, 자연언어 텍스트 의미 분석
3) 원본 데이터의 정보 유실이 최소화 되도록 축소시킨다
4) 데이터의 변동성(Variance)을 기반으로 축을 생성하여 축소하는 알고리즘이다  
5) 이미지 분류 등의 분류 수행시 과적합을 방지하여 예측 성능 향상

In [3]:
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# 당뇨병 데이터셋 불러오기
df = pd.read_csv("./data/diabetes.csv")   # 주성분 분석을 해보자. -> 데이터 패턴을 확인하기 위해
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


In [10]:
# 표준화 : 모든 변수를 동일한 스케일로 조정하겠다.
X=df.drop('Outcome',axis=1) # y값을 주던 안 주던 결과에는 크게 상관 없다.
scaler=StandardScaler()
scaler_df=scaler.fit_transform(X) # 평균을 0, 표준편차 1
scaler_df

array([[ 0.63994726,  0.84832379,  0.14964075, ...,  0.20401277,
         0.46849198,  1.4259954 ],
       [-0.84488505, -1.12339636, -0.16054575, ..., -0.68442195,
        -0.36506078, -0.19067191],
       [ 1.23388019,  1.94372388, -0.26394125, ..., -1.10325546,
         0.60439732, -0.10558415],
       ...,
       [ 0.3429808 ,  0.00330087,  0.14964075, ..., -0.73518964,
        -0.68519336, -0.27575966],
       [-0.84488505,  0.1597866 , -0.47073225, ..., -0.24020459,
        -0.37110101,  1.17073215],
       [-0.84488505, -0.8730192 ,  0.04624525, ..., -0.20212881,
        -0.47378505, -0.87137393]])

In [11]:
# PCA 적용 : 2개의 주성분만 사용하겠다.
pca = PCA(n_components=2)  # 2차원으로 차원 축소하겠다.
pca_result=pca.fit_transform(scaler_df)
pca_result 

array([[ 1.06850273,  1.23489499],
       [-1.12168331, -0.73385167],
       [-0.39647671,  1.59587594],
       ...,
       [-0.28347525,  0.09706503],
       [-1.06032431,  0.83706234],
       [-0.83989172, -1.15175485]])

In [7]:
# pca를 데이터 프레임으로 변환해서 확인 하자
pca_df=pd.DataFrame(data=pca_result, columns=['PCA_1', 'PCA_2']) # 데이터 y값은 빼야 한다. 무조건 X만 가지고 온다. 비지도 학습
pca_df.head()
# 좌표가 되어 시각화를 할 수 있다.

Unnamed: 0,PCA_1,PCA_2
0,-1.756947,-1.111743
1,1.507421,0.559406
2,-0.650822,-1.929576
3,1.587398,1.065075
4,-2.483374,2.359563


In [12]:
# 각 PCA 객체의 속성값을 출력 해보자.
print(pca.components_)                # 주성분 벡터 방향
print(pca.explained_variance_)        # 분산의 양
print(pca.explained_variance_ratio_)  # 전체 분산에서 각 주성분이 차지하는 비율, 비율의 합이 1
print(pca.singular_values_)           # 주성분 특이값: SVD : 주성분에 데이터 투영했을 때 스케일
print(pca.mean_)                      # 평균 [42.50554339 36.91438259]
print(pca.n_components_)              # 주성분 수
print(pca.n_samples_)                 # 원본 데이터의 샘플 수
print(pca.noise_variance_)            
# 잡음, 분산값, 데이터 일부를 분산하고 싶을 때(분류(라벨로), 사각형(오브젝트 디텍션: 바운드 박스), 분리(세그멘테이션: 전경 배경 분리 ))
print(pca.n_features_in_)
# print(pca.feature_names_in_) # 오류

# 특성이 10개 이상이면 y를 제거하고 X값만 가져다가 PCA 2개로 하고

[[ 0.1284321   0.39308257  0.36000261  0.43982428  0.43502617  0.45194134
   0.27061144  0.19802707]
 [ 0.59378583  0.17402908  0.18389207 -0.33196534 -0.25078106 -0.1009598
  -0.122069    0.62058853]]
[2.09711056 1.73346726]
[0.26179749 0.21640127]
[40.10590727 36.4632608 ]
[-6.47630098e-17 -9.25185854e-18  1.50342701e-17  1.00613962e-16
 -3.00685403e-17  2.59052039e-16  2.45174251e-16  1.93132547e-16]
2
768
0.696642071712788
8
