### - PCA(Principal Component Analysis) : 주성분 분석
- 차원 축소 알고리즘, 비지도 학습
- 이미지 데이터의 차원 축소, 자연언어 텍스트 의미 분석
- 원본 데이터의 정보 유실이 최소화 되도록 축소시킨다
- 데이터의 변동성(Variance)을 기반으로 축울 생성하여 축소하는 알고리즘이다  
- 이미지 분류등의 분류 수행시 과적합을 방지하여 예측 성능 향상

주성분 분석의 기법
- 변동성(variance) : 데이터가 가장 많이 퍼져있는 방향을 찾아낸다
- 축을 생성 : 원본의 x 특성값들을 선형 조합으로 만들고 각 축은 직교한다
               첫번째 주성분 데이터 분산을 두번째 주성분은 첫번째 주성분과 직교하는 방향으로 분산을 최대화
- 데이터의 차원 축소는 분산을 유지하면서 차원을 축소한다
- 시각화를 통해 2차원 3차원 축소 확인을 패턴 모형 확인으로 확인할 수 있다
- PCA , t-SNE , UMAP등 차원축소 알고리즘으로 이미지,패턴인식등에 함께 사용된다

In [2]:
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

df=pd.read_csv('../data/diabetes.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


위 데이터 주성분 구현시 확인 할 작업
1)전처리 : PCA는 수치형 데이터 적용 , 만일 x가 범주형이면 수치형 변환
2)결측값 : 결측치가 없는 데이터만 적용, 결측치 있다면 행제거 대체값 적용
3)표준화 : 데이터가 분산기법 , 데이터 표준화

In [3]:
scaler = StandardScaler()
scaler_df = scaler.fit_transform(df)
scaler_df

array([[ 0.63994726,  0.84832379,  0.14964075, ...,  0.46849198,
         1.4259954 ,  1.36589591],
       [-0.84488505, -1.12339636, -0.16054575, ..., -0.36506078,
        -0.19067191, -0.73212021],
       [ 1.23388019,  1.94372388, -0.26394125, ...,  0.60439732,
        -0.10558415,  1.36589591],
       ...,
       [ 0.3429808 ,  0.00330087,  0.14964075, ..., -0.68519336,
        -0.27575966, -0.73212021],
       [-0.84488505,  0.1597866 , -0.47073225, ..., -0.37110101,
         1.17073215,  1.36589591],
       [-0.84488505, -0.8730192 ,  0.04624525, ..., -0.47378505,
        -0.87137393, -0.73212021]])

In [4]:
pca = PCA(n_components=2)
pca_result = pca.fit_transform(scaler_df)
pca_result

array([[-1.75694707, -1.11174258],
       [ 1.50742148,  0.55940565],
       [-0.65082201, -1.92957633],
       ...,
       [ 0.57408846, -0.03381634],
       [ 0.17269908, -1.32289215],
       [ 1.32126715,  1.02748861]])

In [7]:
pca_df = pd.DataFrame(pca_result,columns=['PCA_1','PCA_2'])
pca_df

Unnamed: 0,PCA_1,PCA_2
0,-1.756947,-1.111743
1,1.507421,0.559406
2,-0.650822,-1.929576
3,1.587398,1.065075
4,-2.483374,2.359563
...,...,...
763,-1.283069,-1.211187
764,0.502281,0.674135
765,0.574088,-0.033816
766,0.172699,-1.322892


<< 위 내용의 결과 분석>>
데이터 변동성 : 음과 양의 변동값 확인
샘플의 분포 : 이상치 판단 , 데이터 주성분 축의 값으로 분포도를 확인
다차원 공간 : 분포도 영향 확인 값이 확연하다.

In [14]:
print(pca.explained_variance_ratio_) #전체 분산에서 각 주성분이 차지하는 비율 , 비율의 합이 1
print(pca.explained_variance_) #분산의 양
print(pca.mean_)
print(pca.components_) #주성분 벡터방향
print(pca.singular_values_) #주성분 특이값 : SVD 주성분에 데이터 투영했을 때 스케일
print(pca.noise_variance_) #잡음 분산값

[0.26138907 0.19714578]
[2.35556873 1.77662535]
[-6.47630098e-17 -9.25185854e-18  1.50342701e-17  1.00613962e-16
 -3.00685403e-17  2.59052039e-16  2.45174251e-16  1.93132547e-16
  7.40148683e-17]
[[-0.21599835 -0.43675677 -0.30045538 -0.30729203 -0.33633235 -0.39734198
  -0.23763447 -0.27865556 -0.41565279]
 [-0.52744611 -0.09563451 -0.04625339  0.44839783  0.35534569  0.21031643
   0.17519467 -0.53320237 -0.15476805]]
[42.50554339 36.91438259]
0.6970771352839493
