In [2]:
import numpy as np
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

data = pd.read_csv('/project2/Source-Code/Data_Analysis/데이터_전처리_파일.csv', encoding='cp949')

# LabelEncoder를 이용해 Object형태의 칼럼을 숫자로 변환
le = LabelEncoder()
columns_to_encode = ['Subject', 'Machinery', 'Assembly', '청구품목', 'Part No.1', 'Part No.2', 'key1', 'key2',
                     '견적화폐', 'D/T', 'Control No.', '출고선박', '출고운반선']
data[columns_to_encode] = data[columns_to_encode].apply(lambda x: le.fit_transform(x))

# 주성분 분석에 쓰일 칼럼 선택
X = data[['리드타임_음수제거', 'Subject', '출고운반선', 'Control No.', 'Assembly']]

# 주성분 분석 실행, 주성분 n개 출력
pca = PCA(n_components=5)
X_pca = pca.fit_transform(X)

# 출력
print('Explained variance ratio:', pca.explained_variance_ratio_)
print('Cumulative explained variance ratio:', np.cumsum(pca.explained_variance_ratio_))


Explained variance ratio: [0.47552077 0.39020331 0.11478173 0.01145613 0.00803807]
Cumulative explained variance ratio: [0.47552077 0.86572408 0.98050581 0.99196193 1.        ]


# 주성분 분석 결과
- 리드타임에 영향을 가장 크게 주는 변수는 subject이며
- 추가적으로 출고운반선, Control No.의 영향이 크다.

주성분 분석(PCA)은 고차원 데이터를 저차원으로 축소하는 기법입니다. 분산의 설명량(explained variance)을 기준으로 주성분의 중요성을 평가합니다. 주성분의 설명량은 해당 주성분이 전체 분산에서 차지하는 비율을 의미합니다. 누적 설명된 분산(cumulative explained variance)은 해당 주성분과 이전 주성분까지의 설명된 분산의 누적 비율을 나타냅니다.

주어진 결과를 해석해보면 다음과 같습니다:

첫 번째 주성분(PC1)은 전체 분산의 약 47.55%를 설명합니다.
두 번째 주성분(PC2)은 전체 분산의 약 39.02%를 추가로 설명합니다.
세 번째 주성분(PC3)은 전체 분산의 약 11.48%를 추가로 설명합니다.
네 번째 주성분(PC4)와 다섯 번째 주성분(PC5)는 각각 전체 분산의 약 1.15%와 0.80%를 설명합니다.
따라서, 첫 번째 두 개의 주성분(PC1, PC2)을 사용하면 전체 분산의 약 86.57%를 설명할 수 있습니다. 세 번째 주성분(PC3)을 추가하면 설명되는 분산은 98.05%로 증가합니다. 이를 통해 원본 데이터의 대부분의 정보를 상대적으로 적은 주성분으로 설명할 수 있다는 것을 알 수 있습니다.