# 부록 A.8 차원 축소(PCA)

In [1]:
# 참조 코딩. 주피터 노트북에서 사용중인 파이썬 버전 알기
from platform import python_version
python_version()

'3.9.7'

In [2]:
import pandas as pd   # pandas 라이브러리를 불러오고 pd라고 명명
import numpy as np    # numpy 라이브러리를 불러오고 np라고 명명
df = pd.read_csv('healthcare-dataset-stroke-data.csv') # csv 데이터 파일을 읽어와 df에 저장
df.shape              # 데이터프레임 df의 행과 열 개수 알아보기

(5110, 12)

In [3]:
df.head(3)   # 데이터프레임 df의 처음 3줄까지 자료를 표시

Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke
0,9046,Male,67.0,0,1,Yes,Private,Urban,228.69,36.6,formerly smoked,1
1,51676,Female,61.0,0,0,Yes,Self-employed,Rural,202.21,,never smoked,1
2,31112,Male,80.0,0,1,Yes,Private,Rural,105.92,32.5,never smoked,1


In [4]:
cols = ['age', 'avg_glucose_level', 'bmi'] # 3개의 연속변수만 모아서 cols라는 변수에 저장
df1 = df[cols]                             # 원본 데이터프레임 df에서 3개의 연속변수만 별도로 
                                           # 데이터플레임 df1에 저장

In [5]:
df1.shape

(5110, 3)

In [6]:
df1.head(3)

Unnamed: 0,age,avg_glucose_level,bmi
0,67.0,228.69,36.6
1,61.0,202.21,
2,80.0,105.92,32.5


In [7]:
df1.describe()   # 데이터프레임에 포함된 변수들의 기초 통계량 확인

Unnamed: 0,age,avg_glucose_level,bmi
count,5110.0,5110.0,4909.0
mean,43.226614,106.147677,28.893237
std,22.612647,45.28356,7.854067
min,0.08,55.12,10.3
25%,25.0,77.245,23.5
50%,45.0,91.885,28.1
75%,61.0,114.09,33.1
max,82.0,271.74,97.6


In [8]:
df2 = df1.dropna()   # 데이터프레임 df1의 결측값이 있는 행을 제거하고 결과를 df2에 저장
df2.describe()       # 데이터프레임 df2의 기초 통계량 표시 

Unnamed: 0,age,avg_glucose_level,bmi
count,4909.0,4909.0,4909.0
mean,42.865374,105.30515,28.893237
std,22.555115,44.424341,7.854067
min,0.08,55.12,10.3
25%,25.0,77.07,23.5
50%,44.0,91.68,28.1
75%,60.0,113.57,33.1
max,82.0,271.74,97.6


In [9]:
from sklearn.preprocessing import StandardScaler # StandardScaler 불러오기
X_scaled = StandardScaler().fit_transform(df2)   # df2안의 데이터를 표준화하여 X_scaled에 저장

In [10]:
type(X_scaled)

numpy.ndarray

In [11]:
from sklearn.decomposition import PCA   # PCA를 사이킷런 라이브러리에서 불러오기
pca = PCA(n_components=2)               # 주성분을 2개 지정
X_pca = pca.fit_transform(X_scaled)     # X_scaled에 저장된 자료를 통해 주성분 분석을 실시 후 
                                        # 그 결과를 X_pca에 저장 

In [12]:
df_pca = pd.DataFrame(data = X_pca, columns = ['pc_1', 'pc_2'])
                                        # X_pca가 numpy array 형태인데, 이를 데이터프레임으로 변환
                                        # 변수명은 pc_1, pc_2로 지정 
df_pca.shape

(4909, 2)

In [13]:
df_pca.head(3)

Unnamed: 0,pc_1,pc_2
0,2.650888,-1.634549
1,1.315375,0.552382
2,1.332632,-0.846288


In [14]:
print(pca.explained_variance_ratio_)   # 각 주성분이 설명하는 분산 비율을 표기

[0.5008308  0.27977091]


In [15]:
df_scaled = pd.DataFrame(data = X_scaled, columns = cols)
                                       # X_scaled가 numpy array 형태인데, 이를 데이터프레임으로 변환
                                       # 변수명은 cols로 지정
                                       # cols에는 이전의 코딩을 통해 기존 3개 변수명이 들어 있음
df_scaled.shape

(4909, 3)

In [16]:
df_scaled.head(3)

Unnamed: 0,age,avg_glucose_level,bmi
0,1.070138,2.777698,0.981345
1,1.646563,0.013842,0.459269
2,0.272012,1.484132,0.701207


In [17]:
df_scaled.to_csv('stroke-scaled.csv', index=False) # df_scaled를 csv 형태의 파일로 저장 