In [2]:
import pandas as pd

In [3]:
# csv 확장자 파일 목록 가져오기

import os

files = []

for i in os.listdir():
    if i.endswith('.csv'):
        files.append(i)
        
print(files)

['allllll.csv']


In [4]:
data = pd.read_csv(files[0])

In [5]:
data.columns

Index(['Unnamed: 0', '동', '단독가구', '인구', '택배함수', '택배착지량점수', '범죄발생', '여성인구'], dtype='object')

In [6]:
# 불필요한 열 제거

data.drop('Unnamed: 0', axis = 1, inplace = True)

In [9]:
data

         동  단독가구     인구  택배함수   택배착지량점수        범죄발생   여성인구
315  신대방2동  3672  20140   0.0  4.333333  226.666667  10555


In [20]:
# 데이터를 Input과 Label로 분리

x = data[data.columns.difference(['택배함수'])]
y = data['택배함수']

Unnamed: 0,단독가구,동,범죄발생,여성인구,인구,택배착지량점수
0,1487,사직동,226.235294,5256,9636,1.117647
1,380,삼청동,226.235294,1452,2780,1.117647
2,1129,부암동,226.235294,5176,9951,1.117647
3,1302,평창동,226.235294,9819,18377,1.117647
4,494,무악동,226.235294,4468,8365,1.117647
...,...,...,...,...,...,...
426,6,둔촌1동,223.000000,63,145,3.833333
427,2389,둔촌2동,223.000000,12744,25103,3.833333
428,4551,암사1동,223.000000,17710,35118,3.833333
429,6378,천호2동,223.000000,17223,33940,3.833333


In [None]:
# https://m.blog.naver.com/tjdrud1323/221720259834
# 주성분 분석에 관한 글

In [22]:
# 성분의 크기에 따른 분산량 왜곡을 막기 위한 표준화 패키지

from sklearn.preprocessing import StandardScaler

In [25]:
# StandardScaler 객체를 생성해 표준화 진행 후 Data Frame으로 변환하여 저장

x_trans = StandardScaler().fit_transform(x.drop(['동'], axis = 1).values)
features = ['단독가구', '범죄발생', '여성인구', '인구', '택배착지량점수']
x_trans = pd.DataFrame(x_trans, columns = features)

In [28]:
# 표준화 확인

x_trans

Unnamed: 0,단독가구,범죄발생,여성인구,인구,택배착지량점수
0,-0.848338,-0.222206,-1.413445,-1.495658,-2.200656
1,-1.368730,-0.222206,-2.230123,-2.262063,-2.200656
2,-1.016631,-0.222206,-1.430620,-1.460446,-2.200656
3,-0.935305,-0.222206,-0.433817,-0.518537,-2.200656
4,-1.315139,-0.222206,-1.582620,-1.637738,-2.200656
...,...,...,...,...,...
426,-1.544544,-0.277946,-2.528326,-2.556619,-0.180462
427,-0.424314,-0.277946,0.194149,0.233335,-0.180462
428,0.592025,-0.277946,1.260297,1.352872,-0.180462
429,1.450883,-0.277946,1.155743,1.221188,-0.180462


In [29]:
# 선형 차원 축소 중 주성분 분석 (Principal Component Analysis) 패키지

from sklearn.decomposition import PCA

In [41]:
# 2개의 주성분으로 축소

pca2 = PCA(n_components = 2)
pca2_values = pca2.fit_transform(x_trans)

# 주성분 분석의 설명력 확인

print('Explained Variance Ratios : {} \nThe Sum of Explained Variance Ratios : {}'
      .format(pca2.explained_variance_ratio_, sum(pca2.explained_variance_ratio_)))

Explained Variance Ratios : [0.50330872 0.26379037] 
The Sum of Explained Variance Ratios : 0.7670990923846408


In [None]:
# 주성분 1이 약 0.5의 설명력 주성분 2의 설명력이 약 0.3의 설명력을 가진다.
# 두 개의 주성분이 전체 분산의 약 76%를 설명하고 있다.

In [42]:
# 3개의 주성분으로 축소

pca3 = PCA(n_components = 3)
pca3_values = pca3.fit_transform(x_trans)

# 주성분 분석의 설명력 확인

print('Explained Variance Ratios : {} \nThe Sum of Explained Variance Ratios : {}'
      .format(pca3.explained_variance_ratio_, sum(pca3.explained_variance_ratio_)))

Explained Variance Ratios : [0.50330872 0.26379037 0.14008735] 
The Sum of Explained Variance Ratios : 0.9071864390379271


In [None]:
# 3개의 주성분이 전체 분산의 90%를 설명하고 있다.
# 이 코드에는 없지만 4개의 주성분으로 축소하였을 때 주성분 4는 약 0.9의 설명력을 가지므로 유의한 축소라고 볼 수 없다.
# 따라서 3개의 주성분으로 차원 축소를 진행하였다.

In [44]:
# Data Frame으로 변환 후 csv 파일로 출력

principal_df = pd.DataFrame(data = pca3_values, columns = ['PC 1', 'PC 2', 'PC 3'])
principal_df.to_csv('PCA.csv', encoding = 'cp949') # cp949는 한글 인코딩