## PCA를 통한 주식 시장 분석 

### KOSPI200 종목 data 를 sklearn.decomposition 을 통해 PCA 분석

- PCA를 일일 주식 수익률에 적용할 때 첫 번째 주성분은 시장 요인(beta)에 근사합니다.

In [1]:
import os
import os.path
import numpy as np
import datetime
import matplotlib.pyplot as plt
import pandas as pd
import pickle
import FinanceDataReader as fdr
from pykrx import stock
from sklearn.decomposition import PCA
import korean

In [2]:
# 코스피200 ticker 및 지수 가져오기
with open('./data/kospi200tickers.pickle', 'rb') as f:
    tickers = pickle.load(f)   

- `{ticker: name}` dictionary  작성

In [3]:
ticker_to_name = {}

for ticker in tickers:
    ticker_to_name[ticker[0]] = ticker[1]

2020-01-01 ~ 2020-12-31 기간 KOSPI200 종목의 주가 정보 수집

In [4]:
%%time
main_df = pd.DataFrame()
start = '2020-01-01'
end = '2021-01-01'

for ticker in tickers:
    df = fdr.DataReader(ticker[0], start=start, end=end)
    df.rename(columns={'Close': ticker[1]}, inplace=True)
    main_df =  pd.concat([main_df, df[ticker[1]]], axis=1)
            
print(main_df.shape)
main_df.head()

(248, 200)
CPU times: total: 1.27 s
Wall time: 26.7 s


Unnamed: 0,삼성전자,SK하이닉스,NAVER,삼성바이오로직스,카카오,LG화학,삼성SDI,현대차,기아,카카오뱅크,...,동원F&B,LX홀딩스,넥센타이어,쿠쿠홀딩스,SNT모티브,삼양식품,현대두산인프라코어,롯데하이마트,일양약품,LX하우시스
2020-01-02 00:00:00,55200,94700,182500,423485,30609,314000,232000,118000,42500,,...,223500,,8900,20700,43600,89100,4655,30600,22850,54900
2020-01-03 00:00:00,55500,94500,181500,417061,30609,311000,229000,116000,42000,,...,222500,,8950,20900,43550,92600,4646,30400,22650,55500
2020-01-06 00:00:00,55500,94300,180500,407178,31010,307000,230000,116000,41900,,...,218000,,8890,20500,42400,92400,4494,29500,21850,54600
2020-01-07 00:00:00,55800,94000,187000,414096,32114,311000,231500,115500,42050,,...,220000,,8790,20600,42650,98000,4460,30100,22000,55900
2020-01-08 00:00:00,56800,97400,183000,403719,32014,302000,229000,112000,41300,,...,219500,,8560,20700,40800,97400,4266,28600,20650,53900


### null data cleansing  
- start 일 이후 상장한 종목이 있으므로 이전 날짜는 back fill 로 채움 
- 전체가 NaN (기간 중 상장 않은 종목)인 종목은 drop

In [5]:
main_df.loc[:, main_df.isnull().sum() > 0]

Unnamed: 0,카카오뱅크,크래프톤,SK바이오사이언스,하이브,SK아이이테크놀로지,SK바이오팜,DL이앤씨,LX홀딩스
2020-01-02,,,,,,,,
2020-01-03,,,,,,,,
2020-01-06,,,,,,,,
2020-01-07,,,,,,,,
2020-01-08,,,,,,,,
...,...,...,...,...,...,...,...,...
2020-12-23,,,,151470.0,,171000.0,,
2020-12-24,,,,156420.0,,171000.0,,
2020-12-28,,,,154935.0,,167500.0,,
2020-12-29,,,,156915.0,,168000.0,,


In [None]:
prices

전체가 NaN인 종목은 drop

## Asset의 daily Return(일일 수익률) 계산 

- 주가 크기가 서로 다르므로 log 함수 적용 
- log 를 적용했으므로 pct_change() 대신 diff() 적용

- 누적 수익률 계산  
- log 수익률이므로 prod() 대신 cumsum()으로 더해줌  
- 원래의 값으로 복원하려면 np.exp() 적용

위의 수치는 2020년  이후 KOSPI200 지수 500개 종목의 일일 수익률과 누적 수익률을 보여줍니다. 원시 데이터의 양이 상당히 많아 보일 수 있으므로 PCA를 통해 일일 수익률의 첫 번째 주성분을 계산하여 처리해 보겠습니다.

아래 그림은 기본적으로 200개 주식 각각에 대한 값을 포함하는 차원 200의 벡터인 첫 번째 주성분의 값을 보여줍니다.

첫 번째 주성분은 대부분의 분산을 설명하는 입력 데이터의 선형 조합을 나타내고, 주식 수익률의 주요 동인은 전체 시장 요인이므로, 첫 번째 주성분(즉, 입력 데이터의 선형 결합)에 비례하여 현금을 할당해 주식 포트폴리오를 구성하면 KOSPI200의 수익률을 대략적으로 복제할 수 있음을 의미합니다.

첫번째 주성분 비율로 구성한 200개 종목 portfolio 의 daily log return

my_portfolio의 누적 수익률

아래 그림은 PCA 첫번째 주성분 portfolio가 KOSPI200을 거의 비슷하게 복제함을 보여줍니다.

## PCA로 COVID19의 종목별 영향 분석

PCA를 사용하면 사전 지식 없이 COVID19 대유행의 영향을 가장 많이 받거나 적게 받은 비즈니스를 함께 클러스터링할 수 있습니다.

2020년은 COVID19 대유행으로 인해 주식 시장에 격변의 시기였습니다. PCA를 사용하여 이 대유행이 개별 주식에 어떤 영향을 미쳤는지 분석할 수 있습니다.


첫 번째 주성분을 살펴보고 아래와 같이 PCA 가중치가 가장 크거나 가장 작은 종목을 선택합니다.

pca 가 가장 negative한 종목들

pca가 가장 덜 negative한 종목들

pca가 가장 negative한 종목(negative beta, 시장 영향을 많이 받은 종목)과 덜 negative한 종목(시장 영향을 적게 받은 종목) 시각화

우리는 PCA 가중치에 따라 상위 및 하위 10개 기업을 매수한 포트폴리오를 구성할 수 있습니다. 아래 그림에서 볼 수 있듯이 이 하위 10 종목 포트폴리오는 KOSPI200 지수보다 더 손실을 본 반면, 상위 10 종목 포트폴리오는 팬데믹으로 인해 실제로 수혜를 입은 회사에 투자했기 때문에 시장보다 훨씬 더 나은 성과를 거두었을 것입니다.