# 월간 데이콘; KOSPI 기반 분석 시각화 경진대회

## Goal
---

### 타 국가와의 상관관계

우리나라는 수출 의존도가 높은 국가로, 다른 국가의 경제 상황에 영향을 많이 받습니다.

따라서 주요 국가들의 지수 등락률과 코스피의 등락률이 관계가 있는지 살펴보았습니다.

### 원자재와의 상관관계

금/원유와 같은 원자재와의 상관관계도 분석했습니다.

### 기준금리와의 상관관계

대한민국과 미국의 기준금리와도 코스피 지수와 상관관계가 존재하는지 알아보았습니다.

### 갭 상승 / 갭 하락과의 상관관계

'갭'이라고 해서, 전날의 종가와 당일의 시가에 차이가 많이 나는 경우를 말합니다.

차트로 볼 때 전날의 종가와 당일의 시가 사이에 빈 공간이 생기기 때문에 '갭'이라는 용어가 생겨났는데,

혹자는 이렇게 '갭'이 생겼을 때 주가는 방향성을 갖는다고 말합니다.

정말 그러한지 한번 살펴보도록 하겠습니다.


### 거래량과의 상관관계

거래량이 평소보다 많은 날에 상승/하락 추세가 정해진다고들 말합니다.

정말 그럴까요? 백테스팅을 통해 한번 알아보도록 하겠습니다.

## Index
---
1. 타 국가 지수와의 비교

2. 금, 원유와의 비교

3. 기준금리와의 비교

4. 갭과의 상관관계

5. 거래량과의 상관관계

6. 종합 정리

7. 인사이트

## Abstract
---


In [12]:
# 필요한 라이브러리 설치

!pip install yfinance

Defaulting to user installation because normal site-packages is not writeable


In [13]:
# 필요한 라이브러리 다운로드

import pandas as pd
import datetime
import yfinance as yf

# 경고 무시
import warnings
warnings.filterwarnings(action='ignore')


In [17]:
# 대회 데이터 살펴보기

kospi = pd.read_csv('kospi_data.csv')
print(kospi.shape)
kospi.head()

(11024, 7)


Unnamed: 0,Date,Close,Open,High,Low,Volume,Change
0,1981-05-01,123.6,123.6,123.6,123.6,3330000.0,0.0098
1,1981-05-02,123.5,123.5,123.5,123.5,2040000.0,-0.0008
2,1981-05-04,120.6,120.6,120.6,120.6,1930000.0,-0.0235
3,1981-05-06,120.7,120.7,120.7,120.7,1690000.0,0.0008
4,1981-05-07,119.3,119.3,119.3,119.3,1480000.0,-0.0116


In [4]:
kospi.tail()

# 1981년 5월 1일부터 2022년 8월 31일까지의 데이터가 존재하는 것을 알 수 있습니다.
# 

Unnamed: 0,Date,Close,Open,High,Low,Volume,Change
11019,2022-08-25,2477.26,2459.79,2477.26,2455.32,426230000.0,0.0122
11020,2022-08-26,2481.03,2489.14,2497.76,2476.75,520090000.0,0.0015
11021,2022-08-29,2426.89,2432.06,2432.89,2417.01,448750000.0,-0.0218
11022,2022-08-30,2450.93,2441.21,2453.91,2433.48,327210.0,0.0099
11023,2022-08-31,2472.05,2433.47,2473.75,2426.14,397290.0,0.0086


# 1. 타 국가와의 상관관계 알아보기
---

타 국가 지수로는

- 항셍지수
- 나스닥 지수
- 다우존스 지수
- 니케이225 지수

를 선택했습니다.

이 지수들의 등락률과 코스피 지수의 등락률이 관계가 있는지 살펴보겠습니다.

## 데이터 전처리
---

각각의 데이터프레임에서 `Volume`, `Dividends`, `Stock Splits` 는 사용하지 않으므로 삭제해주겠습니다.

그리고 데이터프래임에 그 날의 등락률이 포함되어있지 않으므로, 등락률을 구해서 데이터프레임에 추가해주도록 하겠습니다.

In [40]:
start_date = datetime.datetime(1981, 5, 1)
end_date = datetime.datetime(2022, 8, 31)

# 데이터 전처리 함수
def data_preprocessing(ticker):
    # 데이터 받아오기
    ticker_df = yf.Ticker(f'^{ticker}')
    data = ticker_df.history(start=start_date, end=end_date)

    # 데이터 전처리
    data.drop(['Volume', 'Dividends', 'Stock Splits'], axis=1, inplace=True)
    data['Change'] = ((data['Close'] / data['Open']) - 1) * 100

    return data

# 항셍 지수
hsi = data_preprocessing('HSI')

# 나스닥 지수
nasdaq = data_preprocessing('IXIC')

# 다우존스 지수
doj = data_preprocessing('DJI')

# 니케이 지수
nikkei = data_preprocessing('N225')
nikkei.tail()

Unnamed: 0_level_0,Open,High,Low,Close,Change
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2022-08-24 00:00:00+09:00,28481.339844,28515.609375,28282.210938,28313.470703,-0.5894
2022-08-25 00:00:00+09:00,28415.109375,28534.710938,28357.029297,28479.009766,0.224882
2022-08-26 00:00:00+09:00,28639.470703,28792.929688,28608.699219,28641.380859,0.00667
2022-08-29 00:00:00+09:00,28161.060547,28179.089844,27788.119141,27878.960938,-1.001736
2022-08-30 00:00:00+09:00,28086.720703,28233.800781,27944.25,28195.580078,0.387583
