---
title: KOSPI와 연관된 지수는?
jupyter: python3
---

In [2]:
from sklearn.cluster import KMeans
import FinanceDataReader as fdr
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

## 세계 각국의 지수들 관련 데이터 불러오기

### KOSPI
* change(수익률)에 * 100을 해서 %수치로 보이기 편하게 수정하였고, Open(시가), High(고가), Close(종가), Volume(거래량)을 제거

In [3]:
kospi = fdr.DataReader("KS11")
kospi["Change"] = kospi["Change"] * 100
kospi = kospi.drop(
    ["Open", "High", "Low", "Close", "Volume", "UpDown", "Comp", "Amount", "MarCap"],
    axis=1,
)
kospi.rename(columns={"Change": "KOSPI"}, inplace=True)
kospi.head()

Unnamed: 0_level_0,KOSPI
Date,Unnamed: 1_level_1
2001-06-11,-2.18
2001-06-12,-0.18
2001-06-13,1.14
2001-06-14,-0.05
2001-06-15,0.85


### Nasdaq

In [4]:
nasdaq = fdr.DataReader("IXIC", "2001-06-08")
nasdaq["Change"] = round(nasdaq["Adj Close"].pct_change() * 100, 2)
nasdaq = nasdaq.drop(["High", "Low", "Open", "Close", "Volume", "Adj Close"], axis=1)
nasdaq = nasdaq.drop("2001-06-08", axis=0)
nasdaq.rename(columns={"Change": "NASDAQ"}, inplace=True)
nasdaq

Unnamed: 0_level_0,NASDAQ
Date,Unnamed: 1_level_1
2001-06-11,-2.00
2001-06-12,-0.04
2001-06-13,-2.23
2001-06-14,-3.66
2001-06-15,-0.77
...,...
2024-04-26,2.03
2024-04-29,0.35
2024-04-30,-2.04
2024-05-01,-0.33


### S&P 

In [5]:
sap = fdr.DataReader("S&P500", "2001-06-08", "2024-01-23")
sap["Change"] = round(sap["Adj Close"].pct_change() * 100, 2)
sap = sap.drop(["High", "Low", "Open", "Close", "Volume", "Adj Close"], axis=1)
sap = sap.drop("2001-06-08", axis=0)
sap.rename(columns={"Change": "S&P"}, inplace=True)
sap.head()

Unnamed: 0_level_0,S&P
Date,Unnamed: 1_level_1
2001-06-11,-0.84
2001-06-12,0.12
2001-06-13,-1.13
2001-06-14,-1.75
2001-06-15,-0.45


### 미국 10년 국채

In [6]:
usa_treasury = fdr.DataReader("US10YT", "2001-06-08", "2024-01-23")
usa_treasury["Change"] = round(usa_treasury["Adj Close"].pct_change() * 100, 2)
usa_treasury = usa_treasury.drop(
    ["High", "Low", "Open", "Close", "Volume", "Adj Close"], axis=1
)
usa_treasury = usa_treasury.drop("2001-06-08", axis=0)
usa_treasury = usa_treasury.rename(columns={"Change": "USA_TREASURY"})
usa_treasury

  usa_treasury["Change"] = round(usa_treasury["Adj Close"].pct_change() * 100, 2)


Unnamed: 0_level_0,USA_TREASURY
Date,Unnamed: 1_level_1
2001-06-11,-0.86
2001-06-12,-0.89
2001-06-13,0.32
2001-06-14,-0.80
2001-06-15,0.25
...,...
2024-01-16,2.94
2024-01-17,0.98
2024-01-18,0.93
2024-01-19,0.05


### Nikkei

In [7]:
japan = fdr.DataReader("N225", "2001-06-08", "2024-01-23")
japan["Change"] = round(japan["Adj Close"].pct_change() * 100, 2)
japan = japan.drop(["High", "Low", "Open", "Close", "Volume", "Adj Close"], axis=1)
japan = japan.drop("2001-06-08", axis=0)
japan.rename(columns={"Change": "Nikkei"}, inplace=True)
japan

  japan["Change"] = round(japan["Adj Close"].pct_change() * 100, 2)


Unnamed: 0_level_0,Nikkei
Date,Unnamed: 1_level_1
2001-06-11,-1.52
2001-06-12,-2.92
2001-06-13,-0.13
2001-06-14,0.18
2001-06-15,-0.44
...,...
2024-01-16,-0.79
2024-01-17,-0.40
2024-01-18,-0.03
2024-01-19,1.40


In [8]:
usd_krw = fdr.DataReader("USD/KRW", "2001-06-08")
usd_krw["Change"] = round(usd_krw["Adj Close"].pct_change() * 100, 2)
usd_krw = usd_krw.drop(["High", "Low", "Open", "Close", "Volume", "Adj Close"], axis=1)
usd_krw = usd_krw.rename(columns={"Change": "USD/KRW"})
usd_krw

  usd_krw["Change"] = round(usd_krw["Adj Close"].pct_change() * 100, 2)


Unnamed: 0_level_0,USD/KRW
Date,Unnamed: 1_level_1
2003-12-01,
2003-12-02,-0.28
2003-12-03,-0.21
2003-12-04,-0.20
2003-12-05,-0.45
...,...
2024-04-29,0.39
2024-04-30,-0.18
2024-05-01,0.79
2024-05-02,-0.75


## 데이터 병합
각 지수들 및 환율 국채를 합쳐줍니다. 결측치는 평균으로 대체하였습니다.

In [9]:
result_data = pd.concat([kospi, nasdaq, sap, usd_krw, usa_treasury, japan], axis=1)
result_data.fillna(result_data.mean(), inplace=True)
result_data = round(result_data, 2)

In [11]:
result_data.to_csv("./data/kospi_result_data.csv")

OSError: Cannot save file into a non-existent directory: 'data'

## 군집분석

## K_Means 를 사용하여 군집을 분류하였습니다.
- kospi 를 target으로 설정하였습니다

In [None]:
X = result_data[["NASDAQ", "S&P", "USD/KRW", "USA_TREASURY", "Nikkei"]]
y = result_data["KOSPI"]

### $N$ = $\{3,4\}$일때 최적의 분류를 확인

In [None]:
ks = range(1, 10)

inertias = []

for k in ks:
    model = KMeans(n_clusters=k, random_state=42)
    model.fit(X)
    inertias.append(model.inertia_)

plt.plot(ks, inertias, "-o")
plt.xlabel("number of clusters, k")
plt.ylabel("inertia")
plt.xticks(ks)
plt.show()

### $N$ = $3$로 군집분석 진행 

In [None]:
n_clusters = 3
kmeans = KMeans(n_clusters=n_clusters, random_state=42)
kmeans.fit(X)
y_kmeans = kmeans.predict(X)
y_kmeans[1:10]

### TSNE를 통한 차원축소 진행

In [None]:
import time
from sklearn.manifold import TSNE

n_sne = X.shape[0]

time_start = time.time()
tsne = TSNE(
    n_components=2, verbose=1, perplexity=32, n_iter=1000, random_state=0, angle=0.5
)
tsne_results = tsne.fit_transform(X)
print("t-SNE done! Time elapsed: {} seconds".format(time.time() - time_start))

### 군집분석 결과 시각화

In [None]:
plt.scatter(tsne_results[:, 0], tsne_results[:, 1], c=y_kmeans, s=20, cmap="bwr")
sns.scatterplot(x=tsne_results[:, 0], y=tsne_results[:, 1], hue=y_kmeans, palette="bwr")
plt.show()

In [None]:
df1 = result_data.copy()

In [None]:
df1["cluster"] = y_kmeans
df1

### 군집분석 결과에 따른 군집들을 새로운 데이터 프레임으로 생성 

In [None]:
## 군집 0 ~ 3 까지 분류된거를 변수명에 추가
cluster_2 = df1[df1["cluster"] == 2]
cluster_1 = df1[df1["cluster"] == 1]
cluster_0 = df1[df1["cluster"] == 0]

In [None]:
cluster_0

In [None]:
cluster_1

In [None]:
cluster_2

### 군집별 수익률 확인
- 군집 0 ~ 3 까지의 수익률을 한번 확인

In [None]:
cluster_total = df1.groupby("cluster").mean()
cluster_total["return"] = cluster_total.T.mean()
cluster_total["std"] = cluster_total.T.std()
cluster_total = cluster_total.T
cluster_total

- 군집1 : 위험자산 + USA_TREASURY로 이뤄진 군집  
- 군집2 : Dolllar로 이뤄진 군집  
- 군집3 : 위험자산으로 이뤄진 군집 

### 군집별 수익률 대비 risk 시각화

In [None]:
plt.figure(figsize=(8, 6))
plt.scatter(cluster_total.std(), cluster_total.mean())
plt.xlabel("risk")
plt.ylabel("return")
plt.title("평균수익률 및 표준편차")
for label, x, y in zip(
    cluster_total.columns, cluster_total.std(), cluster_total.mean()
):
    plt.annotate(
        label,
        xy=(x, y),
        xytext=(30, -30),
        textcoords="offset points",
        ha="right",
        va="bottom",
        bbox=dict(boxstyle="round,pad=0.5", fc="yellow", alpha=0.5),
        arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=0"),
    )

각 금융자산의 특징과 잘 맞게 군집이 잘 작성되었습니다.

## 상관관계 분석
- Kospi와 나머지 변수들의 상관관계를 확인

### 히트맵

In [None]:
df2 = df1.corr()

In [None]:
plt.figure(figsize=(10, 10))
sns.heatmap(result_data.corr(), annot=True, fmt=".2f", linewidths=0.5, cmap="Blues")

### 상관관계 계수 확인하기
- 확실히 Nasdaq과 S&P가 서로 미국시장이라서 상관관계가 높은것을 확인할 수 있고, kospi와의 상관관계는 1.Nikkei > 2. Nasdaq > 3. S&P > 4.usa_treasury > 5.Dollar 순의 상관관계를 보임

In [None]:
idx, vals = [], []
for ix, i in enumerate(result_data.columns.values):
    for j in result_data.columns.values[ix + 1 :]:
        idx.append((i, j))
        vals.append(result_data.corr()[i][j])

ser = pd.Series(data=vals, index=idx)
ser_ord = ser.sort_values(ascending=False)
ser_ord

### 산점도 그래프

In [None]:
sns.set(font_scale=1.1)  ## 폰트사이즈 조절
sns.set_style("ticks")  ## 축 눈금 표시
data = result_data[["KOSPI", "NASDAQ", "S&P", "USD/KRW", "USA_TREASURY", "Nikkei"]]
sns.pairplot(data, diag_kind=None)
plt.show()

## 세계 각국 지수의 수익률 대비 risk 시각화

### 평균수익률 및 표준편차

In [None]:
plt.figure(figsize=(8, 6))
plt.yticks(
    fontname="DejaVu Sans"
)  # 한글 폰트가 지수에 음수를 표시하지 못하므로 ytick의 폰트를 바꾸어 줍니다.
plt.scatter(result_data.std(), result_data.mean())
plt.xlabel("risk")
plt.ylabel("return")
plt.title("평균수익률 및 표준편차")
for label, x, y in zip(result_data.columns, result_data.std(), result_data.mean()):
    plt.annotate(
        label,
        xy=(x, y),
        xytext=(30, -30),
        textcoords="offset points",
        ha="right",
        va="bottom",
        bbox=dict(boxstyle="round,pad=0.5", fc="yellow", alpha=0.5),
        arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=0"),
    )

### 누적수익률 및 표준편차 

In [None]:
plt.figure(figsize=(8, 6))
plt.yticks(
    fontname="DejaVu Sans"
)  # 한글 폰트가 지수에 음수를 표시하지 못하므로 ytick의 폰트를 바꾸어 줍니다.
plt.scatter(result_data.std(), result_data.sum())
plt.xlabel("risk")
plt.ylabel("return")
plt.title("누적수익률 및 표준편차")
for label, x, y in zip(result_data.columns, result_data.std(), result_data.sum()):
    plt.annotate(
        label,
        xy=(x, y),
        xytext=(30, -30),
        textcoords="offset points",
        ha="right",
        va="bottom",
        bbox=dict(boxstyle="round,pad=0.5", fc="yellow", alpha=0.5),
        arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=0"),
    )