## 01. 라이브러리 로드

In [2]:
import pandas as pd
from pykrx import stock
from datetime import datetime
import time
import numpy as np

## 02. 데이터수집
- 시작 년도 : 2011, 종료년도 : 2024
- 각 연도의 마지막 거래일 기준 상장된 종목 코드 수집
- 집합을 리스트로 변환하여 정렬

In [3]:
START_YEAR = 2011
END_YEAR = 2024

# 기간 내 모든 종목 코드 수집 (상장폐지 종목 포함)
all_tickers = set()
# 각 연도의 마지막 거래일을 기준으로 상장된 종목 코드를 수집
for year in range(START_YEAR, END_YEAR + 1):
    # 각 연도의 마지막 날짜를 기준으로 ticker 리스트를 가져옴
    date_for_tickers = f"{year}1231"
    print(f"{year}년도 KOSPI, KOSDAQ 종목 코드를 수집 중...")
    
    # KOSPI
    tickers_kospi = stock.get_market_ticker_list(date_for_tickers, market="KOSPI")
    all_tickers.update(tickers_kospi)
    
    # KOSDAQ
    tickers_kosdaq = stock.get_market_ticker_list(date_for_tickers, market="KOSDAQ")
    all_tickers.update(tickers_kosdaq)
    
    time.sleep(1)

# 집합(set)을 리스트(list)로 변환하여 정렬
all_tickers = sorted(list(all_tickers))
print(f"총 {len(all_tickers)}개의 고유 종목 코드를 수집했습니다.")

2011년도 KOSPI, KOSDAQ 종목 코드를 수집 중...
2012년도 KOSPI, KOSDAQ 종목 코드를 수집 중...
2013년도 KOSPI, KOSDAQ 종목 코드를 수집 중...
2014년도 KOSPI, KOSDAQ 종목 코드를 수집 중...
2015년도 KOSPI, KOSDAQ 종목 코드를 수집 중...
2016년도 KOSPI, KOSDAQ 종목 코드를 수집 중...
2017년도 KOSPI, KOSDAQ 종목 코드를 수집 중...
2018년도 KOSPI, KOSDAQ 종목 코드를 수집 중...
2019년도 KOSPI, KOSDAQ 종목 코드를 수집 중...
2020년도 KOSPI, KOSDAQ 종목 코드를 수집 중...
2021년도 KOSPI, KOSDAQ 종목 코드를 수집 중...
2022년도 KOSPI, KOSDAQ 종목 코드를 수집 중...
2023년도 KOSPI, KOSDAQ 종목 코드를 수집 중...
2024년도 KOSPI, KOSDAQ 종목 코드를 수집 중...
총 0개의 고유 종목 코드를 수집했습니다.


## 03. 종목별 일별 등락률 데이터 수집
- 지정된 기간에 대헤 종목의 OHLCV 데이터 가져오기
- 등략률 컬럼 선택, 컬럼명 재정의

In [None]:
all_returns = []
start_date = f"{START_YEAR}0101"
end_date = f"{END_YEAR}1231"

for i, ticker in enumerate(all_tickers):
    time.sleep(0.2) 
    
    try:
        # 지정된 전체 기간에 대해 종목의 OHLCV 데이터를 가져옴
        # pykrx는 해당 종목이 상장된 기간의 데이터만 반환
        df = stock.get_market_ohlcv_by_date(fromdate=start_date, todate=end_date, ticker=ticker)
        
        if not df.empty:
            returns = df[['등락률']].copy()
            returns.rename(columns={'등락률': ticker}, inplace=True)
            all_returns.append(returns)

        if (i + 1) % 10 == 0:
            print(f"진행 상황: {i + 1}/{len(all_tickers)} (티커: {ticker})")

    except Exception as e:
        # 데이터 조회 중 오류 발생 시 메시지 출력
        print(f"오류 발생: 티커 {ticker} - {e}")


각 종목의 일별 등락률 데이터를 추출합니다. 상당한 시간이 소요됩니다...
진행 상황: 10/3326 (티커: 000100)
진행 상황: 20/3326 (티커: 000215)
진행 상황: 30/3326 (티커: 000325)
진행 상황: 40/3326 (티커: 000440)
진행 상황: 50/3326 (티커: 000640)
진행 상황: 60/3326 (티커: 000760)
진행 상황: 70/3326 (티커: 00088K)
진행 상황: 80/3326 (티커: 001020)
진행 상황: 90/3326 (티커: 001130)
진행 상황: 100/3326 (티커: 001300)
진행 상황: 110/3326 (티커: 001450)
진행 상황: 120/3326 (티커: 001529)
진행 상황: 130/3326 (티커: 001689)
진행 상황: 140/3326 (티커: 001795)
진행 상황: 150/3326 (티커: 002020)
진행 상황: 160/3326 (티커: 002220)
진행 상황: 170/3326 (티커: 002355)
진행 상황: 180/3326 (티커: 002535)
진행 상황: 190/3326 (티커: 002720)
진행 상황: 200/3326 (티커: 002810)
진행 상황: 210/3326 (티커: 003000)
진행 상황: 220/3326 (티커: 003160)
진행 상황: 230/3326 (티커: 003380)
진행 상황: 240/3326 (티커: 003465)
진행 상황: 250/3326 (티커: 003545)
진행 상황: 260/3326 (티커: 003620)
진행 상황: 270/3326 (티커: 003850)
진행 상황: 280/3326 (티커: 004060)
진행 상황: 290/3326 (티커: 004200)
진행 상황: 300/3326 (티커: 004370)
진행 상황: 310/3326 (티커: 004550)
진행 상황: 320/3326 (티커: 004740)
진행 상황: 330/3326 (티커: 004910)
진행 상황: 34

## 03. 데이터 병합 및 저장
- 등락률 데이터 날짜 기준 병합
- 결과 파일 저장

In [None]:
if all_returns:
    # 모든 종목의 등락률 데이터를 날짜를 기준으로 병합
    final_df = pd.concat(all_returns, axis=1)
    
    final_df.sort_index(inplace=True)

    # 결과 확인
    print("\n--- 최종 데이터 (앞 5줄) ---")
    print(final_df.head())
    print("\n--- 최종 데이터 (뒤 5줄) ---")
    print(final_df.tail())

    # 결과를 CSV 파일로 저장
    save_path = "KOSPI_KOSDAQ_daily_returns_2011_2024.csv"
    final_df.to_csv(save_path, encoding='utf-8-sig')
    print(f"\n데이터 저장이 완료되었습니다. 파일 경로: {save_path}")

else:
    print("\n추출된 데이터가 없습니다.")


모든 종목의 등락률 데이터를 하나의 DataFrame으로 병합합니다...

--- 최종 데이터 (앞 5줄) ---
            000020  000030  000040  000050    000060  000070  000075  000080  \
날짜                                                                             
2011-01-03     NaN     NaN     NaN     NaN  1.378458     NaN     NaN     NaN   
2011-01-04     NaN     NaN     NaN     NaN -0.450113     NaN     NaN     NaN   
2011-01-05     NaN     NaN     NaN     NaN -1.931047     NaN     NaN     NaN   
2011-01-06     NaN     NaN     NaN     NaN -1.162232     NaN     NaN     NaN   
2011-01-07     NaN     NaN     NaN     NaN  3.751215     NaN     NaN     NaN   

            000087  000100  ...  950110  950130  950140  950160  950170  \
날짜                          ...                                           
2011-01-03     NaN     NaN  ...     NaN     NaN     NaN     NaN     NaN   
2011-01-04     NaN     NaN  ...     NaN     NaN     NaN     NaN     NaN   
2011-01-05     NaN     NaN  ...     NaN     NaN     NaN     NaN     NaN   

## 04. 로그수익률 계산

#### 종목별 일별 등락률 데이터 로드
- DataFrame의 인덱스로 사용, 날짜 형식으로 파싱

In [5]:
# 날짜 컬럼을 DataFrame의 인덱스로 사용하고, 날짜 형식으로 파싱
daily_returns_df = pd.read_csv("data/krx/KOSPI_KOSDAQ_daily_returns_2011_2024.csv", index_col='날짜', parse_dates=True)

#### 등략률(%) 단위를 가진 산술 수익률 로그 수익률로 변환
- df / 100을 먼저 계산한 후 1을 더하고 np.log() 함수를 적용

In [6]:
log_returns_df = np.log(1 + daily_returns_df / 100)

#### 데이터 형태 변환
- Wide form 데이터를 Long form으로 변환 - stack()함수 이용
- 날짜 인덱스에서 연도 정보 추출

In [7]:
long_log_returns = log_returns_df.stack().reset_index()
long_log_returns.columns = ['날짜', '티커', '로그수익률']

long_log_returns['연도'] = long_log_returns['날짜'].dt.year

## 05. 데이터 저장

In [10]:
long_log_returns.to_csv("KOSPI_KOSDAQ_log_returns_2011_2024.csv", index=False, encoding='utf-8-sig')