## Create Monthly Hourly Resampled Data_1
- volatility

In [1]:
import pandas as pd

PATH = '../data/BTCUSDT-trades-2023-'

# Tick 데이터 읽기 시 메모리 최적화
data = pd.read_csv(PATH + '06.csv', dtype={'time': 'int', 'price': 'float', 'qty': 'float'})
def convert_tick_to_ohlcv(data):
    """
    Binance 틱 데이터를 1시간 간격 OHLCV (Open, High, Low, Close, Volume) 데이터로 변환합니다.
    :param data: 틱 데이터를 담고 있는 DataFrame
    :return: Open, High, Low, Close, Volume 값을 포함한 DataFrame
    """

    # 'time' 열을 밀리초(ms)에서 datetime 형식으로 변환
    data['time'] = pd.to_datetime(data['time'], unit='ms')

    # 1시간 간격으로 리샘플링하여 OHLCV 데이터 생성
    ohlcv = data.resample('1H', on='time').agg({
        'price': ['first', 'max', 'min', 'last'],
        'qty': 'sum',
        'quote_qty': 'std',
        'is_buyer_market': 'sum'
    })

    # 열 이름 변경
    ohlcv.columns = ['Open', 'High', 'Low', 'Close', 'Volume', 'quote_qty', 'is_buyer_market']
    return ohlcv


def calculate_volatility(data, window=20):
    """
    수익률의 표준 편차를 사용하여 롤링 변동성을 계산합니다.
    :param data: OHLCV 데이터를 담고 있는 DataFrame
    :param window: 표준 편차 계산에 사용할 기간
    :return: 변동성 값을 포함한 DataFrame
    """

    # 일별 수익률 계산
    data['returns'] = data['Close'].pct_change()

    # 수익률의 롤링 표준 편차 계산
    data['volatility'] = data['returns'].rolling(window=window, min_periods=1).std()

    return data

# OHLCV 변환
ohlcv_data = convert_tick_to_ohlcv(data)

# 변동성 계산
volatility_data = calculate_volatility(ohlcv_data)

# 인덱스 재설정
volatility_data = volatility_data.reset_index()

# CSV 파일로 저장 (UTF-8 인코딩)
volatility_data.to_csv('../data/BIT_202306.csv', index=False, encoding='utf-8-sig')


In [None]:
import pandas as pd

PATH = '../data/BIT_2023'

dfs = []

months = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
for month in months:
    file_name = f'{month:02d}.csv'
    data = pd.read_csv(PATH + file_name)
    dfs.append(data)
    
result_data = pd.concat(dfs, ignore_index=True)
result_data.head()