# Chapter 4. Store_Financial_Market_Data_On_Your_Computer

데이터는 local(사용자가 control하에 있거나)상에 있어야하는 이유
- 접근 속도, 신뢰성 문제
- 중단없는 data driven process(예. internet outstage로 부터 격리)
- 잘못된 가격 수정시 영구적인 반영
- 장점
    - 클라우드 대비 비용 효율성
    - 데이터 가공 유연성 
    - 머신러닝 모델이나 데이터 분석 툴과 같은 research workflow와 쉬운 통합
    - 백테스트 속도 향상(데이터 접근성, 네트워크 독립성, 데이터 구조 최적화 등으로 인해...)

★ chapter 4에서 다룰 내용

- 금융데이터 저장방법
    - CSV 파일: Pandas를 사용해 쉽게 읽고 쓸 수 있는 기본적인 저장 방식
    - SQLite: on-disk SQL 데이터베이스 형식
    - PostgreSQL: 컴퓨터에 설치된 네트워크 데이터베이스 서버를 활용한 저장 방식
    - HDF5: 초고속, 고효율 저장 형식
- SQLite와 PostgreSQL을 활용한 장 종료 후 자동 시장 데이터를 수집하는 script 개발

---------

### 4.1 Storing data on disk in CSV format

다른 저정 방식과 같이 빠르거나 정교하지는 않지만</br>
CSV(Comma-Separated Values)는 간편하다.</br>
- pandas와의 쉬운 연동/Tableau
- PowerBI와 같은 분석 도구와의 호환성
- 텍스트 editor, Excel에서 확인 가능 등

##### How to do it + How it works

1. Import the libraries

In [None]:
import pandas as pd
from openbb import obb
obb.user.preferences.output_type = "dataframe"                  # dataframe, json, csv, table 등

2. Implement a function to download data, manipulate the results, and return a pandas
 DataFrame:

In [6]:
def get_stock_data(symbol, start_date=None, end_date=None):
    data = obb.equity.price.historical(
        symbol,
        start_date=start_date,
        end_date=end_date,
        provider="yfinance",
    )
    data.reset_index(inplace=True)                              # 날짜 인덱스인 경우가 많이 때문에 날짜를 컬럼으로 포함시키기 위해....
    data['symbol'] = symbol
    return data

In [74]:
data = obb.equity.price.historical(
        'AAPL',
        start_date= '2023-08-10',
        end_date= '2023-08-12',
        provider="yfinance",
    )

In [None]:
data.head()

Unnamed: 0_level_0,open,high,low,close,volume,dividend
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2023-08-10,179.479996,180.75,177.600006,177.970001,54686900,0.0
2023-08-11,177.320007,178.619995,176.550003,177.789993,51988100,0.24


3. Implement a function to save a range of data as a CSV file:

In [12]:
def save_data_range(symbol, start_date=None, end_date=None):
   data = get_stock_data(symbol, start_date, end_date)
   data.to_csv(
       f"{symbol}.gz",
       compression="gzip",
       index=False
   )

4. Implement a function that reads a CSV file and returns a DataFrame:

In [14]:
def get_data(symbol):
    return pd.read_csv(
        f"{symbol}.gz",
        compression="gzip",
        index_col="date",
        usecols=[
            "date",
            "open",
            "high",
            "low",
            "close",
            "volume",
            "symbol"
        ]
    )

5. Save the data as a CSV file:

In [15]:
save_data_range("PLTR")

##### There's more

① pandas의 to_csv 메서드는 데이터를 CSV 형식으로 효율적으로 디스크에 저장하기 위한 다양한 옵션을 제공
- sep: 필드 간에 사용할 구분자를 지정합니다. 기본값은 쉼표(,)입니다. 탭으로 구분된 파일을 생성하려면 sep='\t'를 사용합니다.
- header: 열 이름을 CSV에 포함할지 여부를 결정하는 Boolean 값입니다. 기본값은 True이며, False로 설정하면 열 이름이 제외됩니다.
- na_rep: 누락된 값(NaN)을 문자열로 표현합니다. 기본값은 빈 문자열이지만, 이를 NULL과 같은 플레이스홀더로 변경할 수 있습니다.
- date_format: 날짜 및 시간 객체의 형식을 지정합니다. 예를 들어, date_format='%Y-%m-%d %H:%M:%S'는 날짜와 시간을 2023-08-10 15:20:30 형식으로 저장합니다.
- float_format: 부동소수점 숫자의 형식을 제어합니다. 예를 들어, float_format='%.2f'는 모든 부동소수점 열을 소수점 둘째 자리까지 반올림하여 저장합니다.

&nbsp;&nbsp;&nbsp;&nbsp;예) df.to_csv("example.csv", sep="\t", header=True, na_rep="NULL", date_format="%Y-%m-%d %H:%M:%S", float_format="%.2f", index=False)

② read_csv에서 제공하는 인자
- delimiter 또는 sep: 필드를 구분하는 문자를 지정합니다. 기본값은 쉼표(,)입니다. 탭으로 구분된 파일을 읽으려면 delimiter='\t'를 사용합니다.
- nrows: 파일에서 읽을 행(row)의 수를 지정합니다. 대규모 파일에서 일부 데이터만 읽어오고 싶을 때 유용합니다.
- parse_dates: 날짜로 변환할 열 이름의 리스트를 지정합니다. 예를 들어, ['date']를 전달하면 date 열이 datetime64 형식으로 변환됩니다.
- dtype: 각 열의 데이터 유형을 지정하는 딕셔너리를 전달합니다. 예를 들어, dtype={'volume': 'int32'}는 volume 열을 32비트 정수로 읽도록 보장합니다.
- skiprows: 파일을 읽을 때 건너뛸 행을 지정합니다. 건너뛸 행 수나 특정 행 번호의 리스트를 전달할 수 있으며, 특정 행을 생략할 때 유용합니다.

&nbsp;&nbsp;&nbsp;&nbsp;예) df = pd.read_csv("example.csv", delimiter="\t", nrows=100, parse_dates=["date"], dtype={"volume": "int32"}, skiprows=[0, 2])

-----------

### 4.2 Storing data on disk with SQLite

SQLite: 오프소스의 경량 관계형 데이터베이스 관리 시스템(RDBMS)
- serverless(self-contained): 서버-클라이언트 구조 X
- 대규모 데이터베이스 시스템을 설정할 필요는 없음
- Python과의 통합이 매끄럽고, 컴팩트한 구조 덕분에 휴대성과 최소한의 설정이 중요한 애플리케이션에 적합

어떨 때 사용하나?<br>
CSV보다 더 체계적인 데이터 구조가 필요하거나, SQL을 선호하지만 대규모 데이터베이스 시스템의 복잡함을 피하고 싶을 때

![image.png](attachment:image.png)&nbsp;&nbsp;&nbsp;&nbsp;vs&nbsp;&nbsp;&nbsp;&nbsp;![image-2.png](attachment:image-2.png)

##### Getting ready...

실습 내용
- CRON job이나 Task Scheduler를 사용하여 자동으로 실행할 수 있는 스크립트 작성(market_data_sqlite.py)
- exchange_calendars 파이썬 패키지 소개: 50개 이상의 거래소에 대한 거래일 및 거래 시간의 캘린더를 정의하고 쿼리하는데 사용

##### How to do it + How it works

1. Begin by importing all necessary libraries to fetch and save data:

In [84]:
from sys import argv
import sqlite3
import pandas as pd
import exchange_calendars as xcals
from openbb import obb
obb.user.preferences.output_type = "dataframe"

 2. Reuse the get_stock_data function from the previous recipe:

In [85]:
def get_stock_data(symbol, start_date=None, end_date=None):
    data = obb.equity.price.historical(
        symbol,
        start_date=start_date,
        end_date=end_date,
        provider="yfinance",
    )
    data.reset_index(inplace=True)
    data['symbol'] = symbol
    return data

 3. Modify the save_data_range function to use the pandas to_sql method:

In [86]:
def save_data_range(symbol, conn, start_date,
   end_date):
    data = get_stock_data(symbol, start_date,
   end_date)
    data.to_sql(
        "stock_data",
        conn,
        if_exists="replace",
        index=False
    )

data.to_sql("stock_data", conn, if_exists="replace", index=False)
- "stock_data": 데이터가 저장될 테이블 이름입니다. SQLite 데이터베이스에 이 테이블이 생성됩니다.
- conn: SQLite 데이터베이스와의 연결 객체. 데이터가 이 연결을 통해 저장됩니다.
- if_exists="replace": 테이블이 이미 존재하면 기존 데이터를 삭제하고 새 데이터를 저장합니다.
    - 다른 옵션:
        - "append": 기존 테이블에 데이터를 추가.
        - "fail": 테이블이 존재하면 에러를 발생.
- index=False: DataFrame의 인덱스를 데이터베이스에 저장하지 않습니다

4. Create a function that grabs data from the last trading day based on the exchange’s
 calendar:

In [87]:
def save_last_trading_session(symbol, conn, today):
    data = get_stock_data(symbol, today, today)
    data.to_sql(
        "stock_data",
        conn,
        if_exists="append",
        index=False
    )

5. Create the script’s main execution code, which allows the user to pass in a stock
 symbol, start, and end date to kick off the data acquisition and storage process:

In [92]:
if __name__ == "__main__":
    conn = sqlite3.connect("market_data.sqlite")
    if argv[1] == "bulk":
        symbol = argv[2]
        start_date = argv[3]
        end_date = argv[4]
        save_data_range(symbol, conn, start_date=None,
            end_date=None)
        print(f"{symbol} saved between {
           start_date} and {end_date}")
    elif argv[1] == "last":
        symbol = argv[2]
        calendar = argv[3]
        cal = xcals.get_calendar(calendar)
        today = pd.Timestamp.today().date()
        if cal.is_session(today):
            save_last_trading_session(symbol, conn, today)
            print(f"{symbol} saved")
        else:
            print(f"{today} is not a trading day. Doing nothing.")
    else:
        print("Enter bulk or last")

Enter bulk or last


6. To save a range of data, run the following command from your terminal:</br>
 > python market_data_sqlite.py bulk SYMBOL START_DATE END_DATE</br>
 (python market_data_sqlite.py bulk SPY 2022-01-01 2022-10-20)

※ 데이터베이스 확인

In [102]:
import sqlite3

# 데이터베이스 연결
conn = sqlite3.connect("./ch4/market_data.sqlite")

# 테이블 목록 확인
cursor = conn.cursor()
cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
tables = cursor.fetchall()
print("테이블 목록:", tables)

# 연결 닫기
conn.close()

테이블 목록: [('stock_data',)]


In [104]:
import sqlite3
import pandas as pd

# 데이터베이스 연결
conn = sqlite3.connect("./ch4/market_data.sqlite")

# 데이터 확인
query = "SELECT * FROM stock_data LIMIT 5;"
df = pd.read_sql_query(query, conn)

# 출력
print(df)

# 연결 닫기
conn.close()

         date        open        high         low       close     volume  \
0  2022-01-03  476.299988  477.850006  473.850006  477.709991   72668200   
1  2022-01-04  479.220001  479.980011  475.579987  477.549988   71178700   
2  2022-01-05  477.160004  477.980011  468.279999  468.380005  104538900   
3  2022-01-06  467.890015  470.820007  465.429993  467.940002   86858900   
4  2022-01-07  467.950012  469.200012  464.649994  466.089996   85111600   

  symbol  
0    SPY  
1    SPY  
2    SPY  
3    SPY  
4    SPY  


※ from sys import argv
- 명령줄에서 스크립트를 실행할 때 전달된 인자(arguments)를 처리하기 위한 모듈
- 예: python script.py arg1 arg2에서 argv[1]은 arg1, argv[2]는 arg2

※ if_exists = 'replace"'</br>
→ 함수를 호출할 때마다, 테이블이 이미 존재하면 해당 테이블이 삭제되고 새로 생성

만약 다른 시간에 다른 주식 데이터를 추가로 저장하려는 경우, if_exists 값을 append로 설정하는 것이 더 적합

※ 거래소 캘린더 이름(calendar)은 특정 거래소의 영업일(거래 가능 날짜)과 거래 시간을 정의하는 이름</br>
&nbsp;&nbsp;&nbsp;&nbsp;exchange_calendars 패키지에서 제공되며, 거래소마다 고유한 캘린더 이름이 할당

In [30]:
import exchange_calendars as xcals

# 모든 거래소 캘린더 이름 출력
calendar_names = xcals.get_calendar_names()
print(calendar_names)

['24/5', '24/7', 'AIXK', 'ARCX', 'ASEX', 'ASX', 'BATS', 'BMF', 'BSE', 'BVB', 'BVMF', 'CBOT', 'CFE', 'CME', 'CMES', 'COMEX', 'FWB', 'HKEX', 'ICE', 'ICEUS', 'IEPA', 'JKT', 'JPX', 'LSE', 'NASDAQ', 'NYFE', 'NYMEX', 'NYSE', 'OOTC', 'OSE', 'SIX', 'SSE', 'TASE', 'TSX', 'XAMS', 'XASE', 'XASX', 'XBKK', 'XBOG', 'XBOM', 'XBRU', 'XBSE', 'XBUD', 'XBUE', 'XCBF', 'XCSE', 'XDUB', 'XDUS', 'XEEE', 'XETR', 'XFRA', 'XHAM', 'XHEL', 'XHKG', 'XICE', 'XIDX', 'XIST', 'XJSE', 'XKAR', 'XKLS', 'XKRX', 'XLIM', 'XLIS', 'XLON', 'XMAD', 'XMEX', 'XMIL', 'XMOS', 'XNAS', 'XNYS', 'XNZE', 'XOSL', 'XPAR', 'XPHS', 'XPRA', 'XSAU', 'XSES', 'XSGO', 'XSHG', 'XSTO', 'XSWX', 'XTAE', 'XTAI', 'XTKS', 'XTSE', 'XTSX', 'XWAR', 'XWBO', 'us_futures']


![image.png](attachment:image.png)

Here’s how you’d download data for the last trading day:</br>
- python market_data_sqlite.py last SYMBOL XNYS</br>
python market_data_sqlite.py last AAPL XNYS

##### There's more

데이터 수집 자동화 실습:
- 위에서 작성한 스크립트를 매일 오후 1:00(EST)에 실행하도록 자동화

■ Windows

![image.png](attachment:image.png)</br>
![image-2.png](attachment:image-2.png)

■ Mac/Unix/Linux

![image.png](attachment:image.png)</br>
![image-2.png](attachment:image-2.png)

------------------------

### 4.3 Storing data in a PostgreSQL database server

PostgreSQL(일반적으로 Postgres로 알려짐): 고급 오픈 소스 관계형 데이터베이스 시스템
- 클라이언트/서버 모델
- 디스크 기반 옵션보다 더 나은 성능이 필요한 알고리즘 트레이더들에게 적합한 선택
- AWS와 같은 클라우드 제공 업체에서 널리 사용되는 데이터베이스 옵션,  데이터를 클라우드 스토리지에 저장해야 할 경우 유용
- 빈번한 거래 데이터를 다루거나, 여러 시스템과 전략이 공유 데이터 리소스에 동시에 접근해야 할 때 매우 적합

다른 저장 솔루션과 비교해 설정이 다소 복잡할 수 있지만, 중앙 집중화된 네트워크 액세스, 엄격한 데이터 무결성 검사 등의 장점

![image.png](attachment:image.png)

##### Get ready...

<설치 방법>

![image.png](attachment:image.png)</br>
![image-2.png](attachment:image-2.png)

윈도우 Postgres 설치

![image.png](attachment:image.png)

Postgres 데이터베이스 서버가 설치된 후, Python에서 Postgres와 상호작용하기 위해 다음을 설치</br>
SQLAlchemy는 데이터베이스와의 실제 연결에 드라이버가 필요하며, PostgreSQL과의 연결에 psycopg2를 사용
- SQLAlchemy: Python에서 사용하는 강력한 ORM(Object Relational Mapper, 객체-관계 매핑) 및 데이터베이스 관리 도구
    - 파이썬 코드로 SQL 쿼리를 작성할 수 있도록 지원, 직접 SQL을 작성하지 않고도 데이터베이스 작업 수행
    - 파이썬 객체와 데이터베이스의 테이블을 매핑하여, 객체 지향적인 방식으로 데이터베이스 관리(예. user 테이블을 파이썬 user와 매핑)
    - PostgreSQL 뿐만아니라 MySQL, SQLite, Oracle 등 다양한 데이터 베이스 지원
- psycopg2 드라이버: Python과 Postgres를 연결하는 드라이버
    - Python 애플리케이션에서 PostgreSQL 데이터베이스와 연결을 설정
    - SQL 쿼리(예: SELECT, INSERT, UPDATE)를 실행하고 결과를 Python으로 가져옴
    - psycopg는 빠르고 효율적이며, 동시성을 지원하여 고성능 애플리케이션에 적합
    - ACID(Atomicity, Consistency, Isolation, Durability) 트랜잭션을 관리하며, 데이터베이스의 무결성을 유지
- pip install sqlalchemy psycopg2

실습 내용
- CRON 작업(Linux, macOS) 또는 Task Scheduler(Windows)을 사용하여 자동으로 실행될 수 있는 **스크립트**를 작성</br>
market_data_postgres.py

##### How to do it + How it works

 1. Import the required libraries:

In [111]:
import pandas as pd
from sqlalchemy import create_engine, text                 # PostgreSQL 같은 데이터베이스와 연결을 설정 / 원시 SQL 쿼리를 작성하고 실행하기 위해 사용
from sqlalchemy.exc import ProgrammingError                # 잘못된 SQL 문법이나 존재하지 않는 테이블 접근 등으로 인해 발생할 수 있는 에러를 포착하여 적절히 처리
import exchange_calendars as xcals
from openbb import obb
obb.user.preferences.output_type = "dataframe"

2. Implement a function that creates a database to store market data if one does not
 exist</br>
 PostgreSQL 데이터베이스를 생성하고, 생성된 데이터베이스와 연결된 SQLAlchemy 엔진을 반환하는 함수

In [112]:
def create_database_and_get_engine(db_name, base_engine):           # db 이름, db와 연결된 기본 SQLAlchemy엔진
    conn = base_engine.connect()                                    # PostgreSQL 서버에 연결을 생성
    conn = conn.execution_options(isolation_level="AUTOCOMMIT")     # AUTOCOMMIT 모드를 활성화
                                                                    # 데이터베이스 생성과 같은 작업은 트랜잭션 없이 수행되어야 하므로 필요
    try:
        conn.execute(text(f"CREATE DATABASE {db_name};"))
                                                                    # SQL 명령문 CREATE DATABASE {db_name};를 실행하여 데이터베이스를 생성                                        
    except ProgrammingError:                                        # 이미 데이터베이스가 존재하면 ProgrammingError가 발생
        pass                                                        # 무시하고 프로그램이 계속 실행되도록 처리
    finally:
        conn.close()                                                # 연결을 닫아 리소스를 반환
    conn_str = base_engine.url.set(database=db_name)                # 기존 연결 문자열에서 database 값을 새로 생성한 데이터베이스 이름(db_name)으로 변경          
    return create_engine(conn_str)                                  # 생성된 데이터베이스와 연결된 새로운 SQLAlchemy 엔진을 생성하여여 반환

conn = conn.execution_options(isolation_level="AUTOCOMMIT")</br>
- SQLAlchemy에서 데이터베이스 연결(conn)의 트랜잭션 동작을 자동 커밋(AUTOCOMMIT) 모드로 설정하는 코드
- 일반적으로 데이터베이스 작업(예: INSERT, UPDATE, DELETE)은 트랜잭션이라는 작업 단위로 묶여 실행
- 트랜잭션은 명시적으로 COMMIT 명령을 실행해야 작업이 데이터베이스에 영구 저장되나</br>
AUTOCOMMIT 모드에서는 트랜잭션 없이 명령이 실행되자마자 데이터베이스에 즉시 반영</br>
![image.png](attachment:image.png)</br>![image-2.png](attachment:image-2.png)


In [None]:
from sqlalchemy import create_engine, text

engine = create_engine('postgresql+psycopg2://username:password@localhost:5432/')
conn = engine.connect()

try:
    conn.execute(text("CREATE DATABASE mydb;"))  # 에러 발생 (트랜잭션 내부에서 실행 불가)
finally:
    conn.close()

In [None]:
from sqlalchemy import create_engine, text

engine = create_engine('postgresql+psycopg2://username:password@localhost:5432/')
conn = engine.connect()
conn = conn.execution_options(isolation_level="AUTOCOMMIT")  # AUTOCOMMIT 모드 설정

try:
    conn.execute(text("CREATE DATABASE mydb;"))  # 성공적으로 실행
finally:
    conn.close()

※ execution_options(isolation_level="AUTOCOMMIT")를 통해 트랜잭션 외부에서 명령이 실행

※ conn.close()를 사용하는 이유는 데이터베이스 연결을 종료하여 시스템 리소스를 효율적으로 관리하고, 불필요한 연결 유지로 인한 성능 문제를 방지하기 위함
- 연결을 열면(예: conn = engine.connect()), 시스템 자원이 사용됨
    - 네트워크 연결(소켓), 데이터베이스의 연결 풀(connection pool)
- 열린 연결은 시스템 리소스를 소모하며, 닫히지 않으면 리소스가 고갈되어 성능 저하 또는 연결 실패를 초래
- 연결이 닫히면 데이터베이스와의 통신이 종료되고 사용 중인 리소스가 반환
- 데드락 방지: 연결을 닫지 않으면 데이터베이스에서 해당 연결을 계속 유지하려고 하며, 이는 잠금(Lock) 문제를 유발 가능
- 코드가 종료된 후에도 연결이 닫히지 않으면 연결이 "유령 연결(ghost connection)"이 되어 시스템 자원을 소모

![image.png](attachment:image.png)

- cf. 잠금 누수(Lock Leakage), 잠금 대기(Lock Wait)

3. Reuse the same get_stock_data() function as in the previous two recipes.

4. Slightly modify the save_data_range function to change the variable name conn to
 engine to match what is being passed:

In [113]:
def save_data_range(symbol, engine, start_date=None, end_date=None):
    data = get_stock_data(symbol, start_date,end_date)
    data.to_sql(
        "stock_data",
        engine,
        if_exists="append",
        index=False
    )

5. Change the function so it only saves the last trading session’s data:

In [114]:
def save_last_trading_session(symbol, engine, today):
    data = get_stock_data(symbol, today, today)
    data.to_sql(
        "stock_data",
        engine,
        if_exists="append",
        index=False
    )

6. Create the script’s main execution code, which creates the database connection and
 calls our Python code to download and save the data:

In [None]:
# if __name__ == "__main__":
username = "postgres"
password = "xxxxxxx" # u
host = "127.0.0.1"
port = "5432"
database = "/market_data"                                                   # 원본 오타
DATABASE_URL = f"postgresql://{username}:{password}@{host}:{port}/postgres" # PostgreSQL 연결 문자열을 생성
base_engine = create_engine(DATABASE_URL)                                   # SQLAlchemy를 사용하여 PostgreSQL 서버와 연결된 엔진을 생성
engine = create_database_and_get_engine("stock_data", base_engine)          # base_engine을 사용해 PostgreSQL 서버에 연결
                                                                            # "stock_data" 데이터베이스를 생성
                                                                            # "stock_data" 데이터베이스와 연결된 새 엔진(engine)을 반환
if argv[1] == "bulk":
    symbol = argv[2]
    start_date = argv[3]
    end_date = argv[4]                                                      # 원본 오타 수정정
    save_data_range(symbol, engine,
        start_date=None, end_date=None)
    print(f"{symbol} saved between {start_date} and {end_date}")
elif argv[1] == "last":
    symbol = argv[2]
    calendar = argv[3]
    cal = xcals.get_calendar(calendar)
    today = pd.Timestamp.today().date()
    if cal.is_session(today):
        save_last_trading_session(symbol, engine, today)
        print(f"{symbol} saved")
    else:
        print(f"{today} is not a trading day. Doing nothing.")

7. To save a range of data, run the following command from your terminal:

python market_data_sqlite.py bulk SYMBOL START_DATE END_DATE</br>
python market_data_sqlite.py bulk SPY 2022-01-01 2022-10-20

※ PostgreSQL 사용자 이름 비밀번호 설정
- 기본값으로 사용자 이름은 postgres
- Python 코드에서 사용자 이름과 비밀번호와 같은 민감한 정보를 안전하게 관리하려면, .env 파일을 만들어 환경 변수로 저장하고, 이를 dotenv 패키지를 사용해 읽어오는 것이 가장 좋은 방법

##### There's more...

SQLAlchemy
- Python에서 데이터베이스와 상호작용하기 위한 강력한 툴킷
- Python 애플리케이션과 관계형 데이터베이스 간의 원활한 통신을 가능
- 객체 관계 매핑(ORM, Object Relational Mapping) 계층은 개발자가 원시 SQL의 복잡성을 추상화하여, 데이터베이스와 상호작용할 때 네이티브 Python 클래스를 사용할 수 있도록 지원
- 데이터베이스 독립적(database-agnostic)이어서 애플리케이션을 한 번 구축한 후 최소한의 변경으로 다양한 데이터베이스 백엔드에서 배포</br>
로컬 컴퓨터에서 개발 데이터베이스를 구축한 후, 나중에 원격 서버의 데이터베이스로 전환할 때 매우 유용
- 예시</br>
![image.png](attachment:image.png)</br>
![image-2.png](attachment:image-2.png)

-------------

### 4.4 Storing data in ultra-fast HDF5 format

계층적 데이터 형식(HDF, Hierarchical Data Format)
- 방대한 데이터를 계층적으로 저장하고 관리하기 위해 설계된 파일 형식 모음(HDF4, HDF5)
- HDF5
    - 대규모 및 복잡한 이질적인 데이터셋을 처리할 수 있는 오픈 소스 형식(다양한 데이터 타입과 구조를 하나의 파일 내에서 효율적으로 저장하고 관리)
        - HDF5는 숫자, 문자열, 이미지, 텍스트 등 다양한 데이터 타입을 저장
        - HDF5는 디렉터리와 파일 구조처럼 그룹(group)과 데이터셋(dataset)으로 데이터를 계층적으로 관리
        - 동일 파일 안에 서로 다른 형식과 크기를 가진 여러 데이터셋을 저장</br>
        ![image.png](attachment:image.png)
    - 디렉터리와 유사한 구조를 사용하여 파일 내에서 데이터를 유연하게 구성
    - 주요 객체 유형
        - 데이터셋(Dataset): 타입이 지정된 다차원 배열
        - 그룹(Group): 데이터셋과 다른 그룹을 모두 포함할 수 있는 컨테이너 구조
    - Python에서 HDF5는 두 가지 라이브러리로 지원
        - h5py: HDF5 구조에 대한 고수준 및 저수준 접근을 모두 제공
            - 고수준 접근: 사용자가 데이터를 간단하고 추상적인 방식으로 조작</br>
            ![image-2.png](attachment:image-2.png)
            - 저수준 접근: HDF5의 내부 구조(데이터 타입, 메타데이터, 스토리지 레이아웃 등)를 세밀하게 제어</br>
            ![image-3.png](attachment:image-3.png)
        - PyTables: 고급 인덱싱 및 쿼리 기능을 갖춘 고수준 인터페이스 제공</br>
            - sensor_table이라는 HDF5 테이블에 저장</br>
            ![<image-4.png>](attachment:image-4.png)</br>
            - 특정 ID 값을 기준으로 데이터를 검색할 때 속도가 크게 향상</br>
            ![image-5.png](attachment:image-5.png)</br>
            - SQL과 유사한 조건문을 사용해 데이터를 필터링</br>
            ![image-6.png](attachment:image-6.png)

결론...데이터의 효율적 저장, 접근, 처리 도구를 제공 → 성능, 데이터 집약적 애플리케이션에 적합

##### Getting ready…

pytables 설치
- conda install -c conda-forge pytables
- conda install -c anaconda pytables
- pip install tables

PyTables는 HDF5 라이브러리에 의존

In [64]:
import tables
print(tables.__version__)

3.10.2


##### How to do it + How it works

1. Import the necessary libraries and set up the variables:

In [None]:
import pandas as pd
from openbb import obb
obb.user.preferences.output_type = "dataframe"
STOCK_DATA_STORE = "stocks.h5"                      # 주식 데이터 저장
FUTURES_DATA_STORE = "futures.h5"                   # 선물 데이터 저장
ticker = "SPY"                                      # S&P 500 ETF
root = "CL"                                         # 원유 선물(WTI Crude Oil)

2. Load data for SPY price and options chains using the OpenBB Platform:

In [None]:
# 주식 과거 가격 데이터
spy_equity = obb.equity.price.historical(
    ticker,
    start_date="2021-01-01",
    provider="yfinance"
)

# 옵션 체인 데이터
# (모든 옵션 계약의 정보를 체계적으로 제공하는 데이터 테이블)
spy_chains = obb.derivatives.options.chains(
    ticker,
    provider="yfinance" #"cboe"                 # cboe는 시카고 옵션 거래소, 여기서는 안되서 yfinance로 바꿈
)

# SPY 옵션 만기일 리스트 추출
spy_expirations = (
    spy_chains
    .expiration                                 # 옵션 만기일 열
    .astype(str)                                # 문자열로 변환
    .unique()                                   # 중복을 제거하여 고유한 만기일만 뽑음
    .tolist()                                   # 리스트 형식
)

# SPY 옵션 계약의 과거 가격 데이터 가져오기
# SPY 옵션 체인에서 마지막에서 10번째 만기일(예: "2023-01-20")과 행사가격($400.00)을 기반으로 옵션 코드를 생성하여 옵션 과거 가격 데이터 가져옴
spy_historic = (
    obb
    .equity
    .price
    # 옵션 계약 코드 생성
    .historical(
        # SPY + (만기일 리스트에서 마지막에서 10번째 만기일).(날짜 문자열에서 하이픈 제거).(앞 두자리 제거, 연도를 두 자리 수) + "콜옵션" + "행사가격($400.00)"
        # 옵션 코드(symbol): SPY230120C00400000
        ticker + spy_expirations[-10].replace("-", "")[2:] + "C" + "00400000",
        start_date="2021-01-01",
        provider="yfinance"
    )
)

※ 옵션 체인 데이터 예시</br>
![image.png](attachment:image.png)

※ 옵션은 각 행사가격마다 별도의 계약으로 나뉘기 때문에, 어떤 행사가격의 옵션을 선택하느냐에 따라 가져오는 데이터가 달라짐</br>
![image.png](attachment:image.png)

In [67]:
spy_historic.head()

Unnamed: 0_level_0,open,high,low,close,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2024-07-24,163.5,163.5,163.5,163.5,1
2024-07-31,168.240005,168.240005,168.240005,168.240005,0
2024-08-06,146.0,146.0,146.0,146.0,1
2024-08-08,150.460007,150.460007,150.460007,150.460007,15
2024-08-13,158.279999,158.279999,158.279999,158.279999,0


3. Store the data in the HDF5 file:

In [None]:
with pd.HDFStore(STOCK_DATA_STORE) as store:                    # 교재 오타, STOCKS 아님
    store.put("equities/spy/stock_prices", spy_equity)          # HDF5 파일 내의 경로에 SPY 주식 가격 데이터 저장
    store.put("equities/spy/options_prices",                    # HDF5 파일 내의 경로에 SPY 옵션 가격 데이터 저장
        spy_historic)
    store.put("equities/spy/chains", spy_chains)                # HDF5 파일 내의 경로에 SPY 옵션 체인 데이터 저장

your performance may suffer as PyTables will pickle object types that it cannot
map directly to c-types [inferred_type->mixed,key->block4_values] [items->Index(['underlying_symbol', 'contract_symbol', 'expiration', 'option_type',
       'currency'],
      dtype='object')]

  store.put("equities/spy/chains", spy_chains)


![image.png](attachment:image.png)

pandas.HDFStore: HDF5 파일 형식으로 데이터를 저장하고 관리하는 pandas의 도구

4. Read the data from the HDF5 file into pandas DataFrames:

In [43]:
with pd.HDFStore(STOCK_DATA_STORE) as store:
    spy_prices = store["equities/spy/stock_prices"]
    spy_options = store["equities/spy/options_prices"]
    spy_chains = store["equities/spy/chains"]

In [66]:
spy_chains.head()

Unnamed: 0,underlying_symbol,underlying_price,contract_symbol,expiration,dte,strike,option_type,open_interest,volume,last_trade_price,last_trade_time,bid,ask,change,change_percent,implied_volatility,in_the_money,currency
0,SPY,592.08,SPY250106C00370000,2025-01-06,1,370.0,call,398,695,216.76,2024-12-31 15:39:02-05:00,221.03,222.27,0.0,0.0,2.730472,True,USD
1,SPY,592.08,SPY250106P00395000,2025-01-06,1,395.0,put,1,1,0.02,2024-12-27 11:55:12-05:00,0.0,0.01,0.0,0.0,1.625002,False,USD
2,SPY,592.08,SPY250106P00400000,2025-01-06,1,400.0,put,1022,20,0.01,2025-01-03 12:22:01-05:00,0.0,0.01,0.0,0.0,1.562502,False,USD
3,SPY,592.08,SPY250106P00420000,2025-01-06,1,420.0,put,1,1,0.02,2024-12-27 10:00:39-05:00,0.0,0.01,0.0,0.0,1.375003,False,USD
4,SPY,592.08,SPY250106P00430000,2025-01-06,1,430.0,put,270,340,0.01,2024-12-30 15:04:04-05:00,0.0,0.01,0.0,0.0,1.281254,False,USD


5. Now iterate through e-mini futures expirations, storing the historical data for each
 one in a different file path:

In [44]:
with pd.HDFStore(FUTURES_DATA_STORE) as store:
    for i in range(24, 31):                                 # 2024년부터 2030년까지...
        expiry = f"20{i}-12"
        # CL 선물 데이터 가져오기기
        df = obb.derivatives.futures.historical(
            symbol=[root],
            expiry=expiry,
            start_date="2021-01-01",
        )
        # 데이터 열 이름 변경
        df.rename(
            columns={
                "close": expiry                             # "close" 열을 만기일(expiry) 이름으로 변경(예: "close" → "2024-12")
            },
            inplace=True
        )
        prices = df[expiry]
        store.put(f'futures/{root}/{expiry}', prices)       # 데이터를 HDF5 파일에 저장

  warn(
  check_attribute_name(name)
  warn(
  check_attribute_name(name)
  warn(
  check_attribute_name(name)
  warn(
  check_attribute_name(name)
  warn(
  check_attribute_name(name)
  warn(
  check_attribute_name(name)
  warn(
  check_attribute_name(name)


![image.png](attachment:image.png)

6. Read the data the same as with the ETF

In [None]:
with pd.HDFStore(FUTURES_DATA_STORE) as store:
    es_prices = store[f"futures/{root}/2024-12"]                        # 왜 교재에서는 23년 12월 데이터를 읽었을까?

In [70]:
es_prices.head()

date
2021-01-04    47.619999
2021-01-05    49.930000
2021-01-06    50.630001
2021-01-07    50.830002
2021-01-08    52.240002
Name: 2025-12, dtype: float64

##### There's more

- HDF5는 numerical data를 저장할 때 가장 빠른 디스크 기반 컬럼형 데이터 저장 형식
- compressed CSV format 마찬가지로 가장 적은 메모리를 사용</br>
또 다른 방식으로는 이진 컬럼형의 Parquet 포맷도 있는데 데이터 압축과 인코딩 제공(PyArrow 라이브러리로 사용 가능)