In [4]:
# !pip install yfinance

In [11]:
import yfinance as yf
import pandas as pd
from sqlalchemy import create_engine, text, inspect
from sqlalchemy.exc import IntegrityError
import pymysql
import os
from dotenv import load_dotenv
load_dotenv()
pymysql.install_as_MySQLdb()

In [31]:
def get_db_engine(user, password, host, db_name):
    """SQLAlchemy 데이터베이스 엔진을 생성합니다."""
    try:
        # PyMySQL 드라이버를 사용하여 엔진 생성
        engine = create_engine(f"mysql+pymysql://{user}:{password}@{host}/{db_name}")
        # 연결 테스트
        with engine.connect() as connection:
            print("MySQL 데이터베이스 연결 성공")
        return engine
    except Exception as e:
        print(f"엔진 생성 중 오류 발생: {e}")
        return None

def upsert_data(engine, table_name, df):
    """
    데이터를 테이블에 삽입하되, 중복된 경우 업데이트합니다 (Upsert).
    이 방법은 대량의 데이터를 효율적으로 처리합니다.
    """
    # 임시 테이블을 사용하여 데이터를 로드
    temp_table_name = f"temp_{table_name}"
    
    with engine.connect() as connection:
        # 트랜잭션 시작
        with connection.begin() as transaction:
            try:
                # 1. 데이터를 임시 테이블에 저장 (기존 테이블이 있다면 덮어쓰기)
                df.to_sql(temp_table_name, connection, if_exists='replace', index=False)

                # 2. 메인 테이블의 칼럼명 가져오기
                cols = ", ".join([f"`{c}`" for c in df.columns])
                
                # *** 여기가 핵심 수정 사항입니다 ***
                # ON DUPLICATE KEY UPDATE 절을 올바른 MySQL 문법으로 수정
                update_cols = ", ".join([f"`{c}` = VALUES(`{c}`)" for c in df.columns if c not in ['stock_code', 'trade_date']])

                # 3. INSERT ... ON DUPLICATE KEY UPDATE 쿼리 실행
                query = text(f"""
                    INSERT INTO `{table_name}` ({cols})
                    SELECT {cols} FROM `{temp_table_name}`
                    ON DUPLICATE KEY UPDATE {update_cols};
                """)
                connection.execute(query)
                
                # 4. 임시 테이블 삭제
                connection.execute(text(f"DROP TABLE `{temp_table_name}`"))
                
                print(f"'{df['stock_code'].iloc[0]}' 종목의 데이터 {len(df)}건 처리 완료")

            except Exception as e:
                transaction.rollback() # 오류 발생 시 롤백
                print(f"데이터 처리 중 오류: {e}")


def main():
    # 1. MySQL 데이터베이스 연결 정보
    db_host = os.environ.get("DB_HOST")
    db_user = os.environ.get("DB_USER")
    db_password = os.environ.get("DB_PASSWORD")
    db_name =  os.environ.get("DB_name")
    table_name = "stock_prices"
    
    # 데이터베이스 엔진 생성
    engine = get_db_engine(db_user, db_password, db_host, db_name)
    if engine is None:
        return

    # stock code불러와 리스트로 만들기
    global stock_codes_ori 
    stock_codes_ori = pd.read_sql("stock_company_info", con=engine)
    display(stock_codes_ori)
    
    import numpy as np

    # 1. 조건 목록을 정의합니다.
    conditions = [
        stock_codes_ori['주식종목'] == '코스닥',
        stock_codes_ori['주식종목'] == '유가증권'
    ]

    # 2. 각 조건에 해당하는 결과 목록을 정의합니다. (접미사 .KS 수정)
    choices = [
        stock_codes_ori['종목코드'] + '.KQ',
        stock_codes_ori['종목코드'] + '.KS'
    ]

    # 3. np.select를 사용하여 조건에 맞는 ticker를 생성합니다.
    # 조건에 해당하지 않는 나머지는 NaN으로 처리 후 제거합니다.
    tickers = np.select(conditions, choices, default=np.nan)
    stock_codes = pd.Series(tickers).dropna().tolist()

    
    # 3. 테이블 존재 여부 확인 및 생성
    inspector = inspect(engine)
    if not inspector.has_table(table_name):
        print(f"'{table_name}' 테이블이 존재하지 않아 새로 생성합니다.")
        create_table_query = text(f"""
        CREATE TABLE {table_name} (
            stock_code VARCHAR(10) NOT NULL,
            trade_date DATE NOT NULL,
            open NUMERIC(20, 2),
            high NUMERIC(20, 2),
            low NUMERIC(20, 2),
            close NUMERIC(20, 2),
            adj_close NUMERIC(20, 2),
            volume BIGINT,
            PRIMARY KEY (stock_code, trade_date)
        ) ENGINE=InnoDB;
        """)
        with engine.connect() as connection:
            connection.execute(create_table_query)
            # SQLAlchemy 2.0+ 에서는 commit이 자동
            # connection.commit() 

    # 4. 각 종목 데이터 다운로드 및 DB 저장
    for code in stock_codes:
        print(f"\n'{code}' 종목 데이터 처리 시작...")
        try:
            data = yf.download(code, period="2y", progress=False)

            # ▼▼▼ [수정] 멀티인덱스 컬럼을 일반 컬럼으로 변경 ▼▼▼
            if isinstance(data.columns, pd.MultiIndex):
                data.columns = data.columns.get_level_values(0)
            # ▲▲▲ 여기까지 ▲▲▲

            if data.empty:
                print(f"'{code}' 데이터 다운로드 실패. 건너뜁니다.")
                continue

            # 데이터프레임 가공
            df = data.reset_index() # Date 인덱스를 컬럼으로 변환

            # ========= ▼▼▼ 이 코드를 추가해야 합니다 ▼▼▼ =========
            # yfinance 최신 버전에 맞춰 'Adj Close'가 없으면 'Close' 값으로 생성
            if 'Adj Close' not in df.columns:
                df['Adj Close'] = df['Close']
            # ========= ▲▲▲ 여기까지 ▲▲▲ =========

            df['stock_code'] = code.split('.')[0] # 종목 코드 컬럼 추가
            # 컬럼명 변경 (DB 컬럼명과 일치시키기)
            df = df.rename(columns={
                'Date': 'trade_date',
                'Open': 'open',
                'High': 'high',
                'Low': 'low',
                'Close': 'close',
                'Adj Close': 'adj_close',
                'Volume': 'volume'
            })
            # 필요한 컬럼만 선택
            df = df[['stock_code', 'trade_date', 'open', 'high', 'low', 'close', 'adj_close', 'volume']]

            # 데이터베이스에 Upsert
            upsert_data(engine, table_name, df)

        except Exception as e:
            print(f"'{code}' 종목 처리 중 오류 발생: {e}")

    print("\n모든 작업 완료")


if __name__ == '__main__':
    main()

MySQL 데이터베이스 연결 성공


Unnamed: 0,종목코드,회사명,주식종목,업종,주요제품,상장일,결산월,대표자명,홈페이지,지역
0,331740,아우토크립트,코스닥,소프트웨어 개발 및 공급업,자동차 사이버보안 소프트웨어 및 솔루션,2025-07-15,12월,이석우,http://autocrypt.co.kr/,서울특별시
1,0030R0,대신밸류리츠,유가증권,신탁업 및 집합투자업,부동산 임대,2025-07-10,08월,김광진,http://www.daishinvaluereit.com/,서울특별시
2,462310,뉴키즈온,코스닥,봉제의복 제조업,유아동용 의복,2025-07-09,12월,주춘섭,http://newkidson.com,서울특별시
3,234030,싸이닉솔루션,코스닥,반도체 제조업,"ASIC, ASSP, 용역, 상품 등",2025-07-07,12월,이현,http://www.synic.co.kr/,경기도
4,0037T0,KB제32호스팩,코스닥,금융 지원 서비스업,기업인수합병,2025-07-04,12월,김세준,,서울특별시
...,...,...,...,...,...,...,...,...,...,...
2754,000100,유한양행,유가증권,의약품 제조업,"의약품(삐콤씨, 안티푸라민, 렉라자, 로수바미브, 코푸시럽 등), 생활용품(유한락스...",1962-11-01,12월,대표이..,http://www.yuhan.co.kr,서울특별시
2755,000120,CJ대한통운,유가증권,도로 화물 운송업,"Contract Logistics, 포워딩, 항만하역, 해운, 택배국제특송, SCM...",1956-07-02,12월,신영수..,http://www.cjlogistics.com,서울특별시
2756,000050,경방,유가증권,종합 소매업,"섬유류(면사,면혼방사,면직물,면혼방직물,화섬사,화섬직물) 제조,도매,수출입",1956-03-03,12월,"김준,..",http://www.kyungbang.co.kr,서울특별시
2757,000700,유수홀딩스,유가증권,회사 본부 및 경영 컨설팅 서비스업,지주사업,1956-03-03,12월,송영규,http://www.eusu-holdings.com,서울특별시



'331740.KQ' 종목 데이터 처리 시작...


  data = yf.download(code, period="2y", progress=False)


데이터 처리 중 오류: (pymysql.err.OperationalError) (1054, "Unknown column 'T1.open' in 'field list'")
[SQL: 
                    INSERT INTO `stock_prices` (`stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume`)
                    SELECT `stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume` FROM `temp_stock_prices`
                    ON DUPLICATE KEY UPDATE T1.`open` = T2.`open`, T1.`high` = T2.`high`, T1.`low` = T2.`low`, T1.`close` = T2.`close`, T1.`adj_close` = T2.`adj_close`, T1.`volume` = T2.`volume`;
                ]
(Background on this error at: https://sqlalche.me/e/20/e3q8)

'0030R0.KS' 종목 데이터 처리 시작...


  data = yf.download(code, period="2y", progress=False)


데이터 처리 중 오류: (pymysql.err.OperationalError) (1054, "Unknown column 'T1.open' in 'field list'")
[SQL: 
                    INSERT INTO `stock_prices` (`stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume`)
                    SELECT `stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume` FROM `temp_stock_prices`
                    ON DUPLICATE KEY UPDATE T1.`open` = T2.`open`, T1.`high` = T2.`high`, T1.`low` = T2.`low`, T1.`close` = T2.`close`, T1.`adj_close` = T2.`adj_close`, T1.`volume` = T2.`volume`;
                ]
(Background on this error at: https://sqlalche.me/e/20/e3q8)

'462310.KQ' 종목 데이터 처리 시작...


  data = yf.download(code, period="2y", progress=False)


데이터 처리 중 오류: (pymysql.err.OperationalError) (1054, "Unknown column 'T1.open' in 'field list'")
[SQL: 
                    INSERT INTO `stock_prices` (`stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume`)
                    SELECT `stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume` FROM `temp_stock_prices`
                    ON DUPLICATE KEY UPDATE T1.`open` = T2.`open`, T1.`high` = T2.`high`, T1.`low` = T2.`low`, T1.`close` = T2.`close`, T1.`adj_close` = T2.`adj_close`, T1.`volume` = T2.`volume`;
                ]
(Background on this error at: https://sqlalche.me/e/20/e3q8)

'234030.KQ' 종목 데이터 처리 시작...


  data = yf.download(code, period="2y", progress=False)


데이터 처리 중 오류: (pymysql.err.OperationalError) (1054, "Unknown column 'T1.open' in 'field list'")
[SQL: 
                    INSERT INTO `stock_prices` (`stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume`)
                    SELECT `stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume` FROM `temp_stock_prices`
                    ON DUPLICATE KEY UPDATE T1.`open` = T2.`open`, T1.`high` = T2.`high`, T1.`low` = T2.`low`, T1.`close` = T2.`close`, T1.`adj_close` = T2.`adj_close`, T1.`volume` = T2.`volume`;
                ]
(Background on this error at: https://sqlalche.me/e/20/e3q8)

'0037T0.KQ' 종목 데이터 처리 시작...


  data = yf.download(code, period="2y", progress=False)


데이터 처리 중 오류: (pymysql.err.OperationalError) (1054, "Unknown column 'T1.open' in 'field list'")
[SQL: 
                    INSERT INTO `stock_prices` (`stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume`)
                    SELECT `stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume` FROM `temp_stock_prices`
                    ON DUPLICATE KEY UPDATE T1.`open` = T2.`open`, T1.`high` = T2.`high`, T1.`low` = T2.`low`, T1.`close` = T2.`close`, T1.`adj_close` = T2.`adj_close`, T1.`volume` = T2.`volume`;
                ]
(Background on this error at: https://sqlalche.me/e/20/e3q8)

'463020.KQ' 종목 데이터 처리 시작...


  data = yf.download(code, period="2y", progress=False)


데이터 처리 중 오류: (pymysql.err.OperationalError) (1054, "Unknown column 'T1.open' in 'field list'")
[SQL: 
                    INSERT INTO `stock_prices` (`stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume`)
                    SELECT `stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume` FROM `temp_stock_prices`
                    ON DUPLICATE KEY UPDATE T1.`open` = T2.`open`, T1.`high` = T2.`high`, T1.`low` = T2.`low`, T1.`close` = T2.`close`, T1.`adj_close` = T2.`adj_close`, T1.`volume` = T2.`volume`;
                ]
(Background on this error at: https://sqlalche.me/e/20/e3q8)

'388610.KQ' 종목 데이터 처리 시작...


  data = yf.download(code, period="2y", progress=False)


데이터 처리 중 오류: (pymysql.err.OperationalError) (1054, "Unknown column 'T1.open' in 'field list'")
[SQL: 
                    INSERT INTO `stock_prices` (`stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume`)
                    SELECT `stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume` FROM `temp_stock_prices`
                    ON DUPLICATE KEY UPDATE T1.`open` = T2.`open`, T1.`high` = T2.`high`, T1.`low` = T2.`low`, T1.`close` = T2.`close`, T1.`adj_close` = T2.`adj_close`, T1.`volume` = T2.`volume`;
                ]
(Background on this error at: https://sqlalche.me/e/20/e3q8)

'455180.KQ' 종목 데이터 처리 시작...


  data = yf.download(code, period="2y", progress=False)


데이터 처리 중 오류: (pymysql.err.OperationalError) (1054, "Unknown column 'T1.open' in 'field list'")
[SQL: 
                    INSERT INTO `stock_prices` (`stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume`)
                    SELECT `stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume` FROM `temp_stock_prices`
                    ON DUPLICATE KEY UPDATE T1.`open` = T2.`open`, T1.`high` = T2.`high`, T1.`low` = T2.`low`, T1.`close` = T2.`close`, T1.`adj_close` = T2.`adj_close`, T1.`volume` = T2.`volume`;
                ]
(Background on this error at: https://sqlalche.me/e/20/e3q8)

'340450.KQ' 종목 데이터 처리 시작...


  data = yf.download(code, period="2y", progress=False)


데이터 처리 중 오류: (pymysql.err.OperationalError) (1054, "Unknown column 'T1.open' in 'field list'")
[SQL: 
                    INSERT INTO `stock_prices` (`stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume`)
                    SELECT `stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume` FROM `temp_stock_prices`
                    ON DUPLICATE KEY UPDATE T1.`open` = T2.`open`, T1.`high` = T2.`high`, T1.`low` = T2.`low`, T1.`close` = T2.`close`, T1.`adj_close` = T2.`adj_close`, T1.`volume` = T2.`volume`;
                ]
(Background on this error at: https://sqlalche.me/e/20/e3q8)

'474650.KQ' 종목 데이터 처리 시작...


  data = yf.download(code, period="2y", progress=False)


데이터 처리 중 오류: (pymysql.err.OperationalError) (1054, "Unknown column 'T1.open' in 'field list'")
[SQL: 
                    INSERT INTO `stock_prices` (`stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume`)
                    SELECT `stock_code`, `trade_date`, `open`, `high`, `low`, `close`, `adj_close`, `volume` FROM `temp_stock_prices`
                    ON DUPLICATE KEY UPDATE T1.`open` = T2.`open`, T1.`high` = T2.`high`, T1.`low` = T2.`low`, T1.`close` = T2.`close`, T1.`adj_close` = T2.`adj_close`, T1.`volume` = T2.`volume`;
                ]
(Background on this error at: https://sqlalche.me/e/20/e3q8)

'475430.KQ' 종목 데이터 처리 시작...


  data = yf.download(code, period="2y", progress=False)


KeyboardInterrupt: 