In [3]:
!pip install yfinance
!pip install mplfinance

Collecting yfinance==0.2.58
  Downloading yfinance-0.2.58-py2.py3-none-any.whl.metadata (5.5 kB)
Downloading yfinance-0.2.58-py2.py3-none-any.whl (113 kB)
   ---------------------------------------- 0.0/113.7 kB ? eta -:--:--
   --- ------------------------------------ 10.2/113.7 kB ? eta -:--:--
   -------------------------------- ------- 92.2/113.7 kB 1.3 MB/s eta 0:00:01
   ---------------------------------------- 113.7/113.7 kB 1.3 MB/s eta 0:00:00
Installing collected packages: yfinance
  Attempting uninstall: yfinance
    Found existing installation: yfinance 0.2.54
    Uninstalling yfinance-0.2.54:
      Successfully uninstalled yfinance-0.2.54
Successfully installed yfinance-0.2.58


In [None]:
!pip install --upgrade yfinance==0.2.58

In [1]:
# 학습용 2014~2024 10년치 데이터

import os
import yfinance as yf
import time
import pandas as pd
import requests
from bs4 import BeautifulSoup

# 저장할 디렉토리 설정
data_dir = "./data/sp500_stocks"
os.makedirs(data_dir, exist_ok=True)

# S&P 500 종목 리스트 가져오기 (Wikipedia 사용)
def get_sp500_tickers():
    url = "https://en.wikipedia.org/wiki/List_of_S%26P_500_companies"
    tables = pd.read_html(url)
    sp500_df = tables[0]  # 첫 번째 테이블이 S&P 500 리스트
    sp500_tickers = sp500_df["Symbol"].tolist()  # 'Symbol' 컬럼이 Ticker 리스트
    sp500_tickers = [ticker.replace(".", "-") for ticker in sp500_tickers]  # Yahoo Finance에서는 '.' 대신 '-' 사용
    return sp500_tickers

# S&P 500 종목 리스트 가져오기
sp500_tickers = get_sp500_tickers()
print("S&P 500 종목 개수:", len(sp500_tickers))
print("샘플 종목 리스트:", sp500_tickers[:10])

# 다운로드할 기간 설정
start_date = "2014-01-01"
end_date = "2024-01-01"

# S&P 500 종목 데이터 다운로드 및 저장
for ticker in sp500_tickers:
    try:
        print(f"{ticker} 데이터 다운로드 중...")
        df = yf.download(ticker, start=start_date, end=end_date)

        if not df.empty:
            df.to_csv(f"{data_dir}/{ticker}.csv")
            print(f"{ticker} 주가 데이터 저장 완료")
        else:
            print(f"{ticker} 데이터가 없습니다. 스킵")

        time.sleep(1)  # Yahoo Finance API 요청 간 1초 대기
    except Exception as e:
        print(f"{ticker} 데이터 다운로드 중 오류 발생: {e}")

print("S&P 500 종목 전체 주가 데이터 다운로드 완료!")

S&P 500 종목 개수: 503
샘플 종목 리스트: ['MMM', 'AOS', 'ABT', 'ABBV', 'ACN', 'ADBE', 'AMD', 'AES', 'AFL', 'A']
MMM 데이터 다운로드 중...
YF.download() has changed argument auto_adjust default to True


[*********************100%***********************]  1 of 1 completed

1 Failed download:
['MMM']: YFRateLimitError('Too Many Requests. Rate limited. Try after a while.')


MMM 데이터가 없습니다. 스킵
AOS 데이터 다운로드 중...



KeyboardInterrupt



In [3]:
# 엑셀 파일 정규화

import os
import pandas as pd

# 저장된 CSV 파일 경로 (폴더 확인)
data_dir = "./data/sp500_stocks/"

# 폴더가 존재하는지 확인하고 없으면 오류 메시지 출력
if not os.path.exists(data_dir):
    print(f"오류: {data_dir} 폴더가 존재하지 않습니다. CSV 파일이 저장된 폴더를 확인하세요.")
else:
    # 모든 CSV 파일 가져오기
    csv_files = [f for f in os.listdir(data_dir) if f.endswith('.csv')]

    # 올바른 컬럼명 지정 (Yahoo Finance 기본 구조)
    correct_columns = ['Date', 'Close', 'High', 'Low', 'Open', 'Volume']

    # 모든 CSV 파일을 수정
    for csv_file in csv_files:
        file_path = os.path.join(data_dir, csv_file)

        print(f"{csv_file} 파일 수정 중...")

        try:
            # CSV 파일 로드
            df = pd.read_csv(file_path, skiprows=3, names=correct_columns)  # 첫 행을 컬럼으로 지정

            # 데이터 타입 변환 (문자열 → 숫자)
            numeric_columns = ['Close', 'High', 'Low', 'Open', 'Volume']
            df[numeric_columns] = df[numeric_columns].apply(pd.to_numeric, errors='coerce')

            # 수정된 데이터 다시 저장
            df.to_csv(file_path, index=False)

            print(f"{csv_file} 수정 완료")

        except Exception as e:
            print(f"{csv_file} 수정 중 오류 발생: {e}")

    print("모든 CSV 파일 수정 완료!")

A.csv 파일 수정 중...
A.csv 수정 완료
AAPL.csv 파일 수정 중...
AAPL.csv 수정 완료
ABBV.csv 파일 수정 중...
ABBV.csv 수정 완료
ABNB.csv 파일 수정 중...
ABNB.csv 수정 완료
ABT.csv 파일 수정 중...
ABT.csv 수정 완료
ACGL.csv 파일 수정 중...
ACGL.csv 수정 완료
ACN.csv 파일 수정 중...
ACN.csv 수정 완료
ADBE.csv 파일 수정 중...
ADBE.csv 수정 완료
ADI.csv 파일 수정 중...
ADI.csv 수정 완료
ADM.csv 파일 수정 중...
ADM.csv 수정 완료
ADP.csv 파일 수정 중...
ADP.csv 수정 완료
ADSK.csv 파일 수정 중...
ADSK.csv 수정 완료
AEE.csv 파일 수정 중...
AEE.csv 수정 완료
AEP.csv 파일 수정 중...
AEP.csv 수정 완료
AES.csv 파일 수정 중...
AES.csv 수정 완료
AFL.csv 파일 수정 중...
AFL.csv 수정 완료
AIG.csv 파일 수정 중...
AIG.csv 수정 완료
AIZ.csv 파일 수정 중...
AIZ.csv 수정 완료
AJG.csv 파일 수정 중...
AJG.csv 수정 완료
AKAM.csv 파일 수정 중...
AKAM.csv 수정 완료
ALB.csv 파일 수정 중...
ALB.csv 수정 완료
ALGN.csv 파일 수정 중...
ALGN.csv 수정 완료
ALL.csv 파일 수정 중...
ALL.csv 수정 완료
ALLE.csv 파일 수정 중...
ALLE.csv 수정 완료
AMAT.csv 파일 수정 중...
AMAT.csv 수정 완료
AMCR.csv 파일 수정 중...
AMCR.csv 수정 완료
AMD.csv 파일 수정 중...
AMD.csv 수정 완료
AME.csv 파일 수정 중...
AME.csv 수정 완료
AMGN.csv 파일 수정 중...
AMGN.csv 수정 완료
AMP.csv 파일 수정 중...
AMP.

In [None]:
# 학습용 상승패턴 이미지셋 저장

import os
import pandas as pd
import mplfinance as mpf
from PIL import Image

# 저장할 디렉토리 설정 (상승 패턴 이미지 저장)
output_dir = "./data/price_0to1percent_surge_patterns"
os.makedirs(output_dir, exist_ok=True)

# 저장된 CSV 파일 경로 (S&P 500 주식 데이터 폴더)
data_dir = "./data/sp500_stocks/"

# 저장된 이미지 개수 제한
MAX_IMAGES = 30000
saved_image_count = 0

# 봉 개수 설정 (전날 대비 1% 이상 오른 날 기준으로 과거 20일)
N_CANDLES = 20

# 기존 저장된 이미지 확인 (중복 방지)
existing_images = set(os.listdir(output_dir))

# 모든 CSV 파일 가져오기 (S&P 500 종목 전체 대상)
csv_files = [f for f in os.listdir(data_dir) if f.endswith('.csv')]

# 모든 CSV 파일에 대해 데이터 분석
for csv_file in csv_files:
    if saved_image_count >= MAX_IMAGES:
        print("최대 저장 개수(30000장) 도달, 저장 중단")
        break

    ticker = csv_file.replace(".csv", "")  # 종목명 추출
    file_path = os.path.join(data_dir, csv_file)

    print(f"{ticker} 데이터 로드 중...")
    df = pd.read_csv(file_path)

    # 날짜 변환 및 인덱스 설정
    df['Date'] = pd.to_datetime(df['Date'])
    df.set_index('Date', inplace=True)
    df = df[df.index >= pd.Timestamp("2014-01-01")]  # 최근 10년 데이터 사용

    # 전날 대비 0~1% 상승한 날 찾기
    df['pct_change'] = df['Open'].pct_change() * 100  # 퍼센트 변환
    surge_days = df[(df['pct_change'] > 0) & (df['pct_change'] < 1)].index # 상승한 날짜 리스트

    # 상승한 날 기준으로 과거 20일의 봉차트 저장
    for surge_date in surge_days:
        if saved_image_count >= MAX_IMAGES:
            print("최대 저장 개수(30000장) 도달, 저장 중단")
            break

        # 파일명 설정
        file_name = f"{ticker}_{surge_date.strftime('%Y-%m-%d')}.png"
        file_path = os.path.join(output_dir, file_name)

        # 중복 확인: 파일이 이미 존재하면 건너뛰기
        if file_name in existing_images:
            print(f"이미 존재하는 파일: {file_name}, 건너뜀.")
            continue

        # 해당 날짜 기준으로 과거 20일 데이터 가져오기
        end_idx = df.index.get_loc(surge_date)
        start_idx = max(end_idx - N_CANDLES, 0)  # 최소 20개 봉이 있어야 함

        if start_idx == 0:
            continue  # 데이터가 부족하면 스킵

        df_fixed = df.iloc[start_idx:end_idx]

        # 캔들스틱 차트 스타일 지정
        mc = mpf.make_marketcolors(up='g', down='r', edge='black', wick='black', volume='gray')
        s = mpf.make_mpf_style(marketcolors=mc, rc={'axes.grid': False})

        # 캔들스틱 차트 저장
        mpf.plot(
            df_fixed,
            type='candle',
            style=s,
            volume=False,
            axisoff=True,
            tight_layout=True,
            savefig=file_path
        )

        # 이미지 크기 조정 (CNN 학습용 224x224 픽셀)
        img = Image.open(file_path)
        img = img.resize((224, 224))
        img.save(file_path)

        saved_image_count += 1
        existing_images.add(file_name)  # 새로 생성된 파일 추가

print(f"총 {saved_image_count}장의 상승 패턴 이미지 저장 완료!")

# A 데이터 로드 중...
# 이미 존재하는 파일: A_2014-02-25.png, 건너뜀.

In [None]:
# 학습용 하락패턴 이미지셋 저장

import os
import pandas as pd
import mplfinance as mpf
from PIL import Image

# 저장할 디렉토리 설정 (하락 패턴 이미지 저장)
output_dir = "./data/price_0to1percent_drop_patterns"
os.makedirs(output_dir, exist_ok=True)

# 저장된 CSV 파일 경로 (S&P 500 주식 데이터 폴더)
data_dir = "./data/sp500_stocks/"

# 저장된 이미지 개수 제한
MAX_IMAGES = 30000
saved_image_count = 0

# 봉 개수 설정 (전날 대비 1% 이상 하락한 날 기준으로 과거 20일)
N_CANDLES = 20

# 기존 저장된 이미지 확인 (중복 방지)
existing_images = set(os.listdir(output_dir))

# 모든 CSV 파일 가져오기 (S&P 500 종목 전체 대상)
csv_files = [f for f in os.listdir(data_dir) if f.endswith('.csv')]

# 모든 CSV 파일에 대해 데이터 분석
for csv_file in csv_files:
    if saved_image_count >= MAX_IMAGES:
        print("최대 저장 개수(30000장) 도달, 저장 중단")
        break

    ticker = csv_file.replace(".csv", "")  # 종목명 추출
    file_path = os.path.join(data_dir, csv_file)

    print(f"{ticker} 데이터 로드 중...")
    df = pd.read_csv(file_path)

    # 날짜 변환 및 인덱스 설정
    df['Date'] = pd.to_datetime(df['Date'])
    df.set_index('Date', inplace=True)
    df = df[df.index >= pd.Timestamp("2014-01-01")]  # 최근 10년 데이터 사용

    # 전날 대비 하락한 날 찾기
    df['pct_change'] = df['Open'].pct_change() * 100  # 퍼센트 변환
    drop_days = df[(df['pct_change'] < 0) & (df['pct_change'] > -1)].index  # 하락한 날짜 리스트

    # 하락한 날 기준으로 과거 20일의 봉차트 저장
    for drop_date in drop_days:
        if saved_image_count >= MAX_IMAGES:
            print("최대 저장 개수(30000장) 도달, 저장 중단")
            break

        # 파일명 설정
        file_name = f"{ticker}_{drop_date.strftime('%Y-%m-%d')}.png"
        image_path = os.path.join(output_dir, file_name)  # 이미지 저장 경로

        # 중복 확인: 파일이 이미 존재하면 건너뛰기
        if file_name in existing_images:
            #print(f"이미 존재하는 파일: {file_name}, 건너뜀.")
            continue

        # 해당 날짜 기준으로 과거 20일 데이터 가져오기
        end_idx = df.index.get_loc(drop_date)
        start_idx = max(end_idx - N_CANDLES, 0)  # 최소 20개 봉이 있어야 함

        if start_idx == 0:
            continue  # 데이터가 부족하면 스킵

        df_fixed = df.iloc[start_idx:end_idx]

        # 캔들스틱 차트 스타일 지정
        mc = mpf.make_marketcolors(up='g', down='r', edge='black', wick='black', volume='gray')
        s = mpf.make_mpf_style(marketcolors=mc, rc={'axes.grid': False})

        # 캔들스틱 차트 저장
        mpf.plot(
            df_fixed,
            type='candle',
            style=s,
            volume=False,
            axisoff=True,
            tight_layout=True,
            savefig=image_path  # 수정된 이미지 저장 경로
        )

        # 이미지 크기 조정 (CNN 학습용 224x224 픽셀)
        img = Image.open(image_path)
        img = img.resize((224, 224))
        img.save(image_path)

        saved_image_count += 1
        existing_images.add(file_name)  # 새로 생성된 파일 추가

print(f"총 {saved_image_count}장의 하락 패턴 이미지 저장 완료!")

# ABBV 데이터 로드 중...
# ABNB 데이터 로드 중...

In [None]:
# 테스트용 최근 1년치 데이터 ???

import os
import yfinance as yf
import time
import pandas as pd
import requests
from bs4 import BeautifulSoup

# 저장할 디렉토리 설정
data_dir = "./data/sp500_stocks_test"
os.makedirs(data_dir, exist_ok=True)

# S&P 500 종목 리스트 가져오기 (Wikipedia 사용)
def get_sp500_tickers():
    url = "https://en.wikipedia.org/wiki/List_of_S%26P_500_companies"
    tables = pd.read_html(url)
    sp500_df = tables[0]  # 첫 번째 테이블이 S&P 500 리스트
    sp500_tickers = sp500_df["Symbol"].tolist()  # 'Symbol' 컬럼이 Ticker 리스트
    sp500_tickers = [ticker.replace(".", "-") for ticker in sp500_tickers]  # Yahoo Finance에서는 '.' 대신 '-' 사용
    return sp500_tickers

# S&P 500 종목 리스트 가져오기
sp500_tickers = get_sp500_tickers()
print("S&P 500 종목 개수:", len(sp500_tickers))
print("샘플 종목 리스트:", sp500_tickers[:10])

# 다운로드할 기간 설정
start_date = "2024-03-01"
end_date = "2025-04-01"

# S&P 500 종목 데이터 다운로드 및 저장
for ticker in sp500_tickers:
    try:
        print(f"{ticker} 데이터 다운로드 중...")
        df = yf.download(ticker, start=start_date, end=end_date)

        if not df.empty:
            df.to_csv(f"{data_dir}/{ticker}.csv")
            print(f"{ticker} 주가 데이터 저장 완료")
        else:
            print(f"{ticker} 데이터가 없습니다. 스킵")

        time.sleep(1)  # Yahoo Finance API 요청 간 1초 대기
    except Exception as e:
        print(f"{ticker} 데이터 다운로드 중 오류 발생: {e}")

print("S&P 500 종목 전체 주가 데이터 다운로드 완료!")

# AOS 데이터 다운로드 중...
# ABT 데이터 다운로드 중...


In [5]:
# 엑셀 파일 정규화

import os
import pandas as pd

# 저장된 CSV 파일 경로 (폴더 확인)
data_dir = "./data/sp500_stocks_test/"

# 폴더가 존재하는지 확인하고 없으면 오류 메시지 출력
if not os.path.exists(data_dir):
    print(f"오류: {data_dir} 폴더가 존재하지 않습니다. CSV 파일이 저장된 폴더를 확인하세요.")
else:
    # 모든 CSV 파일 가져오기
    csv_files = [f for f in os.listdir(data_dir) if f.endswith('.csv')]

    # 올바른 컬럼명 지정 (Yahoo Finance 기본 구조)
    correct_columns = ['Date', 'Close', 'High', 'Low', 'Open', 'Volume']

    # 모든 CSV 파일을 수정
    for csv_file in csv_files:
        file_path = os.path.join(data_dir, csv_file)

        print(f"{csv_file} 파일 수정 중...")

        try:
            # CSV 파일 로드
            df = pd.read_csv(file_path, skiprows=3, names=correct_columns)  # 첫 행을 컬럼으로 지정

            # 데이터 타입 변환 (문자열 → 숫자)
            numeric_columns = ['Close', 'High', 'Low', 'Open', 'Volume']
            df[numeric_columns] = df[numeric_columns].apply(pd.to_numeric, errors='coerce')

            # 수정된 데이터 다시 저장
            df.to_csv(file_path, index=False)

            print(f"{csv_file} 수정 완료")

        except Exception as e:
            print(f"{csv_file} 수정 중 오류 발생: {e}")

    print("모든 CSV 파일 수정 완료!")

A.csv 파일 수정 중...
A.csv 수정 완료
AAPL.csv 파일 수정 중...
AAPL.csv 수정 완료
ABBV.csv 파일 수정 중...
ABBV.csv 수정 완료
ABNB.csv 파일 수정 중...
ABNB.csv 수정 완료
ABT.csv 파일 수정 중...
ABT.csv 수정 완료
ACGL.csv 파일 수정 중...
ACGL.csv 수정 완료
ACN.csv 파일 수정 중...
ACN.csv 수정 완료
ADBE.csv 파일 수정 중...
ADBE.csv 수정 완료
ADI.csv 파일 수정 중...
ADI.csv 수정 완료
ADM.csv 파일 수정 중...
ADM.csv 수정 완료
ADP.csv 파일 수정 중...
ADP.csv 수정 완료
ADSK.csv 파일 수정 중...
ADSK.csv 수정 완료
AEE.csv 파일 수정 중...
AEE.csv 수정 완료
AEP.csv 파일 수정 중...
AEP.csv 수정 완료
AES.csv 파일 수정 중...
AES.csv 수정 완료
AFL.csv 파일 수정 중...
AFL.csv 수정 완료
AIG.csv 파일 수정 중...
AIG.csv 수정 완료
AIZ.csv 파일 수정 중...
AIZ.csv 수정 완료
AJG.csv 파일 수정 중...
AJG.csv 수정 완료
AKAM.csv 파일 수정 중...
AKAM.csv 수정 완료
ALB.csv 파일 수정 중...
ALB.csv 수정 완료
ALGN.csv 파일 수정 중...
ALGN.csv 수정 완료
ALL.csv 파일 수정 중...
ALL.csv 수정 완료
ALLE.csv 파일 수정 중...
ALLE.csv 수정 완료
AMAT.csv 파일 수정 중...
AMAT.csv 수정 완료
AMCR.csv 파일 수정 중...
AMCR.csv 수정 완료
AMD.csv 파일 수정 중...
AMD.csv 수정 완료
AME.csv 파일 수정 중...
AME.csv 수정 완료
AMGN.csv 파일 수정 중...
AMGN.csv 수정 완료
AMP.csv 파일 수정 중...
AMP.

In [None]:
# 테스트용 상승패턴 이미지셋 저장

import os
import pandas as pd
import mplfinance as mpf
from PIL import Image

# 저장할 디렉토리 설정 (상승 패턴 이미지 저장)
output_dir = "./data/price_2to3percent_surge_patterns_test"
os.makedirs(output_dir, exist_ok=True)

# 저장된 CSV 파일 경로 (S&P 500 주식 데이터 폴더)
data_dir = "./data/sp500_stocks_test/"

# 저장된 이미지 개수 제한
MAX_IMAGES = 100000000
saved_image_count = 0

# 봉 개수 설정 (전날 대비 2~3% 이상 오른 날 기준으로 과거 20일)
N_CANDLES = 20

# 기존 저장된 이미지 확인 (중복 방지)
existing_images = set(os.listdir(output_dir))

# 모든 CSV 파일 가져오기 (S&P 500 종목 전체 대상)
csv_files = [f for f in os.listdir(data_dir) if f.endswith('.csv')]

# 모든 CSV 파일에 대해 데이터 분석
for csv_file in csv_files:
    if saved_image_count >= MAX_IMAGES:
        print("최대 저장 개수(100000000장) 도달, 저장 중단")
        break

    ticker = csv_file.replace(".csv", "")  # 종목명 추출
    file_path = os.path.join(data_dir, csv_file)

    print(f"{ticker} 데이터 로드 중...")
    df = pd.read_csv(file_path)

    # 날짜 변환 및 인덱스 설정
    df['Date'] = pd.to_datetime(df['Date'])
    df.set_index('Date', inplace=True)

    # 전날 대비 5% 이상 상승한 날 찾기
    df['pct_change'] = df['Open'].pct_change() * 100  # 퍼센트 변환
    surge_days = df[(df['pct_change'] >= 2)&(df['pct_change'] < 3)].index  # 2~3% 상승한 날짜 리스트

    # 상승한 날 기준으로 과거 20일의 봉차트 저장
    for surge_date in surge_days:
        if saved_image_count >= MAX_IMAGES:
            print("최대 저장 개수(100000000장) 도달, 저장 중단")
            break

        # 파일명 설정
        file_name = f"{ticker}_{surge_date.strftime('%Y-%m-%d')}.png"
        file_path = os.path.join(output_dir, file_name)

        # 중복 확인: 파일이 이미 존재하면 건너뛰기
        if file_name in existing_images:
            print(f"이미 존재하는 파일: {file_name}, 건너뜀.")
            continue

        # 해당 날짜 기준으로 과거 20일 데이터 가져오기
        end_idx = df.index.get_loc(surge_date)
        start_idx = max(end_idx - N_CANDLES, 0)  # 최소 20개 봉이 있어야 함

        if start_idx == 0:
            continue  # 데이터가 부족하면 스킵

        df_fixed = df.iloc[start_idx:end_idx]

        # 캔들스틱 차트 스타일 지정
        mc = mpf.make_marketcolors(up='g', down='r', edge='black', wick='black', volume='gray')
        s = mpf.make_mpf_style(marketcolors=mc, rc={'axes.grid': False})

        # 캔들스틱 차트 저장
        mpf.plot(
            df_fixed,
            type='candle',
            style=s,
            volume=False,
            axisoff=True,
            tight_layout=True,
            savefig=file_path
        )

        # 이미지 크기 조정 (CNN 학습용 224x224 픽셀)
        img = Image.open(file_path)
        img = img.resize((224, 224))
        img.save(file_path)

        saved_image_count += 1
        existing_images.add(file_name)  # 새로 생성된 파일 추가

print(f"총 {saved_image_count}장의 상승 패턴 이미지 저장 완료!")

A 데이터 로드 중...
이미 존재하는 파일: A_2024-05-13.png, 건너뜀.
이미 존재하는 파일: A_2024-05-15.png, 건너뜀.
이미 존재하는 파일: A_2024-07-17.png, 건너뜀.
이미 존재하는 파일: A_2024-07-25.png, 건너뜀.
이미 존재하는 파일: A_2024-07-26.png, 건너뜀.
이미 존재하는 파일: A_2024-08-09.png, 건너뜀.
이미 존재하는 파일: A_2024-09-19.png, 건너뜀.
이미 존재하는 파일: A_2024-12-10.png, 건너뜀.
이미 존재하는 파일: A_2025-01-17.png, 건너뜀.
이미 존재하는 파일: A_2025-01-22.png, 건너뜀.
이미 존재하는 파일: A_2025-02-20.png, 건너뜀.
이미 존재하는 파일: A_2025-03-06.png, 건너뜀.
이미 존재하는 파일: A_2025-03-24.png, 건너뜀.
AAPL 데이터 로드 중...
이미 존재하는 파일: AAPL_2024-04-29.png, 건너뜀.
이미 존재하는 파일: AAPL_2024-07-08.png, 건너뜀.
이미 존재하는 파일: AAPL_2024-09-20.png, 건너뜀.
이미 존재하는 파일: AAPL_2024-10-15.png, 건너뜀.
이미 존재하는 파일: AAPL_2024-12-10.png, 건너뜀.
이미 존재하는 파일: AAPL_2024-12-23.png, 건너뜀.
이미 존재하는 파일: AAPL_2025-01-23.png, 건너뜀.
이미 존재하는 파일: AAPL_2025-02-13.png, 건너뜀.
이미 존재하는 파일: AAPL_2025-03-03.png, 건너뜀.
ABBV 데이터 로드 중...
이미 존재하는 파일: ABBV_2024-05-06.png, 건너뜀.
이미 존재하는 파일: ABBV_2024-06-03.png, 건너뜀.
이미 존재하는 파일: ABBV_2024-06-07.png, 건너뜀.
이미 존재하는 파일: ABBV_2024-07-18.png, 건너뜀.
이미 

In [None]:
# 테스트용 하락패턴 이미지셋 저장

import os
import pandas as pd
import mplfinance as mpf
from PIL import Image

# 저장할 디렉토리 설정 (하락 패턴 이미지 저장)
output_dir = "./data/price_2to3percent_drop_patterns_test"
os.makedirs(output_dir, exist_ok=True)

# 저장된 CSV 파일 경로 (S&P 500 주식 데이터 폴더)
data_dir = "./data/sp500_stocks_test/"

# 저장된 이미지 개수 제한
MAX_IMAGES = 100000000
saved_image_count = 0

# 봉 개수 설정 (전날 대비 -2~-3% 이상 하락한 날 기준으로 과거 20일)
N_CANDLES = 20

# 기존 저장된 이미지 확인 (중복 방지)
existing_images = set(os.listdir(output_dir))

# 모든 CSV 파일 가져오기 (S&P 500 종목 전체 대상)
csv_files = [f for f in os.listdir(data_dir) if f.endswith('.csv')]

# 모든 CSV 파일에 대해 데이터 분석
for csv_file in csv_files:
    if saved_image_count >= MAX_IMAGES:
        print("최대 저장 개수(100000000장) 도달, 저장 중단")
        break

    ticker = csv_file.replace(".csv", "")  # 종목명 추출
    file_path = os.path.join(data_dir, csv_file)

    print(f"{ticker} 데이터 로드 중...")
    df = pd.read_csv(file_path)

    # 날짜 변환 및 인덱스 설정
    df['Date'] = pd.to_datetime(df['Date'])
    df.set_index('Date', inplace=True)

    # 전날 대비 하락한 날 찾기
    df['pct_change'] = df['Open'].pct_change() * 100  # 퍼센트 변환
    drop_days = df[(df['pct_change'] >= -3)&(df['pct_change'] < -2)].index  # -2~-3% 이상 하락한 날짜 리스트

    # 하락한 날 기준으로 과거 20일의 봉차트 저장
    for drop_date in drop_days:
        if saved_image_count >= MAX_IMAGES:
            print("최대 저장 개수(100000000장) 도달, 저장 중단")
            break

        # 파일명 설정
        file_name = f"{ticker}_{drop_date.strftime('%Y-%m-%d')}.png"
        image_path = os.path.join(output_dir, file_name)  # 이미지 저장 경로

        # 중복 확인: 파일이 이미 존재하면 건너뛰기
        if file_name in existing_images:
            print(f"이미 존재하는 파일: {file_name}, 건너뜀.")
            continue

        # 해당 날짜 기준으로 과거 20일 데이터 가져오기
        end_idx = df.index.get_loc(drop_date)
        start_idx = max(end_idx - N_CANDLES, 0)  # 최소 20개 봉이 있어야 함

        if start_idx == 0:
            continue  # 데이터가 부족하면 스킵

        df_fixed = df.iloc[start_idx:end_idx]

        # 캔들스틱 차트 스타일 지정 (하락 패턴 강조)
        mc = mpf.make_marketcolors(up='g', down='r', edge='black', wick='black', volume='gray')
        s = mpf.make_mpf_style(marketcolors=mc, rc={'axes.grid': False})

        # 캔들스틱 차트 저장
        mpf.plot(
            df_fixed,
            type='candle',
            style=s,
            volume=False,
            axisoff=True,
            tight_layout=True,
            savefig=image_path  # 수정된 이미지 저장 경로
        )

        # 이미지 크기 조정 (CNN 학습용 224x224 픽셀)
        img = Image.open(image_path)
        img = img.resize((224, 224))
        img.save(image_path)

        saved_image_count += 1
        existing_images.add(file_name)  # 새로 생성된 파일 추가

print(f"총 {saved_image_count}장의 하락 패턴 이미지 저장 완료!")

A 데이터 로드 중...
이미 존재하는 파일: A_2024-04-17.png, 건너뜀.
이미 존재하는 파일: A_2024-05-29.png, 건너뜀.
이미 존재하는 파일: A_2024-07-02.png, 건너뜀.
이미 존재하는 파일: A_2024-07-18.png, 건너뜀.
이미 존재하는 파일: A_2024-08-08.png, 건너뜀.
이미 존재하는 파일: A_2024-08-23.png, 건너뜀.
이미 존재하는 파일: A_2024-09-04.png, 건너뜀.
이미 존재하는 파일: A_2024-10-18.png, 건너뜀.
이미 존재하는 파일: A_2024-10-22.png, 건너뜀.
이미 존재하는 파일: A_2024-11-07.png, 건너뜀.
이미 존재하는 파일: A_2024-11-12.png, 건너뜀.
이미 존재하는 파일: A_2024-12-19.png, 건너뜀.
이미 존재하는 파일: A_2025-01-10.png, 건너뜀.
이미 존재하는 파일: A_2025-01-29.png, 건너뜀.
이미 존재하는 파일: A_2025-02-11.png, 건너뜀.
이미 존재하는 파일: A_2025-02-12.png, 건너뜀.
이미 존재하는 파일: A_2025-03-05.png, 건너뜀.
이미 존재하는 파일: A_2025-03-11.png, 건너뜀.
이미 존재하는 파일: A_2025-03-13.png, 건너뜀.
이미 존재하는 파일: A_2025-03-31.png, 건너뜀.
AAPL 데이터 로드 중...
이미 존재하는 파일: AAPL_2024-04-16.png, 건너뜀.
이미 존재하는 파일: AAPL_2024-05-01.png, 건너뜀.
이미 존재하는 파일: AAPL_2024-05-06.png, 건너뜀.
이미 존재하는 파일: AAPL_2024-07-17.png, 건너뜀.
이미 존재하는 파일: AAPL_2024-07-19.png, 건너뜀.
이미 존재하는 파일: AAPL_2024-07-25.png, 건너뜀.
이미 존재하는 파일: AAPL_2024-08-02.png, 건너뜀.
이미 

In [None]:
import os
import time
import yfinance as yf
import pandas as pd
import mplfinance as mpf
from PIL import Image
from datetime import timedelta
from bs4 import BeautifulSoup
from curl_cffi.requests import Session

# 기준 날짜 설정
target_date = pd.to_datetime("2025-05-08")

# 저장 경로 설정
base_dir = "./data/recent"
for category in ["surge", "drop", "neutral"]:
    os.makedirs(os.path.join(base_dir, category), exist_ok=True)

N_CANDLES = 20
saved_count = 0

# S&P 500 종목 리스트 가져오기
def get_sp500_tickers():
    url = "https://en.wikipedia.org/wiki/List_of_S%26P_500_companies"
    tables = pd.read_html(url)
    df = tables[0]
    tickers = df["Symbol"].tolist()
    return [t.replace(".", "-") for t in tickers]

sp500_tickers = get_sp500_tickers()
print("S&P 500 종목 개수:", len(sp500_tickers))
print("샘플 종목:", sp500_tickers[:5])

session = Session()
for ticker in sp500_tickers:
    try:
        print(f"\n{ticker} 데이터 다운로드 중...")
        time.sleep(1)

        df = yf.download(
            ticker,
            start=target_date - timedelta(days=40),
            end=target_date + timedelta(days=2),
            group_by='column'
        )

        # MultiIndex 컬럼 평탄화
        if isinstance(df.columns, pd.MultiIndex):
            df.columns = [col[0] for col in df.columns]

        if df.empty:
            print(f"{ticker}: 데이터 없음")
            continue

        required_cols = ["Open", "High", "Low", "Close"]
        if not all(col in df.columns for col in required_cols):
            print(f"{ticker}: OHLC 컬럼 누락 - 현재 컬럼: {df.columns.tolist()}")
            continue

        available_dates = df.index[df.index <= target_date] # ~ <= 2025-05-08
        if len(available_dates) == 0:
            print(f"{ticker}: {target_date.date()} 이전 거래일 없음")
            continue

        actual_date = available_dates[-1] # 2025-05-08
        end_idx = df.index.get_loc(actual_date) # 2025-05-08

        if end_idx < N_CANDLES:
            print(f"{ticker}: 20봉 이상 데이터 부족")
            continue

        df_slice = df.iloc[end_idx - N_CANDLES:end_idx].copy() # ~ < 2025-05-08

        # 강제 정제: 인덱스 타입, 컬럼 선택, float64 변환, NaN 제거
        df_slice.index = pd.to_datetime(df_slice.index)
        df_slice = df_slice[required_cols].copy()
        df_slice = df_slice.astype("float64")
        df_slice.dropna(inplace=True)

        if len(df_slice) < N_CANDLES:
            print(f"{ticker}: 정제 후 유효한 캔들 수 부족")
            continue

        close_today = df.at[df.index[end_idx], "Close"] # 2025-05-08
        close_yesterday = df.at[df.index[end_idx - 1], "Close"] # 2025-05-07
        pct_change = ((close_today - close_yesterday) / close_yesterday) * 100

        if pct_change > 2:
            label = "surge"
        elif pct_change < -2:
            label = "drop"
        else:
            label = "neutral"

        filename = f"{ticker}_{actual_date.date()}.png"
        out_path = os.path.join(base_dir, label, filename)

        mc = mpf.make_marketcolors(up='g', down='r', edge='black', wick='black', volume='gray')
        s = mpf.make_mpf_style(marketcolors=mc, rc={'axes.grid': False})

        mpf.plot(
            df_slice, # ~ < 2025-05-08
            type='candle',
            style=s,
            volume=False,
            axisoff=True,
            tight_layout=True,
            savefig=out_path
        )

        img = Image.open(out_path)
        img = img.resize((224, 224))
        img.save(out_path)

        print(f"저장 완료: {label}/{filename}")
        saved_count += 1

    except Exception as e:
        print(f"⚠️ {ticker} 처리 중 오류: {e}")

print(f"\n📦 총 {saved_count}개 이미지 저장 완료")


'''
🔍 AKAM 데이터 다운로드 중...
[*********************100%***********************]  1 of 1 completed
🎯 AKAM df_slice 인덱스 타입: <class 'pandas.core.indexes.datetimes.DatetimeIndex'>
🎯 AKAM 컬럼 목록: ['Open', 'High', 'Low', 'Close']
🎯 AKAM dtypes:
Open     float64
High     float64
Low      float64
Close    float64
dtype: object
🎯 AKAM 데이터 샘플:
                 Open       High        Low      Close
Date                                                  
2025-05-01  81.300003  81.930000  80.330002  81.110001
2025-05-02  82.209999  83.040001  81.639999  82.540001
2025-05-05  82.169998  84.050003  81.910004  83.099998
2025-05-06  82.540001  83.559998  82.150002  82.870003
2025-05-07  82.839996  83.440002  82.169998  82.860001
✅ 저장 완료: surge/AKAM_2025-05-08.png
'''