In [1]:
!pip install yfinance
!pip install mplfinance



In [None]:
# 학습용 2014~2024 10년치 데이터

import os
import yfinance as yf
import time
import pandas as pd
import requests
from bs4 import BeautifulSoup

# 저장할 디렉토리 설정
data_dir = "./data/sp500_stocks"
os.makedirs(data_dir, exist_ok=True)

# S&P 500 종목 리스트 가져오기 (Wikipedia 사용)
def get_sp500_tickers():
    url = "https://en.wikipedia.org/wiki/List_of_S%26P_500_companies"
    tables = pd.read_html(url)
    sp500_df = tables[0]  # 첫 번째 테이블이 S&P 500 리스트
    sp500_tickers = sp500_df["Symbol"].tolist()  # 'Symbol' 컬럼이 Ticker 리스트
    sp500_tickers = [ticker.replace(".", "-") for ticker in sp500_tickers]  # Yahoo Finance에서는 '.' 대신 '-' 사용
    return sp500_tickers

# S&P 500 종목 리스트 가져오기
sp500_tickers = get_sp500_tickers()
print("S&P 500 종목 개수:", len(sp500_tickers))
print("샘플 종목 리스트:", sp500_tickers[:10])

# 다운로드할 기간 설정
start_date = "2014-01-01"
end_date = "2024-01-01"

# S&P 500 종목 데이터 다운로드 및 저장
for ticker in sp500_tickers:
    try:
        print(f"{ticker} 데이터 다운로드 중...")
        df = yf.download(ticker, start=start_date, end=end_date)

        if not df.empty:
            df.to_csv(f"{data_dir}/{ticker}.csv")
            print(f"{ticker} 주가 데이터 저장 완료")
        else:
            print(f"{ticker} 데이터가 없습니다. 스킵")

        time.sleep(1)  # Yahoo Finance API 요청 간 1초 대기
    except Exception as e:
        print(f"{ticker} 데이터 다운로드 중 오류 발생: {e}")

print("✅ S&P 500 종목 전체 주가 데이터 다운로드 완료!")

In [3]:
# 엑셀 파일 정규화

import os
import pandas as pd

# 저장된 CSV 파일 경로 (폴더 확인)
data_dir = "./data/sp500_stocks/"

# 폴더가 존재하는지 확인하고 없으면 오류 메시지 출력
if not os.path.exists(data_dir):
    print(f"오류: {data_dir} 폴더가 존재하지 않습니다. CSV 파일이 저장된 폴더를 확인하세요.")
else:
    # 모든 CSV 파일 가져오기
    csv_files = [f for f in os.listdir(data_dir) if f.endswith('.csv')]

    # 올바른 컬럼명 지정 (Yahoo Finance 기본 구조)
    correct_columns = ['Date', 'Close', 'High', 'Low', 'Open', 'Volume']

    # 모든 CSV 파일을 수정
    for csv_file in csv_files:
        file_path = os.path.join(data_dir, csv_file)

        print(f"{csv_file} 파일 수정 중...")

        try:
            # CSV 파일 로드
            df = pd.read_csv(file_path, skiprows=3, names=correct_columns)  # 첫 행을 컬럼으로 지정

            # 데이터 타입 변환 (문자열 → 숫자)
            numeric_columns = ['Close', 'High', 'Low', 'Open', 'Volume']
            df[numeric_columns] = df[numeric_columns].apply(pd.to_numeric, errors='coerce')

            # 수정된 데이터 다시 저장
            df.to_csv(file_path, index=False)

            print(f"{csv_file} 수정 완료")

        except Exception as e:
            print(f"{csv_file} 수정 중 오류 발생: {e}")

    print("모든 CSV 파일 수정 완료!")

A.csv 파일 수정 중...
A.csv 수정 완료
AAPL.csv 파일 수정 중...
AAPL.csv 수정 완료
ABBV.csv 파일 수정 중...
ABBV.csv 수정 완료
ABNB.csv 파일 수정 중...
ABNB.csv 수정 완료
ABT.csv 파일 수정 중...
ABT.csv 수정 완료
ACGL.csv 파일 수정 중...
ACGL.csv 수정 완료
ACN.csv 파일 수정 중...
ACN.csv 수정 완료
ADBE.csv 파일 수정 중...
ADBE.csv 수정 완료
ADI.csv 파일 수정 중...
ADI.csv 수정 완료
ADM.csv 파일 수정 중...
ADM.csv 수정 완료
ADP.csv 파일 수정 중...
ADP.csv 수정 완료
ADSK.csv 파일 수정 중...
ADSK.csv 수정 완료
AEE.csv 파일 수정 중...
AEE.csv 수정 완료
AEP.csv 파일 수정 중...
AEP.csv 수정 완료
AES.csv 파일 수정 중...
AES.csv 수정 완료
AFL.csv 파일 수정 중...
AFL.csv 수정 완료
AIG.csv 파일 수정 중...
AIG.csv 수정 완료
AIZ.csv 파일 수정 중...
AIZ.csv 수정 완료
AJG.csv 파일 수정 중...
AJG.csv 수정 완료
AKAM.csv 파일 수정 중...
AKAM.csv 수정 완료
ALB.csv 파일 수정 중...
ALB.csv 수정 완료
ALGN.csv 파일 수정 중...
ALGN.csv 수정 완료
ALL.csv 파일 수정 중...
ALL.csv 수정 완료
ALLE.csv 파일 수정 중...
ALLE.csv 수정 완료
AMAT.csv 파일 수정 중...
AMAT.csv 수정 완료
AMCR.csv 파일 수정 중...
AMCR.csv 수정 완료
AMD.csv 파일 수정 중...
AMD.csv 수정 완료
AME.csv 파일 수정 중...
AME.csv 수정 완료
AMGN.csv 파일 수정 중...
AMGN.csv 수정 완료
AMP.csv 파일 수정 중...
AMP.

In [7]:
# 학습용 상승패턴 이미지셋 저장

import os
import pandas as pd
import mplfinance as mpf
from PIL import Image

# 저장할 디렉토리 설정 (상승 패턴 이미지 저장)
output_dir = "./data/price_3to5percent_surge_patterns"
os.makedirs(output_dir, exist_ok=True)

# 저장된 CSV 파일 경로 (S&P 500 주식 데이터 폴더)
data_dir = "./data/sp500_stocks/"

# 저장된 이미지 개수 제한
MAX_IMAGES = 100000000
saved_image_count = 0

# 봉 개수 설정 (전날 대비 5% 이상 오른 날 기준으로 과거 20일)
N_CANDLES = 20

# 기존 저장된 이미지 확인 (중복 방지)
existing_images = set(os.listdir(output_dir))

# 모든 CSV 파일 가져오기 (S&P 500 종목 전체 대상)
csv_files = [f for f in os.listdir(data_dir) if f.endswith('.csv')]

# 모든 CSV 파일에 대해 데이터 분석
for csv_file in csv_files:
    if saved_image_count >= MAX_IMAGES:
        print("최대 저장 개수(100000000장) 도달, 저장 중단")
        break

    ticker = csv_file.replace(".csv", "")  # 종목명 추출
    file_path = os.path.join(data_dir, csv_file)

    print(f"{ticker} 데이터 로드 중...")
    df = pd.read_csv(file_path)

    # 날짜 변환 및 인덱스 설정
    df['Date'] = pd.to_datetime(df['Date'])
    df.set_index('Date', inplace=True)
    df = df[df.index >= pd.Timestamp("2014-01-01")]  # 최근 10년 데이터 사용

    # 전날 대비 3~5% 상승한 날 찾기
    df['pct_change'] = df['Close'].pct_change() * 100  # 퍼센트 변환
    surge_days = df[(df['pct_change'] > 3) & (df['pct_change'] <= 5)].index # 3%~5% 상승한 날짜 리스트

    # 상승한 날 기준으로 과거 20일의 봉차트 저장
    for surge_date in surge_days:
        if saved_image_count >= MAX_IMAGES:
            print("최대 저장 개수(100000000장) 도달, 저장 중단")
            break

        # 파일명 설정
        file_name = f"{ticker}_{surge_date.strftime('%Y-%m-%d')}.png"
        file_path = os.path.join(output_dir, file_name)

        # 중복 확인: 파일이 이미 존재하면 건너뛰기
        if file_name in existing_images:
            print(f"이미 존재하는 파일: {file_name}, 건너뜀.")
            continue

        # 해당 날짜 기준으로 과거 20일 데이터 가져오기
        end_idx = df.index.get_loc(surge_date)
        start_idx = max(end_idx - N_CANDLES, 0)  # 최소 20개 봉이 있어야 함

        if start_idx == 0:
            continue  # 데이터가 부족하면 스킵

        df_fixed = df.iloc[start_idx:end_idx]

        # 캔들스틱 차트 스타일 지정
        mc = mpf.make_marketcolors(up='g', down='r', edge='black', wick='black', volume='gray')
        s = mpf.make_mpf_style(marketcolors=mc, rc={'axes.grid': False})

        # 캔들스틱 차트 저장
        mpf.plot(
            df_fixed,
            type='candle',
            style=s,
            volume=False,
            axisoff=True,
            tight_layout=True,
            savefig=file_path
        )

        # 이미지 크기 조정 (CNN 학습용 224x224 픽셀)
        img = Image.open(file_path)
        img = img.resize((224, 224))
        img.save(file_path)

        saved_image_count += 1
        existing_images.add(file_name)  # 새로 생성된 파일 추가

print(f"총 {saved_image_count}장의 상승 패턴 이미지 저장 완료!")

A 데이터 로드 중...
이미 존재하는 파일: A_2014-08-15.png, 건너뜀.
이미 존재하는 파일: A_2014-10-21.png, 건너뜀.
이미 존재하는 파일: A_2014-11-03.png, 건너뜀.
이미 존재하는 파일: A_2014-11-06.png, 건너뜀.
이미 존재하는 파일: A_2014-12-17.png, 건너뜀.
이미 존재하는 파일: A_2015-01-22.png, 건너뜀.
이미 존재하는 파일: A_2015-08-26.png, 건너뜀.
이미 존재하는 파일: A_2015-09-08.png, 건너뜀.
이미 존재하는 파일: A_2016-01-29.png, 건너뜀.
이미 존재하는 파일: A_2016-03-01.png, 건너뜀.
이미 존재하는 파일: A_2016-03-11.png, 건너뜀.
이미 존재하는 파일: A_2016-05-17.png, 건너뜀.
이미 존재하는 파일: A_2016-11-07.png, 건너뜀.
이미 존재하는 파일: A_2017-01-06.png, 건너뜀.
이미 존재하는 파일: A_2017-03-15.png, 건너뜀.
이미 존재하는 파일: A_2017-05-23.png, 건너뜀.
이미 존재하는 파일: A_2017-08-16.png, 건너뜀.
이미 존재하는 파일: A_2018-02-15.png, 건너뜀.
이미 존재하는 파일: A_2018-03-26.png, 건너뜀.
이미 존재하는 파일: A_2018-11-07.png, 건너뜀.
이미 존재하는 파일: A_2018-11-28.png, 건너뜀.
이미 존재하는 파일: A_2018-12-03.png, 건너뜀.
이미 존재하는 파일: A_2018-12-26.png, 건너뜀.
이미 존재하는 파일: A_2019-01-04.png, 건너뜀.
이미 존재하는 파일: A_2019-09-05.png, 건너뜀.
이미 존재하는 파일: A_2020-03-10.png, 건너뜀.
이미 존재하는 파일: A_2020-04-02.png, 건너뜀.
이미 존재하는 파일: A_2020-04-08.png, 건너뜀.
이미 존재하

ParserError: Error tokenizing data. C error: out of memory

In [3]:
# 학습용 하락패턴 이미지셋 저장

import os
import pandas as pd
import mplfinance as mpf
from PIL import Image

# 저장할 디렉토리 설정 (3% 이상 하락 패턴 이미지 저장)
output_dir = "./data/./data/price_3to5percent_drop_patterns"
os.makedirs(output_dir, exist_ok=True)

# 저장된 CSV 파일 경로 (S&P 500 주식 데이터 폴더)
data_dir = "./data/sp500_stocks/"

# 저장된 이미지 개수 제한
MAX_IMAGES = 100000000
saved_image_count = 0

# 봉 개수 설정 (전날 대비 3% 이상 하락한 날 기준으로 과거 20일)
N_CANDLES = 20

# 기존 저장된 이미지 확인 (중복 방지)
existing_images = set(os.listdir(output_dir))

# 모든 CSV 파일 가져오기 (S&P 500 종목 전체 대상)
csv_files = [f for f in os.listdir(data_dir) if f.endswith('.csv')]

# 모든 CSV 파일에 대해 데이터 분석
for csv_file in csv_files:
    if saved_image_count >= MAX_IMAGES:
        print("최대 저장 개수(100000000장) 도달, 저장 중단")
        break

    ticker = csv_file.replace(".csv", "")  # 종목명 추출
    file_path = os.path.join(data_dir, csv_file)

    print(f"{ticker} 데이터 로드 중...")
    df = pd.read_csv(file_path)

    # 날짜 변환 및 인덱스 설정
    df['Date'] = pd.to_datetime(df['Date'])
    df.set_index('Date', inplace=True)
    df = df[df.index >= pd.Timestamp("2014-01-01")]  # 최근 10년 데이터 사용

    # 전날 대비 3%~5% 하락한 날 찾기
    df['pct_change'] = df['Close'].pct_change() * 100  # 퍼센트 변환
    drop_days = df[df[(df['pct_change'] > -5) & (df['pct_change'] < -3)].index  # 3%~5% 하락한 날짜 리스트

    # 하락한 날 기준으로 과거 20일의 봉차트 저장
    for drop_date in drop_days:
        if saved_image_count >= MAX_IMAGES:
            print("최대 저장 개수(100000000장) 도달, 저장 중단")
            break

        # 파일명 설정
        file_name = f"{ticker}_{drop_date.strftime('%Y-%m-%d')}.png"
        image_path = os.path.join(output_dir, file_name)  # 이미지 저장 경로

        # 중복 확인: 파일이 이미 존재하면 건너뛰기
        if file_name in existing_images:
            print(f"이미 존재하는 파일: {file_name}, 건너뜀.")
            continue

        # 해당 날짜 기준으로 과거 20일 데이터 가져오기
        end_idx = df.index.get_loc(drop_date)
        start_idx = max(end_idx - N_CANDLES, 0)  # 최소 20개 봉이 있어야 함

        if start_idx == 0:
            continue  # 데이터가 부족하면 스킵

        df_fixed = df.iloc[start_idx:end_idx]

        # 캔들스틱 차트 스타일 지정 (하락 패턴 강조)
        mc = mpf.make_marketcolors(up='r', down='g', edge='black', wick='black', volume='gray')
        s = mpf.make_mpf_style(marketcolors=mc, rc={'axes.grid': False})

        # 캔들스틱 차트 저장
        mpf.plot(
            df_fixed,
            type='candle',
            style=s,
            volume=False,
            axisoff=True,
            tight_layout=True,
            savefig=image_path  # 수정된 이미지 저장 경로
        )

        # 이미지 크기 조정 (CNN 학습용 224x224 픽셀)
        img = Image.open(image_path)
        img = img.resize((224, 224))
        img.save(image_path)

        saved_image_count += 1
        existing_images.add(file_name)  # 새로 생성된 파일 추가

print(f"총 {saved_image_count}장의 하락 패턴 이미지 저장 완료!")

A 데이터 로드 중...
이미 존재하는 파일: A_2021-03-03.png, 건너뜀.
이미 존재하는 파일: A_2021-03-04.png, 건너뜀.
이미 존재하는 파일: A_2021-09-27.png, 건너뜀.
이미 존재하는 파일: A_2021-09-28.png, 건너뜀.
이미 존재하는 파일: A_2021-11-23.png, 건너뜀.
이미 존재하는 파일: A_2022-01-04.png, 건너뜀.
이미 존재하는 파일: A_2022-02-11.png, 건너뜀.
이미 존재하는 파일: A_2022-02-17.png, 건너뜀.
이미 존재하는 파일: A_2022-02-23.png, 건너뜀.
이미 존재하는 파일: A_2022-03-23.png, 건너뜀.
이미 존재하는 파일: A_2022-04-12.png, 건너뜀.
이미 존재하는 파일: A_2022-04-21.png, 건너뜀.
이미 존재하는 파일: A_2022-04-22.png, 건너뜀.
이미 존재하는 파일: A_2022-05-05.png, 건너뜀.
이미 존재하는 파일: A_2022-05-09.png, 건너뜀.
이미 존재하는 파일: A_2022-05-25.png, 건너뜀.
이미 존재하는 파일: A_2022-06-01.png, 건너뜀.
이미 존재하는 파일: A_2022-06-13.png, 건너뜀.
이미 존재하는 파일: A_2022-07-12.png, 건너뜀.
이미 존재하는 파일: A_2022-07-18.png, 건너뜀.
이미 존재하는 파일: A_2022-08-26.png, 건너뜀.
이미 존재하는 파일: A_2022-09-13.png, 건너뜀.
이미 존재하는 파일: A_2022-10-07.png, 건너뜀.
이미 존재하는 파일: A_2022-11-02.png, 건너뜀.
이미 존재하는 파일: A_2023-02-21.png, 건너뜀.
이미 존재하는 파일: A_2023-03-01.png, 건너뜀.
이미 존재하는 파일: A_2023-03-15.png, 건너뜀.
이미 존재하는 파일: A_2023-04-25.png, 건너뜀.
이미 존재하

In [5]:
# 학습용 폴더 생성
import os
import random
import shutil

# 경로 설정
surge_dir = "./data/price_surge_patterns_v2"
drop_dir = "./data/price_drop_patterns_v2"
output_dir = "./data/price_patterns"

# 저장할 폴더
surge_output_dir = os.path.join(output_dir, "surge")
drop_output_dir = os.path.join(output_dir, "drop")
os.makedirs(surge_output_dir, exist_ok=True)
os.makedirs(drop_output_dir, exist_ok=True)

# surge 이미지 파일 리스트
surge_images = [f for f in os.listdir(surge_dir) if f.endswith('.png')]
drop_images = [f for f in os.listdir(drop_dir) if f.endswith('.png')]

# surge 폴더에서 18,671개만 랜덤하게 샘플링
target_num = len(drop_images)
surge_images_sampled = random.sample(surge_images, target_num)

print(f"상승 패턴 {len(surge_images)}개 중 {target_num}개 랜덤 선택 완료.")
print(f"하락 패턴 {len(drop_images)}개 그대로 사용.")

# surge 이미지 복사
for img_file in surge_images_sampled:
    src = os.path.join(surge_dir, img_file)
    dst = os.path.join(surge_output_dir, img_file)
    shutil.copyfile(src, dst)

# drop 이미지 복사
for img_file in drop_images:
    src = os.path.join(drop_dir, img_file)
    dst = os.path.join(drop_output_dir, img_file)
    shutil.copyfile(src, dst)

print("모든 이미지 복사 완료! (balance 맞춤)")
print(f"🔹 최종 surge 이미지 수: {len(os.listdir(surge_output_dir))}")
print(f"🔹 최종 drop 이미지 수: {len(os.listdir(drop_output_dir))}")


✂️ 상승 패턴 24846개 중 18671개 랜덤 선택 완료.
✅ 하락 패턴 18671개 그대로 사용.
🎯 모든 이미지 복사 완료! (balance 맞춤)
🔹 최종 surge 이미지 수: 18671
🔹 최종 drop 이미지 수: 18671


In [None]:
# 테스트용 최근 1년치 데이터

import os
import yfinance as yf
import time
import pandas as pd
import requests
from bs4 import BeautifulSoup

# 저장할 디렉토리 설정
data_dir = "./data/sp500_stocks_test"
os.makedirs(data_dir, exist_ok=True)

# S&P 500 종목 리스트 가져오기 (Wikipedia 사용)
def get_sp500_tickers():
    url = "https://en.wikipedia.org/wiki/List_of_S%26P_500_companies"
    tables = pd.read_html(url)
    sp500_df = tables[0]  # 첫 번째 테이블이 S&P 500 리스트
    sp500_tickers = sp500_df["Symbol"].tolist()  # 'Symbol' 컬럼이 Ticker 리스트
    sp500_tickers = [ticker.replace(".", "-") for ticker in sp500_tickers]  # Yahoo Finance에서는 '.' 대신 '-' 사용
    return sp500_tickers

# S&P 500 종목 리스트 가져오기
sp500_tickers = get_sp500_tickers()
print("S&P 500 종목 개수:", len(sp500_tickers))
print("샘플 종목 리스트:", sp500_tickers[:10])

# 다운로드할 기간 설정
start_date = "2024-03-18"
end_date = "2025-04-11"

# S&P 500 종목 데이터 다운로드 및 저장
for ticker in sp500_tickers:
    try:
        print(f"{ticker} 데이터 다운로드 중...")
        df = yf.download(ticker, start=start_date, end=end_date)

        if not df.empty:
            df.to_csv(f"{data_dir}/{ticker}.csv")
            print(f"{ticker} 주가 데이터 저장 완료")
        else:
            print(f"{ticker} 데이터가 없습니다. 스킵")

        time.sleep(1)  # Yahoo Finance API 요청 간 1초 대기
    except Exception as e:
        print(f"{ticker} 데이터 다운로드 중 오류 발생: {e}")

print("✅ S&P 500 종목 전체 주가 데이터 다운로드 완료!")

In [53]:
# 엑셀 파일 정규화

import os
import pandas as pd

# 저장된 CSV 파일 경로 (폴더 확인)
data_dir = "./data/sp500_stocks_test/"

# 폴더가 존재하는지 확인하고 없으면 오류 메시지 출력
if not os.path.exists(data_dir):
    print(f"오류: {data_dir} 폴더가 존재하지 않습니다. CSV 파일이 저장된 폴더를 확인하세요.")
else:
    # 모든 CSV 파일 가져오기
    csv_files = [f for f in os.listdir(data_dir) if f.endswith('.csv')]

    # 올바른 컬럼명 지정 (Yahoo Finance 기본 구조)
    correct_columns = ['Date', 'Close', 'High', 'Low', 'Open', 'Volume']

    # 모든 CSV 파일을 수정
    for csv_file in csv_files:
        file_path = os.path.join(data_dir, csv_file)

        print(f"{csv_file} 파일 수정 중...")

        try:
            # CSV 파일 로드
            df = pd.read_csv(file_path, skiprows=3, names=correct_columns)  # 첫 행을 컬럼으로 지정

            # 데이터 타입 변환 (문자열 → 숫자)
            numeric_columns = ['Close', 'High', 'Low', 'Open', 'Volume']
            df[numeric_columns] = df[numeric_columns].apply(pd.to_numeric, errors='coerce')

            # 수정된 데이터 다시 저장
            df.to_csv(file_path, index=False)

            print(f"{csv_file} 수정 완료")

        except Exception as e:
            print(f"{csv_file} 수정 중 오류 발생: {e}")

    print("모든 CSV 파일 수정 완료!")

A.csv 파일 수정 중...
A.csv 수정 완료
AAPL.csv 파일 수정 중...
AAPL.csv 수정 완료
ABBV.csv 파일 수정 중...
ABBV.csv 수정 완료
ABNB.csv 파일 수정 중...
ABNB.csv 수정 완료
ABT.csv 파일 수정 중...
ABT.csv 수정 완료
ACGL.csv 파일 수정 중...
ACGL.csv 수정 완료
ACN.csv 파일 수정 중...
ACN.csv 수정 완료
ADBE.csv 파일 수정 중...
ADBE.csv 수정 완료
ADI.csv 파일 수정 중...
ADI.csv 수정 완료
ADM.csv 파일 수정 중...
ADM.csv 수정 완료
ADP.csv 파일 수정 중...
ADP.csv 수정 완료
ADSK.csv 파일 수정 중...
ADSK.csv 수정 완료
AEE.csv 파일 수정 중...
AEE.csv 수정 완료
AEP.csv 파일 수정 중...
AEP.csv 수정 완료
AES.csv 파일 수정 중...
AES.csv 수정 완료
AFL.csv 파일 수정 중...
AFL.csv 수정 완료
AIG.csv 파일 수정 중...
AIG.csv 수정 완료
AIZ.csv 파일 수정 중...
AIZ.csv 수정 완료
AJG.csv 파일 수정 중...
AJG.csv 수정 완료
AKAM.csv 파일 수정 중...
AKAM.csv 수정 완료
ALB.csv 파일 수정 중...
ALB.csv 수정 완료
ALGN.csv 파일 수정 중...
ALGN.csv 수정 완료
ALL.csv 파일 수정 중...
ALL.csv 수정 완료
ALLE.csv 파일 수정 중...
ALLE.csv 수정 완료
AMAT.csv 파일 수정 중...
AMAT.csv 수정 완료
AMCR.csv 파일 수정 중...
AMCR.csv 수정 완료
AMD.csv 파일 수정 중...
AMD.csv 수정 완료
AME.csv 파일 수정 중...
AME.csv 수정 완료
AMGN.csv 파일 수정 중...
AMGN.csv 수정 완료
AMP.csv 파일 수정 중...
AMP.

In [32]:
# 테스트용 상승패턴 이미지셋 저장

import os
import pandas as pd
import mplfinance as mpf
from PIL import Image

# 저장할 디렉토리 설정 (상승 패턴 이미지 저장)
output_dir = "./data/price_surge_patterns_test"
os.makedirs(output_dir, exist_ok=True)

# 저장된 CSV 파일 경로 (S&P 500 주식 데이터 폴더)
data_dir = "./data/sp500_stocks_test/"

# 저장된 이미지 개수 제한
MAX_IMAGES = 100000000
saved_image_count = 0

# 봉 개수 설정 (전날 대비 5% 이상 오른 날 기준으로 과거 20일)
N_CANDLES = 20

# ✅ 기존 저장된 이미지 확인 (중복 방지)
existing_images = set(os.listdir(output_dir))

# 모든 CSV 파일 가져오기 (S&P 500 종목 전체 대상)
csv_files = [f for f in os.listdir(data_dir) if f.endswith('.csv')]

# 모든 CSV 파일에 대해 데이터 분석
for csv_file in csv_files:
    if saved_image_count >= MAX_IMAGES:
        print("최대 저장 개수(100000000장) 도달, 저장 중단")
        break

    ticker = csv_file.replace(".csv", "")  # 종목명 추출
    file_path = os.path.join(data_dir, csv_file)

    print(f"{ticker} 데이터 로드 중...")
    df = pd.read_csv(file_path)

    # 날짜 변환 및 인덱스 설정
    df['Date'] = pd.to_datetime(df['Date'])
    df.set_index('Date', inplace=True)

    # 전날 대비 5% 이상 상승한 날 찾기
    df['pct_change'] = df['Close'].pct_change() * 100  # 퍼센트 변환
    surge_days = df[df['pct_change'] > 5].index  # 5% 이상 상승한 날짜 리스트

    # 상승한 날 기준으로 과거 20일의 봉차트 저장
    for surge_date in surge_days:
        if saved_image_count >= MAX_IMAGES:
            print("최대 저장 개수(100000000장) 도달, 저장 중단")
            break

        # ✅ 파일명 설정
        file_name = f"{ticker}_{surge_date.strftime('%Y-%m-%d')}.png"
        file_path = os.path.join(output_dir, file_name)

        # ✅ 중복 확인: 파일이 이미 존재하면 건너뛰기
        if file_name in existing_images:
            print(f"이미 존재하는 파일: {file_name}, 건너뜀.")
            continue

        # 해당 날짜 기준으로 과거 20일 데이터 가져오기
        end_idx = df.index.get_loc(surge_date)
        start_idx = max(end_idx - N_CANDLES, 0)  # 최소 20개 봉이 있어야 함

        if start_idx == 0:
            continue  # 데이터가 부족하면 스킵

        df_fixed = df.iloc[start_idx:end_idx]

        # 캔들스틱 차트 스타일 지정
        mc = mpf.make_marketcolors(up='g', down='r', edge='black', wick='black', volume='gray')
        s = mpf.make_mpf_style(marketcolors=mc, rc={'axes.grid': False})

        # 캔들스틱 차트 저장
        mpf.plot(
            df_fixed,
            type='candle',
            style=s,
            volume=False,
            axisoff=True,
            tight_layout=True,
            savefig=file_path
        )

        # 이미지 크기 조정 (CNN 학습용 224x224 픽셀)
        img = Image.open(file_path)
        img = img.resize((224, 224))
        img.save(file_path)

        saved_image_count += 1
        existing_images.add(file_name)  # 새로 생성된 파일 추가

print(f"총 {saved_image_count}장의 상승 패턴 이미지 저장 완료!")

A 데이터 로드 중...
이미 존재하는 파일: A_2024-11-01.png, 건너뜀.
이미 존재하는 파일: A_2024-11-27.png, 건너뜀.
AAPL 데이터 로드 중...
이미 존재하는 파일: AAPL_2024-05-03.png, 건너뜀.
이미 존재하는 파일: AAPL_2024-06-12.png, 건너뜀.
ABBV 데이터 로드 중...
이미 존재하는 파일: ABBV_2024-10-31.png, 건너뜀.
이미 존재하는 파일: ABBV_2025-01-31.png, 건너뜀.
ABNB 데이터 로드 중...
이미 존재하는 파일: ABNB_2025-02-14.png, 건너뜀.
ABT 데이터 로드 중...
이미 존재하는 파일: ABT_2024-11-01.png, 건너뜀.
ACGL 데이터 로드 중...
이미 존재하는 파일: ACGL_2024-10-10.png, 건너뜀.
이미 존재하는 파일: ACGL_2024-11-06.png, 건너뜀.
ACN 데이터 로드 중...
이미 존재하는 파일: ACN_2024-06-20.png, 건너뜀.
이미 존재하는 파일: ACN_2024-09-26.png, 건너뜀.
ADBE 데이터 로드 중...
이미 존재하는 파일: ADBE_2024-06-14.png, 건너뜀.
ADI 데이터 로드 중...
이미 존재하는 파일: ADI_2024-04-24.png, 건너뜀.
이미 존재하는 파일: ADI_2024-05-22.png, 건너뜀.
이미 존재하는 파일: ADI_2024-05-23.png, 건너뜀.
이미 존재하는 파일: ADI_2024-11-26.png, 건너뜀.
이미 존재하는 파일: ADI_2025-02-19.png, 건너뜀.
이미 존재하는 파일: ADI_2025-02-20.png, 건너뜀.
ADM 데이터 로드 중...
ADP 데이터 로드 중...
ADSK 데이터 로드 중...
이미 존재하는 파일: ADSK_2024-06-03.png, 건너뜀.
AEE 데이터 로드 중...
AEP 데이터 로드 중...
이미 존재하는 파일: AEP_2024-08-02.

In [50]:
# 테스트용 하락패턴 이미지셋 저장

import os
import pandas as pd
import mplfinance as mpf
from PIL import Image

# 저장할 디렉토리 설정 (5% 이상 하락 패턴 이미지 저장)
output_dir = "./data/price_drop_patterns_test"
os.makedirs(output_dir, exist_ok=True)

# 저장된 CSV 파일 경로 (S&P 500 주식 데이터 폴더)
data_dir = "./data/sp500_stocks_test/"

# 저장된 이미지 개수 제한
MAX_IMAGES = 100000000
saved_image_count = 0

# 봉 개수 설정 (전날 대비 5% 이상 하락한 날 기준으로 과거 20일)
N_CANDLES = 20

# ✅ 기존 저장된 이미지 확인 (중복 방지)
existing_images = set(os.listdir(output_dir))

# 모든 CSV 파일 가져오기 (S&P 500 종목 전체 대상)
csv_files = [f for f in os.listdir(data_dir) if f.endswith('.csv')]

# 모든 CSV 파일에 대해 데이터 분석
for csv_file in csv_files:
    if saved_image_count >= MAX_IMAGES:
        print("최대 저장 개수(100000000장) 도달, 저장 중단")
        break

    ticker = csv_file.replace(".csv", "")  # 종목명 추출
    file_path = os.path.join(data_dir, csv_file)

    print(f"{ticker} 데이터 로드 중...")
    df = pd.read_csv(file_path)

    # 날짜 변환 및 인덱스 설정
    df['Date'] = pd.to_datetime(df['Date'])
    df.set_index('Date', inplace=True)

    # 전날 대비 5% 이상 하락한 날 찾기
    df['pct_change'] = df['Close'].pct_change() * 100  # 퍼센트 변환
    drop_days = df[df['pct_change'] < -5].index  # 5% 이상 하락한 날짜 리스트

    # 하락한 날 기준으로 과거 20일의 봉차트 저장
    for drop_date in drop_days:
        if saved_image_count >= MAX_IMAGES:
            print("최대 저장 개수(100000000장) 도달, 저장 중단")
            break

        # ✅ 파일명 설정
        file_name = f"{ticker}_{drop_date.strftime('%Y-%m-%d')}.png"
        image_path = os.path.join(output_dir, file_name)  # 이미지 저장 경로

        # ✅ 중복 확인: 파일이 이미 존재하면 건너뛰기
        if file_name in existing_images:
            print(f"이미 존재하는 파일: {file_name}, 건너뜀.")
            continue

        # 해당 날짜 기준으로 과거 20일 데이터 가져오기
        end_idx = df.index.get_loc(drop_date)
        start_idx = max(end_idx - N_CANDLES, 0)  # 최소 20개 봉이 있어야 함

        if start_idx == 0:
            continue  # 데이터가 부족하면 스킵

        df_fixed = df.iloc[start_idx:end_idx]

        # 캔들스틱 차트 스타일 지정 (하락 패턴 강조)
        mc = mpf.make_marketcolors(up='r', down='g', edge='black', wick='black', volume='gray')
        s = mpf.make_mpf_style(marketcolors=mc, rc={'axes.grid': False})

        # ✅ 캔들스틱 차트 저장
        mpf.plot(
            df_fixed,
            type='candle',
            style=s,
            volume=False,
            axisoff=True,
            tight_layout=True,
            savefig=image_path  # ✅ 수정된 이미지 저장 경로
        )

        # ✅ 이미지 크기 조정 (CNN 학습용 224x224 픽셀)
        img = Image.open(image_path)
        img = img.resize((224, 224))
        img.save(image_path)

        saved_image_count += 1
        existing_images.add(file_name)  # 새로 생성된 파일 추가

print(f"총 {saved_image_count}장의 하락 패턴 이미지 저장 완료!")

A 데이터 로드 중...
이미 존재하는 파일: A_2024-05-30.png, 건너뜀.
이미 존재하는 파일: A_2024-11-26.png, 건너뜀.
AAPL 데이터 로드 중...
이미 존재하는 파일: AAPL_2024-08-05.png, 건너뜀.
이미 존재하는 파일: AAPL_2025-02-03.png, 건너뜀.
ABBV 데이터 로드 중...
이미 존재하는 파일: ABBV_2024-11-11.png, 건너뜀.
ABNB 데이터 로드 중...
이미 존재하는 파일: ABNB_2024-05-09.png, 건너뜀.
이미 존재하는 파일: ABNB_2024-08-02.png, 건너뜀.
이미 존재하는 파일: ABNB_2024-08-07.png, 건너뜀.
이미 존재하는 파일: ABNB_2024-11-08.png, 건너뜀.
이미 존재하는 파일: ABNB_2025-01-27.png, 건너뜀.
ABT 데이터 로드 중...
이미 존재하는 파일: ABT_2024-07-29.png, 건너뜀.
ACGL 데이터 로드 중...
이미 존재하는 파일: ACGL_2024-10-08.png, 건너뜀.
ACN 데이터 로드 중...
이미 존재하는 파일: ACN_2024-09-18.png, 건너뜀.
ADBE 데이터 로드 중...
이미 존재하는 파일: ADBE_2024-08-05.png, 건너뜀.
이미 존재하는 파일: ADBE_2024-09-13.png, 건너뜀.
이미 존재하는 파일: ADBE_2024-12-12.png, 건너뜀.
이미 존재하는 파일: ADBE_2025-03-13.png, 건너뜀.
이미 존재하는 파일: ADBE_2025-03-14.png, 건너뜀.
ADI 데이터 로드 중...
이미 존재하는 파일: ADI_2024-08-02.png, 건너뜀.
이미 존재하는 파일: ADI_2024-11-27.png, 건너뜀.
ADM 데이터 로드 중...
이미 존재하는 파일: ADM_2024-11-05.png, 건너뜀.
이미 존재하는 파일: ADM_2025-03-12.png, 건너뜀.
ADP 데이터 로드 중.

In [48]:
# 최근 데이터로 이미지셋 저장

import os
import pandas as pd
import mplfinance as mpf
from PIL import Image

# 📅 기준 날짜 설정
target_date = pd.to_datetime("2025-04-04")

# 📁 입력 & 출력 디렉토리
data_dir = "./data/sp500_stocks_test/"
output_dir = "./data/recent"
os.makedirs(output_dir, exist_ok=True)

# 📌 캔들 수
N_CANDLES = 20
saved_count = 0

# 📁 CSV 파일 목록 가져오기
csv_files = [f for f in os.listdir(data_dir) if f.endswith(".csv")]

# ✅ 모든 종목에 대해 반복
for csv_file in csv_files:
    ticker = csv_file.replace(".csv", "")
    file_path = os.path.join(data_dir, csv_file)

    try:
        df = pd.read_csv(file_path)
        df['Date'] = pd.to_datetime(df['Date'])
        df.set_index('Date', inplace=True)

        # 기준 날짜가 데이터에 포함되는지 확인
        if target_date not in df.index:
            print(f"⛔️ {ticker} - 기준 날짜 없음: {target_date.date()}")
            continue

        # 기준 날짜 인덱스 확인
        end_idx = df.index.get_loc(target_date)
        start_idx = end_idx - N_CANDLES

        if start_idx < 0:
            print(f"⛔️ {ticker} - 데이터 부족 (20봉 미만)")
            continue

        df_slice = df.iloc[start_idx:end_idx]

        # 저장 경로 및 파일명
        output_path = os.path.join(output_dir, f"{ticker}_{target_date.date()}.png")

        # 캔들 차트 스타일
        mc = mpf.make_marketcolors(up='g', down='r', edge='black', wick='black', volume='gray')
        s = mpf.make_mpf_style(marketcolors=mc, rc={'axes.grid': False})

        # 차트 저장
        mpf.plot(df_slice, type='candle', style=s, volume=False, axisoff=True,
                 tight_layout=True, savefig=output_path)

        # 이미지 리사이즈
        img = Image.open(output_path)
        img = img.resize((224, 224))
        img.save(output_path)

        saved_count += 1
        print(f"✅ 저장 완료: {output_path}")

    except Exception as e:
        print(f"⚠️ 오류 발생: {ticker} - {e}")

print(f"\n📸 총 {saved_count}장 저장 완료!")

✅ 저장 완료: ./data/recent\A_2025-04-04.png
✅ 저장 완료: ./data/recent\AAPL_2025-04-04.png
✅ 저장 완료: ./data/recent\ABBV_2025-04-04.png
✅ 저장 완료: ./data/recent\ABNB_2025-04-04.png
✅ 저장 완료: ./data/recent\ABT_2025-04-04.png
✅ 저장 완료: ./data/recent\ACGL_2025-04-04.png
✅ 저장 완료: ./data/recent\ACN_2025-04-04.png
✅ 저장 완료: ./data/recent\ADBE_2025-04-04.png
✅ 저장 완료: ./data/recent\ADI_2025-04-04.png
✅ 저장 완료: ./data/recent\ADM_2025-04-04.png
✅ 저장 완료: ./data/recent\ADP_2025-04-04.png
✅ 저장 완료: ./data/recent\ADSK_2025-04-04.png
✅ 저장 완료: ./data/recent\AEE_2025-04-04.png
✅ 저장 완료: ./data/recent\AEP_2025-04-04.png
✅ 저장 완료: ./data/recent\AES_2025-04-04.png
✅ 저장 완료: ./data/recent\AFL_2025-04-04.png
✅ 저장 완료: ./data/recent\AIG_2025-04-04.png
✅ 저장 완료: ./data/recent\AIZ_2025-04-04.png
✅ 저장 완료: ./data/recent\AJG_2025-04-04.png
✅ 저장 완료: ./data/recent\AKAM_2025-04-04.png
✅ 저장 완료: ./data/recent\ALB_2025-04-04.png
✅ 저장 완료: ./data/recent\ALGN_2025-04-04.png
✅ 저장 완료: ./data/recent\ALL_2025-04-04.png
✅ 저장 완료: ./data/recent\ALLE_

In [5]:
# 텍스트 데이터 크롤링
!pip install requests pandas



In [9]:
# 뉴스 API 이용 데이터 수집
import requests
import pandas as pd
from datetime import datetime, timedelta
import time
import os

API_KEY = "9d9bc1e73e03450ca77e7d5cee1c8718"  # 실제 키 입력
EXISTING_CSV = "us_business_news_extended.csv"  # 기존 저장된 파일

# 1. 기존 파일에서 마지막 날짜 확인
if os.path.exists(EXISTING_CSV):
    old_df = pd.read_csv(EXISTING_CSV)
    old_df["publishedAt"] = pd.to_datetime(old_df["publishedAt"], errors="coerce")  # 날짜 파싱
    last_date = old_df["publishedAt"].dropna().dt.date.min()  # ✅ 결측값 제외하고 최소 날짜 추출
    print(f"[INFO] 이어서 수집 시작 날짜: {last_date}")
else:
    old_df = pd.DataFrame()
    last_date = datetime.today().date()

# 2. 수집 날짜 범위 설정 (last_date 전날부터 역순으로 진행)
days_to_collect = 10  # 최근 10일치만 예시
date_range = [(last_date - timedelta(days=i)).strftime('%Y-%m-%d') for i in range(1, days_to_collect + 1)]

# 3. 날짜별 뉴스 수집 함수
def get_news_by_date(date_str, page_size=20, max_pages=3):
    articles = []
    base_url = "https://newsapi.org/v2/everything"
    for page in range(1, max_pages + 1):
        params = {
            "q": "business",
            "from": date_str,
            "to": date_str,
            "language": "en",
            "sortBy": "publishedAt",
            "pageSize": page_size,
            "page": page,
            "apiKey": API_KEY
        }
        response = requests.get(base_url, params=params)
        if response.status_code != 200:
            print(f"[ERROR] {date_str} page {page}: {response.status_code}")
            break
        data = response.json()
        articles += data.get("articles", [])
        time.sleep(2)
    return articles

# 4. 수집 및 병합
new_articles = []
for date in date_range:
    print(f"[INFO] Collecting {date}...")
    daily_news = get_news_by_date(date)
    new_articles.extend(daily_news)

# 5. 병합 및 저장
new_df = pd.DataFrame(new_articles)
merged_df = pd.concat([old_df, new_df], ignore_index=True)
merged_df.drop_duplicates(subset="url", inplace=True)
merged_df.to_csv(EXISTING_CSV, index=False, encoding="utf-8-sig")

print(f"[DONE] 총 {len(new_articles)}개의 새 뉴스 추가. 전체 {len(merged_df)}개 기사 저장됨.")

[INFO] 이어서 수집 시작 날짜: 2025-04-04
[INFO] Collecting 2025-04-03...
[INFO] Collecting 2025-04-02...
[INFO] Collecting 2025-04-01...
[INFO] Collecting 2025-03-31...
[INFO] Collecting 2025-03-30...
[INFO] Collecting 2025-03-29...
[INFO] Collecting 2025-03-28...
[INFO] Collecting 2025-03-27...
[INFO] Collecting 2025-03-26...
[INFO] Collecting 2025-03-25...
[DONE] 총 578개의 새 뉴스 추가. 전체 1440개 기사 저장됨.


In [25]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

def crawl_yahoo_finance_headlines(num_pages=3):
    base_url = "https://finance.yahoo.com/topic/stock-market-news/"
    headers = {
        "User-Agent": "Mozilla/5.0"
    }
    results = []

    res = requests.get(base_url, headers=headers)
    soup = BeautifulSoup(res.text, "html.parser")
    for item in soup.select("h3 a"):
        title = item.get_text(strip=True)
        url = "https://finance.yahoo.com" + item["href"]
        results.append({"title": title, "url": url})

    return pd.DataFrame(results)

# 실행
df = crawl_yahoo_finance_headlines()
df.to_csv("yahoo_finance_headlines.csv", index=False)
print("[DONE] 야후 파이낸스 헤드라인 저장 완료")


[DONE] 야후 파이낸스 헤드라인 저장 완료
