# 1️⃣ Re-Imaging Price Trends - 이미지 생성

**목적**: 주가 데이터를 캔들스틱 차트 이미지로 변환하여 디스크에 저장

**완료 후**: `2_model_training.ipynb` 실행

In [None]:
from google.colab import drive
drive.mount('/content/drive')

import os
os.chdir('/content/drive/MyDrive/ReImaging_Price_Trends')
print(f"📁 현재 디렉토리: {os.getcwd()}")
print(f"📄 파일 목록: {[f for f in os.listdir('.') if not f.startswith('.')]}")

# Numba JIT 성능 최적화 확인
try:
    import numba
    print(f"✅ Numba JIT 사용 가능: {numba.__version__}")
    print("   🚀 이미지 생성 속도가 50-100배 향상됩니다!")
except ImportError:
    print("❌ Numba 설치 실패 - requirements.txt 확인 필요")

# 메모리 상태 확인
import psutil
memory = psutil.virtual_memory()
print(f"💾 사용 가능한 메모리: {memory.available // (1024**3):.1f}GB")
if memory.available < 2 * (1024**3):  # 2GB 미만
    print("⚠️  메모리 부족 시 --parallel 1 옵션 사용 권장")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
📁 현재 디렉토리: /content/drive/MyDrive/ReImaging_Price_Trends
📄 파일 목록: ['utils.py', 'README.md', 'model.py', 'data', '__init__.py', '1_image_generation.ipynb', '2_model_training.ipynb', 'create_images_optimized.py', 'img_data', 'CLAUDE.md', 'requirements.txt', 'dataset_original.py', '__pycache__', 'img_data_reconstructed', 'dataset.py', 'dataset_optimized.py', 'create_original_format.py', 'train.py', 'test.py', 'main.py']
✅ Numba JIT 사용 가능: 0.61.2
   🚀 이미지 생성 속도가 50-100배 향상됩니다!
💾 사용 가능한 메모리: 330.0GB


In [None]:
 # 환경 설정 및 최적화 확인
!pip install -r requirements.txt



In [None]:
# 데이터 파일 확인
data_files = [
    'data/data_1993_2000_train_val.parquet',
    'data/data_2001_2019_test.parquet'
]

print("📊 데이터 파일 확인:")
all_exist = True
for file in data_files:
    if os.path.exists(file):
        size_mb = os.path.getsize(file) / (1024**2)
        print(f"✅ {file} ({size_mb:.1f}MB)")
    else:
        print(f"❌ {file} 없음")
        all_exist = False

if not all_exist:
    print("\n⚠️ 데이터 파일이 없습니다. data/datageneration.ipynb를 먼저 실행하세요.")

📊 데이터 파일 확인:
✅ data/data_1993_2000_train_val.parquet (442.5MB)
✅ data/data_2001_2019_test.parquet (1109.3MB)


In [None]:
!python create_original_format.py --image_days 5 --mode train --sample_rate 1.0

🎯 원본 형식 이미지 생성 시작
  윈도우 크기: 5일
  모드: train
  샘플링 비율: 1.0

데이터셋 생성 중...
데이터 로드 중: data/data_1993_2000_train_val.parquet
  로드된 레코드: 13,832,356개
  종목 수: 11,753개
  기간: 19930104 ~ 20001229
데이터 로드 완료
[데이터 로드] | 2025-07-29 09:21:09 Done | Using  61.980 seconds
데이터셋 초기화 완료
  모드: train
  이미지 크기: (32, 15)
  기간: 19930101 ~ 20001231
  라벨: RET5

📅 1993년 데이터 처리 중...
  1993년 레코드: 1,544,907개
  병렬 처리 중 (6789 종목)...
1993년 이미지 생성: 100% 6789/6789 [00:22<00:00, 306.31it/s]
  라벨 생성 중...
  생성된 이미지: 196,093개
  이미지 저장 중: 5d_week_has_vb_[5]_ma_1993_images.dat
  라벨 저장 중: 5d_week_has_vb_[5]_ma_1993_labels_w_delay.feather
  파일 크기: 이미지 89.8MB, 라벨 6.9MB

📅 1994년 데이터 처리 중...
  1994년 레코드: 1,671,053개
  병렬 처리 중 (7172 종목)...
1994년 이미지 생성: 100% 7172/7172 [00:20<00:00, 352.24it/s]
  라벨 생성 중...
  생성된 이미지: 204,502개
  이미지 저장 중: 5d_week_has_vb_[5]_ma_1994_images.dat
  라벨 저장 중: 5d_week_has_vb_[5]_ma_1994_labels_w_delay.feather
  파일 크기: 이미지 93.6MB, 라벨 7.2MB

📅 1995년 데이터 처리 중...
  1995년 레코드: 1,712,869개
  병렬 처리 중 (7520 종목)...
1995

In [None]:
!python create_original_format.py --image_days 5 --mode test --sample_rate 1.0

🎯 원본 형식 이미지 생성 시작
  윈도우 크기: 5일
  모드: test
  샘플링 비율: 1.0

데이터셋 생성 중...
데이터 로드 중: data/data_2001_2019_test.parquet
  로드된 레코드: 20,434,824개
  종목 수: 10,344개
  기간: 20010102 ~ 20191231
데이터 로드 완료
[데이터 로드] | 2025-07-29 09:29:36 Done | Using  100.135 seconds
데이터셋 초기화 완료
  모드: test
  이미지 크기: (32, 15)
  기간: 20010101 ~ 20191231
  라벨: RET5

📅 2001년 데이터 처리 중...
  2001년 레코드: 1,481,517개
  병렬 처리 중 (6523 종목)...
2001년 이미지 생성: 100% 6523/6523 [00:24<00:00, 268.04it/s]
  라벨 생성 중...
  생성된 이미지: 221,555개
  이미지 저장 중: 5d_week_has_vb_[5]_ma_2001_images.dat
  라벨 저장 중: 5d_week_has_vb_[5]_ma_2001_labels_w_delay.feather
  파일 크기: 이미지 101.4MB, 라벨 9.8MB

📅 2002년 데이터 처리 중...
  2002년 레코드: 1,365,935개
  병렬 처리 중 (5810 종목)...
2002년 이미지 생성: 100% 5810/5810 [00:20<00:00, 283.10it/s]
  라벨 생성 중...
  생성된 이미지: 214,380개
  이미지 저장 중: 5d_week_has_vb_[5]_ma_2002_images.dat
  라벨 저장 중: 5d_week_has_vb_[5]_ma_2002_labels_w_delay.feather
  파일 크기: 이미지 98.1MB, 라벨 9.6MB

📅 2003년 데이터 처리 중...
  2003년 레코드: 1,262,973개
  병렬 처리 중 (5404 종목)...
2003년 이미지

In [None]:
!python create_original_format.py --image_days 20 --mode train --sample_rate 1.0

🎯 원본 형식 이미지 생성 시작
  윈도우 크기: 20일
  모드: train
  샘플링 비율: 1.0

데이터셋 생성 중...
데이터 로드 중: data/data_1993_2000_train_val.parquet
  로드된 레코드: 13,832,356개
  종목 수: 11,753개
  기간: 19930104 ~ 20001229
데이터 로드 완료
[데이터 로드] | 2025-07-29 09:42:37 Done | Using  54.069 seconds
데이터셋 초기화 완료
  모드: train
  이미지 크기: (64, 60)
  기간: 19930101 ~ 20001231
  라벨: RET20

📅 1993년 데이터 처리 중...
  1993년 레코드: 1,544,907개
  병렬 처리 중 (6789 종목)...
1993년 이미지 생성: 100% 6789/6789 [00:11<00:00, 604.41it/s]
  라벨 생성 중...
  생성된 이미지: 42,081개
  이미지 저장 중: 20d_month_has_vb_[20]_ma_1993_images.dat
  라벨 저장 중: 20d_month_has_vb_[20]_ma_1993_labels_w_delay.feather
  파일 크기: 이미지 154.1MB, 라벨 1.6MB

📅 1994년 데이터 처리 중...
  1994년 레코드: 1,671,053개
  병렬 처리 중 (7172 종목)...
1994년 이미지 생성: 100% 7172/7172 [00:08<00:00, 800.35it/s]
  라벨 생성 중...
  생성된 이미지: 40,676개
  이미지 저장 중: 20d_month_has_vb_[20]_ma_1994_images.dat
  라벨 저장 중: 20d_month_has_vb_[20]_ma_1994_labels_w_delay.feather
  파일 크기: 이미지 149.0MB, 라벨 1.5MB

📅 1995년 데이터 처리 중...
  1995년 레코드: 1,712,869개
  병렬 처리 중 (75

In [None]:
!python create_original_format.py --image_days 20 --mode test --sample_rate 1.0

🎯 원본 형식 이미지 생성 시작
  윈도우 크기: 20일
  모드: test
  샘플링 비율: 1.0

데이터셋 생성 중...
데이터 로드 중: data/data_2001_2019_test.parquet
  로드된 레코드: 20,434,824개
  종목 수: 10,344개
  기간: 20010102 ~ 20191231
데이터 로드 완료
[데이터 로드] | 2025-07-29 09:46:32 Done | Using  79.103 seconds
데이터셋 초기화 완료
  모드: test
  이미지 크기: (64, 60)
  기간: 20010101 ~ 20191231
  라벨: RET20

📅 2001년 데이터 처리 중...
  2001년 레코드: 1,481,517개
  병렬 처리 중 (6523 종목)...
2001년 이미지 생성: 100% 6523/6523 [00:11<00:00, 568.34it/s]
  라벨 생성 중...
  생성된 이미지: 49,984개
  이미지 저장 중: 20d_month_has_vb_[20]_ma_2001_images.dat
  라벨 저장 중: 20d_month_has_vb_[20]_ma_2001_labels_w_delay.feather
  파일 크기: 이미지 183.0MB, 라벨 2.3MB

📅 2002년 데이터 처리 중...
  2002년 레코드: 1,365,935개
  병렬 처리 중 (5810 종목)...
2002년 이미지 생성: 100% 5810/5810 [00:08<00:00, 684.28it/s]
  라벨 생성 중...
  생성된 이미지: 47,576개
  이미지 저장 중: 20d_month_has_vb_[20]_ma_2002_images.dat
  라벨 저장 중: 20d_month_has_vb_[20]_ma_2002_labels_w_delay.feather
  파일 크기: 이미지 174.2MB, 라벨 2.2MB

📅 2003년 데이터 처리 중...
  2003년 레코드: 1,262,973개
  병렬 처리 중 (5404 종목).

In [None]:
!python create_original_format.py --image_days 60 --mode train --sample_rate 1.0

🎯 원본 형식 이미지 생성 시작
  윈도우 크기: 60일
  모드: train
  샘플링 비율: 1.0

데이터셋 생성 중...
데이터 로드 중: data/data_1993_2000_train_val.parquet
  로드된 레코드: 13,832,356개
  종목 수: 11,753개
  기간: 19930104 ~ 20001229
데이터 로드 완료
[데이터 로드] | 2025-07-29 09:51:49 Done | Using  53.636 seconds
데이터셋 초기화 완료
  모드: train
  이미지 크기: (96, 180)
  기간: 19930101 ~ 20001231
  라벨: RET60

📅 1993년 데이터 처리 중...
  1993년 레코드: 1,544,907개
  병렬 처리 중 (6789 종목)...
1993년 이미지 생성: 100% 6789/6789 [00:08<00:00, 802.42it/s] 
  라벨 생성 중...
  생성된 이미지: 12,338개
  이미지 저장 중: 60d_quarter_has_vb_[60]_ma_1993_images.dat
  라벨 저장 중: 60d_quarter_has_vb_[60]_ma_1993_labels_w_delay.feather
  파일 크기: 이미지 203.3MB, 라벨 0.5MB

📅 1994년 데이터 처리 중...
  1994년 레코드: 1,671,053개
  병렬 처리 중 (7172 종목)...
1994년 이미지 생성: 100% 7172/7172 [00:05<00:00, 1236.93it/s]
  라벨 생성 중...
  생성된 이미지: 9,878개
  이미지 저장 중: 60d_quarter_has_vb_[60]_ma_1994_images.dat
  라벨 저장 중: 60d_quarter_has_vb_[60]_ma_1994_labels_w_delay.feather
  파일 크기: 이미지 162.8MB, 라벨 0.4MB

📅 1995년 데이터 처리 중...
  1995년 레코드: 1,712,869개
  병

In [None]:
!python create_original_format.py --image_days 60 --mode test --sample_rate 1.0

🎯 원본 형식 이미지 생성 시작
  윈도우 크기: 60일
  모드: test
  샘플링 비율: 1.0

데이터셋 생성 중...
데이터 로드 중: data/data_2001_2019_test.parquet
  로드된 레코드: 20,434,824개
  종목 수: 10,344개
  기간: 20010102 ~ 20191231
데이터 로드 완료
[데이터 로드] | 2025-07-29 09:55:00 Done | Using  82.650 seconds
데이터셋 초기화 완료
  모드: test
  이미지 크기: (96, 180)
  기간: 20010101 ~ 20191231
  라벨: RET60

📅 2001년 데이터 처리 중...
  2001년 레코드: 1,481,517개
  병렬 처리 중 (6523 종목)...
2001년 이미지 생성: 100% 6523/6523 [00:08<00:00, 747.00it/s] 
  라벨 생성 중...
  생성된 이미지: 15,294개
  이미지 저장 중: 60d_quarter_has_vb_[60]_ma_2001_images.dat
  라벨 저장 중: 60d_quarter_has_vb_[60]_ma_2001_labels_w_delay.feather
  파일 크기: 이미지 252.0MB, 라벨 0.7MB

📅 2002년 데이터 처리 중...
  2002년 레코드: 1,365,935개
  병렬 처리 중 (5810 종목)...
2002년 이미지 생성: 100% 5810/5810 [00:05<00:00, 1002.97it/s]
  라벨 생성 중...
  생성된 이미지: 14,643개
  이미지 저장 중: 60d_quarter_has_vb_[60]_ma_2002_images.dat
  라벨 저장 중: 60d_quarter_has_vb_[60]_ma_2002_labels_w_delay.feather
  파일 크기: 이미지 241.3MB, 라벨 0.7MB

📅 2003년 데이터 처리 중...
  2003년 레코드: 1,262,973개
  병렬 처리 중

In [None]:
# 생성된 원본 형식 이미지 확인
import pandas as pd
import os
import numpy as np

print("📊 생성된 원본 형식 이미지 요약:")

# 원본 형식 디렉토리 확인
original_dirs = {
    'weekly_5d': (5, '5d_week_has_vb_[5]_ma'),
    'monthly_20d': (20, '20d_month_has_vb_[20]_ma'),
    'quarterly_60d': (60, '60d_quarter_has_vb_[60]_ma')
}

base_dir = 'img_data_reconstructed'
if os.path.exists(base_dir):
    total_images = 0
    total_size_gb = 0
    success_count = 0

    for dir_name, (win_size, prefix) in original_dirs.items():
        img_dir = os.path.join(base_dir, dir_name)

        if os.path.exists(img_dir):
            # .dat 및 .feather 파일 확인
            dat_files = [f for f in os.listdir(img_dir) if f.endswith('.dat')]
            feather_files = [f for f in os.listdir(img_dir) if f.endswith('.feather')]

            dir_images = 0
            dir_size = 0

            # 각 연도별 파일 확인
            for dat_file in dat_files:
                dat_path = os.path.join(img_dir, dat_file)

                # 이미지 개수 계산 (.dat 파일 크기 기반)
                file_size = os.path.getsize(dat_path)
                if win_size == 5:
                    image_size = 32 * 15  # 5일: 32x15
                elif win_size == 20:
                    image_size = 64 * 60  # 20일: 64x60
                else:  # 60
                    image_size = 96 * 180  # 60일: 96x180

                num_images = file_size // image_size
                dir_images += num_images
                dir_size += file_size

            # .feather 파일 크기 추가
            for feather_file in feather_files:
                feather_path = os.path.join(img_dir, feather_file)
                dir_size += os.path.getsize(feather_path)

            size_gb = dir_size / (1024**3)
            total_size_gb += size_gb

            print(f"✅ {dir_name}: {dir_images:,}개 이미지, {size_gb:.2f}GB")
            print(f"   .dat 파일: {len(dat_files)}개, .feather 파일: {len(feather_files)}개")

            total_images += dir_images
            success_count += 1
        else:
            print(f"❌ {dir_name}: 생성되지 않음")

    print(f"\n📈 최종 결과:")
    print(f"   성공: {success_count}/{len(original_dirs)} 디렉토리")
    print(f"   총 이미지: {total_images:,}개")
    print(f"   총 용량: {total_size_gb:.2f}GB")
    print(f"   이미지당 평균 용량: {total_size_gb*1024*1024/max(total_images,1):.1f}KB")

    if success_count == len(original_dirs):
        print(f"\n🎉 모든 원본 형식 이미지 생성 완료!")
        print(f"📁 저장 경로: {base_dir}/")
        print(f"📊 형식: .dat (바이너리 이미지) + .feather (라벨)")
        print(f"\n➡️  논문 저자 원본과 동일한 형식으로 저장됨")
    else:
        print(f"\n⚠️  {len(original_dirs)-success_count}개 디렉토리 생성 실패")
        print("   create_original_format.py 오류 로그를 확인하세요.")

    # label_columns.txt 파일 확인
    label_file = os.path.join(base_dir, 'label_columns.txt')
    if os.path.exists(label_file):
        print(f"\n📋 메타데이터: {label_file} 생성됨")
        with open(label_file, 'r') as f:
            print("   내용:")
            for line in f.readlines()[:3]:  # 처음 3줄만 표시
                print(f"   {line.strip()}")
else:
    print(f"❌ {base_dir} 디렉토리가 생성되지 않았습니다.")
    print("   create_original_format.py 실행을 확인하세요.")