# ELS Pricer - GPU Benchmark on Google Colab (Extended)

**C++/CUDA 기반 2자산 Step-Down ELS Pricer 성능 테스트 - 확장판**

이 노트북은 다음을 테스트합니다:
- ✅ CPU 버전 (6가지 그리드 크기)
- ✅ GPU 버전 (6가지 그리드 크기)
- ✅ CPU vs GPU 성능 비교
- ✅ 버그 수정된 정확한 가격 계산
- 🆕 **Time Step (Nt) 스케일링 테스트**
- 🆕 **Spatial Grid 스케일링 테스트**

## 🔧 최근 업데이트 (2024-11-17)
- **Step 8 디버그 출력 파싱 오류 수정**: DEBUG 메시지 필터링 추가
- **조기상환 버그 수정**: 강제 상환으로 변경 (이전: 선택적)
- **타임스텝 버그 수정**: 만기 관측일 포함
- **가격 정확도 향상**: 111.7원 → 103.9원 (오차 7% → 0.5%)

## 📋 테스트 그리드 크기

| # | N1 | N2 | Nt | 총 Points | 설명 |
|---|----|----|----|-----------| |
| 1 | 100 | 100 | 200 | 2M | Small - Medium density |
| 2 | 100 | 100 | 1000 | 10M | Small - High time resolution |
| 3 | 200 | 200 | 200 | 8M | Large - Medium density |
| 4 | 200 | 200 | 1000 | 40M | Large - High time resolution |
| 5 | 400 | 400 | 200 | 32M | Very Large - Medium density |
| 6 | 400 | 400 | 1000 | 160M | Very Large - High time resolution |

---

## Step 1: GPU 환경 확인

In [None]:
# GPU 확인
!nvidia-smi
print("\n" + "="*70)
!nvcc --version

## Step 2: 필요한 도구 설치

In [None]:
# CMake와 빌드 도구 설치
!apt-get update -qq
!apt-get install -y -qq cmake build-essential

# 버전 확인
!cmake --version
!g++ --version | head -1

## Step 3: 프로젝트 업로드

**방법 1: 파일 직접 업로드 (추천)**
- `els-pricer-colab.tar.gz` 또는 `els-pricer-colab-extended.tar.gz` 파일을 준비
- 아래 셀 실행 후 파일 선택

**방법 2: Google Drive 마운트**
- Drive에 미리 업로드한 경우

**📌 중요**: 2024-11-14 이후 생성된 버그 수정 버전을 사용하세요

In [None]:
# 방법 1: 파일 업로드
from google.colab import files
import os

print("📁 압축 파일을 업로드해주세요...")
print("   지원 파일명:")
print("   - els-pricer-colab.tar.gz")
print("   - els-pricer-colab-extended.tar.gz")
print("   - els-pricer-cpp.tar.gz (구버전)")
uploaded = files.upload()

# 업로드된 파일 확인 및 압축 해제
uploaded_file = None
for filename in uploaded.keys():
    print(f"\n업로드된 파일: {filename}")
    uploaded_file = filename
    break

if uploaded_file:
    # tar.gz 파일인지 확인
    if uploaded_file.endswith('.tar.gz'):
        print(f"압축 해제 중: {uploaded_file}")
        !tar -xzf {uploaded_file}
        print("\n✓ 프로젝트 압축 해제 완료!")
        !ls -la els-pricer-cpp/
    else:
        print(f"⚠️ {uploaded_file}은 tar.gz 파일이 아닙니다.")
else:
    print("❌ 업로드된 파일이 없습니다.")

In [None]:
# (선택사항) 방법 2: Google Drive에서 가져오기
# from google.colab import drive
# drive.mount('/content/drive')
# 
# # Drive에서 파일 복사 (파일명에 맞게 수정)
# import os
# possible_files = [
#     '/content/drive/MyDrive/els-pricer-colab-extended.tar.gz',
#     '/content/drive/MyDrive/els-pricer-colab.tar.gz',
#     '/content/drive/MyDrive/els-pricer-cpp.tar.gz'
# ]
# 
# for file_path in possible_files:
#     if os.path.exists(file_path):
#         !cp {file_path} .
#         !tar -xzf {os.path.basename(file_path)}
#         print(f"✓ {os.path.basename(file_path)} 압축 해제 완료!")
#         break

## Step 4: 프로젝트 빌드 (GPU 버전)

In [None]:
import os

# 프로젝트 디렉토리 확인
project_dir = '/content/els-pricer-cpp'
if not os.path.exists(project_dir):
    print("❌ 프로젝트 디렉토리를 찾을 수 없습니다!")
    print("   Step 3에서 파일을 업로드하고 압축을 해제했는지 확인하세요.")
else:
    print("✓ 프로젝트 디렉토리 확인됨")
    
    # 작업 디렉토리 변경
    os.chdir(project_dir)
    print(f"✓ 작업 디렉토리: {os.getcwd()}")
    
    # 빌드 디렉토리 생성
    !rm -rf build
    !mkdir -p build
    
    # 빌드 디렉토리로 이동
    os.chdir(os.path.join(project_dir, 'build'))
    print(f"✓ 빌드 디렉토리: {os.getcwd()}")
    
    # CMake 설정 (GPU 포함)
    print("\n🔧 CMake 설정 중...\n")
    !cmake ..
    
    print("\n" + "="*70)
    print("🔨 컴파일 중 (병렬 빌드)...\n")
    !make -j4
    
    print("\n" + "="*70)
    print("✓ 빌드 완료!")
    print("\n생성된 실행 파일:")
    !ls -lh els_pricer test_els benchmark_cpu_vs_gpu validate_price 2>/dev/null || echo "일부 실행 파일이 없을 수 있습니다."

## Step 5: CPU vs GPU 기본 벤치마크 실행

빌드가 완료되었습니다! 이제 CPU와 GPU 성능을 직접 비교하는 벤치마크를 실행합니다.

**테스트할 그리드:**
- 100×100×200, 100×100×1000
- 200×200×200, 200×200×1000
- 400×400×200, 400×400×1000

각 그리드마다 CPU와 GPU 모두에서 실행하고 어느 쪽이 더 빠른지 확인합니다.

In [None]:
import os

# 빌드 디렉토리로 이동
build_dir = '/content/els-pricer-cpp/build'
if os.path.exists(build_dir):
    os.chdir(build_dir)
    print(f"✓ 작업 디렉토리: {os.getcwd()}")
    
    print("\n🚀 CPU vs GPU 종합 벤치마크 시작!\n")
    print("="*70 + "\n")
    
    # CPU vs GPU 비교 프로그램 실행 (6개 그리드 모두 테스트)
    if os.path.exists('./benchmark_cpu_vs_gpu'):
        !./benchmark_cpu_vs_gpu
    else:
        print("⚠️ benchmark_cpu_vs_gpu 실행 파일을 찾을 수 없습니다.")
        print("   대신 els_pricer로 간단한 테스트를 실행합니다.")
        if os.path.exists('./els_pricer'):
            !./els_pricer
        else:
            print("❌ 실행 파일이 없습니다. 빌드가 성공적으로 완료되었는지 확인하세요.")
else:
    print("❌ 빌드 디렉토리를 찾을 수 없습니다. Step 4를 먼저 실행하세요.")

## Step 6: 결과 데이터 확인 및 분석

In [None]:
import os
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# CSV 파일 경로
csv_path = '/content/els-pricer-cpp/build/cpu_vs_gpu_results.csv'

if os.path.exists(csv_path):
    # CSV 파일 읽기
    df = pd.read_csv(csv_path)
    
    print("📊 CPU vs GPU 벤치마크 결과:\n")
    print(df.to_string(index=False))
    
    print("\n" + "═"*70)
    print("📈 통계 요약:")
    print(f"   평균 CPU 시간: {df['CPU_Time'].mean():.3f}초")
    print(f"   평균 GPU 시간: {df['GPU_Time'].mean():.3f}초")
    print(f"   평균 가속 비율: {df['Speedup'].mean():.2f}×")
    print(f"   최대 가속 비율: {df['Speedup'].max():.2f}×")
    print(f"   GPU 승리 횟수: {(df['Speedup'] > 1.0).sum()}/6")
    print(f"   CPU 승리 횟수: {(df['Speedup'] < 1.0).sum()}/6")
    
    # 각 그리드별 승자 표시
    print("\n🏆 그리드별 승자:")
    for idx, row in df.iterrows():
        grid_name = f"{row['Grid_N1']}×{row['Grid_N2']}×{row['Grid_Nt']}"
        if row['Speedup'] > 1.0:
            winner = f"GPU ✓ ({row['Speedup']:.2f}× 빠름)"
        elif row['Speedup'] < 1.0:
            winner = f"CPU ✓ ({1.0/row['Speedup']:.2f}× 빠름)"
        else:
            winner = "무승부"
        print(f"   {grid_name:16s} → {winner}")
else:
    print("⚠️ 벤치마크 결과 CSV 파일을 찾을 수 없습니다.")
    print("   Step 5에서 벤치마크를 먼저 실행하세요.")

## Step 7: 성능 비교 시각화

In [None]:
import os
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

csv_path = '/content/els-pricer-cpp/build/cpu_vs_gpu_results.csv'

if os.path.exists(csv_path):
    df = pd.read_csv(csv_path)
    
    # 그리드 라벨 생성
    grid_labels = [f"{row['Grid_N1']}×{row['Grid_N2']}×{row['Grid_Nt']}" 
                   for _, row in df.iterrows()]
    
    # 플롯 생성
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    fig.suptitle('ELS Pricer: CPU vs GPU Performance Comparison', fontsize=16, fontweight='bold')
    
    # 1. CPU vs GPU 실행 시간 비교
    ax1 = axes[0, 0]
    x = np.arange(len(grid_labels))
    width = 0.35
    bars1 = ax1.bar(x - width/2, df['CPU_Time'], width, label='CPU', color='steelblue', alpha=0.8)
    bars2 = ax1.bar(x + width/2, df['GPU_Time'], width, label='GPU', color='coral', alpha=0.8)
    ax1.set_xlabel('Grid Size', fontweight='bold')
    ax1.set_ylabel('Time (seconds)', fontweight='bold')
    ax1.set_title('Execution Time Comparison')
    ax1.set_xticks(x)
    ax1.set_xticklabels(grid_labels, rotation=45, ha='right')
    ax1.legend()
    ax1.grid(axis='y', alpha=0.3)
    
    # 2. 가속 비율
    ax2 = axes[0, 1]
    colors = ['green' if s > 1.0 else 'red' for s in df['Speedup']]
    bars = ax2.bar(grid_labels, df['Speedup'], color=colors, alpha=0.7)
    ax2.axhline(y=1.0, color='black', linestyle='--', linewidth=1, label='Break-even')
    ax2.set_xlabel('Grid Size', fontweight='bold')
    ax2.set_ylabel('Speedup (×)', fontweight='bold')
    ax2.set_title('GPU Speedup over CPU')
    ax2.set_xticklabels(grid_labels, rotation=45, ha='right')
    ax2.legend()
    ax2.grid(axis='y', alpha=0.3)
    
    # 가속비 값 표시
    for i, (label, speedup) in enumerate(zip(grid_labels, df['Speedup'])):
        ax2.text(i, speedup + 0.5, f'{speedup:.1f}×', 
                 ha='center', va='bottom', fontsize=9, fontweight='bold')
    
    # 3. 가격 수렴성
    ax3 = axes[1, 0]
    ax3.plot(grid_labels, df['CPU_Price'], 'o-', label='CPU Price', markersize=8, linewidth=2)
    ax3.plot(grid_labels, df['GPU_Price'], 's-', label='GPU Price', markersize=8, linewidth=2)
    ax3.set_xlabel('Grid Size', fontweight='bold')
    ax3.set_ylabel('ELS Price', fontweight='bold')
    ax3.set_title('Price Convergence')
    ax3.set_xticklabels(grid_labels, rotation=45, ha='right')
    ax3.legend()
    ax3.grid(alpha=0.3)
    
    # 4. Points/second 처리 속도
    ax4 = axes[1, 1]
    cpu_throughput = df['Total_Points'] / df['CPU_Time'] / 1e6
    gpu_throughput = df['Total_Points'] / df['GPU_Time'] / 1e6
    x = np.arange(len(grid_labels))
    bars1 = ax4.bar(x - width/2, cpu_throughput, width, label='CPU', color='steelblue', alpha=0.8)
    bars2 = ax4.bar(x + width/2, gpu_throughput, width, label='GPU', color='coral', alpha=0.8)
    ax4.set_xlabel('Grid Size', fontweight='bold')
    ax4.set_ylabel('Throughput (M points/sec)', fontweight='bold')
    ax4.set_title('Processing Throughput')
    ax4.set_xticks(x)
    ax4.set_xticklabels(grid_labels, rotation=45, ha='right')
    ax4.legend()
    ax4.grid(axis='y', alpha=0.3)
    
    plt.tight_layout()
    plt.savefig('cpu_vs_gpu_benchmark.png', dpi=150, bbox_inches='tight')
    plt.show()
    
    print("\n✅ 그래프가 cpu_vs_gpu_benchmark.png로 저장되었습니다!")
else:
    print("⚠️ 시각화할 데이터가 없습니다. Step 5를 먼저 실행하세요.")

## Step 8: Time Step (Nt) 스케일링 테스트 🆕

**100×100 그리드 고정**, Time Step (Nt)을 200부터 2000까지 증가시키면서 CPU와 GPU 성능 비교

테스트 구성: Nt = 200, 400, 600, 800, 1000, 1200, 1400, 1600, 1800, 2000 (200 간격)

In [None]:
import os

build_dir = '/content/els-pricer-cpp/build'
if os.path.exists(build_dir):
    os.chdir(build_dir)
    
    print("🔬 Time Step (Nt) 스케일링 테스트\n")
    print("="*70)
    print("Grid: 100×100 (고정)")
    print("Nt: 100 → 5000\n")
    
    # Run pre-built benchmark
    if os.path.exists('./benchmark_nt_scaling'):
        !./benchmark_nt_scaling
    else:
        print("❌ benchmark_nt_scaling 실행 파일을 찾을 수 없습니다.")
        print("   Step 4에서 빌드가 성공했는지 확인하세요.")
else:
    print("❌ 빌드 디렉토리를 찾을 수 없습니다. Step 4를 먼저 실행하세요.")

## Step 9: Nt 스케일링 시각화 🆕

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import os

csv_path = '/content/els-pricer-cpp/build/nt_scaling_results.csv'

if os.path.exists(csv_path):
    df_nt = pd.read_csv(csv_path)
    
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    fig.suptitle('Time Step (Nt) Scaling Analysis - 100×100 Grid Fixed', fontsize=16, fontweight='bold')
    
    # 1. CPU vs GPU 시간 비교
    ax1 = axes[0, 0]
    ax1.plot(df_nt['Nt'], df_nt['CPU_Time'], 'o-', label='CPU', linewidth=2, markersize=8, color='steelblue')
    if df_nt['GPU_Time'].notna().any():
        ax1.plot(df_nt['Nt'], df_nt['GPU_Time'], 's-', label='GPU', linewidth=2, markersize=8, color='coral')
    ax1.set_xlabel('Time Steps (Nt)', fontweight='bold')
    ax1.set_ylabel('Execution Time (seconds)', fontweight='bold')
    ax1.set_title('Execution Time vs Nt')
    ax1.legend()
    ax1.grid(alpha=0.3)
    
    # 2. Speedup vs Nt
    ax2 = axes[0, 1]
    if 'Speedup' in df_nt.columns and df_nt['Speedup'].notna().any():
        colors = ['green' if s > 1.0 else 'red' for s in df_nt['Speedup']]
        ax2.bar(df_nt['Nt'].astype(str), df_nt['Speedup'], color=colors, alpha=0.7)
        ax2.axhline(y=1.0, color='black', linestyle='--', linewidth=1, label='Break-even')
        ax2.set_xlabel('Time Steps (Nt)', fontweight='bold')
        ax2.set_ylabel('Speedup (CPU/GPU)', fontweight='bold')
        ax2.set_title('GPU Speedup vs Nt')
        ax2.legend()
        ax2.grid(axis='y', alpha=0.3)
        
        # Speedup 값 표시
        for i, (nt, speedup) in enumerate(zip(df_nt['Nt'], df_nt['Speedup'])):
            if pd.notna(speedup):
                ax2.text(i, speedup + 0.05, f'{speedup:.2f}×', 
                         ha='center', va='bottom', fontsize=8)
    
    # 3. 타임스텝당 시간 (효율성)
    ax3 = axes[1, 0]
    cpu_per_step = (df_nt['CPU_Time'] / df_nt['Nt']) * 1000  # ms
    ax3.plot(df_nt['Nt'], cpu_per_step, 'o-', label='CPU', linewidth=2, markersize=8, color='steelblue')
    if df_nt['GPU_Time'].notna().any():
        gpu_per_step = (df_nt['GPU_Time'] / df_nt['Nt']) * 1000  # ms
        ax3.plot(df_nt['Nt'], gpu_per_step, 's-', label='GPU', linewidth=2, markersize=8, color='coral')
    ax3.set_xlabel('Time Steps (Nt)', fontweight='bold')
    ax3.set_ylabel('Time per Step (ms)', fontweight='bold')
    ax3.set_title('Efficiency: Time per Timestep')
    ax3.legend()
    ax3.grid(alpha=0.3)
    
    # 4. Log-scale 시간 비교
    ax4 = axes[1, 1]
    ax4.loglog(df_nt['Nt'], df_nt['CPU_Time'], 'o-', label='CPU', linewidth=2, markersize=8, color='steelblue')
    if df_nt['GPU_Time'].notna().any():
        ax4.loglog(df_nt['Nt'], df_nt['GPU_Time'], 's-', label='GPU', linewidth=2, markersize=8, color='coral')
    
    # 선형 스케일링 참조선
    nt_ref = df_nt['Nt'].values
    linear_ref = df_nt['CPU_Time'].iloc[0] * (nt_ref / nt_ref[0])
    ax4.loglog(nt_ref, linear_ref, '--', color='gray', alpha=0.5, label='Linear scaling')
    
    ax4.set_xlabel('Time Steps (Nt) [log scale]', fontweight='bold')
    ax4.set_ylabel('Execution Time (seconds) [log scale]', fontweight='bold')
    ax4.set_title('Scaling Behavior (Log-Log Plot)')
    ax4.legend()
    ax4.grid(alpha=0.3, which='both')
    
    plt.tight_layout()
    plt.savefig('nt_scaling_analysis.png', dpi=150, bbox_inches='tight')
    plt.show()
    
    print("\n✅ 그래프가 nt_scaling_analysis.png로 저장되었습니다!")
else:
    print("⚠️ Nt 스케일링 데이터가 없습니다. Step 8을 먼저 실행하세요.")

## Step 10: Spatial Grid 스케일링 테스트 🆕

**Nt=1000 고정**, Spatial Grid를 100×100부터 700×700까지 증가시키면서 CPU와 GPU 성능 비교

테스트 구성: 100×100, 200×200, 300×300, 400×400, 500×500, 600×600, 700×700 (7 steps)

In [None]:
import os

build_dir = '/content/els-pricer-cpp/build'
if os.path.exists(build_dir):
    os.chdir(build_dir)
    
    print("🔬 Spatial Grid 스케일링 테스트\n")
    print("="*70)
    print("Nt: 1000 (고정)")
    print("Grid: 50×50 → 400×400\n")
    
    # Run pre-built benchmark
    if os.path.exists('./benchmark_grid_scaling'):
        !./benchmark_grid_scaling
    else:
        print("❌ benchmark_grid_scaling 실행 파일을 찾을 수 없습니다.")
        print("   Step 4에서 빌드가 성공했는지 확인하세요.")
else:
    print("❌ 빌드 디렉토리를 찾을 수 없습니다. Step 4를 먼저 실행하세요.")

## Step 11: Spatial Grid 스케일링 시각화 🆕

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import os

csv_path = '/content/els-pricer-cpp/build/grid_scaling_results.csv'

if os.path.exists(csv_path):
    df_grid = pd.read_csv(csv_path)
    
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    fig.suptitle('Spatial Grid Scaling Analysis - Nt=1000 Fixed', fontsize=16, fontweight='bold')
    
    # 1. CPU vs GPU 시간 비교
    ax1 = axes[0, 0]
    grid_nums = [int(g.split('×')[0]) for g in df_grid['Grid_Size']]
    ax1.plot(grid_nums, df_grid['CPU_Time'], 'o-', label='CPU', linewidth=2, markersize=8, color='steelblue')
    if df_grid['GPU_Time'].notna().any():
        ax1.plot(grid_nums, df_grid['GPU_Time'], 's-', label='GPU', linewidth=2, markersize=8, color='coral')
    ax1.set_xlabel('Grid Size (N×N)', fontweight='bold')
    ax1.set_ylabel('Execution Time (seconds)', fontweight='bold')
    ax1.set_title('Execution Time vs Grid Size')
    ax1.legend()
    ax1.grid(alpha=0.3)
    
    # 2. Speedup vs Grid Size
    ax2 = axes[0, 1]
    if 'Speedup' in df_grid.columns and df_grid['Speedup'].notna().any():
        colors = ['green' if s > 1.0 else 'red' for s in df_grid['Speedup']]
        ax2.bar(df_grid['Grid_Size'], df_grid['Speedup'], color=colors, alpha=0.7)
        ax2.axhline(y=1.0, color='black', linestyle='--', linewidth=1, label='Break-even')
        ax2.set_xlabel('Grid Size', fontweight='bold')
        ax2.set_ylabel('Speedup (CPU/GPU)', fontweight='bold')
        ax2.set_title('GPU Speedup vs Grid Size')
        ax2.legend()
        ax2.grid(axis='y', alpha=0.3)
        
        # Speedup 값 표시
        for i, (grid, speedup) in enumerate(zip(df_grid['Grid_Size'], df_grid['Speedup'])):
            if pd.notna(speedup):
                ax2.text(i, speedup + 0.05, f'{speedup:.2f}×', 
                         ha='center', va='bottom', fontsize=8)
    
    # 3. Throughput 비교
    ax3 = axes[1, 0]
    cpu_throughput = df_grid['Total_Points'] / df_grid['CPU_Time'] / 1e6
    ax3.plot(grid_nums, cpu_throughput, 'o-', label='CPU', linewidth=2, markersize=8, color='steelblue')
    if df_grid['GPU_Time'].notna().any():
        gpu_throughput = df_grid['Total_Points'] / df_grid['GPU_Time'] / 1e6
        ax3.plot(grid_nums, gpu_throughput, 's-', label='GPU', linewidth=2, markersize=8, color='coral')
    ax3.set_xlabel('Grid Size (N×N)', fontweight='bold')
    ax3.set_ylabel('Throughput (M points/sec)', fontweight='bold')
    ax3.set_title('Processing Throughput vs Grid Size')
    ax3.legend()
    ax3.grid(alpha=0.3)
    
    # 4. Log-log 스케일링
    ax4 = axes[1, 1]
    ax4.loglog(grid_nums, df_grid['CPU_Time'], 'o-', label='CPU', linewidth=2, markersize=8, color='steelblue')
    if df_grid['GPU_Time'].notna().any():
        ax4.loglog(grid_nums, df_grid['GPU_Time'], 's-', label='GPU', linewidth=2, markersize=8, color='coral')
    
    # N^2 스케일링 참조선
    grid_ref = np.array(grid_nums)
    quadratic_ref = df_grid['CPU_Time'].iloc[0] * (grid_ref / grid_ref[0])**2
    ax4.loglog(grid_ref, quadratic_ref, '--', color='gray', alpha=0.5, label='O(N²) scaling')
    
    ax4.set_xlabel('Grid Size (N×N) [log scale]', fontweight='bold')
    ax4.set_ylabel('Execution Time (seconds) [log scale]', fontweight='bold')
    ax4.set_title('Scaling Behavior (Log-Log Plot)')
    ax4.legend()
    ax4.grid(alpha=0.3, which='both')
    
    plt.tight_layout()
    plt.savefig('grid_scaling_analysis.png', dpi=150, bbox_inches='tight')
    plt.show()
    
    print("\n✅ 그래프가 grid_scaling_analysis.png로 저장되었습니다!")
else:
    print("⚠️ Grid 스케일링 데이터가 없습니다. Step 10을 먼저 실행하세요.")