# 00. 환경 설정 및 패키지 설치

**실행 순서:** 이 노트북을 가장 먼저 실행하세요.  
패키지 설치 후 **커널을 재시작**해야 합니다.

### 프로젝트 구조
```
00_setup.ipynb           ← 지금 이 파일 (패키지 설치)
01_data_pipeline.ipynb   ← 원시 데이터 → 피처 테이블 생성
02_clustering.ipynb      ← 에란겔 클러스터링 (UMAP + HDBSCAN)
03_apply_maps.ipynb      ← 타 맵에 클러스터 적용 및 비교
04_visualization.ipynb   ← 인터랙티브 시각화 대시보드
```

In [1]:
# 패키지 설치 (hdbscan은 Python 3.14 미지원 → sklearn 내장 사용)
import subprocess, sys

packages = ['umap-learn', 'plotly', 'nbformat', 'tqdm']

for pkg in packages:
    print(f'Installing {pkg}')
    result = subprocess.run(
        [sys.executable, '-m', 'pip', 'install', pkg, '-q'],
        capture_output=True, text=True
    )
    if result.returncode == 0:
        print(f'  OK {pkg} 설치 완료')
    else:
        print(f'  FAIL {pkg} 설치 실패')
        print(result.stderr[:300])


Installing umap-learn
  OK umap-learn 설치 완료
Installing plotly
  OK plotly 설치 완료
Installing nbformat
  OK nbformat 설치 완료
Installing tqdm
  OK tqdm 설치 완료


In [2]:
# 설치 후 반드시 커널 재시작!
# VSCode: 상단 메뉴 -> Restart Kernel
print('위 셀 실행 후 커널을 재시작하세요!')
print('재시작 후 아래 셀을 실행해 설치를 확인하세요.')


위 셀 실행 후 커널을 재시작하세요!
재시작 후 아래 셀을 실행해 설치를 확인하세요.


In [3]:
# 커널 재시작 후 실행 - 설치 확인
import importlib

required = {
    'duckdb':   'duckdb',
    'umap':     'umap-learn',
    'sklearn':  'scikit-learn',
    'plotly':   'plotly',
    'pandas':   'pandas',
    'numpy':    'numpy',
    'tqdm':     'tqdm',
}

all_ok = True
for module, pkg in required.items():
    try:
        m = importlib.import_module(module)
        ver = getattr(m, '__version__', 'unknown')
        print(f'OK  {pkg:<20} v{ver}')
    except ImportError:
        print(f'NG  {pkg:<20} 설치 필요')
        all_ok = False

# sklearn HDBSCAN 확인
try:
    from sklearn.cluster import HDBSCAN
    print('OK  sklearn.cluster.HDBSCAN  내장 확인')
except ImportError:
    print('NG  sklearn HDBSCAN 없음 - sklearn 버전 확인 필요')
    all_ok = False

print()
if all_ok:
    print('모든 패키지 준비 완료 01_data_pipeline.ipynb 로 이동')
else:
    print('누락 패키지를 설치 후 다시 확인')


OK  duckdb               v1.4.4


  from .autonotebook import tqdm as notebook_tqdm


OK  umap-learn           v0.5.11
OK  scikit-learn         v1.8.0
OK  plotly               v6.5.2
OK  pandas               v3.0.0
OK  numpy                v2.4.1
OK  tqdm                 v4.67.3
OK  sklearn.cluster.HDBSCAN  내장 확인

모든 패키지 준비 완료 01_data_pipeline.ipynb 로 이동


In [4]:
# 데이터 경로 확인
import glob, os

BASE_DIR       = r'C:\배그분석'
TELEMETRY_GLOB = BASE_DIR + r'\final_telemetry_*\Erangel_telemetry_*.parquet'
MATCHES_GLOB   = BASE_DIR + r'\matches_*.csv'

tel_files = sorted(glob.glob(TELEMETRY_GLOB))
mat_files = sorted(glob.glob(MATCHES_GLOB))

print(f'텔레메트리 파일 수: {len(tel_files)}')
for f in tel_files[:5]:
    print(f'  {f}')

print(f'\nmatches 파일 수: {len(mat_files)}')
for f in mat_files[:5]:
    print(f'  {f}')


텔레메트리 파일 수: 22
  C:\배그분석\final_telemetry_20260211\Erangel_telemetry_kakao_20260211.parquet
  C:\배그분석\final_telemetry_20260211\Erangel_telemetry_steam_20260211.parquet
  C:\배그분석\final_telemetry_20260212\Erangel_telemetry_kakao_20260212.parquet
  C:\배그분석\final_telemetry_20260212\Erangel_telemetry_steam_20260212.parquet
  C:\배그분석\final_telemetry_20260213\Erangel_telemetry_kakao_20260213.parquet

matches 파일 수: 22
  C:\배그분석\matches_kakao_20260211.csv
  C:\배그분석\matches_kakao_20260212.csv
  C:\배그분석\matches_kakao_20260213.csv
  C:\배그분석\matches_kakao_20260214.csv
  C:\배그분석\matches_kakao_20260215.csv
