## 1) 학습 방향 로드맵 (Pandas 숙련 목표)

1. **데이터 이해 & 검증(EDA 초반)**
    - shape, dtypes, 결측치 분포, 중복/유니크, 범주 분포 확인
    - “이 컬럼은 무엇을 의미하는가?”를 코드로 확인하는 습관
        
2. **정제/전처리(실무 핵심)**
    - 결측치 처리(단순 대체/그룹 기반 대체), 이상치 탐지
    - 문자열 파싱(Name/Title/Cabin), 카테고리 인코딩, 파생 변수
        
3. **집계 & 비교 분석**
    - groupby/agg, pivot_table, crosstab
    - “생존률” 같은 비율 지표를 안정적으로 계산하는 법(분모, NaN, 타입)
        
4. **조인 & 데이터 모델링**
    - train/test 분리 상태에서 동일 변환 적용
    - 외부 테이블(예: Deck lookup, Title mapping)을 merge/join으로 결합
        
5. **재현 가능성 & 파이프라인화**
    - 함수화, 체인 방식, 중간 산출물 검증(assert)
    - 성능(메모리/속도) 감각: astype('category'), 벡터화 vs apply

In [None]:
# import
import csv
import pandas as pd
import numpy as np
import os
from pathlib import Path
import matplotlib.pyplot as plt
from enum import Enum

# F. 성능/품질/검증 (실전 감각)

### F1. dtype 최적화

- **문제:** `Sex`, `Embarked`, `Title2`, `Deck` 등을 category로 바꾸고, 메모리 사용량이 얼마나 줄었는지 전/후 비교 리포트를 만드세요.
    
- **무엇을 묻는가:** `astype('category')`, `memory_usage(deep=True)`.
    

### F2. 전처리 품질 체크(Assertion)

- **문제:** 전처리 후 다음 조건을 만족하는지 assert로 검증하세요.
    
    1. Age 결측치 0개
        
    2. Embarked 결측치 0개
        
    3. Fare는 음수 없음
        
    4. Deck는 {'A','B','C','D','E','F','G','T','Unknown'} 외 값 없음(있는지 검사)
        
- **무엇을 묻는가:** 데이터 품질 게이트(검증), `assert`, 집합 비교.
    

### F3. “apply를 벡터화로 바꾸기” 리팩토링

- **문제:** 임의로 apply로 작성한 Title 추출/FamilySize 계산을 벡터화 연산으로 바꿔서, 코드 라인 수와 실행 시간을 비교하세요(간단히 `%%timeit` 또는 time 모듈 사용).
    
- **무엇을 묻는가:** 벡터화 사고, 성능 측정, 리팩토링.
    