# CHAPTER 2 데이터 로딩과 저장 · 파일 형식

## 목표
- CSV 로딩 옵션(parse_dates 등)을 실무 관점에서 익힌다.
- 중간 산출물을 저장(pickle)해서 파이프라인을 만든다.


In [None]:
# ============================================
# [공통] 라이브러리 / 경로 / 출력 옵션 세팅
# 이 셀은 모든 챕터 노트북에서 동일하게 사용합니다.
# ============================================

# 1) 수치 계산(NumPy) / 표 데이터(Pandas) 불러오기
import numpy as np
import pandas as pd

# 2) 파일 경로를 운영체제와 무관하게 다루기 위한 Path
from pathlib import Path

# 3) 현재 노트북이 실행되는 폴더를 기준(BASE)으로 데이터 폴더(DATA) 지정
BASE = Path(".").resolve()          # 현재 작업 폴더(절대경로)
DATA = BASE / "data"                # data 폴더 경로

# 4) Pandas 출력 옵션(교육용): 너무 길게 출력되지 않도록 적당히 제한
pd.set_option("display.max_rows", 12)
pd.set_option("display.max_columns", 30)
pd.set_option("display.width", 140)

# 5) 확인 출력
print("BASE:", BASE)
print("DATA exists:", DATA.exists())


## 2.1 CSV 로딩: parse_dates로 날짜형 처리

In [None]:
# [이 셀은 무엇을 하는가?]
# - orders.csv를 로드하고, parse_dates 전/후 차이를 확인합니다.

orders_raw = pd.read_csv(DATA / "orders.csv")             # 날짜가 문자열로 들어옴
print("raw dtypes:")
print(orders_raw.dtypes)

orders = pd.read_csv(DATA / "orders.csv", parse_dates=["order_date"])  # 날짜 파싱
print("\nparsed dtypes:")
print(orders.dtypes)

display(orders.head())

## 2.2 여러 CSV 로드 + shape 확인

In [None]:
# [이 셀은 무엇을 하는가?]
# - 고객/주문/상품/주문상세 CSV를 모두 로드합니다.

customers = pd.read_csv(DATA / "customers.csv", parse_dates=["signup_date"])
products  = pd.read_csv(DATA / "products.csv")
items     = pd.read_csv(DATA / "order_items.csv")

print("customers:", customers.shape)
print("orders   :", orders.shape)
print("products :", products.shape)
print("items    :", items.shape)

## 2.3 이진 포맷 저장: pickle

In [None]:
# [이 셀은 무엇을 하는가?]
# - 분석 파이프라인용으로 orders를 pickle로 저장/로드하여 dtype 보존을 확인합니다.

pkl_path = DATA / "orders.pkl"                            # 저장 경로
orders.to_pickle(pkl_path)                                # 저장
orders_loaded = pd.read_pickle(pkl_path)                  # 로드

print("saved:", pkl_path)
print("loaded dtypes:")
print(orders_loaded.dtypes)