# CHAPTER 6 데이터 집계와 그룹 연산

## 목표
- groupby/agg/pivot_table로 의사결정용 KPI를 만든다.


In [1]:
# ============================================
# [공통] 라이브러리 / 경로 / 출력 옵션 세팅
# 이 셀은 모든 챕터 노트북에서 동일하게 사용합니다.
# ============================================

# 1) 수치 계산(NumPy) / 표 데이터(Pandas) 불러오기
import numpy as np
import pandas as pd

# 2) 파일 경로를 운영체제와 무관하게 다루기 위한 Path
from pathlib import Path

# 3) 현재 노트북이 실행되는 폴더를 기준(BASE)으로 데이터 폴더(DATA) 지정
BASE = Path(".").resolve()          # 현재 작업 폴더(절대경로)
DATA = BASE / "data"                # data 폴더 경로

# 4) Pandas 출력 옵션(교육용): 너무 길게 출력되지 않도록 적당히 제한
pd.set_option("display.max_rows", 12)
pd.set_option("display.max_columns", 30)
pd.set_option("display.width", 140)

# 5) 확인 출력
print("BASE:", BASE)
print("DATA exists:", DATA.exists())


BASE: C:\Users\KDA\python_Code
DATA exists: True


## 6.1 fact 테이블 만들기(조인 복습)

In [2]:
# [이 셀은 무엇을 하는가?]
# - 분석에 필요한 한 장의 테이블(fact)을 재구성합니다.

customers = pd.read_csv(DATA / "customers.csv", parse_dates=["signup_date"])
orders    = pd.read_csv(DATA / "orders.csv", parse_dates=["order_date"])
items     = pd.read_csv(DATA / "order_items.csv")
products  = pd.read_csv(DATA / "products.csv")

orders_c = orders.merge(customers[["customer_id","region","age"]], on="customer_id", how="left")
items_p  = items.merge(products, on="product_id", how="left")
fact     = items_p.merge(orders_c, on="order_id", how="left")
fact["amount"] = fact["qty"] * fact["unit_price"]

display(fact.head())

Unnamed: 0,order_id,product_id,qty,category,unit_price,customer_id,order_date,channel,region,age,amount
0,O00001,P005,1,Book,12128,C0021,2024-01-15,Web,Incheon,58,12128
1,O00001,P011,2,Clothing,47371,C0021,2024-01-15,Web,Incheon,58,94742
2,O00002,P011,3,Clothing,47371,C0016,2024-01-15,Web,Incheon,47,142113
3,O00002,P013,2,Clothing,47932,C0016,2024-01-15,Web,Incheon,47,95864
4,O00002,P014,2,Clothing,40694,C0016,2024-01-15,Web,Incheon,47,81388


## 6.2 groupby KPI

In [3]:
# [이 셀은 무엇을 하는가?]
# - 지역/채널/카테고리 기준으로 매출을 집계해 비교합니다.
# groupby 지역별, 카테고리별, 등등로 묶어서 분류 하는 
by_region = fact.groupby("region")["amount"].sum().sort_values(ascending=False)
by_channel = fact.groupby("channel")["amount"].sum().sort_values(ascending=False)
by_cat = fact.groupby("category")["amount"].sum().sort_values(ascending=False)

display(by_region)
display(by_channel)
display(by_cat)

region
Busan      7856628
Daegu      5505057
Incheon    3288577
Seoul      1425853
Name: amount, dtype: int64

channel
Web        9338035
App        7670867
Offline    1067213
Name: amount, dtype: int64

category
Clothing    9205540
Book        4476485
Gadget      2559798
Food        1834292
Name: amount, dtype: int64

## 6.3 agg로 여러 KPI 한 번에

In [4]:
# [이 셀은 무엇을 하는가?]
# - region별로 총매출/주문수/구매자수 등을 한 번에 계산합니다.

kpi_region = fact.groupby("region").agg(
    total_amount=("amount","sum"),
    n_orders=("order_id","nunique"),
    n_customers=("customer_id","nunique"),
    avg_line_amount=("amount","mean")
).sort_values("total_amount", ascending=False)

display(kpi_region)

out_path = DATA / "kpi_region.csv"
kpi_region.to_csv(out_path) #to_csv  저장해달라  out_path 변수안에 
print("saved:", out_path)

Unnamed: 0_level_0,total_amount,n_orders,n_customers,avg_line_amount
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Busan,7856628,50,13,62853.024
Daegu,5505057,32,7,64012.290698
Incheon,3288577,25,6,57694.333333
Seoul,1425853,13,4,47528.433333


saved: C:\Users\KDA\python_Code\data\kpi_region.csv


## 6.4 pivot_table 교차표

In [5]:
# [이 셀은 무엇을 하는가?]
# - 지역(행)×카테고리(열) 매출 교차표를 만듭니다.

cross = fact.pivot_table(
    index="region",
    columns="category",
    values="amount",
    aggfunc="sum",
    fill_value=0
)

display(cross)

out_path = DATA / "region_category_sales.csv"
cross.to_csv(out_path)
print("saved:", out_path)

category,Book,Clothing,Food,Gadget
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Busan,2074768,4163363,938785,679712
Daegu,1387153,2894463,361379,862062
Incheon,811390,1428884,286339,761964
Seoul,203174,718830,247789,256060


saved: C:\Users\KDA\python_Code\data\region_category_sales.csv
