In [None]:
# 📦 Week 4 종합 실습 프로젝트
# 🌟 Claude Coffee 주민 데이터 분석

"""
📅 시나리오: Claude Coffee 주민 데이터 분석가 시작되었어!

\uuc2dc간: 한 주 (방문 데이터)
참적: order_id, customer_name, order_info (JSON 문자열), order_date, total_amount
"""

# Step 1. 데이터 로드 & 검증
from pathlib import Path
import pandas as pd
import json

# 파일 검증
path = Path("./data/claude_orders.csv")
assert path.exists(), "주민 주문 데이터 파일이 없습니다."

# 데이터를 로드합니다
raw_df = pd.read_csv(path)
assert not raw_df.empty, "데이터가 빈 상태입니다."

# Step 2. JSON 파싱 + 새 컬럼 생성
# 이름 및 최적한 의류 새로 만드기
# 저렴고 지정적으로 apply + lambda 활용

def parse_order_info(row):
    order_info = json.loads(row['order_info'])
    return pd.Series({
        'membership_level': order_info.get('customer', {}).get('membership'),
        'primary_drink': order_info.get('items', [{}])[0].get('name'),
        'drink_size': order_info.get('items', [{}])[0].get('size'),
        'payment_method': order_info.get('payment', {}).get('method'),
        'visit_count': order_info.get('customer', {}).get('visit_count')
    })

parsed_df = raw_df.copy()
parsed_cols = parsed_df.apply(parse_order_info, axis=1)
parsed_df = pd.concat([parsed_df, parsed_cols], axis=1)

# Step 3. 고객 세그먼티언 (Filtering)
vip_customers = parsed_df[parsed_df['membership_level'] == 'VIP']
high_spenders = parsed_df[parsed_df['total_amount'] >= 10000]
frequent_visitors = parsed_df[parsed_df['visit_count'] >= 10]

# Step 4. 비즈니스 인사이트 도출
vip_avg = vip_customers['total_amount'].mean()

popular_drinks = (
    parsed_df['primary_drink']
    .value_counts()
    .head(3)
)

age_group_pattern = parsed_df.groupby(parsed_df['order_info'].apply(
    lambda x: json.loads(x).get('customer', {}).get('age_group')))['total_amount'].mean()

# Step 5. 결과 저장 & 검증
output_dir = Path("./output")
output_dir.mkdir(exist_ok=True)

vip_customers.to_csv(output_dir / "vip_customers.csv", index=False)
high_spenders.to_csv(output_dir / "high_spenders.csv", index=False)
frequent_visitors.to_csv(output_dir / "frequent_visitors.csv", index=False)

# assert check
assert (output_dir / "vip_customers.csv").exists()
assert (output_dir / "high_spenders.csv").exists()
assert (output_dir / "frequent_visitors.csv").exists()

# Step 6. 결과 보상 출력 (optional)
print("\n\u2705 시스템 가능 인사이트")
print(f"\u2728 VIP Average Spend: {vip_avg:.0f} KRW")
print("\n📊 Top 3 Popular Drinks:")
print(popular_drinks)
print("\n🔹 Age Group Spend Pattern:")
print(age_group_pattern)

# 최종 문제와 함께 모든 Week 4 가능력 복설 확인! 🚀


In [None]:
## 직접실습

from pathlib import Path
import pandas as pd
import json

## 파일 경로 지정

data_dir = Path("data")
orders_path = data_dir / "claude_orders.csv"

assert data_dir.exists(), "파일이 존재하지 않습니다"

df = pd.read_csv(orders_path)

assert not df.empty, "데이터가 비어 있습니다."

df["info"] = df["order_info"].apply(json.loads)

def extract_order_info(row):
    info = row["info"]
    return pd.Series({
        "membership_level" : info.get("customer",{}).get("membership"),
        "primary_drink" : info.get("items",[{}])[0].get("name"),
        "drink_size" : info.get("items",[{}])[0].get("size"),
        "payment_method" : info.get("payment",{}).get("method"),
        "visit_count" : info.get("customer",{}).get("visit_count"),
        })

parsed_cols = df.apply(extract_order_info, axis=1)
df = pd.concat([df, parsed_cols], axis=1)

vip_df = df[df["membership_level"] == "VIP"]
high_spenders_df = df[df["total_amount"] >= 10000]
regulars_df = df[df["visit_count"] >= 10]

print(vip_df.shape)           # 몇 명인지
print(high_spenders_df.head()) # 금액 큰 사람들
print(regulars_df["visit_count"].describe())  # 단골 고객 방문 횟수 평균 등


vip_df["total_amount"].mean()
df["primary_drink"].value_counts().head(3)

df["age_group"] = df["info"].apply(lambda x: x.get("customer", {}).get("age_group"))

df.groupby("age_group")["total_amount"].mean()


(3, 11)
Empty DataFrame
Columns: [order_id, customer_name, order_info, order_date, total_amount, info, membership_level, primary_drink, drink_size, payment_method, visit_count]
Index: []
count     3.000000
mean     15.666667
std       4.041452
min      12.000000
25%      13.500000
50%      15.000000
75%      17.500000
max      20.000000
Name: visit_count, dtype: float64
(3, 11)


In [None]:
print(vip_df["total_amount"].mean()
df["primary_drink"].value_counts().head(3)

df["age_group"] = df["info"].apply(lambda x: x.get("customer", {}).get("age_group"))

9266.666666666666


In [34]:
print(vip_df.shape)
vip_df["total_amount"].mean()


(3, 11)


np.float64(9266.666666666666)