In [None]:
# =============================================================================
# groupby() 함수 설명:
# - "CustomerID"를 기준으로 데이터를 그룹화
# - 각 고객별 'PurchaseAmount' 값을 합산하여 총 소비 금액(TotalSpent) 계산
# - reset_index(): 그룹화된 데이터를 다시 일반 데이터프레임 형태로 변환
#  df_total_spent = df.groupby("CustomerID")["PurchaseAmount"].sum().reset_index()
# =============================================================================
# =============================================================================
# cut() 함수 설명:
# - df["Age"]: 나이(Age) 데이터를 기반으로 연령대를 구분
# - bins: 연령 구간 설정 (0-18, 19-30, 31-50, 51-100)
# - labels: 각 구간에 할당할 라벨(Teen, Young Adult, Adult, Senior)
# - right=False: 오른쪽 경계값(예: 18)은 포함하지 않도록 설정 (0 ≤ x < 18은 Teen)
#  df["AgeGroup"] = pd.cut(df["Age"], bins=bins, labels=labels, right=False)
# =============================================================================
# =============================================================================
# map() 함수 설명:
# - df["Gender"]: 기존 성별 데이터 (0 또는 1)
# - .map({0: "Female", 1: "Male"}): 0 → "Female", 1 → "Male"로 변환
# =============================================================================

# 1. 필요한 라이브러리 불러오기
import pandas as pd


In [None]:
# 2. 데이터 로드
purchase_file_path = "../data/purchase_data.csv"
demo_file_path = "../data/demo_data.csv"

df_purchase = pd.______(______)  # 구매 데이터 로드
df_demo = pd.______(______)  # 고객 정보 데이터 로드

In [None]:
# 3. 데이터 확인
print("=== 구매 데이터 확인 ===")
df_purchase.______()  # 구매 데이터의 상위 5개 행 출력

In [None]:
print("\n=== 고객 정보 데이터 확인 ===")
df_demo.______()  # 고객 정보 데이터의 상위 5개 행 출력

In [None]:
# 4. 데이터 병합 (CustomerID 기준)
# 두 데이터프레임을 CustomerID를 기준으로 병합 (Inner Join)
df = pd.______ (df_purchase, df_demo, on="______", how="______")  # 병합

# 병합 후 데이터 확인
print("\n=== 병합된 데이터 확인 ===")
df.______()  # 병합된 데이터의 상위 5개 행 출력

In [None]:
# 5. 데이터 타입 변환
# 'PurchaseDate' 컬럼을 문자열에서 datetime 타입으로 변환
df['PurchaseDate'] = pd.to_datetime(df['PurchaseDate'])  # 날짜 형식 변환

# 변환된 데이터 타입 확인
print("\n=== 데이터 타입 확인 ===")
df.______()  # 데이터 타입 확인

In [None]:
# 6. 고객별 총 구매 금액 계산
# 'CustomerID'를 기준으로 'PurchaseAmount'를 합산하여 고객별 총 구매 금액 계산
df_total_spent = df.groupby("______")["______"].sum().reset_index()  # 고객별 총 구매 금액 계산

# 컬럼명 변경 (총 구매 금액을 의미하도록 변경)
df_total_spent.rename(columns={"______": "TotalSpent"}, inplace=True)  # 컬럼명 변경

# 고객별 총 구매 금액 확인
print("\n=== 고객별 총 구매 금액 확인 ===")
df_total_spent.______()  # 상위 5개 데이터 출력

In [None]:
# 7. 연령대별 평균 소비 금액 계산
# 연령대를 나누는 기준을 설정 (Pandas의 cut() 사용)
bins = [0, 18, 30, 50, 100]  # 연령대 구간 (0-18세, 19-30세, 31-50세, 51세 이상)
labels = ["Teen", "Young Adult", "Adult", "Senior"]  # 각 구간에 대한 라벨 지정
df["AgeGroup"] = pd.______ (df["______"], bins=bins, labels=labels, right=False)  # 연령대 구분

# 연령대별 평균 소비 금액 계산
df_age_spent = df.groupby("______")["______"].mean().reset_index()  # 연령대별 평균 소비 금액 계산

# 컬럼명 변경
df_age_spent.rename(columns={"______": "AvgSpent"}, inplace=True)  # 컬럼명 변경

# 연령대별 평균 소비 금액 확인
print("\n=== 연령대별 평균 소비 금액 확인 ===")
df_age_spent  # 연령대별 평균 소비 금액 출력


In [None]:
# 8. 성별별 평균 소비 금액 계산
# 성별(Gender)별 평균 소비 금액 계산
df_gender_spent = df.groupby("______")["______"].mean().reset_index()  # 성별별 평균 소비 금액 계산

# Gender 값을 남/녀로 변환 (0: 여성, 1: 남성)
df_gender_spent["Gender"] = df_gender_spent["Gender"].map({0: "Female", 1: "Male"})  # 성별 변환

# 컬럼명 변경
df_gender_spent.rename(columns={"______": "AvgSpent"}, inplace=True)  # 컬럼명 변경

# 성별별 평균 소비 금액 확인
print("\n=== 성별별 평균 소비 금액 확인 ===")
df_gender_spent  # 성별별 평균 소비 금액 출력

In [None]:
# 9. 고객별 총 구매 횟수 계산
# CustomerID를 기준으로 구매 횟수(= 데이터 개수) 계산
df_purchase_count = df.groupby("______")["______"].count().reset_index()  # 고객별 총 구매 횟수 계산

# 컬럼명 변경 (총 구매 횟수를 의미하도록 변경)
df_purchase_count.rename(columns={"______": "TotalPurchases"}, inplace=True)  # 컬럼명 변경

# 고객별 총 구매 횟수 확인
print("\n=== 고객별 총 구매 횟수 확인 ===")
df_purchase_count.______()  # 상위 5개 데이터 출력

In [None]:
# 10. 최종 데이터 병합 (총 소비 금액 + 총 구매 횟수)
df_final = pd.______ (df_total_spent, df_purchase_count, on="______", how="______")  # 최종 데이터 병합

# 최종 데이터 확인
print("\n=== 고객별 총 소비 금액 및 총 구매 횟수 데이터 확인 ===")
df_final.______()  # 최종 데이터 출력