In [20]:
# =============================================================================
# groupby() 함수 설명:
# - "CustomerID"를 기준으로 데이터를 그룹화
# - 각 고객별 'PurchaseAmount' 값을 합산하여 총 소비 금액(TotalSpent) 계산
# - reset_index(): 그룹화된 데이터를 다시 일반 데이터프레임 형태로 변환
#  df_total_spent = df.groupby("CustomerID")["PurchaseAmount"].sum().reset_index()
# =============================================================================
# =============================================================================
# cut() 함수 설명:
# - df["Age"]: 나이(Age) 데이터를 기반으로 연령대를 구분
# - bins: 연령 구간 설정 (0-18, 19-30, 31-50, 51-100)
# - labels: 각 구간에 할당할 라벨(Teen, Young Adult, Adult, Senior)
# - right=False: 오른쪽 경계값(예: 18)은 포함하지 않도록 설정 (0 ≤ x < 18은 Teen)
#  df["AgeGroup"] = pd.cut(df["Age"], bins=bins, labels=labels, right=False)
# =============================================================================
# =============================================================================
# map() 함수 설명:
# - df["Gender"]: 기존 성별 데이터 (0 또는 1)
# - .map({0: "Female", 1: "Male"}): 0 → "Female", 1 → "Male"로 변환
# =============================================================================

# 1. 필요한 라이브러리 불러오기
import pandas as pd


In [21]:
# 2. 데이터 로드
purchase_file_path = "../data/purchase_data.csv"
demo_file_path = "../data/demo_data.csv"

df_purchase = pd.read_csv(purchase_file_path)  # 구매 데이터 로드
df_demo = pd.read_csv(demo_file_path)  # 고객 정보 데이터 로드

In [22]:
# 3. 데이터 확인
print("=== 구매 데이터 확인 ===")
df_purchase.head(5)  # 구매 데이터의 상위 5개 행 출력

=== 구매 데이터 확인 ===


Unnamed: 0,CustomerID,PurchaseAmount,PurchaseDate
0,1,44,2023-01-01
1,2,231,2023-01-02
2,3,68,2023-01-03
3,4,177,2023-01-04
4,5,288,2023-01-05


In [23]:
print("\n=== 고객 정보 데이터 확인 ===")
df_demo.head(5)  # 고객 정보 데이터의 상위 5개 행 출력


=== 고객 정보 데이터 확인 ===


Unnamed: 0,CustomerID,Gender,Age,AnnualIncome
0,1,1,60,119
1,2,0,18,41
2,3,1,27,124
3,4,1,23,24
4,5,1,50,108


In [24]:
# 4. 데이터 병합 (CustomerID 기준)
# 두 데이터프레임을 CustomerID를 기준으로 병합 (Inner Join)
df = pd.merge (df_purchase, df_demo, on="CustomerID", how="inner")  # 병합

# 병합 후 데이터 확인
print("\n=== 병합된 데이터 확인 ===")
df.head(5)  # 병합된 데이터의 상위 5개 행 출력


=== 병합된 데이터 확인 ===


Unnamed: 0,CustomerID,PurchaseAmount,PurchaseDate,Gender,Age,AnnualIncome
0,1,44,2023-01-01,1,60,119
1,2,231,2023-01-02,0,18,41
2,3,68,2023-01-03,1,27,124
3,4,177,2023-01-04,1,23,24
4,5,288,2023-01-05,1,50,108


In [25]:
# 5. 데이터 타입 변환
# 'PurchaseDate' 컬럼을 문자열에서 datetime 타입으로 변환
df['PurchaseDate'] = pd.to_datetime(df['PurchaseDate'])  # 날짜 형식 변환

# 변환된 데이터 타입 확인
print("\n=== 데이터 타입 확인 ===")
df.dtypes  # 데이터 타입 확인


=== 데이터 타입 확인 ===


CustomerID                 int64
PurchaseAmount             int64
PurchaseDate      datetime64[ns]
Gender                     int64
Age                        int64
AnnualIncome               int64
dtype: object

In [26]:
# 6. 고객별 총 구매 금액 계산
# 'CustomerID'를 기준으로 'PurchaseAmount'를 합산하여 고객별 총 구매 금액 계산
df_total_spent = df.groupby("CustomerID")["PurchaseAmount"].sum().reset_index()  # 고객별 총 구매 금액 계산

# 컬럼명 변경 (총 구매 금액을 의미하도록 변경)
df_total_spent.rename(columns={"PurchaseAmount": "TotalSpent"}, inplace=True)  # 컬럼명 변경

# 고객별 총 구매 금액 확인
print("\n=== 고객별 총 구매 금액 확인 ===")
df_total_spent.head(5)  # 상위 5개 데이터 출력


=== 고객별 총 구매 금액 확인 ===


Unnamed: 0,CustomerID,TotalSpent
0,1,44
1,2,231
2,3,68
3,4,177
4,5,288


In [28]:
bins = [0, 18, 30, 50, 100]  # 연령대 구간 (0-18세, 19-30세, 31-50세, 51세 이상)
labels = ["Teen", "Young Adult", "Adult", "Senior"]  # 각 구간에 대한 라벨 지정
df["AgeGroup"] = pd.cut (df["Age"], bins=bins, labels=labels, right=False)  # 연령대 구분

# 연령대별 평균 소비 금액 계산
df_age_spent = df.groupby("AgeGroup")["PurchaseAmount"].mean().reset_index()  # 연령대별 평균 소비 금액 계산

# 컬럼명 변경
df_age_spent.rename(columns={"PurchaseAmount": "AvgSpent"}, inplace=True)  # 컬럼명 변경

# 연령대별 평균 소비 금액 확인
print("\n=== 연령대별 평균 소비 금액 확인 ===")
df_age_spent  # 연령대별 평균 소비 금액 출력



=== 연령대별 평균 소비 금액 확인 ===


  df_age_spent = df.groupby("AgeGroup")["PurchaseAmount"].mean().reset_index()  # 연령대별 평균 소비 금액 계산


Unnamed: 0,AgeGroup,AvgSpent
0,Teen,
1,Young Adult,124.857143
2,Adult,122.096953
3,Senior,122.733167


In [None]:
# 8. 성별별 평균 소비 금액 계산
# 성별(Gender)별 평균 소비 금액 계산
df_gender_spent = df.groupby("Gender")["PurchaseAmount"].mean().reset_index()  # 성별별 평균 소비 금액 계산

# Gender 값을 남/녀로 변환 (0: 여성, 1: 남성)
df_gender_spent["Gender"] = df_gender_spent["Gender"].map({0: "Female", 1: "Male"})  # 성별 변환

# 컬럼명 변경
df_gender_spent.rename(columns={"PurchaseAmount": "AvgSpent"}, inplace=True)  # 컬럼명 변경

# 성별별 평균 소비 금액 확인
print("\n=== 성별별 평균 소비 금액 확인 ===")
df_gender_spent  # 성별별 평균 소비 금액 출력


=== 성별별 평균 소비 금액 확인 ===


Unnamed: 0,Gender,AvgSpent
0,Female,124.646707
1,Male,121.364729


In [30]:
# 9. 고객별 총 구매 횟수 계산
# CustomerID를 기준으로 구매 횟수(= 데이터 개수) 계산
df_purchase_count = df.groupby("CustomerID")["PurchaseAmount"].count().reset_index()  # 고객별 총 구매 횟수 계산

# 컬럼명 변경 (총 구매 횟수를 의미하도록 변경)
df_purchase_count.rename(columns={"PurchaseAmount": "TotalPurchases"}, inplace=True)  # 컬럼명 변경

# 고객별 총 구매 횟수 확인
print("\n=== 고객별 총 구매 횟수 확인 ===")
df_purchase_count.head(5)  # 상위 5개 데이터 출력


=== 고객별 총 구매 횟수 확인 ===


Unnamed: 0,CustomerID,TotalPurchases
0,1,1
1,2,1
2,3,1
3,4,1
4,5,1


In [33]:
# 10. 최종 데이터 병합 (총 소비 금액 + 총 구매 횟수)
df_final = pd.merge (df_total_spent, df_purchase_count, on="CustomerID", how="inner")  # 최종 데이터 병합

# 최종 데이터 확인
print("\n=== 고객별 총 소비 금액 및 총 구매 횟수 데이터 확인 ===")
df_final # 최종 데이터 출력


=== 고객별 총 소비 금액 및 총 구매 횟수 데이터 확인 ===


Unnamed: 0,CustomerID,TotalSpent,TotalPurchases
0,1,44,1
1,2,231,1
2,3,68,1
3,4,177,1
4,5,288,1
...,...,...,...
995,996,180,1
996,997,228,1
997,998,53,1
998,999,6,1
