In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# 랜덤 시드 고정
np.random.seed(42)

# 가상 데이터 생성 (고객 500명, 주문 1000건)
n_orders = 1000
n_users = 500

data = {
    'order_id': np.arange(n_orders),
    'user_id': np.random.randint(1, n_users + 1, n_orders),
    'amount': np.random.randint(10000, 100000, n_orders),
    # 2023년 1월 ~ 12월 사이의 날짜 생성
    'date': pd.to_datetime('2023-01-01') + pd.to_timedelta(np.random.randint(0, 365, n_orders), unit='D')
}

df = pd.DataFrame(data)
df['user_id'] = 'User_' + df['user_id'].astype(str)

print(f"✅ 데이터 생성 완료: {df.shape}")
df.head()

✅ 데이터 생성 완료: (1000, 4)


Unnamed: 0,order_id,user_id,amount,date
0,0,User_103,72292,2023-03-13
1,1,User_436,33833,2023-03-01
2,2,User_349,14158,2023-05-25
3,3,User_271,72680,2023-04-03
4,4,User_107,30309,2023-11-05


In [4]:
df['order_month'] = df['date'].dt.to_period('M').dt.to_timestamp()

df['cohort_month'] = df.groupby('user_id')['order_month'].transform('min')

print("--- 코호트 할당 결과 ---")
print(df[['user_id', 'order_month', 'cohort_month']].head())

--- 코호트 할당 결과 ---
    user_id order_month cohort_month
0  User_103  2023-03-01   2023-01-01
1  User_436  2023-03-01   2023-03-01
2  User_349  2023-05-01   2023-02-01
3  User_271  2023-04-01   2023-01-01
4  User_107  2023-11-01   2023-11-01


In [5]:
# 1. 연도와 월 차이 계산
year_diff = df['order_month'].dt.year - df['cohort_month'].dt.year
month_diff = df['order_month'].dt.month - df['cohort_month'].dt.month

# 2. 총 개월 수 차이 (Cohort Index)
df['cohort_index'] = (year_diff * 12) + month_diff + 1

print("--- 개월 수 계산 결과 ---")
print(df[['user_id', 'order_month', 'cohort_month', 'cohort_index']].head())

--- 개월 수 계산 결과 ---
    user_id order_month cohort_month  cohort_index
0  User_103  2023-03-01   2023-01-01             3
1  User_436  2023-03-01   2023-03-01             1
2  User_349  2023-05-01   2023-02-01             4
3  User_271  2023-04-01   2023-01-01             4
4  User_107  2023-11-01   2023-11-01             1
