In [289]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import random


In [290]:
# Set random seed for reproducibility
random.seed(42)
np.random.seed(42)


In [291]:

# Helper functions
def random_date(start, end):
    """Generate a random datetime between `start` and `end`"""
    return start + timedelta(days=random.randint(0, (end - start).days))


In [292]:
# Generate demographic information for each user
def generate_demographic_info(user_id):
    age = random.randint(18, 65)
    gender = random.choice(['Male', 'Female'])
    location = random.choice(['North America', 'Europe', 'Asia', 'South America', 'Africa'])
    return {
        '사용자 ID': user_id,
        '나이': age,
        '성별': gender,
        '지역': location
    }

In [293]:
# 현실적인 페이지 방문 순서 설정 및 이탈 가능성 반영
def realistic_page_visit_sequence_with_churn():
    sequences = [
        ['홈', '카테고리', '제품 목록', '제품 상세', '장바구니', '결제', '주문 확인'],
        ['홈', '검색', '제품 목록', '제품 상세', '리뷰', '장바구니', '결제', '주문 확인'],
        ['홈', '검색', '제품 상세', '장바구니', '결제', '주문 확인'],
        ['홈', '카테고리', '제품 목록', '제품 상세', '리뷰', '장바구니', '결제', '주문 확인']
    ]
    
    # 선택된 시퀀스에서 이탈 지점을 무작위로 설정
    sequence = random.choice(sequences)
    if random.random() > 0.7:  # 30% 확률로 이탈
        churn_point = random.randint(2, len(sequence) - 1)  # 이탈 지점 결정
        sequence = sequence[:churn_point]  # 이탈 시점까지의 시퀀스만 사용

    return sequence

In [294]:
realistic_payment_methods = [
    '신용카드',
    '카카오페이',
    '네이버페이',
    '삼성페이',
    '토스',
    '무통장 입금'
    ]
                                 
                                 
realistic_sources = [
    'KakaoTalk Ads',
    'Naver Search',
    'Naver Shopping',
    'Google Search',
    'Instagram Ads',
    'Facebook Ads',
    'YouTube Ads',
    'Tistory Blog',
    'Coupang Ads'
]                             
                

In [295]:
def random_user_action_with_samsung_pay_check(user_id, signup_date):
    visit_count = random.randint(1, 10)
    actions = []
    last_visit = signup_date
    is_active = True
    
    for _ in range(visit_count):
        if not is_active:
            break
        
        visit_date = last_visit + timedelta(days=random.randint(1, 30))
        if visit_date > datetime(2024, 6, 30):
            break
        
        # Get a realistic page visit sequence with potential churn
        pages = realistic_page_visit_sequence_with_churn()

        # Logic to handle different scenarios related to cart and payment
        payment_completed = False
        cart_added = 'No'
        
        if random.random() < 0.05:  # Case 1: 5% chance of purchasing without adding to cart
            cart_added = 'No'
            payment_completed = True
            pages.append('결제')
        
        elif random.random() < 0.3:  # Case 2: 30% chance of visiting but not purchasing
            cart_added = 'No'
            payment_completed = False
        
        elif random.random() < 0.4:  # Case 3: 40% chance of adding to cart and purchasing
            cart_added = 'Yes'
            payment_completed = True
            if '결제' not in pages:
                pages.append('결제')
        
        else:  # Case 4: 25% chance of adding to cart but not purchasing
            cart_added = 'Yes'
            payment_completed = False

        # Determine payment method and adjust device if Samsung Pay is used
        payment_method = random.choice(realistic_payment_methods) if payment_completed else '-'
        if payment_method == '삼성페이':
            device = 'Mobile'
        else:
            # Adjust device usage probabilities
            device = random.choices(
                ['Mobile', 'Desktop', 'Tablet'], 
                weights=[70, 25, 5],  # 70% Mobile, 25% Desktop, 5% Tablet
                k=1
            )[0]

        # Ensure the page visit sequence is consistent with payment and cart actions
        if not payment_completed and '결제' in pages:
            pages.remove('결제')
            
        if cart_added == 'No' and '장바구니' in pages:
            pages.remove('장바구니')

            
        
         # 추가: '결제', '주문완료', '주문 확인' 중 하나라도 있으면 결제 완료를 Yes로 설정
#         if '결제' not in pages or '주문완료' not in pages:
#              payment_completed = True
#         else:
#              payment_completed = False

#         # Ensure the page visit sequence is consistent with payment and cart actions
#         if not payment_completed and '결제' in pages:
#             pages.remove('결제')
    
    
        actions.append({
            '사용자 ID': user_id,
            '가입 날짜': signup_date,
            '유입 경로': random.choice(realistic_sources),
            '방문 날짜': visit_date,
            '페이지 방문 순서': " > ".join(pages),
            '장바구니 담기': cart_added,
            '결제 완료': 'Yes' if payment_completed else 'No',
            '결제 방식': payment_method,
            # '마지막 방문 날짜': visit_date,
            # '이탈 여부': 'Yes' if not payment_completed else 'No',
            '디바이스 정보': device
        })
        
        last_visit = visit_date
        if random.random() > 0.8:  # 20% chance of session ending without further actions
            is_active = False

    return actions


In [296]:
def generate_user_data_with_event_impact(existing_users, num_new_users, event_start_date, event_end_date):
    users_data = []

    # 처리 1: 기존 회원의 데이터 생성 및 이벤트 후 행동 시뮬레이션
    for user_id in existing_users:
        signup_date = df_actions_samsung_pay_check[df_actions_samsung_pay_check['사용자 ID'] == user_id]['가입 날짜'].iloc[0]
        
        visit_count = random.randint(5, 15)
        purchase_probability = 0.7

        actions = []
        last_visit = event_start_date
        is_active = True

        for _ in range(visit_count):
            if not is_active:
                break
            visit_date = last_visit + timedelta(days=random.randint(1, 30))

            if visit_date > event_end_date:
                break

            # Get a realistic page visit sequence with potential churn
            pages = realistic_page_visit_sequence_with_churn()

            # Determine if the user churned or completed a purchase
            payment_completed = random.random() < purchase_probability and '결제' in pages and '장바구니' in pages

            # Ensure consistency between payment completion and page visit sequence
            if not payment_completed and '결제' in pages:
                pages.remove('결제')

            cart_added = 'Yes' if '장바구니' in pages else 'No'

            # Determine payment method and adjust device if Samsung Pay is used
            payment_method = random.choice(realistic_payment_methods) if payment_completed else '-'
            if payment_method == '삼성페이':
                device = 'Mobile'
            else:
                device = random.choices(
                    ['Mobile', 'Desktop', 'Tablet'], 
                    weights=[70, 25, 5],
                    k=1
                )[0]

                

                
            # 추가: '결제', '주문완료', '주문 확인' 중 하나라도 있으면 결제 완료를 Yes로 설정
            # if '결제' in pages or '주문완료' in pages or '주문 확인' in pages:
#             if '결제' not in pages or '주문완료' not in pages:
#                 payment_completed = True
#             else:
#                 payment_completed = False

#             # Ensure consistency between payment completion and page visit sequence
#             if not payment_completed and '결제' in pages:
#                 pages.remove('결제')
                
                
            actions.append({
                '사용자 ID': user_id,
                '가입 날짜': signup_date,
                '유입 경로': random.choice(realistic_sources),
                '방문 날짜': visit_date,
                '페이지 방문 순서': " > ".join(pages),
                '장바구니 담기': cart_added,
                '결제 완료': 'Yes' if payment_completed else 'No',
                '결제 방식': payment_method,
                # '마지막 방문 날짜': visit_date,
                # '이탈 여부': 'Yes' if not payment_completed else 'No',
                '디바이스 정보': device
            })

            last_visit = visit_date
            if random.random() > 0.8:
                is_active = False

        users_data.extend(actions)

    # 처리 2: 새로운 회원의 데이터 생성 및 이벤트 후 행동 시뮬레이션
    for new_user_id in range(max(existing_users) + 1, max(existing_users) + 1 + num_new_users):
        signup_date = random_date(event_start_date, event_end_date)
        visit_count = random.randint(5, 15)
        purchase_probability = 0.7

        actions = []
        last_visit = signup_date
        is_active = True

        for _ in range(visit_count):
            if not is_active:
                break
            visit_date = last_visit + timedelta(days=random.randint(1, 30))

            if visit_date > event_end_date:
                break

            # Get a realistic page visit sequence with potential churn
            pages = realistic_page_visit_sequence_with_churn()

            # Determine if the user churned or completed a purchase
            payment_completed = random.random() < purchase_probability and '결제' in pages and '장바구니' in pages

            # Ensure consistency between payment completion and page visit sequence
            if not payment_completed and '결제' in pages:
                pages.remove('결제')

            cart_added = 'Yes' if '장바구니' in pages else 'No'

            # Determine payment method and adjust device if Samsung Pay is used
            payment_method = random.choice(realistic_payment_methods) if payment_completed else '-'
            if payment_method == '삼성페이':
                device = 'Mobile'
            else:
                device = random.choices(
                    ['Mobile', 'Desktop', 'Tablet'], 
                    weights=[70, 25, 5],
                    k=1
                )[0]
                
            

            # 추가: '결제', '주문완료', '주문 확인' 중 하나라도 있으면 결제 완료를 Yes로 설정
            # if '결제' in pages or '주문완료' in pages or '주문 확인' in pages:
#             if '결제' not in pages or '주문완료' not in pages:

#                 payment_completed = True
#             else:
#                 payment_completed = False

#             # Ensure consistency between payment completion and page visit sequence
#             if not payment_completed and '결제' in pages:
#                 pages.remove('결제')
                

            actions.append({
                '사용자 ID': new_user_id,
                '가입 날짜': signup_date,
                '유입 경로': random.choice(realistic_sources),
                '방문 날짜': visit_date,
                '페이지 방문 순서': " > ".join(pages),
                '장바구니 담기': cart_added,
                '결제 완료': 'Yes' if payment_completed else 'No',
                '결제 방식': payment_method,
                # '마지막 방문 날짜': visit_date,
                # '이탈 여부': 'Yes' if not payment_completed else 'No',
                '디바이스 정보': device
            })

            last_visit = visit_date
            if random.random() > 0.8:
                is_active = False

        users_data.extend(actions)

    return pd.DataFrame(users_data)


In [297]:
def generate_demographic_from_behavior(df_actions):
    demographic_data = []
    processed_user_ids = set()  # 이미 처리된 사용자 ID를 저장할 집합
    
    for _, row in df_actions.iterrows():
        user_id = row['사용자 ID']
        
        # 이미 처리된 사용자 ID는 건너뜀
        if user_id in processed_user_ids:
            continue

        # 디바이스 정보와 유입 경로를 바탕으로 나이 추론
        if row['디바이스 정보'] == 'Mobile':
            age = random.randint(18, 35)  # 모바일 사용자: 젊은 층으로 가정
        else:
            age = random.randint(36, 65)  # 데스크탑 사용자: 중장년층으로 가정
        
        # 유입 경로를 바탕으로 성별 추론
        if row['유입 경로'] in ['SNS', 'Instagram Ads']:
            gender = 'Female'
        elif row['유입 경로'] in ['Naver Search', 'YouTube Ads']:
            gender = 'Male'
        else:
            gender = random.choice(['Male', 'Female'])  # 나머지 경우는 랜덤

        # 지역 설정
        location = random.choice(['서울', '경기', '부산', '대구', '인천', '대전', '광주', '울산', '기타 지방'])

        # 소셜 로그인 제공자 설정
        if age <= 30:
            social_provider = random.choice(['KakaoTalk', 'Naver', 'Google(Gmail)']) if gender == 'Female' else random.choice(['Naver', 'Google(Gmail)'])
        elif 31 <= age <= 50:
            social_provider = random.choice(['Naver', 'KakaoTalk'])
        else:
            social_provider = 'Naver'

        # 가입 경로 설정 (Social Login, Email Signup, Phone Signup)
        signup_method = random.choices(
            ['Social Login', 'Email Signup', 'Phone Signup'],
            weights=[0.7, 0.2, 0.1],  # 대략적인 확률로 분포 설정
            k=1
        )[0]

        # 연동된 소셜 계정 수 설정
        linked_social_accounts = random.randint(1, 3) if signup_method == 'Social Login' else 0

        demographic_data.append({
            '사용자 ID': user_id,
            '나이': age,
            '성별': gender,
            '지역': location,
            '소셜 로그인 제공자': social_provider if signup_method == 'Social Login' else '-',
            '가입 경로': signup_method,
            '연동된 소셜 계정 수': linked_social_accounts
        })
        
        # 사용자 ID를 이미 처리된 집합에 추가
        processed_user_ids.add(user_id)
    
    return pd.DataFrame(demographic_data)


In [298]:
num_users = 1000


# Generate user data with conditional Samsung Pay device assignment
users_data_samsung_pay_check = []

for user_id in range(1001, 1001 + num_users):
    signup_date = random_date(datetime(2024, 1, 1), datetime(2024, 3, 31))
    users_data_samsung_pay_check.extend(random_user_action_with_samsung_pay_check(user_id, signup_date))


# Convert to DataFrame
df_actions_samsung_pay_check = pd.DataFrame(users_data_samsung_pay_check)

# Display the first few rows of the updated dataframe
df_actions_samsung_pay_check.head()

Unnamed: 0,사용자 ID,가입 날짜,유입 경로,방문 날짜,페이지 방문 순서,장바구니 담기,결제 완료,결제 방식,디바이스 정보
0,1001,2024-03-22,Coupang Ads,2024-03-23,홈 > 검색 > 제품 상세 > 주문 확인,No,No,-,Desktop
1,1001,2024-03-22,Coupang Ads,2024-04-06,홈 > 카테고리 > 제품 목록 > 제품 상세 > 장바구니 > 결제 > 주문 확인,Yes,Yes,카카오페이,Desktop
2,1002,2024-02-27,YouTube Ads,2024-03-07,홈 > 카테고리 > 제품 목록 > 결제,Yes,Yes,네이버페이,Mobile
3,1002,2024-02-27,YouTube Ads,2024-04-04,홈 > 검색 > 제품 상세 > 장바구니 > 주문 확인,Yes,No,-,Tablet
4,1002,2024-02-27,Instagram Ads,2024-04-14,홈 > 검색 > 제품 상세 > 주문 확인,No,No,-,Mobile


In [299]:
# Define date ranges
event_start_date = datetime(2024, 7, 1)
event_end_date = datetime(2024, 7, 31)

# Step 1: Generate existing users data before the event
existing_users = df_actions_samsung_pay_check['사용자 ID'].unique().tolist()

# Step 2: Generate user data with event impact (existing + new users)
num_new_users = 1000
df_final_data = generate_user_data_with_event_impact(existing_users, num_new_users, event_start_date, event_end_date)

# Display the first few rows of the final data
df_final_data.head()


Unnamed: 0,사용자 ID,가입 날짜,유입 경로,방문 날짜,페이지 방문 순서,장바구니 담기,결제 완료,결제 방식,디바이스 정보
0,1001,2024-03-22,Google Search,2024-07-10,홈 > 검색 > 제품 상세 > 장바구니 > 결제 > 주문 확인,Yes,Yes,토스,Mobile
1,1001,2024-03-22,Naver Search,2024-07-22,홈 > 검색 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 주문 확인,Yes,No,-,Desktop
2,1001,2024-03-22,Naver Search,2024-07-26,홈 > 카테고리 > 제품 목록 > 제품 상세 > 장바구니 > 결제 > 주문 확인,Yes,Yes,무통장 입금,Mobile
3,1002,2024-02-27,Facebook Ads,2024-07-15,홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니,Yes,No,-,Tablet
4,1003,2024-01-30,Google Search,2024-07-04,홈 > 검색 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 결제 > 주문 확인,Yes,Yes,신용카드,Mobile


In [300]:
# 두 데이터프레임을 위아래로 합친다
df_combined = pd.concat([df_actions_samsung_pay_check, df_final_data], ignore_index=True)


In [301]:
df_combined[df_combined['결제 완료'] == 'Yes']

Unnamed: 0,사용자 ID,가입 날짜,유입 경로,방문 날짜,페이지 방문 순서,장바구니 담기,결제 완료,결제 방식,디바이스 정보
1,1001,2024-03-22,Coupang Ads,2024-04-06,홈 > 카테고리 > 제품 목록 > 제품 상세 > 장바구니 > 결제 > 주문 확인,Yes,Yes,카카오페이,Desktop
2,1002,2024-02-27,YouTube Ads,2024-03-07,홈 > 카테고리 > 제품 목록 > 결제,Yes,Yes,네이버페이,Mobile
6,1003,2024-01-30,Instagram Ads,2024-03-05,홈 > 카테고리 > 제품 목록 > 제품 상세 > 장바구니 > 결제 > 주문 확인,Yes,Yes,삼성페이,Mobile
9,1004,2024-03-22,Naver Search,2024-05-17,홈 > 검색 > 제품 상세 > 장바구니 > 결제,Yes,Yes,카카오페이,Mobile
12,1006,2024-01-23,Coupang Ads,2024-02-22,홈 > 카테고리 > 제품 목록 > 제품 상세 > 결제,Yes,Yes,네이버페이,Desktop
...,...,...,...,...,...,...,...,...,...
5347,2985,2024-07-09,Naver Shopping,2024-07-22,홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 결제 > 주문 확인,Yes,Yes,삼성페이,Mobile
5348,2988,2024-07-12,Naver Shopping,2024-07-31,홈 > 검색 > 제품 상세 > 장바구니 > 결제 > 주문 확인,Yes,Yes,신용카드,Desktop
5349,2989,2024-07-01,Instagram Ads,2024-07-07,홈 > 검색 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 결제 > 주문 확인,Yes,Yes,카카오페이,Mobile
5350,2989,2024-07-01,Google Search,2024-07-26,홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 결제 > 주문 확인,Yes,Yes,삼성페이,Mobile


In [302]:
df_combined[(df_combined['장바구니 담기'] == 'No') & (df_combined['결제 완료'] == 'Yes')]

Unnamed: 0,사용자 ID,가입 날짜,유입 경로,방문 날짜,페이지 방문 순서,장바구니 담기,결제 완료,결제 방식,디바이스 정보
33,1014,2024-01-18,KakaoTalk Ads,2024-02-21,홈 > 검색 > 제품 목록 > 제품 상세 > 리뷰 > 결제 > 주문 확인 > 결제,No,Yes,네이버페이,Desktop
36,1016,2024-01-23,Google Search,2024-02-19,홈 > 카테고리 > 제품 목록 > 제품 상세 > 결제 > 주문 확인 > 결제,No,Yes,삼성페이,Mobile
43,1017,2024-02-08,Facebook Ads,2024-02-28,홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 결제 > 주문 확인 > 결제,No,Yes,네이버페이,Mobile
93,1033,2024-03-30,Facebook Ads,2024-05-10,홈 > 검색 > 제품 목록 > 제품 상세 > 리뷰 > 결제 > 주문 확인 > 결제,No,Yes,토스,Tablet
147,1046,2024-03-12,Google Search,2024-05-06,홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 결제 > 주문 확인 > 결제,No,Yes,네이버페이,Mobile
...,...,...,...,...,...,...,...,...,...
3128,1985,2024-01-19,Tistory Blog,2024-02-08,홈 > 카테고리 > 제품 목록 > 제품 상세 > 결제 > 결제,No,Yes,신용카드,Mobile
3136,1987,2024-03-28,YouTube Ads,2024-04-08,홈 > 카테고리 > 제품 목록 > 제품 상세 > 결제 > 주문 확인 > 결제,No,Yes,토스,Mobile
3138,1987,2024-03-28,Naver Shopping,2024-05-01,홈 > 검색 > 제품 상세 > 결제 > 주문 확인 > 결제,No,Yes,카카오페이,Mobile
3145,1988,2024-03-28,Naver Shopping,2024-06-09,홈 > 카테고리 > 제품 목록 > 제품 상세 > 결제,No,Yes,무통장 입금,Mobile


In [303]:
df_demographics = generate_demographic_from_behavior(df_combined)

In [304]:
df_combined

Unnamed: 0,사용자 ID,가입 날짜,유입 경로,방문 날짜,페이지 방문 순서,장바구니 담기,결제 완료,결제 방식,디바이스 정보
0,1001,2024-03-22,Coupang Ads,2024-03-23,홈 > 검색 > 제품 상세 > 주문 확인,No,No,-,Desktop
1,1001,2024-03-22,Coupang Ads,2024-04-06,홈 > 카테고리 > 제품 목록 > 제품 상세 > 장바구니 > 결제 > 주문 확인,Yes,Yes,카카오페이,Desktop
2,1002,2024-02-27,YouTube Ads,2024-03-07,홈 > 카테고리 > 제품 목록 > 결제,Yes,Yes,네이버페이,Mobile
3,1002,2024-02-27,YouTube Ads,2024-04-04,홈 > 검색 > 제품 상세 > 장바구니 > 주문 확인,Yes,No,-,Tablet
4,1002,2024-02-27,Instagram Ads,2024-04-14,홈 > 검색 > 제품 상세 > 주문 확인,No,No,-,Mobile
...,...,...,...,...,...,...,...,...,...
5352,2992,2024-07-23,Coupang Ads,2024-07-31,홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니,Yes,No,-,Mobile
5353,2994,2024-07-28,Naver Shopping,2024-07-31,홈 > 카테고리 > 제품 목록,No,No,-,Mobile
5354,2995,2024-07-09,Tistory Blog,2024-07-15,홈 > 검색 > 제품 상세 > 장바구니 > 주문 확인,Yes,No,-,Mobile
5355,2996,2024-07-25,Google Search,2024-07-30,홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 주문 확인,Yes,No,-,Mobile


In [305]:

# '네이버 쇼핑'인 경우 네이버페이 80%, 다른 경우 무작위 선택
def assign_payment_method(row):
    if row['결제 완료'] == 'Yes':
        if row['유입 경로'] == '네이버 쇼핑':
            return random.choices(
                ['네이버페이'] + [method for method in realistic_payment_methods if method != '네이버페이'], 
                weights=[80, 20],  # 80% 네이버페이, 20% 나머지 방식
                k=1
            )[0]
        else:
            return random.choice(realistic_payment_methods)
    else:
        return '-'

# 데이터프레임의 '결제 방식' 열에 적용
df_combined['결제 방식'] = df_combined.apply(assign_payment_method, axis=1)

In [306]:
df_combined

Unnamed: 0,사용자 ID,가입 날짜,유입 경로,방문 날짜,페이지 방문 순서,장바구니 담기,결제 완료,결제 방식,디바이스 정보
0,1001,2024-03-22,Coupang Ads,2024-03-23,홈 > 검색 > 제품 상세 > 주문 확인,No,No,-,Desktop
1,1001,2024-03-22,Coupang Ads,2024-04-06,홈 > 카테고리 > 제품 목록 > 제품 상세 > 장바구니 > 결제 > 주문 확인,Yes,Yes,네이버페이,Desktop
2,1002,2024-02-27,YouTube Ads,2024-03-07,홈 > 카테고리 > 제품 목록 > 결제,Yes,Yes,토스,Mobile
3,1002,2024-02-27,YouTube Ads,2024-04-04,홈 > 검색 > 제품 상세 > 장바구니 > 주문 확인,Yes,No,-,Tablet
4,1002,2024-02-27,Instagram Ads,2024-04-14,홈 > 검색 > 제품 상세 > 주문 확인,No,No,-,Mobile
...,...,...,...,...,...,...,...,...,...
5352,2992,2024-07-23,Coupang Ads,2024-07-31,홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니,Yes,No,-,Mobile
5353,2994,2024-07-28,Naver Shopping,2024-07-31,홈 > 카테고리 > 제품 목록,No,No,-,Mobile
5354,2995,2024-07-09,Tistory Blog,2024-07-15,홈 > 검색 > 제품 상세 > 장바구니 > 주문 확인,Yes,No,-,Mobile
5355,2996,2024-07-25,Google Search,2024-07-30,홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 주문 확인,Yes,No,-,Mobile


In [307]:
df_combined[(df_combined['장바구니 담기'] == 'No') & (df_combined['결제 완료'] == 'Yes')]

Unnamed: 0,사용자 ID,가입 날짜,유입 경로,방문 날짜,페이지 방문 순서,장바구니 담기,결제 완료,결제 방식,디바이스 정보
33,1014,2024-01-18,KakaoTalk Ads,2024-02-21,홈 > 검색 > 제품 목록 > 제품 상세 > 리뷰 > 결제 > 주문 확인 > 결제,No,Yes,무통장 입금,Desktop
36,1016,2024-01-23,Google Search,2024-02-19,홈 > 카테고리 > 제품 목록 > 제품 상세 > 결제 > 주문 확인 > 결제,No,Yes,카카오페이,Mobile
43,1017,2024-02-08,Facebook Ads,2024-02-28,홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 결제 > 주문 확인 > 결제,No,Yes,네이버페이,Mobile
93,1033,2024-03-30,Facebook Ads,2024-05-10,홈 > 검색 > 제품 목록 > 제품 상세 > 리뷰 > 결제 > 주문 확인 > 결제,No,Yes,토스,Tablet
147,1046,2024-03-12,Google Search,2024-05-06,홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 결제 > 주문 확인 > 결제,No,Yes,무통장 입금,Mobile
...,...,...,...,...,...,...,...,...,...
3128,1985,2024-01-19,Tistory Blog,2024-02-08,홈 > 카테고리 > 제품 목록 > 제품 상세 > 결제 > 결제,No,Yes,카카오페이,Mobile
3136,1987,2024-03-28,YouTube Ads,2024-04-08,홈 > 카테고리 > 제품 목록 > 제품 상세 > 결제 > 주문 확인 > 결제,No,Yes,토스,Mobile
3138,1987,2024-03-28,Naver Shopping,2024-05-01,홈 > 검색 > 제품 상세 > 결제 > 주문 확인 > 결제,No,Yes,카카오페이,Mobile
3145,1988,2024-03-28,Naver Shopping,2024-06-09,홈 > 카테고리 > 제품 목록 > 제품 상세 > 결제,No,Yes,신용카드,Mobile


In [308]:
# '결제' 중복을 제거하는 함수
def remove_duplicate_payment(pages_sequence):
    pages_list = pages_sequence.split(' > ')  # '>'로 구분된 페이지 리스트로 분리
    unique_pages = []
    
    for page in pages_list:
        if page == '결제' and '결제' in unique_pages:  # '결제'가 이미 리스트에 있으면 추가하지 않음
            continue
        unique_pages.append(page)
    
    return ' > '.join(unique_pages)  # 다시 '>'로 이어서 문자열로 반환

# 데이터프레임의 '페이지 방문 순서' 열에 적용
df_combined['페이지 방문 순서'] = df_combined['페이지 방문 순서'].apply(remove_duplicate_payment)


In [309]:
# # 페이지 방문 순서를 논리적으로 재구성하는 함수
# def adjust_page_sequence(pages_sequence, payment_completed):
#     pages_list = pages_sequence.split(' > ')

#     # 결제 완료된 경우에 대한 논리적 흐름 검사 및 수정
#     if payment_completed == 'Yes':
#         # '결제'가 있다면, 그 직전에 '상품 상세'가 반드시 있어야 함
#         if '결제' in pages_list:
#             payment_index = pages_list.index('결제')
            
#             # '상품 상세'가 결제 직전에 없으면 추가
#             if payment_index == 0 or pages_list[payment_index - 1] != '상품 상세':
#                 pages_list.insert(payment_index, '상품 상세')

#             # '결제' 바로 다음에 '주문 확인'이 반드시 있어야 함
#             if payment_index + 1 >= len(pages_list) or pages_list[payment_index + 1] != '주문 확인':
#                 pages_list.insert(payment_index + 1, '주문 확인')

#     return ' > '.join(pages_list)

# # 데이터프레임에 적용
# df_combined['페이지 방문 순서'] = df_combined.apply(lambda row: adjust_page_sequence(row['페이지 방문 순서'], row['결제 완료']), axis=1)


In [310]:
import pandas as pd

# 페이지 방문 순서를 논리적으로 재구성하는 함수
def adjust_page_sequence(pages_sequence, payment_completed):
    pages_list = pages_sequence.split(' > ')

    # 결제 완료된 경우에 대한 논리적 흐름 검사 및 수정
    if payment_completed == 'Yes':
        # '결제'가 있다면, 그 직전에 '상품 상세'가 반드시 있어야 함
        if '결제' in pages_list:
            payment_index = pages_list.index('결제')
            
            # '상품 상세'가 결제 직전에 없으면 추가
            if payment_index == 0 or pages_list[payment_index - 1] != '상품 상세':
                pages_list.insert(payment_index, '상품 상세')

            # '결제' 바로 다음에 '주문 확인'이 반드시 있어야 함
            if payment_index + 1 >= len(pages_list) or pages_list[payment_index + 1] != '주문 확인':
                pages_list.insert(payment_index + 1, '주문 확인')
    
    # '주문 확인 > 결제 > 주문 확인' 패턴을 탐지하고 수정
    pages_sequence_reconstructed = ' > '.join(pages_list)
    
    # '주문 확인 > 결제 > 주문 확인' 패턴이 있는 경우 처리
    if '주문 확인 > 결제 > 주문 확인' in pages_sequence_reconstructed:
        # 중복된 '주문 확인' 제거
        pages_list = pages_sequence_reconstructed.split(' > ')
        first_payment_index = pages_list.index('결제')
        
        # 결제 이후에 있는 '주문 확인'은 남기고 결제 전에 있는 '주문 확인'만 제거
        pages_list = [page for i, page in enumerate(pages_list) if not (page == '주문 확인' and i < first_payment_index)]

    return ' > '.join(pages_list)

# 데이터프레임에 적용
df_combined['페이지 방문 순서'] = df_combined.apply(lambda row: adjust_page_sequence(row['페이지 방문 순서'], row['결제 완료']), axis=1)

# 결과 확인 (필요에 따라 상위 몇 개 행만 출력)
print(df_combined[['페이지 방문 순서']].head(10))


                                              페이지 방문 순서
0                                홈 > 검색 > 제품 상세 > 주문 확인
1  홈 > 카테고리 > 제품 목록 > 제품 상세 > 장바구니 > 상품 상세 > 결제 > 주문 확인
2                 홈 > 카테고리 > 제품 목록 > 상품 상세 > 주문 확인 > 결제
3                         홈 > 검색 > 제품 상세 > 장바구니 > 주문 확인
4                                홈 > 검색 > 제품 상세 > 주문 확인
5                                홈 > 검색 > 제품 상세 > 주문 확인
6  홈 > 카테고리 > 제품 목록 > 제품 상세 > 장바구니 > 상품 상세 > 결제 > 주문 확인
7                                                홈 > 검색
8                         홈 > 검색 > 제품 상세 > 장바구니 > 주문 확인
9            홈 > 검색 > 제품 상세 > 장바구니 > 상품 상세 > 주문 확인 > 결제


In [311]:
df_combined[df_combined['결제 완료'] == 'No']

Unnamed: 0,사용자 ID,가입 날짜,유입 경로,방문 날짜,페이지 방문 순서,장바구니 담기,결제 완료,결제 방식,디바이스 정보
0,1001,2024-03-22,Coupang Ads,2024-03-23,홈 > 검색 > 제품 상세 > 주문 확인,No,No,-,Desktop
3,1002,2024-02-27,YouTube Ads,2024-04-04,홈 > 검색 > 제품 상세 > 장바구니 > 주문 확인,Yes,No,-,Tablet
4,1002,2024-02-27,Instagram Ads,2024-04-14,홈 > 검색 > 제품 상세 > 주문 확인,No,No,-,Mobile
5,1003,2024-01-30,Instagram Ads,2024-02-12,홈 > 검색 > 제품 상세 > 주문 확인,No,No,-,Mobile
7,1004,2024-03-22,Instagram Ads,2024-03-30,홈 > 검색,No,No,-,Mobile
...,...,...,...,...,...,...,...,...,...
5352,2992,2024-07-23,Coupang Ads,2024-07-31,홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니,Yes,No,-,Mobile
5353,2994,2024-07-28,Naver Shopping,2024-07-31,홈 > 카테고리 > 제품 목록,No,No,-,Mobile
5354,2995,2024-07-09,Tistory Blog,2024-07-15,홈 > 검색 > 제품 상세 > 장바구니 > 주문 확인,Yes,No,-,Mobile
5355,2996,2024-07-25,Google Search,2024-07-30,홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 주문 확인,Yes,No,-,Mobile


In [312]:
# pandas의 출력 설정을 변경해서 긴 문자열도 잘리지 않도록 설정
pd.set_option('display.max_colwidth', None)  # 컬럼의 최대 너비를 None으로 설정해 모든 내용을 표시

# 결제 완료가 'Yes'인 행을 확인
print(df_combined[df_combined['결제 완료'] == 'Yes']['페이지 방문 순서'])


1            홈 > 카테고리 > 제품 목록 > 제품 상세 > 장바구니 > 상품 상세 > 결제 > 주문 확인
2                           홈 > 카테고리 > 제품 목록 > 상품 상세 > 주문 확인 > 결제
6            홈 > 카테고리 > 제품 목록 > 제품 상세 > 장바구니 > 상품 상세 > 결제 > 주문 확인
9                      홈 > 검색 > 제품 상세 > 장바구니 > 상품 상세 > 주문 확인 > 결제
12                  홈 > 카테고리 > 제품 목록 > 제품 상세 > 상품 상세 > 주문 확인 > 결제
                                  ...                            
5347    홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 상품 상세 > 결제 > 주문 확인
5348                   홈 > 검색 > 제품 상세 > 장바구니 > 상품 상세 > 결제 > 주문 확인
5349      홈 > 검색 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 상품 상세 > 결제 > 주문 확인
5350    홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 상품 상세 > 결제 > 주문 확인
5351                   홈 > 검색 > 제품 상세 > 장바구니 > 상품 상세 > 주문 확인 > 결제
Name: 페이지 방문 순서, Length: 2132, dtype: object


In [313]:
# '페이지 방문 순서'에서 '주문 확인 > 결제 > 주문 확인'이 포함된 행만 필터링
df_filtered = df_combined[df_combined['페이지 방문 순서'].str.contains(r'> 결제 >')]

# 필터링된 결과 출력
print(df_filtered[['페이지 방문 순서']])


                                                      페이지 방문 순서
1          홈 > 카테고리 > 제품 목록 > 제품 상세 > 장바구니 > 상품 상세 > 결제 > 주문 확인
6          홈 > 카테고리 > 제품 목록 > 제품 상세 > 장바구니 > 상품 상세 > 결제 > 주문 확인
16      홈 > 검색 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 상품 상세 > 결제 > 주문 확인
18    홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 상품 상세 > 결제 > 주문 확인
28      홈 > 검색 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 상품 상세 > 결제 > 주문 확인
...                                                         ...
5345  홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 상품 상세 > 결제 > 주문 확인
5347  홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 상품 상세 > 결제 > 주문 확인
5348                 홈 > 검색 > 제품 상세 > 장바구니 > 상품 상세 > 결제 > 주문 확인
5349    홈 > 검색 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 상품 상세 > 결제 > 주문 확인
5350  홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 상품 상세 > 결제 > 주문 확인

[1739 rows x 1 columns]


In [314]:
df_combined[(df_combined['결제 완료'] == 'Yes')]['페이지 방문 순서']

1            홈 > 카테고리 > 제품 목록 > 제품 상세 > 장바구니 > 상품 상세 > 결제 > 주문 확인
2                           홈 > 카테고리 > 제품 목록 > 상품 상세 > 주문 확인 > 결제
6            홈 > 카테고리 > 제품 목록 > 제품 상세 > 장바구니 > 상품 상세 > 결제 > 주문 확인
9                      홈 > 검색 > 제품 상세 > 장바구니 > 상품 상세 > 주문 확인 > 결제
12                  홈 > 카테고리 > 제품 목록 > 제품 상세 > 상품 상세 > 주문 확인 > 결제
                                  ...                            
5347    홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 상품 상세 > 결제 > 주문 확인
5348                   홈 > 검색 > 제품 상세 > 장바구니 > 상품 상세 > 결제 > 주문 확인
5349      홈 > 검색 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 상품 상세 > 결제 > 주문 확인
5350    홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 상품 상세 > 결제 > 주문 확인
5351                   홈 > 검색 > 제품 상세 > 장바구니 > 상품 상세 > 주문 확인 > 결제
Name: 페이지 방문 순서, Length: 2132, dtype: object

In [315]:
import pandas as pd

# 각 '사용자 ID'별로 최종 방문 날짜를 구합니다.
df_combined['방문 날짜'] = pd.to_datetime(df_combined['방문 날짜'])  # '방문 날짜'를 datetime으로 변환
last_visit_dates = df_combined.groupby('사용자 ID')['방문 날짜'].max().reset_index()

# '마지막 방문 날짜'라는 새로운 열을 원래 데이터프레임에 추가
df_combined = pd.merge(df_combined, last_visit_dates, on='사용자 ID', suffixes=('', '_마지막'))

# 열 이름을 '방문 날짜_마지막'에서 '마지막 방문 날짜'로 변경
df_combined.rename(columns={'방문 날짜_마지막': '마지막 방문 날짜'}, inplace=True)

# 최종 데이터프레임 확인
print(df_combined[['사용자 ID', '방문 날짜', '마지막 방문 날짜']].head(10))


   사용자 ID      방문 날짜  마지막 방문 날짜
0    1001 2024-03-23 2024-07-26
1    1001 2024-04-06 2024-07-26
2    1001 2024-07-10 2024-07-26
3    1001 2024-07-22 2024-07-26
4    1001 2024-07-26 2024-07-26
5    1002 2024-03-07 2024-07-15
6    1002 2024-04-04 2024-07-15
7    1002 2024-04-14 2024-07-15
8    1002 2024-07-15 2024-07-15
9    1003 2024-02-12 2024-07-26


In [316]:
df_combined

Unnamed: 0,사용자 ID,가입 날짜,유입 경로,방문 날짜,페이지 방문 순서,장바구니 담기,결제 완료,결제 방식,디바이스 정보,마지막 방문 날짜
0,1001,2024-03-22,Coupang Ads,2024-03-23,홈 > 검색 > 제품 상세 > 주문 확인,No,No,-,Desktop,2024-07-26
1,1001,2024-03-22,Coupang Ads,2024-04-06,홈 > 카테고리 > 제품 목록 > 제품 상세 > 장바구니 > 상품 상세 > 결제 > 주문 확인,Yes,Yes,네이버페이,Desktop,2024-07-26
2,1001,2024-03-22,Google Search,2024-07-10,홈 > 검색 > 제품 상세 > 장바구니 > 상품 상세 > 결제 > 주문 확인,Yes,Yes,카카오페이,Mobile,2024-07-26
3,1001,2024-03-22,Naver Search,2024-07-22,홈 > 검색 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 주문 확인,Yes,No,-,Desktop,2024-07-26
4,1001,2024-03-22,Naver Search,2024-07-26,홈 > 카테고리 > 제품 목록 > 제품 상세 > 장바구니 > 상품 상세 > 결제 > 주문 확인,Yes,Yes,네이버페이,Mobile,2024-07-26
...,...,...,...,...,...,...,...,...,...,...
5352,2992,2024-07-23,Coupang Ads,2024-07-31,홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니,Yes,No,-,Mobile,2024-07-31
5353,2994,2024-07-28,Naver Shopping,2024-07-31,홈 > 카테고리 > 제품 목록,No,No,-,Mobile,2024-07-31
5354,2995,2024-07-09,Tistory Blog,2024-07-15,홈 > 검색 > 제품 상세 > 장바구니 > 주문 확인,Yes,No,-,Mobile,2024-07-15
5355,2996,2024-07-25,Google Search,2024-07-30,홈 > 카테고리 > 제품 목록 > 제품 상세 > 리뷰 > 장바구니 > 주문 확인,Yes,No,-,Mobile,2024-07-30


In [317]:
# df_combined.to_csv('MMM_data.csv', index = False)

In [318]:
demog = generate_demographic_from_behavior(df_combined)


In [319]:
demog

Unnamed: 0,사용자 ID,나이,성별,지역,소셜 로그인 제공자,가입 경로,연동된 소셜 계정 수
0,1001,57,Male,울산,-,Email Signup,0
1,1002,18,Male,인천,-,Email Signup,0
2,1003,27,Female,울산,-,Email Signup,0
3,1004,34,Female,울산,KakaoTalk,Social Login,1
4,1005,48,Female,대구,Naver,Social Login,3
...,...,...,...,...,...,...,...
1487,2992,24,Female,울산,KakaoTalk,Social Login,1
1488,2994,28,Male,대구,Naver,Social Login,3
1489,2995,23,Female,경기,-,Phone Signup,0
1490,2996,27,Female,서울,Naver,Social Login,3


In [17]:
from faker import Faker
import random

# 한국어 및 한국 환경을 위한 Faker 인스턴스 생성
faker = Faker('ko_KR')

# 임의의 한국 이름 생성
name = faker.name()
print(f"Name: {name}")

# 임의의 한국 주소 생성
address = faker.address()
print(f"Address: {address}")

# 임의의 한국 전화번호 생성
phone_number = faker.phone_number()
print(f"Phone Number: {phone_number}")

# 임의의 한국 회사명 생성
company = faker.company()
print(f"Company: {company}")

# 임의의 한국 주민등록번호 생성
ssn = faker.ssn()
print(f"SSN: {ssn}")

# 임의의 한국 은행 이름과 계좌번호 생성
banks = ['국민은행', '신한은행', '하나은행', '우리은행', '카카오뱅크']
bank = random.choice(banks)
bank_account_number = f"{random.randint(100, 999)}-{random.randint(1000, 9999)}-{random.randint(100000, 999999)}"

print(f"Bank: {bank}")
print(f"Bank Account Number: {bank_account_number}")


Name: 박성수
Address: 대구광역시 동작구 서초대가 (지원윤장면)
Phone Number: 044-155-4874
Company: 이박
SSN: 460202-2668870
Bank: 하나은행
Bank Account Number: 684-3942-947118
