In [None]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# 시드 설정
np.random.seed(42)

# 1. 고객 및 거래 통합 데이터 (customer_transactions.csv)
customers_data = []
for customer_id in range(1, 1001):  # 1000명의 고객
    # 고객 기본 정보
    reg_date = datetime(2023, 1, 1) + timedelta(days=np.random.randint(0, 365))
    channel = np.random.choice(['organic', 'paid_search', 'social_media', 'email', 'referral'], 
                              p=[0.3, 0.25, 0.2, 0.15, 0.1])
    segment = np.random.choice(['premium', 'standard', 'basic'], p=[0.2, 0.6, 0.2])
    
    # 세그먼트별 거래 패턴
    if segment == 'premium':
        num_transactions = np.random.poisson(6) + 2
        base_value = 120
    elif segment == 'standard':
        num_transactions = np.random.poisson(3) + 1
        base_value = 70
    else:
        num_transactions = np.random.poisson(2) + 1
        base_value = 35
    
    # 각 고객의 거래 생성
    for trans_num in range(num_transactions):
        trans_date = reg_date + timedelta(days=np.random.randint(1, 400))
        if trans_date <= datetime(2024, 12, 31):
            order_value = base_value * np.random.lognormal(0, 0.3)
            
            customers_data.append({
                'customer_id': customer_id,
                'registration_date': reg_date,
                'acquisition_channel': channel,
                'customer_segment': segment,
                'transaction_date': trans_date,
                'order_value': round(max(order_value, 10), 2),
                'product_category': np.random.choice(['Electronics', 'Fashion', 'Home', 'Books'])
            })

customer_transactions_df = pd.DataFrame(customers_data)

# 2. 마케팅 성과 데이터 (marketing_performance.csv)
marketing_data = []
channels = ['organic', 'paid_search', 'social_media', 'email', 'referral']
months = pd.date_range('2023-01-01', '2024-12-01', freq='MS')

for month in months:
    for channel in channels:
        # 채널별 마케팅 비용 설정
        if channel == 'organic':
            spend = 0
            new_customers = np.random.poisson(25)
        elif channel == 'paid_search':
            spend = np.random.normal(8000, 1500)
            new_customers = np.random.poisson(20)
        elif channel == 'social_media':
            spend = np.random.normal(5000, 1000)
            new_customers = np.random.poisson(15)
        elif channel == 'email':
            spend = np.random.normal(1500, 300)
            new_customers = np.random.poisson(12)
        else:  # referral
            spend = np.random.normal(1000, 200)
            new_customers = np.random.poisson(8)
        
        marketing_data.append({
            'month': month,
            'channel': channel,
            'marketing_spend': max(spend, 0),
            'new_customers': max(new_customers, 0),
            'website_visits': np.random.poisson(1000) if spend > 0 else np.random.poisson(500),
            'conversions': new_customers
        })

marketing_df = pd.DataFrame(marketing_data)

# 3. 고객 서비스 및 만족도 데이터 (customer_satisfaction.csv)
satisfaction_data = []
service_customers = np.random.choice(range(1, 1001), size=400, replace=False)

for customer_id in service_customers:
    # 고객별 서비스 이용 패턴
    num_contacts = np.random.poisson(2) + 1
    
    for contact_num in range(num_contacts):
        contact_date = datetime(2023, 6, 1) + timedelta(days=np.random.randint(0, 500))
        
        satisfaction_data.append({
            'customer_id': customer_id,
            'contact_date': contact_date,
            'contact_reason': np.random.choice(['billing', 'technical', 'product', 'shipping'], 
                                            p=[0.3, 0.35, 0.25, 0.1]),
            'satisfaction_score': round(np.random.normal(4.1, 0.9), 1),  # 1-5점
            'resolution_time_hours': round(np.random.exponential(8) + 1, 1),
            'repeat_contact': np.random.choice([True, False], p=[0.2, 0.8])
        })

satisfaction_df = pd.DataFrame(satisfaction_data)

# 만족도 점수를 1-5 범위로 제한
satisfaction_df['satisfaction_score'] = satisfaction_df['satisfaction_score'].clip(1, 5)

# 데이터 저장
customer_transactions_df.to_csv('customer_transactions.csv', index=False)
marketing_df.to_csv('marketing_performance.csv', index=False)
satisfaction_df.to_csv('customer_satisfaction.csv', index=False)

print("✅ 실습용 데이터셋 생성 완료!")
print("\n📂 파일 목록:")
print("1. customer_transactions.csv - 고객 정보 및 거래 내역")
print("2. marketing_performance.csv - 채널별 마케팅 성과")
print("3. customer_satisfaction.csv - 고객 서비스 및 만족도")
print(f"\n📊 데이터 규모:")
print(f"- 고객-거래 레코드: {len(customer_transactions_df):,}건")
print(f"- 마케팅 성과 레코드: {len(marketing_df):,}건")  
print(f"- 고객 만족도 레코드: {len(satisfaction_df):,}건")


  'registration_date': pd.date_range('2023-01-01', periods=2000, freq='3H') + pd.to_timedelta(np.random.randint(0, 24*60, 2000), unit='m'),


✅ 실습용 데이터셋 생성 완료!
파일 목록:
- customers.csv (고객 정보)
- transactions.csv (거래 내역)
- marketing_spend.csv (마케팅 지출)
- customer_service.csv (고객 서비스)
- website_traffic.csv (웹사이트 트래픽)


In [2]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# 시드 설정
np.random.seed(42)

# 1. 고객 및 거래 통합 데이터 (customer_transactions.csv)
customers_data = []
for customer_id in range(1, 1001):  # 1000명의 고객
    # 고객 기본 정보
    reg_date = datetime(2023, 1, 1) + timedelta(days=np.random.randint(0, 365))
    channel = np.random.choice(['organic', 'paid_search', 'social_media', 'email', 'referral'], 
                              p=[0.3, 0.25, 0.2, 0.15, 0.1])
    segment = np.random.choice(['premium', 'standard', 'basic'], p=[0.2, 0.6, 0.2])
    
    # 세그먼트별 거래 패턴
    if segment == 'premium':
        num_transactions = np.random.poisson(6) + 2
        base_value = 120
    elif segment == 'standard':
        num_transactions = np.random.poisson(3) + 1
        base_value = 70
    else:
        num_transactions = np.random.poisson(2) + 1
        base_value = 35
    
    # 각 고객의 거래 생성
    for trans_num in range(num_transactions):
        trans_date = reg_date + timedelta(days=np.random.randint(1, 400))
        if trans_date <= datetime(2024, 12, 31):
            order_value = base_value * np.random.lognormal(0, 0.3)
            
            customers_data.append({
                'customer_id': customer_id,
                'registration_date': reg_date,
                'acquisition_channel': channel,
                'customer_segment': segment,
                'transaction_date': trans_date,
                'order_value': round(max(order_value, 10), 2),
                'product_category': np.random.choice(['Electronics', 'Fashion', 'Home', 'Books'])
            })

customer_transactions_df = pd.DataFrame(customers_data)

# 2. 마케팅 성과 데이터 (marketing_performance.csv)
marketing_data = []
channels = ['organic', 'paid_search', 'social_media', 'email', 'referral']
months = pd.date_range('2023-01-01', '2024-12-01', freq='MS')

for month in months:
    for channel in channels:
        # 채널별 마케팅 비용 설정
        if channel == 'organic':
            spend = 0
            new_customers = np.random.poisson(25)
        elif channel == 'paid_search':
            spend = np.random.normal(8000, 1500)
            new_customers = np.random.poisson(20)
        elif channel == 'social_media':
            spend = np.random.normal(5000, 1000)
            new_customers = np.random.poisson(15)
        elif channel == 'email':
            spend = np.random.normal(1500, 300)
            new_customers = np.random.poisson(12)
        else:  # referral
            spend = np.random.normal(1000, 200)
            new_customers = np.random.poisson(8)
        
        marketing_data.append({
            'month': month,
            'channel': channel,
            'marketing_spend': max(spend, 0),
            'new_customers': max(new_customers, 0),
            'website_visits': np.random.poisson(1000) if spend > 0 else np.random.poisson(500),
            'conversions': new_customers
        })

marketing_df = pd.DataFrame(marketing_data)

# 3. 고객 서비스 및 만족도 데이터 (customer_satisfaction.csv)
satisfaction_data = []
service_customers = np.random.choice(range(1, 1001), size=400, replace=False)

for customer_id in service_customers:
    # 고객별 서비스 이용 패턴
    num_contacts = np.random.poisson(2) + 1
    
    for contact_num in range(num_contacts):
        contact_date = datetime(2023, 6, 1) + timedelta(days=np.random.randint(0, 500))
        
        satisfaction_data.append({
            'customer_id': customer_id,
            'contact_date': contact_date,
            'contact_reason': np.random.choice(['billing', 'technical', 'product', 'shipping'], 
                                            p=[0.3, 0.35, 0.25, 0.1]),
            'satisfaction_score': round(np.random.normal(4.1, 0.9), 1),  # 1-5점
            'resolution_time_hours': round(np.random.exponential(8) + 1, 1),
            'repeat_contact': np.random.choice([True, False], p=[0.2, 0.8])
        })

satisfaction_df = pd.DataFrame(satisfaction_data)

# 만족도 점수를 1-5 범위로 제한
satisfaction_df['satisfaction_score'] = satisfaction_df['satisfaction_score'].clip(1, 5)

# 데이터 저장
customer_transactions_df.to_csv('customer_transactions.csv', index=False)
marketing_df.to_csv('marketing_performance.csv', index=False)
satisfaction_df.to_csv('customer_satisfaction.csv', index=False)

print("✅ 실습용 데이터셋 생성 완료!")
print("\n📂 파일 목록:")
print("1. customer_transactions.csv - 고객 정보 및 거래 내역")
print("2. marketing_performance.csv - 채널별 마케팅 성과")
print("3. customer_satisfaction.csv - 고객 서비스 및 만족도")
print(f"\n📊 데이터 규모:")
print(f"- 고객-거래 레코드: {len(customer_transactions_df):,}건")
print(f"- 마케팅 성과 레코드: {len(marketing_df):,}건")  
print(f"- 고객 만족도 레코드: {len(satisfaction_df):,}건")


✅ 실습용 데이터셋 생성 완료!

📂 파일 목록:
1. customer_transactions.csv - 고객 정보 및 거래 내역
2. marketing_performance.csv - 채널별 마케팅 성과
3. customer_satisfaction.csv - 고객 서비스 및 만족도

📊 데이터 규모:
- 고객-거래 레코드: 4,569건
- 마케팅 성과 레코드: 120건
- 고객 만족도 레코드: 1,168건


In [None]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# 시드 설정
np.random.seed(42)

# 1. 고객 및 거래 통합 데이터 (customer_transactions.csv)
customers_data = []
for customer_id in range(1, 1001):  # 1000명의 고객
    # 고객 기본 정보 - 2023년~2024년에 걸쳐 가입
    reg_date = datetime(2023, 1, 1) + timedelta(days=np.random.randint(0, 730))  # 2년 범위로 확장
    channel = np.random.choice(['organic', 'paid_search', 'social_media', 'email', 'referral'], 
                              p=[0.3, 0.25, 0.2, 0.15, 0.1])
    segment = np.random.choice(['premium', 'standard', 'basic'], p=[0.2, 0.6, 0.2])
    
    # 세그먼트별 거래 패턴
    if segment == 'premium':
        num_transactions = np.random.poisson(6) + 2
        base_value = 120
    elif segment == 'standard':
        num_transactions = np.random.poisson(3) + 1
        base_value = 70
    else:
        num_transactions = np.random.poisson(2) + 1
        base_value = 35
    
    # 각 고객의 거래 생성
    for trans_num in range(num_transactions):
        # 첫 거래는 가입일 이후 30일 이내, 이후 거래는 점진적으로 분산
        if trans_num == 0:
            trans_date = reg_date + timedelta(days=np.random.randint(0, 30))
        else:
            trans_date = reg_date + timedelta(days=np.random.randint(trans_num * 30, trans_num * 60 + 200))
        
        if trans_date <= datetime(2024, 12, 31):
            order_value = base_value * np.random.lognormal(0, 0.3)
            
            customers_data.append({
                'customer_id': customer_id,
                'registration_date': reg_date,
                'acquisition_channel': channel,
                'customer_segment': segment,
                'transaction_date': trans_date,
                'order_value': round(max(order_value, 10), 2),
                'product_category': np.random.choice(['Electronics', 'Fashion', 'Home', 'Books'])
            })

customer_transactions_df = pd.DataFrame(customers_data)
customer_transactions_df.to_csv('customer_transactions.csv', index=False)
print(f"✅ 고객 가입 기간 분포:")
print(f"2023년 가입 고객: {(customer_transactions_df['registration_date'].dt.year == 2023).sum()}명")
print(f"2024년 가입 고객: {(customer_transactions_df['registration_date'].dt.year == 2024).sum()}명")

✅ 고객 가입 기간 분포:
2023년 가입 고객: 2250명
2024년 가입 고객: 1149명


: 