## 재활용 온라인 키워드 광고 데이터 만들기

In [9]:
# 필요한 라이브러리 import
import pandas as pd
import numpy as np
import random

In [22]:
# 날짜 범위 생성
date_range = pd.date_range(start="2023-01-01", end="2024-12-31", freq='D')

# 대표 키워드 10개 설정
recycling_keywords = [
    "재활용 방법", "재활용 분리 배출", "재활용 쓰레기", "재활용 아이디어", 
    "재활용 센터", "재활용 법률", "플라스틱 재활용", "재활용의 중요성", 
    "재활용 교육", "재활용 통계"
]

# 결과를 저장할 리스트 초기화
raw_data = {
    "날짜": [],
    "키워드": [],
    "노출수": [],
    "클릭수": []
}

# 날짜별로 여러 개의 키워드를 할당
for date in date_range:
    num_keywords = random.randint(1, 10)  # 1에서 10개의 키워드를 무작위로 선택
    chosen_keywords = random.sample(recycling_keywords, num_keywords)  # 무작위로 키워드 선택
    
    for keyword in chosen_keywords:
        노출수 = random.randint(1, 10_000)  # 각 키워드에 대해 랜덤으로 노출수 생성
        클릭수 = random.randint(0, 노출수)  # 클릭수는 노출수 이하로 설정

        # 데이터 추가
        raw_data["날짜"].append(date)  # 날짜 추가
        raw_data["키워드"].append(keyword)  # 선택된 키워드 추가
        raw_data["노출수"].append(노출수)  # 새로운 노출수 추가
        raw_data["클릭수"].append(클릭수)  # 새로운 클릭수 추가

data = pd.DataFrame(raw_data)  # DataFrame 생성
data.head(15)  # 상위 15개 데이터 출력

Unnamed: 0,날짜,키워드,노출수,클릭수
0,2023-01-01,재활용 방법,1685,1041
1,2023-01-01,재활용 센터,3957,3330
2,2023-01-01,재활용 분리 배출,7526,1113
3,2023-01-01,재활용 통계,8183,2468
4,2023-01-01,플라스틱 재활용,6271,1660
5,2023-01-01,재활용 쓰레기,6069,2193
6,2023-01-01,재활용 아이디어,4492,4264
7,2023-01-01,재활용 교육,2852,1688
8,2023-01-01,재활용 법률,2479,511
9,2023-01-02,재활용 아이디어,9221,5033


In [23]:
# 클릭률, 클릭비용, 총비용 열 생성
data["클릭률"] = data["노출수"] / data["클릭수"]
data["클릭비용"] = [random.randint(0, 200) for _ in range(len(data["노출수"]))] # 클릭비용(CPC)의 경우, 랜덤으로 생성
data["총비용"] = data["클릭수"] * data["클릭비용"]

data.head()

Unnamed: 0,날짜,키워드,노출수,클릭수,클릭률,클릭비용,총비용
0,2023-01-01,재활용 방법,1685,1041,1.618636,76,79116
1,2023-01-01,재활용 센터,3957,3330,1.188288,52,173160
2,2023-01-01,재활용 분리 배출,7526,1113,6.761905,41,45633
3,2023-01-01,재활용 통계,8183,2468,3.31564,99,244332
4,2023-01-01,플라스틱 재활용,6271,1660,3.777711,144,239040


In [24]:
# 데이터 정보 확인
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3822 entries, 0 to 3821
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   날짜      3822 non-null   datetime64[ns]
 1   키워드     3822 non-null   object        
 2   노출수     3822 non-null   int64         
 3   클릭수     3822 non-null   int64         
 4   클릭률     3822 non-null   float64       
 5   클릭비용    3822 non-null   int64         
 6   총비용     3822 non-null   int64         
dtypes: datetime64[ns](1), float64(1), int64(4), object(1)
memory usage: 209.1+ KB


In [25]:
# 전환수, 전환율 구하기
data["전환수"] = [random.randint(0, 클릭수) for _ in range(len(data["노출수"]))] # 전환수의 경우, 클릭수보다 낮게
data["전화율"] = data["클릭수"] / data["전환수"] # 전환율은 클릭 나누기 전환

data.tail()

Unnamed: 0,날짜,키워드,노출수,클릭수,클릭률,클릭비용,총비용,전환수,전화율
3817,2024-12-31,재활용 법률,7158,1,7158.0,138,138,803,0.001245
3818,2024-12-31,재활용 통계,2674,1722,1.552846,48,82656,57,30.210526
3819,2024-12-31,플라스틱 재활용,7165,4644,1.542851,180,835920,2255,2.059424
3820,2024-12-31,재활용 센터,9812,5226,1.877535,2,10452,2614,1.999235
3821,2024-12-31,재활용 교육,7694,3105,2.477939,140,434700,90,34.5


In [26]:
# CSV 파일로 저장
data.to_csv("recycling_online.csv", index=False, encoding='utf-8-sig')  # index=False는 인덱스 열을 저장하지 않도록 설정