## 재활용 온라인 키워드 광고 데이터 만들기

In [9]:
# 필요한 라이브러리 import
import pandas as pd
import numpy as np
import random

In [37]:
# 날짜 범위 생성
date_range = pd.date_range(start="2023-01-01", end="2024-12-31", freq='D')

# 대표 키워드 10개 설정
recycling_keywords = [
    "재활용 방법", "재활용 분리 배출", "재활용 쓰레기", "재활용 아이디어", 
    "재활용 센터", "재활용 법률", "플라스틱 재활용", "재활용의 중요성", 
    "재활용 교육", "재활용 통계"
]

# 결과를 저장할 리스트 초기화
raw_data = {
    "날짜": [],
    "키워드": [],
    "노출수": [],
    "클릭수": []
}

# 날짜별로 여러 개의 키워드를 할당
for date in date_range:
    num_keywords = random.randint(1, len(recycling_keywords))  # 키워드 수 무작위 선택
    chosen_keywords = random.sample(recycling_keywords, num_keywords)  # 무작위로 키워드 선택

    for keyword in chosen_keywords:
        exposures = random.randint(1, 10_000)  # 각 키워드에 대해 랜덤으로 노출수 생성

        # 클릭수는 노출수 이하로 설정
        clicks = random.randint(0, min(exposures, 300))  # 클릭수는 노출수 및 300 이하
        
        # 데이터 추가
        raw_data["날짜"].append(date)  # 날짜 추가
        raw_data["키워드"].append(keyword)  # 선택된 키워드 추가
        raw_data["노출수"].append(exposures)  # 노출수 추가
        raw_data["클릭수"].append(clicks)  # 클릭수 추가

data = pd.DataFrame(raw_data)  # DataFrame 생성
data.head(15)  # 상위 15개 데이터 출력

Unnamed: 0,날짜,키워드,노출수,클릭수
0,2023-01-01,플라스틱 재활용,6343,221
1,2023-01-01,재활용 쓰레기,6168,86
2,2023-01-01,재활용 방법,4265,234
3,2023-01-01,재활용의 중요성,820,225
4,2023-01-01,재활용 센터,8067,97
5,2023-01-01,재활용 교육,2591,119
6,2023-01-01,재활용 분리 배출,7690,21
7,2023-01-01,재활용 아이디어,7259,56
8,2023-01-01,재활용 법률,3558,208
9,2023-01-02,재활용 쓰레기,9790,102


In [38]:
# 클릭률, 클릭비용, 총비용 열 생성
data["클릭률"] = data["클릭수"] / data["노출수"]
data["클릭비용"] = [random.randint(0, 200) for _ in range(len(data["노출수"]))] # 클릭비용(CPC)의 경우, 랜덤으로 생성
data["총비용"] = data["클릭수"] * data["클릭비용"]

data.head()

Unnamed: 0,날짜,키워드,노출수,클릭수,클릭률,클릭비용,총비용
0,2023-01-01,플라스틱 재활용,6343,221,0.034842,115,25415
1,2023-01-01,재활용 쓰레기,6168,86,0.013943,63,5418
2,2023-01-01,재활용 방법,4265,234,0.054865,86,20124
3,2023-01-01,재활용의 중요성,820,225,0.27439,67,15075
4,2023-01-01,재활용 센터,8067,97,0.012024,150,14550


In [39]:
# 데이터 정보 확인
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3904 entries, 0 to 3903
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   날짜      3904 non-null   datetime64[ns]
 1   키워드     3904 non-null   object        
 2   노출수     3904 non-null   int64         
 3   클릭수     3904 non-null   int64         
 4   클릭률     3904 non-null   float64       
 5   클릭비용    3904 non-null   int64         
 6   총비용     3904 non-null   int64         
dtypes: datetime64[ns](1), float64(1), int64(4), object(1)
memory usage: 213.6+ KB


In [40]:
# 전환수, 전환율 구하기
data["전환수"] = [random.randint(0, 클릭수) for _ in range(len(data["노출수"]))] # 전환수의 경우, 클릭수보다 낮게
data["전화율"] = data["클릭수"] / data["전환수"] # 전환율은 클릭 나누기 전환

data.tail()

Unnamed: 0,날짜,키워드,노출수,클릭수,클릭률,클릭비용,총비용,전환수,전화율
3899,2024-12-31,재활용 방법,984,182,0.184959,2,364,38,4.789474
3900,2024-12-31,재활용 교육,5402,194,0.035913,15,2910,52,3.730769
3901,2024-12-31,플라스틱 재활용,7392,126,0.017045,42,5292,9,14.0
3902,2024-12-31,재활용 법률,668,268,0.401198,148,39664,24,11.166667
3903,2024-12-31,재활용 쓰레기,4812,130,0.027016,59,7670,43,3.023256


In [41]:
# CSV 파일로 저장
data.to_csv("recycling_online.csv", index=False, encoding='utf-8-sig')  # index=False는 인덱스 열을 저장하지 않도록 설정