## 재활용 온라인 키워드 광고 데이터 만들기

In [44]:
# 필요한 라이브러리 import
import pandas as pd
import numpy as np
import random

In [59]:
# 날짜 범위 생성
date_range = pd.date_range(start="2023-01-01", end="2024-12-31", freq='D')

# 대표 키워드 10개 설정
recycling_keywords = [
    "재활용 방법", "재활용 분리 배출", "재활용 쓰레기", "재활용 아이디어", 
    "재활용 센터", "재활용 법률", "플라스틱 재활용", "재활용의 중요성", 
    "재활용 교육", "재활용 통계"
]

# 결과를 저장할 리스트 초기화
raw_data = {
    "날짜": [],
    "키워드": [],
    "노출수": [],
    "클릭수": []
}

# 날짜별로 여러 개의 키워드를 할당
for date in date_range:
    num_keywords = random.randint(1, len(recycling_keywords))  # 키워드 수 무작위 선택
    chosen_keywords = random.sample(recycling_keywords, num_keywords)  # 무작위로 키워드 선택

    for keyword in chosen_keywords:
        exposures = random.randint(1, 1000)  # 각 키워드에 대해 랜덤으로 노출수 생성

        # 클릭수는 노출수 이하로 설정
        clicks = random.randint(0, min(exposures, 100))  # 클릭수는 노출수 및 100 이하
        
        # 데이터 추가
        raw_data["날짜"].append(date)  # 날짜 추가
        raw_data["키워드"].append(keyword)  # 선택된 키워드 추가
        raw_data["노출수"].append(exposures)  # 노출수 추가
        raw_data["클릭수"].append(clicks)  # 클릭수 추가

data = pd.DataFrame(raw_data)  # DataFrame 생성
data.head(15)  # 상위 15개 데이터 출력

Unnamed: 0,날짜,키워드,노출수,클릭수
0,2023-01-01,재활용 통계,482,15
1,2023-01-01,재활용 법률,541,100
2,2023-01-01,재활용 분리 배출,408,139
3,2023-01-02,재활용 쓰레기,947,62
4,2023-01-02,재활용 센터,748,145
5,2023-01-02,재활용 교육,970,267
6,2023-01-02,재활용 아이디어,97,16
7,2023-01-02,재활용 분리 배출,641,98
8,2023-01-02,재활용의 중요성,409,106
9,2023-01-03,재활용 분리 배출,266,206


In [60]:
# 클릭률, 클릭비용, 총비용 열 생성
data["클릭률"] = (data["클릭수"] / data["노출수"]) * 100
data["클릭비용"] = [random.randint(0, 200) for _ in range(len(data["노출수"]))] # 클릭비용(CPC)의 경우, 랜덤으로 생성
data["총비용"] = data["클릭수"] * data["클릭비용"]

data.head()

Unnamed: 0,날짜,키워드,노출수,클릭수,클릭률,클릭비용,총비용
0,2023-01-01,재활용 통계,482,15,3.112033,143,2145
1,2023-01-01,재활용 법률,541,100,18.484288,194,19400
2,2023-01-01,재활용 분리 배출,408,139,34.068627,141,19599
3,2023-01-02,재활용 쓰레기,947,62,6.54699,52,3224
4,2023-01-02,재활용 센터,748,145,19.385027,15,2175


In [61]:
# 데이터 정보 확인
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4008 entries, 0 to 4007
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   날짜      4008 non-null   datetime64[ns]
 1   키워드     4008 non-null   object        
 2   노출수     4008 non-null   int64         
 3   클릭수     4008 non-null   int64         
 4   클릭률     4008 non-null   float64       
 5   클릭비용    4008 non-null   int64         
 6   총비용     4008 non-null   int64         
dtypes: datetime64[ns](1), float64(1), int64(4), object(1)
memory usage: 219.3+ KB


In [62]:
# 전환수, 전환율 구하기
data["전환수"] = [random.randint(0, min(clicks, 10)) for _ in range(len(data["날짜"]))] # 전환수의 경우, 클릭수보다 낮게
data["전환율"] = (data["전환수"] / data["클릭수"]) * 100 # 전환율은 클릭 나누기 전환

data.tail()

Unnamed: 0,날짜,키워드,노출수,클릭수,클릭률,클릭비용,총비용,전환수,전환율
4003,2024-12-30,플라스틱 재활용,817,35,4.283966,69,2415,8,22.857143
4004,2024-12-31,재활용 법률,102,95,93.137255,192,18240,9,9.473684
4005,2024-12-31,재활용 아이디어,9,8,88.888889,189,1512,1,12.5
4006,2024-12-31,재활용 통계,11,10,90.909091,21,210,9,90.0
4007,2024-12-31,재활용 교육,442,233,52.714932,165,38445,4,1.716738


In [63]:
# CSV 파일로 저장
data.to_csv("recycling_online.csv", index=False, encoding='utf-8-sig')  # index=False는 인덱스 열을 저장하지 않도록 설정