## 재활용 온라인 키워드 광고 데이터 만들기

In [9]:
# 필요한 라이브러리 import
import pandas as pd
import numpy as np
import random

In [13]:
# 날짜 범위 생성
date_range = pd.date_range(start="2023-01-01", end="2024-12-31", freq='D')

# 대표 키워드 10개 설정
recycling_keywords = [
    "재활용 방법", "재활용 분리 배출", "재활용 쓰레기", "재활용 아이디어", 
    "재활용 센터", "재활용 법률", "플라스틱 재활용", "재활용의 중요성", 
    "재활용 교육", "재활용 통계"
]

# 결과를 저장할 리스트 초기화
raw_data = {
    "날짜": [],
    "키워드": [],
    "노출수": [],
    "클릭수": []
}

# 날짜별로 여러 개의 키워드를 할당
for date in date_range:
    num_keywords = random.randint(1, 3)  # 1에서 3개의 키워드를 무작위로 선택
    chosen_keywords = random.sample(recycling_keywords, num_keywords)  # 무작위로 키워드 선택
    
    for keyword in chosen_keywords:
        노출수 = random.randint(1, 10_000)  # 각 키워드에 대해 랜덤으로 노출수 생성
        클릭수 = random.randint(0, 노출수)  # 클릭수는 노출수 이하로 설정

        # 데이터 추가
        raw_data["날짜"].append(date)  # 날짜 추가
        raw_data["키워드"].append(keyword)  # 선택된 키워드 추가
        raw_data["노출수"].append(노출수)  # 새로운 노출수 추가
        raw_data["클릭수"].append(클릭수)  # 새로운 클릭수 추가

data = pd.DataFrame(raw_data)  # DataFrame 생성
data.head(15)  # 상위 15개 데이터 출력

Unnamed: 0,날짜,키워드,노출수,클릭수
0,2023-01-01,재활용 센터,2322,1166
1,2023-01-02,재활용 센터,1743,1320
2,2023-01-02,재활용 방법,9711,6209
3,2023-01-03,재활용의 중요성,2364,2009
4,2023-01-04,재활용 아이디어,2186,487
5,2023-01-04,재활용 통계,1532,241
6,2023-01-05,재활용 센터,313,19
7,2023-01-05,재활용의 중요성,6748,4150
8,2023-01-05,재활용 법률,9124,8355
9,2023-01-06,재활용 통계,7671,3900


In [18]:
# 클릭률, 클릭비용, 총비용 열 생성
data["클릭률"] = data["노출수"] / data["클릭수"]
data["클릭비용"] = [random.randint(0, 200) for _ in range(len(data["노출수"]))] # 클릭비용(CPC)의 경우, 랜덤으로 생성
data["총비용"] = data["클릭수"] * data["클릭비용"]

data.head()

Unnamed: 0,날짜,키워드,노출수,클릭수,클릭률,클릭비용,총비용
0,2023-01-01,재활용 센터,2322,1166,1.991424,162,188892
1,2023-01-02,재활용 센터,1743,1320,1.320455,176,232320
2,2023-01-02,재활용 방법,9711,6209,1.56402,31,192479
3,2023-01-03,재활용의 중요성,2364,2009,1.176705,2,4018
4,2023-01-04,재활용 아이디어,2186,487,4.488706,179,87173


In [19]:
# 데이터 정보 확인
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1459 entries, 0 to 1458
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   날짜      1459 non-null   datetime64[ns]
 1   키워드     1459 non-null   object        
 2   노출수     1459 non-null   int64         
 3   클릭수     1459 non-null   int64         
 4   클릭률     1459 non-null   float64       
 5   클릭비용    1459 non-null   int64         
 6   총비용     1459 non-null   int64         
dtypes: datetime64[ns](1), float64(1), int64(4), object(1)
memory usage: 79.9+ KB


In [20]:
# 전환수, 전환율 구하기
data["전환수"] = [random.randint(0, 클릭수) for _ in range(len(data["노출수"]))] # 전환수의 경우, 클릭수보다 낮게
data["전화율"] = data["클릭수"] / data["전환수"] # 전환율은 클릭 나누기 전환

data.tail()

Unnamed: 0,날짜,키워드,노출수,클릭수,클릭률,클릭비용,총비용,전환수,전화율
1454,2024-12-30,재활용 통계,5345,425,12.576471,97,41225,960,0.442708
1455,2024-12-30,재활용 센터,7408,6617,1.119541,87,575679,2067,3.201258
1456,2024-12-31,재활용 방법,2724,785,3.470064,57,44745,729,1.076818
1457,2024-12-31,재활용 아이디어,2956,1651,1.79043,168,277368,1944,0.84928
1458,2024-12-31,플라스틱 재활용,6377,2209,2.886827,66,145794,148,14.925676


In [21]:
# CSV 파일로 저장
data.to_csv("recycling_data.csv", index=False, encoding='utf-8-sig')  # index=False는 인덱스 열을 저장하지 않도록 설정