## 재활용 온라인 키워드 광고 데이터 만들기

In [2]:
# 필요한 라이브러리 import
import pandas as pd
import numpy as np
import random

In [52]:
# 날짜 범위 생성
date_range = pd.date_range(start="2023-01-01", end="2024-12-31", freq='D')

# 대표 키워드 10개 설정
keywords = ["재활용 앱", "플로깅", "쓰레기 줍기", "환경 보호 앱", "재활용 가이드", 
            "플로깅 행사", "지속 가능한 생활", "친환경 활동", "환경 캠페인", "지역 재활용 센터"]

# 유입 디바이스 설정
devices = ["PC", "Mobile"]

# 유입 경로 설정
influx_ways = ["직접 유입", "키워드 검색", "블로그", "카페", "이메일", 
        "카카오톡", "메타", "인스타그램", "유튜브", "배너 광고",
          "트위터 X", "기타 SNS"]


# 결과를 저장할 리스트 초기화
raw_data = {
    "날짜": [],
    "디바이스": [], # 추가
    "유입경로": [], # 추가
    "키워드": [],
    "노출수": [],
    "유입수": [],
    "체류시간(min)": [], # 추가
    "페이지뷰": [], # 추가
    "이탈수": [] # 추가
}

# 날짜별로 데이터 생성
for date in date_range:
    for device in devices:  # 각 디바이스에 대해 반복
        for influx_way in influx_ways:  # 각 유입 경로에 대해 반복

            if influx_way == "키워드 검색":  # 유입 경로가 키워드 검색인 경우
                num_keywords = random.randint(1, len(keywords))  # 키워드 수 무작위 선택
                chosen_keywords = random.sample(keywords, num_keywords)  # 무작위로 키워드 선택

                for keyword in chosen_keywords:
                    exposures = random.randint(1, 1000)  # 각 유입 경로에 대해 랜덤으로 노출수 생성
                    clicks = random.randint(0, min(exposures, 100))  # 클릭수는 노출수 및 100 이하
                    stay_time = random.randint(0, 500)  # 디바이스 및 유입별 총 체류시간 합계 
                    page_view = random.randint(1, 500) # 페이지뷰 총 합
                    exit = random.randint(0, min(clicks, 10)) # 이탈수는 유입수 이하 또는 10 중 최소값

                    # 데이터 추가
                    raw_data["날짜"].append(date)  # 날짜 추가
                    raw_data["디바이스"].append(device)  # 디바이스 추가
                    raw_data["유입경로"].append("키워드 검색")  # 유입경로 추가
                    raw_data["키워드"].append(keyword)  # 선택된 키워드 추가
                    raw_data["노출수"].append(exposures)  # 노출수 추가
                    raw_data["유입수"].append(clicks)  # 클릭수 추가
                    raw_data["체류시간(min)"].append(stay_time)  # 체류시간 추가
                    raw_data["페이지뷰"].append(page_view) # 페이지뷰
                    raw_data["이탈수"].append(exit) # 이탈수

            elif influx_way == "직접 유입": # 유입 경로가 직접 유입인 경우 노출수 표시 X
                exposures = random.randint(1, 1000)  # 각 유입 경로에 대해 랜덤으로 노출수 생성
                clicks = random.randint(0, 100)  # 유입수는 100 이하
                stay_time = random.randint(0, 500)  # 디바이스 및 유입별 총 체류시간 합계 
                page_view = random.randint(1, 500) # 페이지뷰 총 합
                exit = random.randint(0, min(clicks, 10)) # 이탈수는 유입수 이하

                # 데이터 추가
                raw_data["날짜"].append(date)  # 날짜 추가
                raw_data["디바이스"].append(device)  # 디바이스 추가
                raw_data["유입경로"].append("직접 유입")  # 유입경로 
                raw_data["키워드"].append(None)  # 키워드 없음
                raw_data["노출수"].append(0)  # 노출수 없음
                raw_data["유입수"].append(clicks)  # 클릭수 추가
                raw_data["체류시간(min)"].append(stay_time)  # 체류시간 추가
                raw_data["페이지뷰"].append(page_view) # 페이지뷰
                raw_data["이탈수"].append(exit) # 이탈수
                
            else:  # 유입 경로가 키워드 검색과 직접 유입이 아닌 경우
                exposures = random.randint(1, 1000)  # 각 유입 경로에 대해 랜덤으로 노출수 생성
                clicks = random.randint(0, min(exposures, 100))  # 클릭수는 노출수 및 100 이하
                stay_time = random.randint(0, 500)  # 디바이스 및 유입별 총 체류시간 합계 
                page_view = random.randint(1, 500) # 페이지뷰 총 합
                exit = random.randint(0, min(clicks, 10)) # 이탈수는 유입수 이하 또는 10 중 최소값
            
                # 데이터 추가
                raw_data["날짜"].append(date)  # 날짜 추가
                raw_data["디바이스"].append(device)  # 디바이스 추가
                raw_data["유입경로"].append(influx_way)  # 유입경로 추가
                raw_data["키워드"].append(None)  # 키워드 없음
                raw_data["노출수"].append(exposures)  # 노출수 추가
                raw_data["유입수"].append(clicks)  # 클릭수 추가
                raw_data["체류시간(min)"].append(stay_time)  # 체류시간 추가
                raw_data["페이지뷰"].append(page_view) # 페이지뷰
                raw_data["이탈수"].append(exit) # 이탈수
            

data = pd.DataFrame(raw_data)  # DataFrame 생성
data.head(20)  # 상위 20개 데이터 출력

Unnamed: 0,날짜,디바이스,유입경로,키워드,노출수,유입수,체류시간(min),페이지뷰,이탈수
0,2023-01-01,PC,직접 유입,,0,55,454,194,6
1,2023-01-01,PC,키워드 검색,환경 캠페인,307,6,180,384,0
2,2023-01-01,PC,키워드 검색,플로깅,673,43,301,163,4
3,2023-01-01,PC,키워드 검색,재활용 앱,230,31,43,267,0
4,2023-01-01,PC,블로그,,868,6,30,104,4
5,2023-01-01,PC,카페,,151,81,414,280,1
6,2023-01-01,PC,이메일,,839,51,191,389,10
7,2023-01-01,PC,카카오톡,,697,73,481,498,0
8,2023-01-01,PC,메타,,996,13,70,419,1
9,2023-01-01,PC,인스타그램,,399,33,209,151,9


In [53]:
# 유입률, 평균 페이지뷰, 이탈률 열 생성
# 컨텐츠 노출 대비 유입률 : 직접 유입의 경우 노출이 0이므로 에러 뜨지 않게 조건문 사용
data["유입률"] = data.apply(lambda row: (row["유입수"] / row["노출수"]) * 100  if row["노출수"] > 0 else 0, axis=1)
data["평균페이지뷰"] = data["페이지뷰"] / data["유입수"] # 1유입 당 페이지뷰
data["이탈률"] = (data["이탈수"] / data["유입수"]) * 100 # 유입대비 이탈 비율

data.head()

Unnamed: 0,날짜,디바이스,유입경로,키워드,노출수,유입수,체류시간(min),페이지뷰,이탈수,유입률,평균페이지뷰,이탈률
0,2023-01-01,PC,직접 유입,,0,55,454,194,6,0.0,3.527273,10.909091
1,2023-01-01,PC,키워드 검색,환경 캠페인,307,6,180,384,0,1.954397,64.0,0.0
2,2023-01-01,PC,키워드 검색,플로깅,673,43,301,163,4,6.389302,3.790698,9.302326
3,2023-01-01,PC,키워드 검색,재활용 앱,230,31,43,267,0,13.478261,8.612903,0.0
4,2023-01-01,PC,블로그,,868,6,30,104,4,0.691244,17.333333,66.666667


In [54]:
# 데이터 정보 확인
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24183 entries, 0 to 24182
Data columns (total 12 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   날짜         24183 non-null  datetime64[ns]
 1   디바이스       24183 non-null  object        
 2   유입경로       24183 non-null  object        
 3   키워드        8101 non-null   object        
 4   노출수        24183 non-null  int64         
 5   유입수        24183 non-null  int64         
 6   체류시간(min)  24183 non-null  int64         
 7   페이지뷰       24183 non-null  int64         
 8   이탈수        24183 non-null  int64         
 9   유입률        24183 non-null  float64       
 10  평균페이지뷰     24183 non-null  float64       
 11  이탈률        23882 non-null  float64       
dtypes: datetime64[ns](1), float64(3), int64(5), object(3)
memory usage: 2.2+ MB


In [55]:
# 전환수, 전환율 구하기 - 보완
# 전환수의 경우, 유입수보다 낮게 잡아야 한다.
# 전환율은 유입 나누기 전환

# 1. 회원가입
data["회원가입"] = [random.randint(0, min(clicks, 10)) for _ in range(len(data["날짜"]))]
data["전환율(가입)"] = (data["회원가입"] / data["유입수"]) * 100 

# 2. 앱 다운로드
data["앱 다운"] = [random.randint(0, min(clicks, 10)) for _ in range(len(data["날짜"]))]
data["전환율(앱)"] = (data["앱 다운"] / data["유입수"]) * 100 

# 3. 뉴스레터 구독 (또는 알람설정)
data["구독"] = [random.randint(0, min(clicks, 10)) for _ in range(len(data["날짜"]))] 
data["전환율(구독)"] = (data["구독"] / data["유입수"]) * 100 

# 총 전환
cols = ["회원가입", "앱 다운", "구독"]
data["전환수"] = [sum(data[col][i] for col in cols) for i in range(len(data))]
data["전환율"] = (data["전환수"] / data["유입수"]) * 100 

data.tail()

Unnamed: 0,날짜,디바이스,유입경로,키워드,노출수,유입수,체류시간(min),페이지뷰,이탈수,유입률,평균페이지뷰,이탈률,회원가입,전환율(가입),앱 다운,전환율(앱),구독,전환율(구독),전환수,전환율
24178,2024-12-31,Mobile,인스타그램,,599,9,371,350,1,1.502504,38.888889,11.111111,4,44.444444,0,0.0,0,0.0,4,44.444444
24179,2024-12-31,Mobile,유튜브,,949,93,227,410,3,9.799789,4.408602,3.225806,4,4.301075,0,0.0,3,3.225806,7,7.526882
24180,2024-12-31,Mobile,배너 광고,,240,88,182,233,10,36.666667,2.647727,11.363636,10,11.363636,9,10.227273,10,11.363636,29,32.954545
24181,2024-12-31,Mobile,트위터 X,,1,0,11,387,0,0.0,inf,,9,inf,5,inf,4,inf,18,inf
24182,2024-12-31,Mobile,기타 SNS,,477,62,394,142,5,12.997904,2.290323,8.064516,8,12.903226,5,8.064516,10,16.129032,23,37.096774


In [56]:
# 평균 체류 시간 계산
data["평균체류시간(min)"] = data["체류시간(min)"] / data["유입수"]
data.tail()

Unnamed: 0,날짜,디바이스,유입경로,키워드,노출수,유입수,체류시간(min),페이지뷰,이탈수,유입률,...,이탈률,회원가입,전환율(가입),앱 다운,전환율(앱),구독,전환율(구독),전환수,전환율,평균체류시간(min)
24178,2024-12-31,Mobile,인스타그램,,599,9,371,350,1,1.502504,...,11.111111,4,44.444444,0,0.0,0,0.0,4,44.444444,41.222222
24179,2024-12-31,Mobile,유튜브,,949,93,227,410,3,9.799789,...,3.225806,4,4.301075,0,0.0,3,3.225806,7,7.526882,2.44086
24180,2024-12-31,Mobile,배너 광고,,240,88,182,233,10,36.666667,...,11.363636,10,11.363636,9,10.227273,10,11.363636,29,32.954545,2.068182
24181,2024-12-31,Mobile,트위터 X,,1,0,11,387,0,0.0,...,,9,inf,5,inf,4,inf,18,inf,inf
24182,2024-12-31,Mobile,기타 SNS,,477,62,394,142,5,12.997904,...,8.064516,8,12.903226,5,8.064516,10,16.129032,23,37.096774,6.354839


In [57]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24183 entries, 0 to 24182
Data columns (total 21 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   날짜           24183 non-null  datetime64[ns]
 1   디바이스         24183 non-null  object        
 2   유입경로         24183 non-null  object        
 3   키워드          8101 non-null   object        
 4   노출수          24183 non-null  int64         
 5   유입수          24183 non-null  int64         
 6   체류시간(min)    24183 non-null  int64         
 7   페이지뷰         24183 non-null  int64         
 8   이탈수          24183 non-null  int64         
 9   유입률          24183 non-null  float64       
 10  평균페이지뷰       24183 non-null  float64       
 11  이탈률          23882 non-null  float64       
 12  회원가입         24183 non-null  int64         
 13  전환율(가입)      24150 non-null  float64       
 14  앱 다운         24183 non-null  int64         
 15  전환율(앱)       24157 non-null  float64       
 16  구독  

In [58]:
# 유입률과 이탈률에 '(%)' 넣기 {기존 이름: 새 이름}
data.rename(columns={"유입률": "유입률(%)", "이탈률": "이탈률(%)"}, inplace=True)


# 칼럼 정렬 순서
column_order = [
    "날짜", "디바이스", "유입경로", "키워드", "노출수", "유입수",
    "유입률(%)", "체류시간(min)", "평균체류시간(min)", "페이지뷰",
    "평균페이지뷰", "이탈수", "이탈률(%)", "회원가입", "전환율(가입)",
    "앱 다운", "전환율(앱)", "구독", "전환율(구독)", "전환수", "전환율"
]

# 데이터프레임 칼럼 순서 재정렬
data = data.reindex(columns=column_order)
data.head()

Unnamed: 0,날짜,디바이스,유입경로,키워드,노출수,유입수,유입률(%),체류시간(min),평균체류시간(min),페이지뷰,...,이탈수,이탈률(%),회원가입,전환율(가입),앱 다운,전환율(앱),구독,전환율(구독),전환수,전환율
0,2023-01-01,PC,직접 유입,,0,55,0.0,454,8.254545,194,...,6,10.909091,2,3.636364,5,9.090909,10,18.181818,17,30.909091
1,2023-01-01,PC,키워드 검색,환경 캠페인,307,6,1.954397,180,30.0,384,...,0,0.0,10,166.666667,10,166.666667,4,66.666667,24,400.0
2,2023-01-01,PC,키워드 검색,플로깅,673,43,6.389302,301,7.0,163,...,4,9.302326,9,20.930233,3,6.976744,10,23.255814,22,51.162791
3,2023-01-01,PC,키워드 검색,재활용 앱,230,31,13.478261,43,1.387097,267,...,0,0.0,4,12.903226,9,29.032258,2,6.451613,15,48.387097
4,2023-01-01,PC,블로그,,868,6,0.691244,30,5.0,104,...,4,66.666667,5,83.333333,8,133.333333,8,133.333333,21,350.0


In [59]:
# CSV 파일로 저장
data.to_csv("recycling_online.csv", index=False, encoding='utf-8-sig')  # index=False는 인덱스 열을 저장하지 않도록 설정