## 재활용 온라인 키워드 광고 데이터 만들기

In [1]:
# 필요한 라이브러리 import
import pandas as pd
import numpy as np
import random

In [3]:
# 날짜 범위 생성
date_range = pd.date_range(start="2023-01-01", end="2024-12-31", freq='D')

# 대표 키워드 10개 설정
keywords = ["재활용 앱", "플로깅", "쓰레기 줍기", "환경 보호 앱", "재활용 가이드", 
            "플로깅 행사", "지속 가능한 생활", "친환경 활동", "환경 캠페인", "지역 재활용 센터"]

# 유입 디바이스 설정
devices = ["PC", "Mobile"]

# 유입 경로 설정
influx_ways = ["직접 유입", "키워드 검색", "블로그", "카페", "이메일", 
        "카카오톡", "메타", "인스타그램", "유튜브", "배너 광고",
          "트위터 X", "기타 SNS"]


# 결과를 저장할 리스트 초기화
raw_data = {
    "날짜": [],
    "디바이스": [], # 추가
    "유입경로": [], # 추가
    "키워드": [],
    "노출수": [],
    "유입수": [],
    "체류시간(min)": [], # 추가
    "페이지뷰": [], # 추가
    "이탈수": [] # 추가
}

# 날짜별로 데이터 생성
for date in date_range:
    for device in devices:  # 각 디바이스에 대해 반복
        for influx_way in influx_ways:  # 각 유입 경로에 대해 반복

            if influx_way == "키워드 검색":  # 유입 경로가 키워드 검색인 경우
                num_keywords = random.randint(1, len(keywords))  # 키워드 수 무작위 선택
                chosen_keywords = random.sample(keywords, num_keywords)  # 무작위로 키워드 선택

                for keyword in chosen_keywords:
                    exposures = random.randint(1, 1000)  # 각 유입 경로에 대해 랜덤으로 노출수 생성
                    clicks = random.randint(0, min(exposures, 100))  # 클릭수는 노출수 및 100 이하
                    stay_time = random.randint(0, 500)  # 디바이스 및 유입별 총 체류시간 합계 
                    page_view = random.randint(1, 500) # 페이지뷰 총 합
                    exit = random.randint(0, min(clicks, 10)) # 이탈수는 유입수 이하 또는 10 중 최소값

                    # 데이터 추가
                    raw_data["날짜"].append(date)  # 날짜 추가
                    raw_data["디바이스"].append(device)  # 디바이스 추가
                    raw_data["유입경로"].append("키워드 검색")  # 유입경로 추가
                    raw_data["키워드"].append(keyword)  # 선택된 키워드 추가
                    raw_data["노출수"].append(exposures)  # 노출수 추가
                    raw_data["유입수"].append(clicks)  # 클릭수 추가
                    raw_data["체류시간(min)"].append(stay_time)  # 체류시간 추가
                    raw_data["페이지뷰"].append(page_view) # 페이지뷰
                    raw_data["이탈수"].append(exit) # 이탈수

            elif influx_way == "직접 유입": # 유입 경로가 직접 유입인 경우 노출수 표시 X
                exposures = random.randint(1, 1000)  # 각 유입 경로에 대해 랜덤으로 노출수 생성
                clicks = random.randint(0, 100)  # 유입수는 100 이하
                stay_time = random.randint(0, 500)  # 디바이스 및 유입별 총 체류시간 합계 
                page_view = random.randint(1, 500) # 페이지뷰 총 합
                exit = random.randint(0, min(clicks, 10)) # 이탈수는 유입수 이하

                # 데이터 추가
                raw_data["날짜"].append(date)  # 날짜 추가
                raw_data["디바이스"].append(device)  # 디바이스 추가
                raw_data["유입경로"].append("직접 유입")  # 유입경로 
                raw_data["키워드"].append(None)  # 키워드 없음
                raw_data["노출수"].append(0)  # 노출수 없음
                raw_data["유입수"].append(clicks)  # 클릭수 추가
                raw_data["체류시간(min)"].append(stay_time)  # 체류시간 추가
                raw_data["페이지뷰"].append(page_view) # 페이지뷰
                raw_data["이탈수"].append(exit) # 이탈수
                
            else:  # 유입 경로가 키워드 검색과 직접 유입이 아닌 경우
                exposures = random.randint(1, 1000)  # 각 유입 경로에 대해 랜덤으로 노출수 생성
                clicks = random.randint(0, min(exposures, 100))  # 클릭수는 노출수 및 100 이하
                stay_time = random.randint(0, 500)  # 디바이스 및 유입별 총 체류시간 합계 
                page_view = random.randint(1, 500) # 페이지뷰 총 합
                exit = random.randint(0, min(clicks, 10)) # 이탈수는 유입수 이하 또는 10 중 최소값
            
                # 데이터 추가
                raw_data["날짜"].append(date)  # 날짜 추가
                raw_data["디바이스"].append(device)  # 디바이스 추가
                raw_data["유입경로"].append(influx_way)  # 유입경로 추가
                raw_data["키워드"].append(None)  # 키워드 없음
                raw_data["노출수"].append(exposures)  # 노출수 추가
                raw_data["유입수"].append(clicks)  # 클릭수 추가
                raw_data["체류시간(min)"].append(stay_time)  # 체류시간 추가
                raw_data["페이지뷰"].append(page_view) # 페이지뷰
                raw_data["이탈수"].append(exit) # 이탈수
            

data = pd.DataFrame(raw_data)  # DataFrame 생성
data.head(20)  # 상위 20개 데이터 출력

Unnamed: 0,날짜,디바이스,유입경로,키워드,노출수,유입수,체류시간(min),페이지뷰,이탈수
0,2023-01-01,PC,직접 유입,,0,98,106,194,9
1,2023-01-01,PC,키워드 검색,재활용 가이드,963,92,80,379,5
2,2023-01-01,PC,키워드 검색,지역 재활용 센터,919,73,246,412,3
3,2023-01-01,PC,키워드 검색,환경 보호 앱,891,18,454,189,7
4,2023-01-01,PC,키워드 검색,환경 캠페인,81,56,443,216,2
5,2023-01-01,PC,블로그,,783,51,193,184,10
6,2023-01-01,PC,카페,,595,52,161,318,10
7,2023-01-01,PC,이메일,,175,55,313,124,9
8,2023-01-01,PC,카카오톡,,917,22,271,480,2
9,2023-01-01,PC,메타,,841,46,127,10,7


In [4]:
# 유입률, 평균 페이지뷰, 이탈률 열 생성
# 컨텐츠 노출 대비 유입률 : 직접 유입의 경우 노출이 0이므로 에러 뜨지 않게 조건문 사용
data["유입률(%)"] = data.apply(lambda row: (row["유입수"] / row["노출수"]) * 100  if row["노출수"] > 0 else 0, axis=1)
data["평균페이지뷰"] = data["페이지뷰"] / data["유입수"] # 1유입 당 페이지뷰
data["이탈률(%)"] = (data["이탈수"] / data["유입수"]) * 100 # 유입대비 이탈 비율

data.head()

Unnamed: 0,날짜,디바이스,유입경로,키워드,노출수,유입수,체류시간(min),페이지뷰,이탈수,유입률(%),평균페이지뷰,이탈률(%)
0,2023-01-01,PC,직접 유입,,0,98,106,194,9,0.0,1.979592,9.183673
1,2023-01-01,PC,키워드 검색,재활용 가이드,963,92,80,379,5,9.553479,4.119565,5.434783
2,2023-01-01,PC,키워드 검색,지역 재활용 센터,919,73,246,412,3,7.943417,5.643836,4.109589
3,2023-01-01,PC,키워드 검색,환경 보호 앱,891,18,454,189,7,2.020202,10.5,38.888889
4,2023-01-01,PC,키워드 검색,환경 캠페인,81,56,443,216,2,69.135802,3.857143,3.571429


In [5]:
# 데이터 정보 확인
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24260 entries, 0 to 24259
Data columns (total 12 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   날짜         24260 non-null  datetime64[ns]
 1   디바이스       24260 non-null  object        
 2   유입경로       24260 non-null  object        
 3   키워드        8178 non-null   object        
 4   노출수        24260 non-null  int64         
 5   유입수        24260 non-null  int64         
 6   체류시간(min)  24260 non-null  int64         
 7   페이지뷰       24260 non-null  int64         
 8   이탈수        24260 non-null  int64         
 9   유입률(%)     24260 non-null  float64       
 10  평균페이지뷰     24260 non-null  float64       
 11  이탈률(%)     23923 non-null  float64       
dtypes: datetime64[ns](1), float64(3), int64(5), object(3)
memory usage: 2.2+ MB


In [6]:
# 전환수, 전환율 구하기 - 보완
# 전환수의 경우, 유입수보다 낮게 잡아야 한다.
# 전환율은 유입 나누기 전환

# 1. 회원가입
data["회원가입"] = [random.randint(0, min(clicks-exit, 10)) for _ in range(len(data["날짜"]))]
data["전환율(가입)"] = (data["회원가입"] / data["유입수"]) * 100 

# 2. 앱 다운로드
data["앱 다운"] = [random.randint(0, min(clicks-exit, 10)) for _ in range(len(data["날짜"]))]
data["전환율(앱)"] = (data["앱 다운"] / data["유입수"]) * 100 

# 3. 뉴스레터 구독 (또는 알람설정)
data["구독"] = [random.randint(0, min(clicks-exit, 10)) for _ in range(len(data["날짜"]))] 
data["전환율(구독)"] = (data["구독"] / data["유입수"]) * 100 

# 총 전환
cols = ["회원가입", "앱 다운", "구독"]
data["전환수"] = [sum(data[col][i] for col in cols) for i in range(len(data))]
data["전환율(%)"] = (data["전환수"] / data["유입수"]) * 100 

data.tail()

Unnamed: 0,날짜,디바이스,유입경로,키워드,노출수,유입수,체류시간(min),페이지뷰,이탈수,유입률(%),평균페이지뷰,이탈률(%),회원가입,전환율(가입),앱 다운,전환율(앱),구독,전환율(구독),전환수,전환율(%)
24255,2024-12-31,Mobile,인스타그램,,422,39,402,74,9,9.241706,1.897436,23.076923,6,15.384615,2,5.128205,4,10.25641,12,30.769231
24256,2024-12-31,Mobile,유튜브,,269,91,109,253,3,33.828996,2.78022,3.296703,8,8.791209,10,10.989011,7,7.692308,25,27.472527
24257,2024-12-31,Mobile,배너 광고,,175,35,60,398,9,20.0,11.371429,25.714286,0,0.0,7,20.0,7,20.0,14,40.0
24258,2024-12-31,Mobile,트위터 X,,813,73,281,40,3,8.97909,0.547945,4.109589,3,4.109589,1,1.369863,9,12.328767,13,17.808219
24259,2024-12-31,Mobile,기타 SNS,,523,74,104,157,9,14.14914,2.121622,12.162162,2,2.702703,8,10.810811,0,0.0,10,13.513514


In [7]:
# 평균 체류 시간 계산
data["평균체류시간(min)"] = data["체류시간(min)"] / data["유입수"]
data.tail()

Unnamed: 0,날짜,디바이스,유입경로,키워드,노출수,유입수,체류시간(min),페이지뷰,이탈수,유입률(%),...,이탈률(%),회원가입,전환율(가입),앱 다운,전환율(앱),구독,전환율(구독),전환수,전환율(%),평균체류시간(min)
24255,2024-12-31,Mobile,인스타그램,,422,39,402,74,9,9.241706,...,23.076923,6,15.384615,2,5.128205,4,10.25641,12,30.769231,10.307692
24256,2024-12-31,Mobile,유튜브,,269,91,109,253,3,33.828996,...,3.296703,8,8.791209,10,10.989011,7,7.692308,25,27.472527,1.197802
24257,2024-12-31,Mobile,배너 광고,,175,35,60,398,9,20.0,...,25.714286,0,0.0,7,20.0,7,20.0,14,40.0,1.714286
24258,2024-12-31,Mobile,트위터 X,,813,73,281,40,3,8.97909,...,4.109589,3,4.109589,1,1.369863,9,12.328767,13,17.808219,3.849315
24259,2024-12-31,Mobile,기타 SNS,,523,74,104,157,9,14.14914,...,12.162162,2,2.702703,8,10.810811,0,0.0,10,13.513514,1.405405


In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24260 entries, 0 to 24259
Data columns (total 21 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   날짜           24260 non-null  datetime64[ns]
 1   디바이스         24260 non-null  object        
 2   유입경로         24260 non-null  object        
 3   키워드          8178 non-null   object        
 4   노출수          24260 non-null  int64         
 5   유입수          24260 non-null  int64         
 6   체류시간(min)    24260 non-null  int64         
 7   페이지뷰         24260 non-null  int64         
 8   이탈수          24260 non-null  int64         
 9   유입률(%)       24260 non-null  float64       
 10  평균페이지뷰       24260 non-null  float64       
 11  이탈률(%)       23923 non-null  float64       
 12  회원가입         24260 non-null  int64         
 13  전환율(가입)      24222 non-null  float64       
 14  앱 다운         24260 non-null  int64         
 15  전환율(앱)       24221 non-null  float64       
 16  구독  

In [9]:
# 칼럼 정렬 순서
column_order = [
    "날짜", "디바이스", "유입경로", "키워드", "노출수", "유입수",
    "유입률(%)", "체류시간(min)", "평균체류시간(min)", "페이지뷰",
    "평균페이지뷰", "이탈수", "이탈률(%)", "회원가입", "전환율(가입)",
    "앱 다운", "전환율(앱)", "구독", "전환율(구독)", "전환수", "전환율(%)"
]

# 데이터프레임 칼럼 순서 재정렬
data = data.reindex(columns=column_order)
data.head()

Unnamed: 0,날짜,디바이스,유입경로,키워드,노출수,유입수,유입률(%),체류시간(min),평균체류시간(min),페이지뷰,...,이탈수,이탈률(%),회원가입,전환율(가입),앱 다운,전환율(앱),구독,전환율(구독),전환수,전환율(%)
0,2023-01-01,PC,직접 유입,,0,98,0.0,106,1.081633,194,...,9,9.183673,4,4.081633,1,1.020408,8,8.163265,13,13.265306
1,2023-01-01,PC,키워드 검색,재활용 가이드,963,92,9.553479,80,0.869565,379,...,5,5.434783,8,8.695652,3,3.26087,0,0.0,11,11.956522
2,2023-01-01,PC,키워드 검색,지역 재활용 센터,919,73,7.943417,246,3.369863,412,...,3,4.109589,3,4.109589,2,2.739726,0,0.0,5,6.849315
3,2023-01-01,PC,키워드 검색,환경 보호 앱,891,18,2.020202,454,25.222222,189,...,7,38.888889,1,5.555556,1,5.555556,4,22.222222,6,33.333333
4,2023-01-01,PC,키워드 검색,환경 캠페인,81,56,69.135802,443,7.910714,216,...,2,3.571429,9,16.071429,10,17.857143,6,10.714286,25,44.642857


In [10]:
# CSV 파일로 저장
data.to_csv("recycling_online.csv", index=False, encoding='utf-8-sig')  # index=False는 인덱스 열을 저장하지 않도록 설정