## 로블록스 연령층 확대 전략 제안
### 문제 정의
- 분석 결과의 대상자: 어린 연령층의 유저가 많은 게임을 보유하고 있는 게임사
- 문제 제기:
    - 로블록스는 저연령층 게임이라는인식
- 주제:
    - 로블록스 연령층 확대 전략 제안
    - 왜 사람들은 로블록스를 어린이 게임으로 인식하고 있는가?
    - 어른들도 로블록스를 즐길 수 있는 방안

- 목표: 
    - 게임의 주 연령대에 영향을 미치는 요인 분석
    - 로블록스가 저연령층 게임으로 인식되는 이유
    - 어른들도 로블록스를 즐길 수 있는 방안

- 가정:
    - 게임 요소는 유저들의 주 연령대를 형성하는데 주요한 역할을 한다
    - 게임 요소는 유저 경험에 직접적인 영향을 미쳐 이탈과 유입에 결정적인 역할을 한다.
    - 게임 요소를 기반으로 특정 유저 연령대를 유입하기 위한 전략 수립이 가능하다

통계 자료
- 로블록스 기사 및 리포트
- 2023 게임 이용자 실태조사, 한국콘텐츠진흥원
- 2023 아동청소년 게임행동 종합 실태조사, 한국콘텐츠 진흥원

데이터
- 게임 선정 - 아동청소년 게임행동 종합 실태조사 - 청소년이 가장 많이 이용하는 게임 장르
- 네이버 트렌드 - 게임 선정 / 바그래프 작성 / 2023 기준
- 메타크리틱 - 난이도, 플레이 시간, 진행률
- 메타크리틱 - 리뷰

In [2]:
import os

# 현재 디렉터리에 'data' 디렉터리가 있는지 확인
if os.path.exists("data") and os.path.isdir("data"):
    data_path = "data/"
else:
    # 상위 디렉터리 '../data'를 확인
    data_path = "../data/"

print(f"Data path set to: {data_path}")

game_name = "쿠키런킹덤, 던전앤파이터, 메이플스토리, 월드오브워크래프트, 블레이드앤소울, 마비노기, 리그오브레전드, 펜타스톰, 도타2, 브롤스타즈, 서든어택, 배틀그라운드, 오버워치, 발로란트, 클래시오브클랜, 클래시로얄, 스타크래프트, 피파온라인, 피파23, 캔디크러쉬사가, 마인크래프트, 로블록스, 카트라이더, 테일즈런너, 크레이지아케이드, 모여봐요동물의숲, 모두의마블, 포켓몬스터".split(', ')


Data path set to: ../data/


### 데이터 탐색 및 수집

- 네이버 트렌드 데이터 수집

In [3]:
# for gn in game_name:
#     print(gn)
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import Select 
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# # 1. URL 접속
# driver = webdriver.Chrome()

# url = "https://datalab.naver.com/"
# driver.get(url)                 # URL로 이동



In [4]:
def select_dropdown_option(driver, button_id: str, option_xpath: str):
    """
    드롭다운 버튼을 클릭한 후 지정된 옵션을 선택
    
    Args:
        driver: Selenium WebDriver 객체
        button_id (str): 드롭다운 버튼의 ID
        option_xpath (str): 선택할 옵션의 XPath
    """
    # element = driver.find_element(By.XPATH, option_xpath)
    # print(option_xpath)
    # print("Displayed:", element.is_displayed())  # 요소가 화면에 표시되는지 확인
    # print("Enabled:", element.is_enabled())      # 요소가 활성화 상태인지 확인
    try:
        # 드롭다운 버튼 클릭
        dropdown_button = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.ID, button_id))
        )
        dropdown_button.click()

        # 드롭다운 항목 선택
        dropdown_option = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.XPATH, option_xpath))
        )
        dropdown_option.click()

    except Exception as e:
        print(f"오류 발생: {e}")
        driver.save_screenshot("debug_screenshot.png")


In [5]:
# # 범위 설정 (월 기준)
# select_dropdown_option(driver, "timeDimensionTitle", "//li[contains(@class, '_item_month')]/a")

# # 시작 연월 설정
# select_dropdown_option(driver, "startYear", "//div[@id='startYearDiv']//li[contains(@class, '_item_2023')]/a")
# select_dropdown_option(driver, "startMonth", "//div[@id='startMonthDiv']//li[contains(@class, '_item_01')]/a")

# # 종료 연월 설정
# select_dropdown_option(driver, "endYear", "//div[@id='endYearDiv']//li[contains(@class, '_item_2023')]/a")
# select_dropdown_option(driver, "endMonth", "//div[@id='endMonthDiv']//li[contains(@class, '_item_12')]/a")


In [6]:
from selenium.webdriver.common.by import By

def toggle_checkbox(driver, checkbox_id: str, check: bool=True):
    """
    체크박스를 선택하거나 선택 해제

    Args:
        driver: Selenium WebDriver 객체
        checkbox_id (str): 체크박스의 ID (예: "item_age_1")
        check (bool): True일 경우 체크, False일 경우 체크 해제
    """
    # 체크박스 요소 가져오기
    checkbox = driver.find_element(By.ID, checkbox_id)

    # 현재 체크 상태 확인
    is_checked = checkbox.is_selected()

    # 체크 상태 변경
    if check and not is_checked:
        checkbox.click()
    elif not check and is_checked:
        checkbox.click()

    # print(f"체크박스 {checkbox_id} {'선택' if check else '해제'} 완료")


In [7]:
# # "~12" 연령 체크박스 선택
# toggle_checkbox(driver, "item_age_1", check=True)
# toggle_checkbox(driver, "item_age_1", check=False)

# # "30~34" 연령 체크박스 선택 및 해제
# toggle_checkbox(driver, "item_age_5", check=True)
# # toggle_checkbox(driver, "item_age_5", check=False)


In [8]:
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import platform




def input_keyword(driver, baseline_keyword: str, input_keyword: str):
    """
    주제어와 추가 키워드를 입력

    Args:
        driver: Selenium WebDriver 객체
        keyword: 입력할 키워드
    """
    # if len(additional_keywords) > 4:
    #     raise ValueError(f"키워드 수({len(additional_keywords)})가 입력 가능한 필드 수를 초과했습니다.")
    # 키워드 입력
    # baseline_keyword = "게임"  # 비교 기준이 되는 키워드
    
    # 운영 체제에 따라 CONTROL 또는 COMMAND 키 선택
    # print(platform.system())
    if platform.system() == "Darwin":  # macOS
        modifier_key = Keys.COMMAND
        # print("run in mac")
    else:  # Windows/Linux
        modifier_key = Keys.CONTROL


    for i, keyword in enumerate([baseline_keyword] + [input_keyword]):
        query = keyword  # + " 게임" if i > 0 else keyword
        field_id = f"item_keyword{i+1}"
        input_box = driver.find_element(By.ID, field_id)
        input_box.send_keys(modifier_key + "A")
        input_box.send_keys(query)
        field_id2 = f"item_sub_keyword{i+1}_1"
        input_box2 = driver.find_element(By.ID, field_id2)
        input_box2.send_keys(modifier_key + "A")
        input_box2.send_keys(query)
        # print(f"입력 완료: {field_id} -> {keyword}")

In [9]:

# def input_keywords(driver, additional_keywords: list):
#     """
#     주제어와 추가 키워드를 입력

#     Args:
#         driver: Selenium WebDriver 객체
#         additional_keywords (list): 입력할 키워드 리스트
#     """
#     if len(additional_keywords) > 4:
#         raise ValueError(f"키워드 수({len(additional_keywords)})가 입력 가능한 필드 수를 초과했습니다.")
#     # 키워드 입력
#     baseline_keyword = "네이버"  # 비교 기준이 되는 키워드
#     for i, keyword in enumerate([baseline_keyword] + additional_keywords):
#         query = keyword  # + " 게임" if i > 0 else keyword
#         field_id = f"item_keyword{i+1}"
#         input_box = driver.find_element(By.ID, field_id)
#         input_box.send_keys(Keys.CONTROL + "A")
#         input_box.send_keys(query)
#         field_id2 = f"item_sub_keyword{i+1}_1"
#         input_box2 = driver.find_element(By.ID, field_id2)
#         input_box2.send_keys(Keys.CONTROL + "A")
#         input_box2.send_keys(query)
#         # print(f"입력 완료: {field_id} -> {keyword}")


In [10]:
# input_keywords(driver, additional_keywords=game_name[6:10])

In [11]:
# # 조회 버튼 클릭
# # search_btn = driver.find_element(By.CSS_SELECTOR, "#content > div._search_trend_wrapper > div.keyword_trend > div > div > form > fieldset > a")  # 검색 버튼 접근
# search_btn = driver.find_element(
#     By.CSS_SELECTOR,
#     "#content > div._search_trend_wrapper > div.keyword_trend > div > div > form > fieldset > a, #content > div.section_keyword > div.keyword_trend > div.section_step > div.com_box_inner > form > fieldset > a"
# )
# search_btn.click()

In [12]:
from selenium.webdriver.common.by import By

def extract_relative_trend_score(driver):
    """
    라인차트 데이터 포인트를 추출
    max cy: 469, min cy: 2
    Args:
        driver: Selenium WebDriver 객체
    
    Returns:
        list: 각 데이터 포인트의 cy 좌표를 통해 트렌드 점수를 산출
        트렌드 점수 산출 방법: baseline 좌표 합을 기준으로 한 상대값 
    """
    # 해당 차트의 모든 circle 요소 가져오기
    # chart_class_list = ["bb-target-data" + str(i) for i in range(5)]
    chart_class_list = ["bb-target-data" + str(i) for i in range(2)]
    trend_score = []
    for chart_class in chart_class_list:
        circles = driver.find_elements(By.CSS_SELECTOR, f"g.{chart_class} circle")
        data_points = []
        for circle in circles:
            cy = circle.get_attribute("cy")  # cy 속성 추출
            if cy:  # cy 값이 존재하는 경우만 추가
                data_points.append(469 - float(cy))
        trend_score.append(sum(data_points))
    # print(trend_score)
    # trend_score_relative = [ts / trend_score[0] for ts in trend_score[1:]]
    trend_score_relative = trend_score[1] / trend_score[0]
    return trend_score_relative


In [13]:
# extract_relative_trend_score(driver)

NameError: name 'driver' is not defined

In [121]:
# 네이버 트렌드 데이터 수집 진행
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import Select 
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import pandas as pd

# 게임 리스트
game_name_list = "쿠키런킹덤, 던전앤파이터, 메이플스토리, 월드오브워크래프트, 블레이드앤소울, 마비노기, 리그오브레전드, 펜타스톰, 도타2, 브롤스타즈, 서든어택, 배틀그라운드, 오버워치, 발로란트, 클래시오브클랜, 클래시로얄, 스타크래프트, 피파온라인, 피파23, 캔디크러쉬사가, 마인크래프트, 로블록스, 카트라이더, 테일즈런너, 크레이지아케이드, 모여봐요동물의숲, 모두의마블, 포켓몬스터".split(', ')

# 1. URL 접속
driver = webdriver.Chrome()

url = "https://datalab.naver.com/"
driver.get(url)                 # URL로 이동

# 기본 옵션 설정

# 범위 설정 (월 기준)
select_dropdown_option(driver, "timeDimensionTitle", "//li[contains(@class, '_item_month')]/a")
# # 범위 설정 (주 기준)
# select_dropdown_option(driver, "timeDimensionTitle", "//li[contains(@class, '_item_week')]/a")

# 시작 연월 설정
select_dropdown_option(driver, "startYear", "//div[@id='startYearDiv']//li[contains(@class, '_item_2023')]/a")
select_dropdown_option(driver, "startMonth", "//div[@id='startMonthDiv']//li[contains(@class, '_item_01')]/a")

# 종료 연월 설정
select_dropdown_option(driver, "endYear", "//div[@id='endYearDiv']//li[contains(@class, '_item_2023')]/a")
select_dropdown_option(driver, "endMonth", "//div[@id='endMonthDiv']//li[contains(@class, '_item_12')]/a")

# 연령 체크박스 정보
age_info = {
    '06_12': "item_age_1",
    '13_18': "item_age_2",
    '19_24': "item_age_3",
    '25_29': "item_age_4",
    '30_34': "item_age_5",
    '35_39': "item_age_6"
}

trend_data = []
for age in age_info:
    for uncheck in age_info.values():  # 체크박스 초기화
        toggle_checkbox(driver, uncheck, check=False)
    toggle_checkbox(driver, age_info[age], check=True)
    # for gt in game_trend_list:
    #     input_keywords(driver, gt)  # 키워드 입력
    for g in game_name_list:
        if (age, g) in [(t['age'], t['name']) for t in trend_data]:
            continue
        input_keyword(driver, baseline_keyword="게임", input_keyword=g+",게임")  # 키워드 입력
        search_btn = driver.find_element(
            By.CSS_SELECTOR,
            "#content > div._search_trend_wrapper > div.keyword_trend > div > div > form > fieldset > a, #content > div.section_keyword > div.keyword_trend > div.section_step > div.com_box_inner > form > fieldset > a"
        )
        search_btn.click()  # 조회버튼 클릭
        print(age, g, end="/")
        # print(gt)
        time.sleep(2)
        trend_score = extract_relative_trend_score(driver)
        print(trend_score)
        # for g, s in zip(gt, trend_score):
        trend_data.append({
            "age": age,
            "name": g,
            "score": trend_score
        })
        
        



06_12 쿠키런킹덤/1.3770205713024317
06_12 던전앤파이터/1.011089665859559
06_12 메이플스토리/1.08334472688763
06_12 월드오브워크래프트/1.002980328577521
06_12 블레이드앤소울/1.0007298845636305
06_12 마비노기/1.0079474202760579
06_12 리그오브레전드/1.2824284141288653
06_12 펜타스톰/1.00427785622604
06_12 도타2/1.0013786779542522
06_12 브롤스타즈/2.073422820148242
06_12 서든어택/1.0259093643978188
06_12 배틀그라운드/1.0763226436290778
06_12 오버워치/1.1428513545238672
06_12 발로란트/2.271556844479445
06_12 클래시오브클랜/1.0143944342970912
06_12 클래시로얄/1.0588697203712234
06_12 스타크래프트/1.0453493864729941
06_12 피파온라인/1.1214015951368541
06_12 피파23/1.0578749464596013
06_12 캔디크러쉬사가/1.002291003208141
06_12 마인크래프트/1.691992248355919
06_12 로블록스/2.3816464361649627
06_12 카트라이더/1.0821388300669397
06_12 테일즈런너/1.009569297480276
06_12 크레이지아케이드/1.010157273626992
06_12 모여봐요동물의숲/1.1784957177961983
06_12 모두의마블/1.0246119488116952
06_12 포켓몬스터/1.5344142185713567
13_18 쿠키런킹덤/1.8454213458745126
13_18 던전앤파이터/1.098729742344056
13_18 메이플스토리/2.268205611005024
13_18 월드오브워크래프트/1.0355553417584367
13

In [25]:

df_trend_data = pd.DataFrame(trend_data)
df_trend_data['score'] = df_trend_data['score'] - 1
df_trend_data.to_csv(data_path + "game_trend.csv", index=False)
df_trend_data



NameError: name 'trend_data' is not defined

### 데이터 분석 및 시각화



In [26]:
df_trend_data = pd.read_csv(data_path + "game_trend.csv")
# df_trend_data.loc[df_trend_data["age"] == "_12", "age"] = "06_12"
df_trend_data.sort_values(["name", "age"])


Unnamed: 0,age,name,score
1,06_12,던전앤파이터,0.011090
29,13_18,던전앤파이터,0.098730
57,19_24,던전앤파이터,0.658948
85,25_29,던전앤파이터,1.881544
113,30_34,던전앤파이터,1.666473
...,...,...,...
45,13_18,피파온라인,1.505663
73,19_24,피파온라인,1.232844
101,25_29,피파온라인,1.685760
129,30_34,피파온라인,1.655141


In [27]:
df_trend_data.groupby("name")["score"].idxmax()
df_trend_data.loc[df_trend_data['name'] == '로블록스']

# df_trend_data.loc[df_trend_data['age'] == '06_12']

Unnamed: 0,age,name,score
21,06_12,로블록스,1.381646
49,13_18,로블록스,2.265069
77,19_24,로블록스,2.211386
105,25_29,로블록스,2.28517
133,30_34,로블록스,2.483824
161,35_39,로블록스,3.477694


In [28]:
# df_trend_data.loc[df_trend_data['age'] == '06_12'].sort_values("score", ascending=False)
df_trend_data.loc[df_trend_data['age'] == '06_12'].sort_values("score", ascending=False)

Unnamed: 0,age,name,score
21,06_12,로블록스,1.381646
13,06_12,발로란트,1.271557
9,06_12,브롤스타즈,1.073423
20,06_12,마인크래프트,0.691992
27,06_12,포켓몬스터,0.534414
0,06_12,쿠키런킹덤,0.377021
6,06_12,리그오브레전드,0.282428
25,06_12,모여봐요동물의숲,0.178496
12,06_12,오버워치,0.142851
17,06_12,피파온라인,0.121402


In [131]:
# # 연령대별 점수가 정규분포를 따르는지 확인
# from scipy.stats import shapiro

# # 각 연령대별 정규성을 검증하고 결과 출력
# for age_group, group_data in df_trend_data.groupby("age"):
#     stat, p_value = shapiro(group_data["score"])
#     print(f"Age Group: {age_group}, p-value: {p_value:.4f}, Normal: {p_value > 0.05}")

# import matplotlib.pyplot as plt

# for age_group, group_data in df_trend_data.groupby("age"):
#     plt.hist(group_data["score"], bins=10, alpha=0.6, label=f"Age {age_group}")
#     plt.title(f"Histogram for Age Group {age_group}")
#     plt.xlabel("Score")
#     plt.ylabel("Frequency")
#     plt.show()

In [29]:
df_trend_data_ref = df_trend_data.copy()
df_trend_data_ref = df_trend_data_ref[df_trend_data_ref["age"] != "30_34"]
df_trend_data_ref = df_trend_data_ref[df_trend_data_ref["age"] != "35_39"]
df_trend_data_ref["norm_score"] = df_trend_data_ref.groupby("age")["score"].transform(lambda x: x / x.sum())
# df_trend_data["norm_score2"] = df_trend_data.groupby("age")["score"].transform(lambda x: (x - x.min()) / (x.max() - x.min()))
# z score 정규화 진행 불가 - 정규분포를 따르지 않음
# df_trend_data["norm_score3"] = df_trend_data.groupby("age")["score"].transform(lambda x: (x - x.mean()) / x.std())

In [30]:
# df_trend_data_ref.loc[df_trend_data_ref['name'] == '로블록스']
# df_trend_data_ref.loc[df_trend_data_ref['name'] == '마인크래프트']
# df_trend_data_ref.loc[df_trend_data_ref['name'] == '스타크래프트']
# df_trend_data_ref.loc[df_trend_data_ref['name'] == '리그오브레전드']
df_trend_data_ref.loc[df_trend_data_ref['name'] == '모여봐요동물의숲']

Unnamed: 0,age,name,score,norm_score
25,06_12,모여봐요동물의숲,0.178496,0.02715
53,13_18,모여봐요동물의숲,0.502854,0.020333
81,19_24,모여봐요동물의숲,0.891011,0.019883
109,25_29,모여봐요동물의숲,0.629652,0.011646


In [31]:
df_main_age = df_trend_data_ref.loc[df_trend_data_ref.groupby("name")["norm_score"].idxmax(), ["name", "age"]]
df_main_age = df_main_age.rename(columns={"age": "main_age"})
df_main_age.to_csv(data_path + "game_main_age.csv", index=False)
df_main_age

Unnamed: 0,name,main_age
85,던전앤파이터,25_29
92,도타2,25_29
21,로블록스,06_12
62,리그오브레전드,19_24
89,마비노기,25_29
48,마인크래프트,13_18
86,메이플스토리,25_29
54,모두의마블,13_18
25,모여봐요동물의숲,06_12
41,발로란트,13_18
