In [7]:
import requests
import pandas as pd
import time

def get_all_reviews(app_id):
    reviews = []
    cursor = "*"
    has_more = True
    
    while has_more:
        url = f"https://store.steampowered.com/appreviews/{app_id}"
        params = {
            "json": 1,
            "language": "all",          # 모든 언어
            "filter": "recent",             # 전체 리뷰
            "day_range": 5,              # 전체 기간
            "cursor": cursor,
            "num_per_page": 100,         # 최대 100개
            "purchase_type": "all"       # 구매 여부 상관없이
        }
        response = requests.get(url, params=params)
        
        if response.status_code == 200:
            data = response.json()
            cursor = data['cursor']       # 다음 페이지 커서 갱신
            has_more = data.get('success', 0) == 1 and len(data['reviews']) > 0  # 계속 리뷰가 있으면 반복
            for review in data['reviews']:
                reviews.append({
                    "review": review['review'],
                    "voted_up": review['voted_up'],
                    "timestamp_created": review['timestamp_created'],
                    "playtime_forever": review['author']['playtime_forever'],
                })
            time.sleep(1)  # 스팀 차단 방지 위해 약간 쉬어주자
        else:
            print(f"Error: {response.status_code}")
            break
    
    return pd.DataFrame(reviews)

In [None]:
df_reviews = get_all_reviews(2381590)

print(f"총 리뷰 개수: {len(df_reviews)}개")
print(df_reviews.head())
df_reviews.to_csv("./OnlyUp.csv", encoding="utf-8")

df_reviews = get_all_reviews(240720)

print(f"총 리뷰 개수: {len(df_reviews)}개")
print(df_reviews.head())
df_reviews.to_csv("./Getting_Over.csv", encoding="utf-8")


총 리뷰 개수: 15029개
                                              review  voted_up  \
0                                     sta chier rare     False   
1  🔥 ОБЗОР НА ONLY UP!: ИЛИ КАК Я ПОТЕРЯЛ ВЕРУ В ...      True   
2  упал в самом конце вниз и преисполнился в созн...      True   
3                            welp haha bye only down     False   
4                                       ДА ПИЗДА\r\n      True   

   timestamp_created  playtime_forever  
0         1744224542               400  
1         1744219004                56  
2         1744213178               207  
3         1743916179                90  
4         1743876804               258  
총 리뷰 개수: 76404개
                        review  voted_up  timestamp_created  playtime_forever
0  I HATE IT BUT IN A GOOD WAY      True         1744248749               278
1                          asd      True         1744245849               197
2                          gud      True         1744225158              1297
3            

In [8]:
df_reviews = get_all_reviews(730)

print(f"총 리뷰 개수: {len(df_reviews)}개")
print(df_reviews.head())
df_reviews.to_csv("./Counter-Strike2.csv", encoding="utf-8")

총 리뷰 개수: 85575개
                                              review  voted_up  \
0  Если бы не faceit, то можно было бы смело закр...     False   
1                                              bestt      True   
2                                                  1      True   
3                                          好玩,爱玩\r\n      True   
4                                                топ      True   

   timestamp_created  playtime_forever  
0         1744265148             38184  
1         1744265060              3057  
2         1744264999             25277  
3         1744264976             11999  
4         1744264903              1962  


In [5]:
mylist = ["BaldursGate3.csv", "Getting_Over.csv", "INZOI.csv", "OnlyUp.csv"]
BaldursGate3 = pd.read_csv("BaldursGate3.csv", encoding="utf-8", index_col=0)
Getting_Over = pd.read_csv("Getting_Over.csv", encoding="utf-8", index_col=0)
INZOI = pd.read_csv("INZOI.csv", encoding="utf-8", index_col=0)
OnlyUp = pd.read_csv("OnlyUp.csv", encoding="utf-8", index_col=0)
print(len(BaldursGate3))
print(len(Getting_Over))
print(len(INZOI))
print(len(OnlyUp))
df = pd.concat([BaldursGate3, Getting_Over,INZOI, OnlyUp], ignore_index=True)
print(len(df))
BaldursGate3

46298
76404
16731
15029
154462


Unnamed: 0,review,voted_up,timestamp_created,playtime_forever
0,ม่วนนนนนนนนนนนนนนนนนนขนาดดดดดดดดดดดดดดดดดดดดด,True,1744251544,9316
1,Best game I have ever played.,True,1744250522,18928
2,"Maravilhoso, muito bom mesmo",True,1744250478,1755
3,It's an incredibly detailed game with thorough...,True,1744250291,618
4,"I honestly started playing BG3 on my PS5, but ...",True,1744250101,2905
...,...,...,...,...
46293,"Un juego woke, que te permite matar a otros pe...",True,1734017948,3929
46294,"After completing my first play through, i feel...",True,1734017818,6549
46295,It is by far one of the most amazing games I'v...,True,1734017572,50419
46296,這是我第一次接觸這類型的遊戲，目前玩下來感覺非常不錯，故事引人入勝，戰鬥也挺有趣的，好玩,True,1734017319,26087


In [None]:
# # TODO 
# 1. 점프게임과 다른 게임의 월별 리뷰수 비교 
# 2. 점프게임과 다른 게임의 평균 플레이 시간 비교 
# 3. 점프게임 댓글의 워드클라우드 -> 반복, 맵, 콘텐츠, 난이도 등  
#  review  voted_up  timestamp_created  playtime_forever

In [None]:
jumps = pd.concat([Getting_Over, OnlyUp], ignore_index=True)
jumps.head(20)

In [None]:
import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp(your_text)

# 명사, 형용사만 추출
tokens = [token.text.lower() for token in doc if token.pos_ in ["NOUN", "ADJ"] and not token.is_stop and token.is_alpha]


In [None]:
import matplotlib.pyplot as plt
from wordcloud import WordCloud

# 특정 색상 정의
highlight_color = (94, 195, 177)
other_colors = [(182, 208, 140), (249, 249, 247), (118, 171, 96), (65, 87, 53), (212, 109, 116)]


# 강조할 단어 리스트
highlight_words = ['repeat', 'map' , 'contents', 'level', 'hard']

# 색상 함수 정의
def color_func(word, font_size, position, orientation, random_state=None, **kwargs):
    if word in highlight_words:
        return f'rgb({highlight_color[0]}, {highlight_color[1]}, {highlight_color[2]})'
    else:
        # 다른 색상 중 하나를 랜덤하게 선택
        other_color = other_colors[np.random.randint(0, len(other_colors))]
        return f'rgb({other_color[0]}, {other_color[1]}, {other_color[2]})'

# 워드클라우드 생성
lightwordcloud = WordCloud(
    background_color='white',
    # font_path="/usr/share/fonts/truetype/tmoney/TmoneyRoundWindExtraBold.ttf",
    width=1500,
    height=1000,
    color_func=color_func
).generate_from_frequencies(word_count_dict)

# 워드클라우드 시각화
plt.imshow(lightwordcloud, interpolation='bilinear')
plt.title(" BaldursGate3 word cloud")
plt.axis("off")  # 축 필요 없음
plt.show()


In [None]:
{
  "Only Up!": "2381590",
  "Getting Over It with Bennett Foddy": "240720",
  "PUBG: Battlegrounds": "578080",
  "INZOI": "2456740",
  "Baldur's Gate 3": "1086940"
}
==========================================================

timestamp_created              | 리뷰 작성 시각 (UNIX 타임스탬프)
playtime_forever (in author)   | 이 유저가 이 게임을 총 플레이한 시간 (분 단위)
review                              | 실제 리뷰 텍스트
voted_up                          | 추천 여부 (true=긍정 리뷰, false=부정 리뷰 둘 다)
===========================================================

'반복', '맵', '콘텐츠', '난이도' '어려움'
'repeat', 'map' , 'contents', 'level', 'hard'
=====================================================

결과(시각화)
게임별 플레이 타임 비교
워드클라우드(단어)