# 구글 플레이 스토어 리뷰 웹 크롤러
- Contributor: Tony Park
- References
    - Tistory Blog | https://heytech.tistory.com/
    - Github | https://github.com/park-gb
- Last Updated@2022-01-26

# 초기 설정

## 크롬 드라이버 세팅

In [1]:
# chromeDriver = '../chromedriver.exe' # 파일 확장자 이름 표기
chromeDriver = '../chromedriver' # 파일 확장자 이름 미표기

## 수집 앱 URL

In [2]:
URL = 'https://play.google.com/store/apps/details?id=com.github.android'

# 패키지 import

In [3]:
import requests
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
import time
from time import sleep
import random
from tqdm.auto import tqdm, trange
import pandas as pd

# 무한 스크롤 함수

In [4]:
def scroll(modal):
    try:        
        # 스크롤 높이 받아오기
        lastHeight = driver.execute_script("return arguments[0].scrollHeight", modal)
        while True:
            pauseTime = random.uniform(0.5, 0.8)
            # 최하단까지 스크롤
            driver.execute_script("arguments[0].scrollTo(0, arguments[0].scrollHeight);", modal)
            # 페이지 로딩 대기
            time.sleep(pauseTime)
            # 무한 스크롤 동작을 위해 살짝 위로 스크롤
            driver.execute_script("arguments[0].scrollTo(0, arguments[0].scrollHeight-50);", modal)
            time.sleep(pauseTime)
            # 스크롤 높이 새롭게 받아오기
            newHeight = driver.execute_script("return arguments[0].scrollHeight", modal)
            try:
                # '더보기' 버튼 있을 경우 클릭
                allReviewButton = driver.find_element_by_xpath('/html/body/div[1]/div[4]/c-wiz/div/div[2]/div/div/main/div/div[1]/div[2]/div[2]/div/span/span').click()
            except:
                # 스크롤 완료 경우
                if newHeight == lastHeight:
                    print("스크롤 완료")
                    break
                lastHeight = newHeight
                
    except Exception as e:
        print("에러 발생: ", e)

# 데이터 크롤링

In [5]:
# 크롬 드라이버 세팅
driver = webdriver.Chrome(chromeDriver)
# 페이지 열기
driver.get(URL)
# 페이지 로딩 대기
wait = WebDriverWait(driver, 5)

# '리뷰 모두 보기' 버튼 렌더링 확인
allReviewButtonXpath = '/html/body/c-wiz[2]/div/div/div[1]/div[2]/div/div[1]/c-wiz[3]/section/div/div/div[5]/div/div/button/span'
btnLoadingWait = wait.until(EC.element_to_be_clickable((By.XPATH, allReviewButtonXpath)))
# '리뷰 모두 보기' 버튼 클릭
driver.find_element_by_xpath(allReviewButtonXpath).click()

# '리뷰 모두 보기' 페이지 렌더링 대기
allReviewPageXpath = '/html/body/div[4]/div[2]/div/div/div/div/div[2]'
pageLoadingWait = wait.until(EC.element_to_be_clickable((By.XPATH, allReviewPageXpath)))

# 페이지 무한 스크롤 다운
modal = WebDriverWait(driver, 2).until(EC.element_to_be_clickable((By.XPATH, "//div[@class='fysCi']")))
scroll(modal)

스크롤 완료


# HTML Parsing

In [6]:
# html parsing하기
htmlSource = driver.page_source
soupSource = BeautifulSoup(htmlSource, 'html.parser')

# HTML 데이터 저장

In [7]:
# html 데이터 저장
with open("../dataset/dataHTML.html", "w", encoding = 'utf-8') as file:
    file.write(str(soupSource))

## 데이터프레임 변환

In [8]:
# 리뷰 데이터 클래스 접근
reviewSource = soupSource.find_all(class_ = 'RHo1pe')
# 리뷰 데이터 저장용 배열
dataset = []
# 데이터 넘버링을 위한 변수
reviewNum = 0 
# 리뷰 1개씩 접근해 정보 추출
for review in tqdm(reviewSource):
    reviewNum+=1
    # 리뷰 등록일 데이터 추출
    dateFull = review.find_all(class_ = 'bp9Aid')[0].text
    dateYear = dateFull[0:4] # 연도 데이터 추출
    # 해당 단어가 등장한 인덱스 추출
    yearIndex = dateFull.find('년')
    monthIndex = dateFull.find('월')
    dayIndex = dateFull.find('일')
    
    dateMonth = str(int(dateFull[yearIndex+1:monthIndex])) # 월(Month) 데이터 추출
    # 월 정보가 1자리의 경우 앞에 0 붙이기(e.g., 1월 -> 01월)
    if len(dateMonth) == 1:
        dateMonth = '0' + dateMonth
    
    dateDay = str(int(dateFull[monthIndex+1:dayIndex])) # 일(Day) 데이터 추출 
    # 일 정보가 1자리의 경우 앞에 0 붙여줌(e.g., 7일 -> 07일)
    if len(dateDay) == 1:
        dateDay = '0' + dateDay
    
    # 리뷰 등록일 full version은 최종적으로 yyyymmdd 형태로 저장
    dateFull = dateYear + dateMonth + dateDay
    userName = review.find_all(class_ = 'X5PpBb')[0].text # 닉네임 데이터 추출
    rating = review.find_all(class_ = "iXRFPc")[0]['aria-label'][10] # 평점 데이터 추출
    content = review.find_all(class_ = 'h3YV2d')[0].text # 리뷰 데이터 추출

    data = {
        "id": reviewNum, 
        "date": dateFull,
        "dateYear": dateYear,
        "dateMonth": dateMonth,
        "dateDay": dateDay,
        "rating": rating,
        "userName": userName,
        "content": content
    }
    dataset.append(data)

  0%|          | 0/62 [00:00<?, ?it/s]

## 데이터프레임 저장

In [9]:
df = pd.DataFrame(dataset)
df.to_csv('../dataset/review_dataset.csv', encoding = 'utf-8-sig') # csv 파일로 저장

# 리뷰 데이터 불러오기

In [10]:
# 저장한 리뷰 정보 불러오기
df = pd.read_csv('../dataset/review_dataset.csv', encoding = 'utf-8-sig')
df = df.drop(['Unnamed: 0'], axis = 1) # 불필요한 칼럼 삭제
df

Unnamed: 0,id,date,dateYear,dateMonth,dateDay,rating,userName,content
0,1,20210926,2021,9,26,5,tica,이것저것 할게 많은 GitHub의 특성상 모바일 웹 페이지로 접속하는 게 더 편하긴...
1,2,20211115,2021,11,15,3,Kh Shin,colab과 연결되어 실행할수 있으면 좋겠어요
2,3,20210801,2021,8,1,5,최치춘,그냥 간단하게 코드확인하긴좋은데 데스크탑에서 보는게 훨씬편함 어딘가 불편한 미묘한 UI
3,4,20200613,2020,6,13,5,참티즈는말지않긔,간단히 멘션 확인같은거 할때 좋음. 큰 코드는 당연하게도 모바일로는 힘들다.
4,5,20200318,2020,3,18,4,HTML ?,README.md의 gif파일이 표시가 이상하게 표시되는 문제가 있네요
...,...,...,...,...,...,...,...,...
57,58,20200318,2020,3,18,5,SEOKWON HONG,"working for harder, faster"
58,59,20200318,2020,3,18,5,프렌즈,Good
59,60,20200522,2020,5,22,5,Bear Black,Good!!
60,61,20200318,2020,3,18,5,Seonghun Kang,LGTM
