In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import pandas as pd
import datetime
import re

In [2]:
def get_next_page(driver):
    try:
        driver.find_element_by_class_name("ui_button.nav.next.primary").send_keys(Keys.ENTER)
        return True
    except:
        print('마지막 페이지입니다')
        return False

In [3]:
def convert_date(date):
    stay_date = date.split('숙박 날짜: ')
    stay_date = stay_date[1]

    # 20XX년 X월 형태의 str
    stay_date = stay_date.replace('년', '').replace(' ', '').replace('월', '')
    dt = datetime.datetime.strptime(stay_date, '%Y%m')
    dt = dt.date() #20XX-XX-01 형태의 date 객체
    return dt

In [23]:
# convert_date 실행 예시
convert_date('숙박 날짜: 2020년 11월')

datetime.date(2020, 11, 1)

In [4]:
def get_data(driver):
    iteration = True
    df = pd.DataFrame(columns = ['nickname', 'score', 'review', 'stay_date'])
    try:
        time.sleep(20)
        #WebDriverWait(driver, 20).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 
        #                                                                    "div.oETBfkHU > div._3hDPbqWO > div._2f_ruteS._1bona3Pu")))
        # 더보기 클릭
        driver.find_element_by_css_selector("div.oETBfkHU > div._3hDPbqWO > div._2f_ruteS._1bona3Pu").click()

        time.sleep(5)
        # 숙박 날짜 가져오기
        dates = driver.find_elements_by_class_name("_34Xs-BQm")
        stay_dates = []
        for d in dates:
            stay_date = convert_date(d.text)
            stay_dates.append(stay_date)
            # 날짜 수정 - 코로나 전 1년 반 - 코로나 후 1년 반
            if stay_date < datetime.date(2018,6,1): 
                iteration = False

        # 닉네임 가져오기
        nicknames = driver.find_elements_by_css_selector("div._310S4sqz > div > div._2fxQ4TOx > span > a")
        # 별점 가져오기
        rating_codes = driver.find_elements_by_css_selector("div.oETBfkHU > div._2UEC-y30 > div > span")
        scores = []
        for rc in rating_codes:
            cls_attr = str(rc.get_attribute("class")).split("ui_bubble_rating bubble_")
            score = int(cls_attr[1])
            scores.append(score)

        # 리뷰 가져오기
        reviews = driver.find_elements_by_css_selector("div.oETBfkHU > div._3hDPbqWO > div._2f_ruteS._1bona3Pu > div.cPQsENeY > q > span")
        
        for i in range(len(nicknames)):
            df.loc[i] = [nicknames[i].text, scores[i], reviews[i].text, stay_dates[i]]
            #print(df.loc[i])

    except ElementClickInterceptedException as e:
        print(e)
    except StaleElementReferenceException as e:
        print(e)

    finally:
        return df, iteration

In [5]:
def hotel_review_crawling(url):
    # 데이터 수집
    options = webdriver.ChromeOptions()
    options.add_experimental_option("excludeSwitches", ["enable-logging"])
    driver = webdriver.Chrome(options=options)

    data = pd.DataFrame(columns = ['nickname', 'score', 'review', 'stay_date'])

    #첫페이지 시작
    #데이터 크롤링, df에 추가하기
    #다음페이지 클릭 -> disbaled 나오기 전까지 반복

    driver.get(url)
    driver.implicitly_wait(10)
    iteration = True
    page = 1
    while iteration:
        print(page, '번째 페이지')
        tmp_df, iteration = get_data(driver)
        data = pd.concat([data, tmp_df], axis=0, ignore_index=True)
        if iteration == False:
            break
        iteration = get_next_page(driver) 
        page += 1

    #data.to_csv('./hotel_review_test_sillastay_mapo.csv', encoding="utf-8-sig")
    
    return data

In [6]:
def preprocessing_data(data):
    # 개행문자 제거
    for idx, review in enumerate(data['review']):
        data['review'][idx] = review.replace('\n', ' ')
    # 날짜순으로 내림차순 정렬
    data.sort_values(by='stay_date', ascending=False, 
                     ignore_index=True, inplace=True)
    # 날짜 수정 - 코로나 전 1년 반 - 코로나 후 1년 반
    data = data[data['stay_date'] > datetime.date(2018,5,1)]
    # 특수문자, 이모지 제거
    ###
    return data

In [7]:
# 실제로 실행하는 코드
url = "https://www.tripadvisor.co.kr/Hotel_Review-g297884-d17535697-Reviews-Golden_Tulip_Haeundae_Hotel_Suites-Busan.html"

data_sample = hotel_review_crawling(url)
data_sample

1 번째 페이지
2 번째 페이지
3 번째 페이지
4 번째 페이지
5 번째 페이지
6 번째 페이지
7 번째 페이지
8 번째 페이지
9 번째 페이지
10 번째 페이지
11 번째 페이지
12 번째 페이지
13 번째 페이지
14 번째 페이지
15 번째 페이지
16 번째 페이지
17 번째 페이지
18 번째 페이지
19 번째 페이지
20 번째 페이지
21 번째 페이지
22 번째 페이지
23 번째 페이지
24 번째 페이지
25 번째 페이지
26 번째 페이지
27 번째 페이지
28 번째 페이지
29 번째 페이지
30 번째 페이지
31 번째 페이지
32 번째 페이지
33 번째 페이지
34 번째 페이지
35 번째 페이지
36 번째 페이지
37 번째 페이지
38 번째 페이지
39 번째 페이지
40 번째 페이지
41 번째 페이지
42 번째 페이지
43 번째 페이지
44 번째 페이지
45 번째 페이지
46 번째 페이지
47 번째 페이지
48 번째 페이지
49 번째 페이지
50 번째 페이지
51 번째 페이지
52 번째 페이지
53 번째 페이지
54 번째 페이지
55 번째 페이지
56 번째 페이지
57 번째 페이지
58 번째 페이지
59 번째 페이지
60 번째 페이지
61 번째 페이지
62 번째 페이지
63 번째 페이지
64 번째 페이지
65 번째 페이지
66 번째 페이지
67 번째 페이지
68 번째 페이지
69 번째 페이지
70 번째 페이지
71 번째 페이지
72 번째 페이지
73 번째 페이지
74 번째 페이지
75 번째 페이지
76 번째 페이지
77 번째 페이지
78 번째 페이지
79 번째 페이지
80 번째 페이지
81 번째 페이지
82 번째 페이지
83 번째 페이지
84 번째 페이지
85 번째 페이지
86 번째 페이지
87 번째 페이지
88 번째 페이지
89 번째 페이지
90 번째 페이지
91 번째 페이지
92 번째 페이지
93 번째 페이지
94 번째 페이지
95 번째 페이지
96 번째 페이지
97 번째 페이지
98 번째 페이지
99 번째 페이지
100 번째 페이지
101 번째 페

Unnamed: 0,nickname,score,review,stay_date
0,dingdong11,40,객실 깔끔하고 2박묵었는데 청결상태도 아주 좋습니다\n다음에도 부산 방문하면 재방문...,2021-08-01
1,Amber S,40,해먹에 여러가지 식물에 아이들과 이것저것 이야기 나누기도 좋고\n룸에는 세탁기와 스...,2020-10-01
2,길수 한,10,성수기라 가격도 따블인데 더럽고 예약할때 보이지도 않던 주차비가 체인할때 있다고…방...,2021-07-01
3,진경 권,50,무엇보다 너무 깨끗해요~ 심플한 인테리어도 너무 마음에 들구요! 작년에 이어 올해도...,2021-07-01
4,재철 최,40,침대가 넘무 편한 해서 숙면을 취하고 피곤하지안아요\n청소도 깔금 하네요 좋은 기억...,2021-07-01
...,...,...,...,...
507,SEUK CHEUN C,50,오픈한지 한달 정도 밖에 안된 새 호텔이라 깨끗하고 해운대 바닷가 근처라 입지 조건...,2019-07-01
508,Soyoung K,40,지은지 얼마 안된 호텔이라 프런트 업무 미숙으로 체크인이 30분이나 걸리곤 했지만 ...,2019-07-01
509,Jiminlee1511,50,오픈한지 얼마 안 된 새건물이라서 깔끔하고 좋아요ㅎㅎ\n복층으로 되어 있고 객실안에...,2019-07-01
510,Myungin Y,50,신축이라 깨끗하고 룸에 엘지트롬세탁기와 스타일러도 있네요~!\n침대도 편했습니다.\...,2019-07-01


In [9]:
# 기본 전처리 전 원본 데이터 저장(유실방지)
data_sample.to_csv('./data/goldentulip_haeundae_origin.csv', encoding="utf-8-sig")

In [11]:
data = preprocessing_data(data_sample)

In [12]:
data

Unnamed: 0,nickname,score,review,stay_date
0,dingdong11,40,객실 깔끔하고 2박묵었는데 청결상태도 아주 좋습니다 다음에도 부산 방문하면 재방문하...,2021-08-01
1,Rebecca Choi,40,"작년 여름에 방문했을때, 방도 깨끗하고 해운대 가깝고 직원분들 친절하시고! 만족해서...",2021-07-01
2,지예,50,아이와엄마 .그리고 나 3대가 부산여행을 계획하고 다녀왔어요 좋은시기여서 물놀이며 ...,2021-07-01
3,성우 정,10,장마비 예고에도 불구하고 오랫만에 해운대 구경이 하고싶어서 천둥번개를 뚫고 골든튤립...,2021-07-01
4,Min,10,작년에 이용하고 좋아서 주변에 알릴정도로 많이 추천도 해줬고 이번에도 또 이용하게 ...,2021-07-01
...,...,...,...,...
507,SEUK CHEUN C,50,오픈한지 한달 정도 밖에 안된 새 호텔이라 깨끗하고 해운대 바닷가 근처라 입지 조건...,2019-07-01
508,Soyoung K,40,지은지 얼마 안된 호텔이라 프런트 업무 미숙으로 체크인이 30분이나 걸리곤 했지만 ...,2019-07-01
509,Jiminlee1511,50,오픈한지 얼마 안 된 새건물이라서 깔끔하고 좋아요ㅎㅎ 복층으로 되어 있고 객실안에 ...,2019-07-01
510,Myungin Y,50,신축이라 깨끗하고 룸에 엘지트롬세탁기와 스타일러도 있네요~! 침대도 편했습니다. 로...,2019-07-01


In [13]:
# csv 저장을 위한 date to str convert
data['stay_date'] = data['stay_date'].apply(lambda X : X.strftime('%Y-%m-%d'))
# 기본 전처리후 데이터 csv 파일로 저장 
#data.to_csv('./data/hotel_review_shillastay_yeoksam.csv', encoding="utf-8-sig")

In [14]:
# 리뷰 내 이모지 제거
data['review'] = data['review'].apply(lambda X : X.encode('euc-kr', 'ignore').decode('euc-kr'))
#data.to_csv('./data/hotel_review_shillastay_yeoksam_del_emoji.csv', encoding="utf-8-sig")

In [15]:
# 리뷰 내 특수문자 제거
test_data = data
special = re.compile(r'[^ A-Za-z0-9가-힣+]')
test_data['review'] = [special.sub('', s) for s in test_data['review']]

# 특수문자 제거 후 파일 저장
test_data.to_csv('./data/goldentulip_haeundae_final.csv', encoding="utf-8-sig")

In [16]:
test_data

Unnamed: 0,nickname,score,review,stay_date
0,dingdong11,40,객실 깔끔하고 2박묵었는데 청결상태도 아주 좋습니다 다음에도 부산 방문하면 재방문하...,2021-08-01
1,Rebecca Choi,40,작년 여름에 방문했을때 방도 깨끗하고 해운대 가깝고 직원분들 친절하시고 만족해서 재...,2021-07-01
2,지예,50,아이와엄마 그리고 나 3대가 부산여행을 계획하고 다녀왔어요 좋은시기여서 물놀이며 맛...,2021-07-01
3,성우 정,10,장마비 예고에도 불구하고 오랫만에 해운대 구경이 하고싶어서 천둥번개를 뚫고 골든튤립...,2021-07-01
4,Min,10,작년에 이용하고 좋아서 주변에 알릴정도로 많이 추천도 해줬고 이번에도 또 이용하게 ...,2021-07-01
...,...,...,...,...
507,SEUK CHEUN C,50,오픈한지 한달 정도 밖에 안된 새 호텔이라 깨끗하고 해운대 바닷가 근처라 입지 조건...,2019-07-01
508,Soyoung K,40,지은지 얼마 안된 호텔이라 프런트 업무 미숙으로 체크인이 30분이나 걸리곤 했지만 ...,2019-07-01
509,Jiminlee1511,50,오픈한지 얼마 안 된 새건물이라서 깔끔하고 좋아요 복층으로 되어 있고 객실안에 전자...,2019-07-01
510,Myungin Y,50,신축이라 깨끗하고 룸에 엘지트롬세탁기와 스타일러도 있네요 침대도 편했습니다 로비도 ...,2019-07-01
