In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import pandas as pd
import datetime
import re

In [2]:
def get_next_page(driver):
    try:
        driver.find_element_by_class_name("ui_button.nav.next.primary").send_keys(Keys.ENTER)
        return True
    except:
        print('마지막 페이지입니다')
        return False

In [3]:
def convert_date(date):
    stay_date = date.split('숙박 날짜: ')
    stay_date = stay_date[1]

    # 20XX년 X월 형태의 str
    stay_date = stay_date.replace('년', '').replace(' ', '').replace('월', '')
    dt = datetime.datetime.strptime(stay_date, '%Y%m')
    dt = dt.date() #20XX-XX-01 형태의 date 객체
    return dt

In [23]:
# convert_date 실행 예시
convert_date('숙박 날짜: 2020년 11월')

datetime.date(2020, 11, 1)

In [4]:
def get_data(driver):
    iteration = True
    df = pd.DataFrame(columns = ['nickname', 'score', 'review', 'stay_date'])
    try:
        time.sleep(20)
        #WebDriverWait(driver, 20).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 
        #                                                                    "div.oETBfkHU > div._3hDPbqWO > div._2f_ruteS._1bona3Pu")))
        # 더보기 클릭
        driver.find_element_by_css_selector("div.oETBfkHU > div._3hDPbqWO > div._2f_ruteS._1bona3Pu").click()

        time.sleep(5)
        
        # 숙박 날짜 가져오기
        dates = driver.find_elements_by_class_name("_34Xs-BQm")
        stay_dates = []
        for d in dates:
            stay_date = convert_date(d.text)
            stay_dates.append(stay_date)
            # 날짜 수정 - 코로나 전 1년 반 - 코로나 후 1년 반
            if stay_date < datetime.date(2018,6,1): 
                iteration = False

        # 닉네임 가져오기
        nicknames = driver.find_elements_by_css_selector("div._310S4sqz > div > div._2fxQ4TOx > span > a")
        # 별점 가져오기
        rating_codes = driver.find_elements_by_css_selector("div.oETBfkHU > div._2UEC-y30 > div > span")
        scores = []
        for rc in rating_codes:
            cls_attr = str(rc.get_attribute("class")).split("ui_bubble_rating bubble_")
            score = int(cls_attr[1])
            scores.append(score)

        # 리뷰 가져오기
        reviews = driver.find_elements_by_css_selector("div.oETBfkHU > div._3hDPbqWO > div._2f_ruteS._1bona3Pu > div.cPQsENeY > q > span")
        
        for i in range(len(nicknames)):
            df.loc[i] = [nicknames[i].text, scores[i], reviews[i].text, stay_dates[i]]
            #print(df.loc[i])

    except ElementClickInterceptedException as e:
        print(e)
    except StaleElementReferenceException as e:
        print(e)

    finally:
        return df, iteration

In [5]:
def hotel_review_crawling(url):
    # 데이터 수집
    options = webdriver.ChromeOptions()
    options.add_experimental_option("excludeSwitches", ["enable-logging"])
    driver = webdriver.Chrome(options=options)

    data = pd.DataFrame(columns = ['nickname', 'score', 'review', 'stay_date'])

    #첫페이지 시작
    #데이터 크롤링, df에 추가하기
    #다음페이지 클릭 -> disbaled 나오기 전까지 반복

    driver.get(url)
    driver.implicitly_wait(10)
    iteration = True
    page = 1
    while iteration:
        print(page, '번째 페이지')
        tmp_df, iteration = get_data(driver)
        data = pd.concat([data, tmp_df], axis=0, ignore_index=True)
        if iteration == False:
            break
        iteration = get_next_page(driver) 
        page += 1

    #data.to_csv('./hotel_review_test_sillastay_mapo.csv', encoding="utf-8-sig")
    
    return data

In [6]:
def preprocessing_data(data):
    # 개행문자 제거
    for idx, review in enumerate(data['review']):
        data['review'][idx] = review.replace('\n', ' ')
    # 날짜순으로 내림차순 정렬
    data.sort_values(by='stay_date', ascending=False, 
                     ignore_index=True, inplace=True)
    # 날짜 수정 - 코로나 전 1년 반 - 코로나 후 1년 반
    data = data[data['stay_date'] > datetime.date(2018,5,1)]
    # 특수문자, 이모지 제거
    ###
    return data

In [7]:
# 실제로 실행하는 코드
url = "https://www.tripadvisor.co.kr/Hotel_Review-g294197-d9452203-Reviews-Shilla_Stay_Gwanghwamun-Seoul.html"
url2 = "https://www.tripadvisor.co.kr/Hotel_Review-g294197-d8118189-Reviews-or240-Shilla_Stay_Mapo-Seoul.html"
url3 = "https://www.tripadvisor.co.kr/Hotel_Review-g294197-d7054545-Reviews-Shilla_Stay_Yeoksam-Seoul.html"
url4 = "https://www.tripadvisor.co.kr/Hotel_Review-g294197-d9454537-Reviews-Shilla_Stay_Guro-Seoul.html"

data_sample = hotel_review_crawling(url4)
data_sample

1 번째 페이지
2 번째 페이지
3 번째 페이지
4 번째 페이지
5 번째 페이지
6 번째 페이지
7 번째 페이지
8 번째 페이지
9 번째 페이지
10 번째 페이지
11 번째 페이지
12 번째 페이지
13 번째 페이지
14 번째 페이지
15 번째 페이지
16 번째 페이지
17 번째 페이지
18 번째 페이지
19 번째 페이지
20 번째 페이지
21 번째 페이지
22 번째 페이지
23 번째 페이지
24 번째 페이지
25 번째 페이지
26 번째 페이지
27 번째 페이지
28 번째 페이지
29 번째 페이지
30 번째 페이지
31 번째 페이지
32 번째 페이지
33 번째 페이지
34 번째 페이지
35 번째 페이지
36 번째 페이지
37 번째 페이지
38 번째 페이지
39 번째 페이지
40 번째 페이지
41 번째 페이지
42 번째 페이지
43 번째 페이지
44 번째 페이지
45 번째 페이지
46 번째 페이지
47 번째 페이지
48 번째 페이지
49 번째 페이지
50 번째 페이지
51 번째 페이지
52 번째 페이지
53 번째 페이지
54 번째 페이지
55 번째 페이지
56 번째 페이지
57 번째 페이지
58 번째 페이지
59 번째 페이지
60 번째 페이지
61 번째 페이지
62 번째 페이지
63 번째 페이지
64 번째 페이지
65 번째 페이지
66 번째 페이지
67 번째 페이지
68 번째 페이지
69 번째 페이지
70 번째 페이지
71 번째 페이지
72 번째 페이지
73 번째 페이지


Unnamed: 0,nickname,score,review,stay_date
0,Jae,50,작은 테이블도 있어서 뭐 먹기에도 좋구요\n\n어메니티도 구비잘되어 있어요\n\n적...,2021-07-01
1,ming,40,생각보다 조금 작지만 침대가 푹신하고 역이랑 편의점이 가까워서 좋아요😊😊 에어컨 빵...,2021-07-01
2,BBBJJJHHH,50,7월 중순에 4박정도 이용했습니다.\n신라스테이를 고른 이유는 평균 1박에 8만원 ...,2021-07-01
3,Leg,50,"볼일이 있어 기대 없이 호텔을 예약을 하고 왔는데 정말 잘 쉬다 가네요 , 시국이 ...",2021-07-01
4,eunseo,50,2박 하면서 불편한 점 없이 너무 잘 쉬다 갑니다! 직원분들도 너무 친절하셨고 룸 ...,2021-06-01
...,...,...,...,...
360,jun651,40,적당한 가격과 객실상태도 만족하엿습니다. 어메니티도 좋았구요^^ㅎㅎㅎ\n주변에 식당...,2019-01-01
361,무호2,50,새배드림 패키지로 왔다. 호텔 가격이 저렴하고 기념품으로 곰인형을 주었다. 점심 저...,2019-02-01
362,SHL,10,"호텔 시설은 모던하고 깔끔한데, 관리가 전혀 안됨. 하우스키퍼 퇴근한 6시 이후로는...",2019-02-01
363,1234,10,전에도 이용하고 불친절해서 불쾌했던 곳인데 약속장소와 가까워서 다시 이용해보니 여전...,2019-02-01


In [11]:
# 중간에 크롤링이 끊겼을 경우
url_next = "https://www.tripadvisor.co.kr/Hotel_Review-g294197-d9454537-Reviews-or410-Shilla_Stay_Guro-Seoul.html#REVIEWS"
data_sample2 = hotel_review_crawling(url_next)

data_sample_concat = pd.concat([data_sample_concat, data_sample2], axis=0, ignore_index=True)
data_sample_concat

1 번째 페이지
2 번째 페이지
3 번째 페이지
4 번째 페이지


Unnamed: 0,nickname,score,review,stay_date
0,Jae,50,작은 테이블도 있어서 뭐 먹기에도 좋구요\n\n어메니티도 구비잘되어 있어요\n\n적...,2021-07-01
1,ming,40,생각보다 조금 작지만 침대가 푹신하고 역이랑 편의점이 가까워서 좋아요😊😊 에어컨 빵...,2021-07-01
2,BBBJJJHHH,50,7월 중순에 4박정도 이용했습니다.\n신라스테이를 고른 이유는 평균 1박에 8만원 ...,2021-07-01
3,Leg,50,"볼일이 있어 기대 없이 호텔을 예약을 하고 왔는데 정말 잘 쉬다 가네요 , 시국이 ...",2021-07-01
4,eunseo,50,2박 하면서 불편한 점 없이 너무 잘 쉬다 갑니다! 직원분들도 너무 친절하셨고 룸 ...,2021-06-01
...,...,...,...,...
425,llhappy,40,근처 일있어서 갔다가 예약한곳인데\n잠만자기엔 아쉬울정도 깔끔하고 친절했습니다.\n...,2018-05-01
426,ultraugi,50,"업무상 호텔에 묵을 일이 많으며, 깨끗하고 조용한 신라 스테이를 자주 이용합니다. ...",2018-05-01
427,Kitaenim,50,잘 쉬다갑니다-! 뷰도 좋고 깨끗해요 ㅎㅎㅎ 같이있던 분도 매우 만족하였다고 합니다...,2018-05-01
428,달콤설렘,30,구로 신라스테이를 자주 이용하는데요\n조식~~~♡\n\n그런데.\n단점이 있어요.....,2018-05-01


In [12]:
data_sample_concat

Unnamed: 0,nickname,score,review,stay_date
0,Jae,50,작은 테이블도 있어서 뭐 먹기에도 좋구요\n\n어메니티도 구비잘되어 있어요\n\n적...,2021-07-01
1,ming,40,생각보다 조금 작지만 침대가 푹신하고 역이랑 편의점이 가까워서 좋아요😊😊 에어컨 빵...,2021-07-01
2,BBBJJJHHH,50,7월 중순에 4박정도 이용했습니다.\n신라스테이를 고른 이유는 평균 1박에 8만원 ...,2021-07-01
3,Leg,50,"볼일이 있어 기대 없이 호텔을 예약을 하고 왔는데 정말 잘 쉬다 가네요 , 시국이 ...",2021-07-01
4,eunseo,50,2박 하면서 불편한 점 없이 너무 잘 쉬다 갑니다! 직원분들도 너무 친절하셨고 룸 ...,2021-06-01
...,...,...,...,...
425,llhappy,40,근처 일있어서 갔다가 예약한곳인데\n잠만자기엔 아쉬울정도 깔끔하고 친절했습니다.\n...,2018-05-01
426,ultraugi,50,"업무상 호텔에 묵을 일이 많으며, 깨끗하고 조용한 신라 스테이를 자주 이용합니다. ...",2018-05-01
427,Kitaenim,50,잘 쉬다갑니다-! 뷰도 좋고 깨끗해요 ㅎㅎㅎ 같이있던 분도 매우 만족하였다고 합니다...,2018-05-01
428,달콤설렘,30,구로 신라스테이를 자주 이용하는데요\n조식~~~♡\n\n그런데.\n단점이 있어요.....,2018-05-01


In [14]:
# 기본 전처리 전 원본 데이터 저장(유실방지)
data_sample_concat.to_csv('./data/hotel_review_shillastay_guro_origin.csv', encoding="utf-8-sig")

In [15]:
data = preprocessing_data(data_sample_concat)

In [16]:
data

Unnamed: 0,nickname,score,review,stay_date
0,Jae,50,작은 테이블도 있어서 뭐 먹기에도 좋구요 어메니티도 구비잘되어 있어요 적절한 가...,2021-07-01
1,BBBJJJHHH,50,7월 중순에 4박정도 이용했습니다. 신라스테이를 고른 이유는 평균 1박에 8만원 정...,2021-07-01
2,Leg,50,"볼일이 있어 기대 없이 호텔을 예약을 하고 왔는데 정말 잘 쉬다 가네요 , 시국이 ...",2021-07-01
3,ming,40,생각보다 조금 작지만 침대가 푹신하고 역이랑 편의점이 가까워서 좋아요😊😊 에어컨 빵...,2021-07-01
4,더블버거,50,아주좋습니더. 모든 서비스 만좃합니다. 감사했습니더 특히 객실 창소가 아주아주 맘에...,2021-06-01
...,...,...,...,...
416,sejeje,50,호텔 도착하니 아늑해보이는 로비와 배정받은 객실의 침구가 너무 푹신하여 편안히 투숙...,2018-06-01
417,Mihyun S,50,평소 신라스테이 자주 이용하는데 구로도 좋네요~ 어느 신라스테이를 가더라도 모든 직...,2018-06-01
418,JAM,50,"호캉스하러 신라스테이 다른 지점들 투숙해봤는데, 이번에는 구로점에 투숙하게됐어요. ...",2018-06-01
419,gjrcjswo,50,신라스테이 구로를 처음으로 이용해보았는데 아주 편히 쉬다갑니다. 모든게 만족 스러운...,2018-06-01


In [17]:
# csv 저장을 위한 date to str convert
data['stay_date'] = data['stay_date'].apply(lambda X : X.strftime('%Y-%m-%d'))
# 기본 전처리후 데이터 csv 파일로 저장 
#data.to_csv('./data/hotel_review_shillastay_yeoksam.csv', encoding="utf-8-sig")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['stay_date'] = data['stay_date'].apply(lambda X : X.strftime('%Y-%m-%d'))


In [18]:
# 리뷰 내 이모지 제거
data['review'] = data['review'].apply(lambda X : X.encode('euc-kr', 'ignore').decode('euc-kr'))
#data.to_csv('./data/hotel_review_shillastay_yeoksam_del_emoji.csv', encoding="utf-8-sig")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['review'] = data['review'].apply(lambda X : X.encode('euc-kr', 'ignore').decode('euc-kr'))


In [19]:
# 리뷰 내 특수문자 제거
test_data = data
special = re.compile(r'[^ A-Za-z0-9가-힣+]')
test_data['review'] = [special.sub('', s) for s in test_data['review']]

# 특수문자 제거 후 파일 저장
test_data.to_csv('./data/hotel_review_shillastay_guro_final.csv', encoding="utf-8-sig")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  test_data['review'] = [special.sub('', s) for s in test_data['review']]


In [20]:
test_data

Unnamed: 0,nickname,score,review,stay_date
0,Jae,50,작은 테이블도 있어서 뭐 먹기에도 좋구요 어메니티도 구비잘되어 있어요 적절한 가...,2021-07-01
1,BBBJJJHHH,50,7월 중순에 4박정도 이용했습니다 신라스테이를 고른 이유는 평균 1박에 8만원 정도...,2021-07-01
2,Leg,50,볼일이 있어 기대 없이 호텔을 예약을 하고 왔는데 정말 잘 쉬다 가네요 시국이 시...,2021-07-01
3,ming,40,생각보다 조금 작지만 침대가 푹신하고 역이랑 편의점이 가까워서 좋아요 에어컨 빵빵하...,2021-07-01
4,더블버거,50,아주좋습니더 모든 서비스 만좃합니다 감사했습니더 특히 객실 창소가 아주아주 맘에 들...,2021-06-01
...,...,...,...,...
416,sejeje,50,호텔 도착하니 아늑해보이는 로비와 배정받은 객실의 침구가 너무 푹신하여 편안히 투숙...,2018-06-01
417,Mihyun S,50,평소 신라스테이 자주 이용하는데 구로도 좋네요 어느 신라스테이를 가더라도 모든 직원...,2018-06-01
418,JAM,50,호캉스하러 신라스테이 다른 지점들 투숙해봤는데 이번에는 구로점에 투숙하게됐어요 역시...,2018-06-01
419,gjrcjswo,50,신라스테이 구로를 처음으로 이용해보았는데 아주 편히 쉬다갑니다 모든게 만족 스러운 ...,2018-06-01
