In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import pandas as pd
import datetime
import re

In [2]:
def get_next_page(driver):
    try:
        driver.find_element_by_class_name("ui_button.nav.next.primary").send_keys(Keys.ENTER)
        return True
    except:
        print('마지막 페이지입니다')
        return False

In [3]:
def convert_date(date):
    stay_date = date.split('숙박 날짜: ')
    stay_date = stay_date[1]

    # 20XX년 X월 형태의 str
    stay_date = stay_date.replace('년', '').replace(' ', '').replace('월', '')
    dt = datetime.datetime.strptime(stay_date, '%Y%m')
    dt = dt.date() #20XX-XX-01 형태의 date 객체
    return dt

In [23]:
# convert_date 실행 예시
convert_date('숙박 날짜: 2020년 11월')

datetime.date(2020, 11, 1)

In [5]:
def get_data(driver):
    iteration = True
    df = pd.DataFrame(columns = ['nickname', 'score', 'review', 'stay_date'])
    try:
        time.sleep(20)
        #WebDriverWait(driver, 20).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 
        #                                                                    "div.oETBfkHU > div._3hDPbqWO > div._2f_ruteS._1bona3Pu")))
        # 더보기 클릭
        driver.find_element_by_css_selector("div.oETBfkHU > div._3hDPbqWO > div._2f_ruteS._1bona3Pu").click()

        time.sleep(5)
        # 숙박 날짜 가져오기
        dates = driver.find_elements_by_class_name("_34Xs-BQm")
        stay_dates = []
        for d in dates:
            stay_date = convert_date(d.text)
            stay_dates.append(stay_date)
            # 날짜 수정 - 코로나 전 1년 반 - 코로나 후 1년 반
            if stay_date < datetime.date(2018,6,1): 
                iteration = False

        # 닉네임 가져오기
        nicknames = driver.find_elements_by_css_selector("div._310S4sqz > div > div._2fxQ4TOx > span > a")
        # 별점 가져오기
        rating_codes = driver.find_elements_by_css_selector("div.oETBfkHU > div._2UEC-y30 > div > span")
        scores = []
        for rc in rating_codes:
            cls_attr = str(rc.get_attribute("class")).split("ui_bubble_rating bubble_")
            score = int(cls_attr[1])
            scores.append(score)

        # 리뷰 가져오기
        reviews = driver.find_elements_by_css_selector("div.oETBfkHU > div._3hDPbqWO > div._2f_ruteS._1bona3Pu > div.cPQsENeY > q > span")
        
        for i in range(len(nicknames)):
            df.loc[i] = [nicknames[i].text, scores[i], reviews[i].text, stay_dates[i]]
            #print(df.loc[i])

    except ElementClickInterceptedException as e:
        print(e)
    except StaleElementReferenceException as e:
        print(e)

    finally:
        return df, iteration

In [6]:
def hotel_review_crawling(url):
    # 데이터 수집
    options = webdriver.ChromeOptions()
    options.add_experimental_option("excludeSwitches", ["enable-logging"])
    driver = webdriver.Chrome(options=options)

    data = pd.DataFrame(columns = ['nickname', 'score', 'review', 'stay_date'])

    #첫페이지 시작
    #데이터 크롤링, df에 추가하기
    #다음페이지 클릭 -> disbaled 나오기 전까지 반복

    driver.get(url)
    driver.implicitly_wait(10)
    iteration = True
    page = 1
    while iteration:
        print(page, '번째 페이지')
        tmp_df, iteration = get_data(driver)
        data = pd.concat([data, tmp_df], axis=0, ignore_index=True)
        if iteration == False:
            break
        iteration = get_next_page(driver) 
        page += 1

    #data.to_csv('./hotel_review_test_sillastay_mapo.csv', encoding="utf-8-sig")
    
    return data

In [7]:
def preprocessing_data(data):
    # 개행문자 제거
    for idx, review in enumerate(data['review']):
        data['review'][idx] = review.replace('\n', ' ')
    # 날짜순으로 내림차순 정렬
    data.sort_values(by='stay_date', ascending=False, 
                     ignore_index=True, inplace=True)
    # 날짜 수정 - 코로나 전 1년 반 - 코로나 후 1년 반
    data = data[data['stay_date'] > datetime.date(2018,5,1)]
    # 특수문자, 이모지 제거
    ###
    return data

In [8]:
# 실제로 실행하는 코드
url = "https://www.tripadvisor.co.kr/Hotel_Review-g297885-d7679225-Reviews-Shilla_Stay_Jeju-Jeju_Jeju_Island.html"

data_sample = hotel_review_crawling(url)
data_sample

1 번째 페이지
2 번째 페이지
3 번째 페이지
4 번째 페이지
5 번째 페이지
6 번째 페이지


Unnamed: 0,nickname,score,review,stay_date
0,냐옹,20,신라스테이는 그래도 깔끔할꺼라 생각하고 갔어요\n욕실사이사이타일 때가 껴있고 현관 ...,2021-03-01
1,George_Korean,10,객실 내부의 액자에 걸려있는 그림이 프레임 바깥으로 떨어져 있었습니다. 화장실에서는...,2021-02-01
2,hannah_dul_set,50,직원들 모두 친절하게 대해 주셔서 감사했습니다. 특히 조식 이용할때와 프론트 방문할...,2020-07-01
3,...,40,친구들과 처음으로 제주로 여행갔는데\n신라스테이로 선택했습니다!\n프론트 직원들의 ...,2020-05-01
4,dolkong,50,위치도 좋고 서비스가 좋아 자주 이용하는 신라스테이. 직원들도 친절하고 객실도 깨끗...,2020-05-01
5,전현밍밍,50,주말에 부모님 모시고 1박 투숙했는데 직원들이나 정비 부분에 만족은 100프로였습니...,2020-05-01
6,리나1,50,제주 시내권 호텔 알아보다가 가격대비 괜찮아 보여서 예약했어요!! 남자친구랑 같이 ...,2020-04-01
7,Leean98,10,시설이나 서비스 등은 가격대에 맞게 평범합니다.\n다만. 호텔 뒷 쪽에 큰 나이트클...,2020-01-01
8,Jay Nam,50,우선 호텔 staffs분들 정말 나이스하게 친절하고 설명도 간결하게 잘 해줍니다. ...,2020-04-01
9,SteveCho1979,40,코로나 사태로 조심스러운 투숙이었지만 직원분들 친절하고 투숙도 만족스러웠습니다. 다...,2020-02-01


In [10]:
# 중간에 크롤링이 끊겼을 경우
url_next = "https://www.tripadvisor.co.kr/Hotel_Review-g297885-d7679225-Reviews-or40-Shilla_Stay_Jeju-Jeju_Jeju_Island.html"
data_sample2 = hotel_review_crawling(url_next)

data_sample_concat = pd.concat([data_sample_concat, data_sample2], axis=0, ignore_index=True)
data_sample_concat

1 번째 페이지


Unnamed: 0,nickname,score,review,stay_date
0,냐옹,20,신라스테이는 그래도 깔끔할꺼라 생각하고 갔어요\n욕실사이사이타일 때가 껴있고 현관 ...,2021-03-01
1,George_Korean,10,객실 내부의 액자에 걸려있는 그림이 프레임 바깥으로 떨어져 있었습니다. 화장실에서는...,2021-02-01
2,hannah_dul_set,50,직원들 모두 친절하게 대해 주셔서 감사했습니다. 특히 조식 이용할때와 프론트 방문할...,2020-07-01
3,...,40,친구들과 처음으로 제주로 여행갔는데\n신라스테이로 선택했습니다!\n프론트 직원들의 ...,2020-05-01
4,dolkong,50,위치도 좋고 서비스가 좋아 자주 이용하는 신라스테이. 직원들도 친절하고 객실도 깨끗...,2020-05-01
5,전현밍밍,50,주말에 부모님 모시고 1박 투숙했는데 직원들이나 정비 부분에 만족은 100프로였습니...,2020-05-01
6,리나1,50,제주 시내권 호텔 알아보다가 가격대비 괜찮아 보여서 예약했어요!! 남자친구랑 같이 ...,2020-04-01
7,Leean98,10,시설이나 서비스 등은 가격대에 맞게 평범합니다.\n다만. 호텔 뒷 쪽에 큰 나이트클...,2020-01-01
8,Jay Nam,50,우선 호텔 staffs분들 정말 나이스하게 친절하고 설명도 간결하게 잘 해줍니다. ...,2020-04-01
9,SteveCho1979,40,코로나 사태로 조심스러운 투숙이었지만 직원분들 친절하고 투숙도 만족스러웠습니다. 다...,2020-02-01


In [11]:
data_sample_concat

Unnamed: 0,nickname,score,review,stay_date
0,냐옹,20,신라스테이는 그래도 깔끔할꺼라 생각하고 갔어요\n욕실사이사이타일 때가 껴있고 현관 ...,2021-03-01
1,George_Korean,10,객실 내부의 액자에 걸려있는 그림이 프레임 바깥으로 떨어져 있었습니다. 화장실에서는...,2021-02-01
2,hannah_dul_set,50,직원들 모두 친절하게 대해 주셔서 감사했습니다. 특히 조식 이용할때와 프론트 방문할...,2020-07-01
3,...,40,친구들과 처음으로 제주로 여행갔는데\n신라스테이로 선택했습니다!\n프론트 직원들의 ...,2020-05-01
4,dolkong,50,위치도 좋고 서비스가 좋아 자주 이용하는 신라스테이. 직원들도 친절하고 객실도 깨끗...,2020-05-01
5,전현밍밍,50,주말에 부모님 모시고 1박 투숙했는데 직원들이나 정비 부분에 만족은 100프로였습니...,2020-05-01
6,리나1,50,제주 시내권 호텔 알아보다가 가격대비 괜찮아 보여서 예약했어요!! 남자친구랑 같이 ...,2020-04-01
7,Leean98,10,시설이나 서비스 등은 가격대에 맞게 평범합니다.\n다만. 호텔 뒷 쪽에 큰 나이트클...,2020-01-01
8,Jay Nam,50,우선 호텔 staffs분들 정말 나이스하게 친절하고 설명도 간결하게 잘 해줍니다. ...,2020-04-01
9,SteveCho1979,40,코로나 사태로 조심스러운 투숙이었지만 직원분들 친절하고 투숙도 만족스러웠습니다. 다...,2020-02-01


In [12]:
# 기본 전처리 전 원본 데이터 저장(유실방지)
data_sample_concat.to_csv('./data/hotel_review_shillastay_jeju_origin.csv', encoding="utf-8-sig")

In [13]:
data = preprocessing_data(data_sample_concat)

In [14]:
data

Unnamed: 0,nickname,score,review,stay_date
0,냐옹,20,신라스테이는 그래도 깔끔할꺼라 생각하고 갔어요 욕실사이사이타일 때가 껴있고 현관 로...,2021-03-01
1,George_Korean,10,객실 내부의 액자에 걸려있는 그림이 프레임 바깥으로 떨어져 있었습니다. 화장실에서는...,2021-02-01
2,hannah_dul_set,50,직원들 모두 친절하게 대해 주셔서 감사했습니다. 특히 조식 이용할때와 프론트 방문할...,2020-07-01
3,...,40,친구들과 처음으로 제주로 여행갔는데 신라스테이로 선택했습니다! 프론트 직원들의 친절...,2020-05-01
4,dolkong,50,위치도 좋고 서비스가 좋아 자주 이용하는 신라스테이. 직원들도 친절하고 객실도 깨끗...,2020-05-01
5,전현밍밍,50,주말에 부모님 모시고 1박 투숙했는데 직원들이나 정비 부분에 만족은 100프로였습니...,2020-05-01
6,리나1,50,제주 시내권 호텔 알아보다가 가격대비 괜찮아 보여서 예약했어요!! 남자친구랑 같이 ...,2020-04-01
7,Jay Nam,50,우선 호텔 staffs분들 정말 나이스하게 친절하고 설명도 간결하게 잘 해줍니다. ...,2020-04-01
8,Hunkim seoul,50,"짧게 다녀온 제주로 선택하게된 스테이였는데, 위치나 뭐나 매우 만족스럽고, 신라스테...",2020-02-01
9,SteveCho1979,40,코로나 사태로 조심스러운 투숙이었지만 직원분들 친절하고 투숙도 만족스러웠습니다. 다...,2020-02-01


In [15]:
# csv 저장을 위한 date to str convert
data['stay_date'] = data['stay_date'].apply(lambda X : X.strftime('%Y-%m-%d'))
# 기본 전처리후 데이터 csv 파일로 저장 
#data.to_csv('./data/hotel_review_shillastay_yeoksam.csv', encoding="utf-8-sig")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['stay_date'] = data['stay_date'].apply(lambda X : X.strftime('%Y-%m-%d'))


In [16]:
# 리뷰 내 이모지 제거
data['review'] = data['review'].apply(lambda X : X.encode('euc-kr', 'ignore').decode('euc-kr'))
#data.to_csv('./data/hotel_review_shillastay_yeoksam_del_emoji.csv', encoding="utf-8-sig")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['review'] = data['review'].apply(lambda X : X.encode('euc-kr', 'ignore').decode('euc-kr'))


In [17]:
# 리뷰 내 특수문자 제거
test_data = data
special = re.compile(r'[^ A-Za-z0-9가-힣+]')
test_data['review'] = [special.sub('', s) for s in test_data['review']]

# 특수문자 제거 후 파일 저장
test_data.to_csv('./data/hotel_review_shillastay_jeju_final.csv', encoding="utf-8-sig")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  test_data['review'] = [special.sub('', s) for s in test_data['review']]


In [18]:
test_data

Unnamed: 0,nickname,score,review,stay_date
0,냐옹,20,신라스테이는 그래도 깔끔할꺼라 생각하고 갔어요 욕실사이사이타일 때가 껴있고 현관 로...,2021-03-01
1,George_Korean,10,객실 내부의 액자에 걸려있는 그림이 프레임 바깥으로 떨어져 있었습니다 화장실에서는 ...,2021-02-01
2,hannah_dul_set,50,직원들 모두 친절하게 대해 주셔서 감사했습니다 특히 조식 이용할때와 프론트 방문할때...,2020-07-01
3,...,40,친구들과 처음으로 제주로 여행갔는데 신라스테이로 선택했습니다 프론트 직원들의 친절함...,2020-05-01
4,dolkong,50,위치도 좋고 서비스가 좋아 자주 이용하는 신라스테이 직원들도 친절하고 객실도 깨끗해...,2020-05-01
5,전현밍밍,50,주말에 부모님 모시고 1박 투숙했는데 직원들이나 정비 부분에 만족은 100프로였습니...,2020-05-01
6,리나1,50,제주 시내권 호텔 알아보다가 가격대비 괜찮아 보여서 예약했어요 남자친구랑 같이 간 ...,2020-04-01
7,Jay Nam,50,우선 호텔 staffs분들 정말 나이스하게 친절하고 설명도 간결하게 잘 해줍니다 신...,2020-04-01
8,Hunkim seoul,50,짧게 다녀온 제주로 선택하게된 스테이였는데 위치나 뭐나 매우 만족스럽고 신라스테이는...,2020-02-01
9,SteveCho1979,40,코로나 사태로 조심스러운 투숙이었지만 직원분들 친절하고 투숙도 만족스러웠습니다 다만...,2020-02-01
