In [56]:
from bs4 import BeautifulSoup
import requests
import json
import pandas as pd
import time.sleep

In [24]:
def get_hotel_infos():
    url = 'https://www.agoda.com/th-th/pages/agoda/default/DestinationSearchResult.aspx?city=9395&checkIn=2018-06-11&los=1&rooms=1&adults=1&children=0&cid=-1&languageId=22&userId=70054530-b60b-4336-8ee2-f4023ec04bfd&pageTypeId=1&origin=TH&locale=th-TH&aid=130243&currencyCode=THB&htmlLanguage=th-th&cultureInfoName=th-TH&ckuid=70054530-b60b-4336-8ee2-f4023ec04bfd&prid=0&checkOut=2018-06-12&hotelReviewScore=5&priceCur=THB&textToSearch=%E0%B8%81%E0%B8%A3%E0%B8%B8%E0%B8%87%E0%B9%80%E0%B8%97%E0%B8%9E&productType=-1'
    response = requests.get(url)
    content = response.content
    soup = BeautifulSoup(content, 'html.parser')
    script_initparam = soup.find('script', attrs={'data-selenium': 'script-initparam'}).string
    first_index = script_initparam.find('{')
    last_index = script_initparam.find(';')
    result_list_json = json.loads(script_initparam[first_index : last_index])['ResultList']

    hotel_ids = [ result['HotelID'] for result in result_list_json ]
    eng_hotel_names = [ result['EnglishHotelName'] for result in result_list_json ]
    translated_hotel_names = [ result['TranslatedHotelName'] for result in result_list_json ]
    hotel_display_names = [ result['HotelDisplayName'] for result in result_list_json ]
    
    return hotel_ids, eng_hotel_names, translated_hotel_names, hotel_display_names

In [26]:
hotel_ids, eng_hotel_names, translated_hotel_names, hotel_display_names = get_hotel_infos()

In [None]:
hotel_ids[:5]

In [28]:
def get_reviews_count_from_hotel_id(hotel_id=1280163):
    headers = {
        'dnt': '1',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'en-US,en;q=0.9',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36',
        'accept': '*/*',
        'referer': 'https://www.agoda.com/th-th/',
        'authority': 'www.agoda.com',
        'x-requested-with': 'XMLHttpRequest',
    }
    params = (
        ('finalPriceView', '1'),
        ('hotelId', hotel_id),
        ('hasSearchCriteria', 'true'),
        ('checkIn', '2018-06-11T00:00:00'),
        ('lengthOfStay', '1'),
        ('adults', '1'),
        ('children', '0'),
        ('rooms', '1'),
        ('loyaltyProgramId', '0'),
        ('_ts', '1527960646982'),
    )
    response = requests.get(
        'https://www.agoda.com/api/th-th/Hotel/RecommendedProperties2',
        headers=headers,
        params=params,
    )
    review_count = response.json()['CurrentProperty']['ReviewCount']
    return review_count

In [29]:
reviews_count = get_reviews_count_from_hotel_id()
print('Total reviews: %d' % reviews_count)

Total reviews: 212


In [65]:
def get_review_comments_as_json(hotel_id=1280163):
    url = 'https://www.agoda.com/NewSite/th-th/Review/ReviewComments'
    headers = {
        'origin': 'https://www.agoda.com',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'en-US,en;q=0.9',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36',
        'content-type': 'application/json; charset=UTF-8',
        'accept': 'application/json',
        'referer': 'www.agoda.com',
        'authority': 'www.agoda.com',
        'x-requested-with': 'XMLHttpRequest',
        'dnt': '1',
    }
    
    data = {
        'hotelId': hotel_id,
        'demographicId': 0,
        'page': 1,
        'pageSize':20,
        'sorting':1,
        'isReviewPage': 'false',
        'isCrawlablePage': 'true',
        'filters':{'language':[],'room':[]},
        'searchKeyword':'',
    }
    
    comments = []
    
    reviews_per_page = 40
    total_review_page = int(reviews_count / reviews_per_page)
    
    for page_number in range(1, total_review_page + 1):
        time.sleep(1)
        data['page'] = page_number
        str_data = str(data)
        response = requests.post(url, headers=headers, data=str_data)
        for each in response.json()['comments']:
            comments.append(each)
    
    return comments

In [66]:
raw_comments = pd.DataFrame(get_review_comments_as_json())
raw_comments.head()

Unnamed: 0,checkInDate,checkInDateMonthAndYear,checkOutDate,demographicId,encryptedReviewData,formattedRating,formattedResponseDate,formattedReviewDate,formattedReviewHelpfulText,helpfulVotes,...,reviewComments,reviewDate,reviewNegatives,reviewPositives,reviewProviderLogo,reviewTitle,reviewerInfo,translateSource,translateTarget,unHelpfulVotes
0,2018-04-12T00:00:00+07:00,เมษายน 2018,2018-04-14T00:00:00+07:00,0,4Fu14+nkGM1sm9gVZgqbSA==,10.0,,23 เมษายน 2018,ท่านคิดว่ารีวิวนี้มีประโยชน์หรือไม่,0,...,บริการดี,2018-04-23T10:57:00+07:00,,,,ดีมาก,"{'displayMemberName': 'Juthamard', 'reviewGrou...",th,th,0
1,,,,0,eaKGJBE9nJp4Wa0SXjZfGA==,8.8,,14 พฤศจิกายน 2017,ท่านคิดว่ารีวิวนี้มีประโยชน์หรือไม่,0,...,,2017-11-14T01:35:42+07:00,,อาหารเช้า,,Fabulous,"{'displayMemberName': 'Teerasak', 'reviewGroup...",th,th,0
2,2017-12-23T00:00:00+07:00,ธันวาคม 2017,2017-12-24T00:00:00+07:00,0,wjaEMMOSEmMuLbTu1NBjeg==,8.4,,25 ธันวาคม 2017,ท่านคิดว่ารีวิวนี้มีประโยชน์หรือไม่,0,...,ห้้องพักขนาดไม่เล็กไม่ใหญ่ ที่นอนนุ่มมากแต่หมอ...,2017-12-25T15:17:00+07:00,,,,มองหาอาหารเช้าดีๆ ต้องที่นี่,"{'displayMemberName': 'navapat', 'reviewGroupN...",th,th,0
3,,,,0,ggLmacLdiJjDUlQQPDmOUg==,6.3,,23 สิงหาคม 2017,ท่านคิดว่ารีวิวนี้มีประโยชน์หรือไม่,0,...,,2017-08-23T05:19:03+07:00,สถานที่ของโรงแรมอยู่กลางซอย ถนนเล็กมาก เรียกแท...,พนักงานทำความสะอาด พนักงานต้อนรับ ห้องสวย กว้า...,,Ok,"{'displayMemberName': 'Pornpichit', 'reviewGro...",th,th,0
4,2017-06-17T00:00:00+07:00,มิถุนายน 2017,2017-06-18T00:00:00+07:00,0,y6WUtF3Dxxy79YZdGqwH9w==,7.6,,28 มิถุนายน 2017,นักเดินทาง 1 คนคิดว่ารีวิวนี้มีประโยชน์ แล้วท่...,1,...,ก็ดีใช้ได้ ค่ะ แพง หนอ่ย อาหารก็ แพง ถ้าไม่ซีเ...,2017-06-28T10:39:00+07:00,,,,ดีมาก,"{'displayMemberName': 'THANTHIP', 'reviewGroup...",th,th,0


In [67]:
reviewer_infos = pd.DataFrame([ reviewer for reviewer in raw_comments['reviewerInfo'] ])
comments = pd.concat([raw_comments.drop(columns=['reviewerInfo'], axis=1), reviewer_infos], axis=1)
comments.head()

Unnamed: 0,checkInDate,checkInDateMonthAndYear,checkOutDate,demographicId,encryptedReviewData,formattedRating,formattedResponseDate,formattedReviewDate,formattedReviewHelpfulText,helpfulVotes,...,countryId,countryName,displayMemberName,flagName,isShowGlobalIcon,isShowReviewedCount,lengthOfStay,reviewGroupName,reviewerReviewedCount,roomTypeName
0,2018-04-12T00:00:00+07:00,เมษายน 2018,2018-04-14T00:00:00+07:00,0,4Fu14+nkGM1sm9gVZgqbSA==,10.0,,23 เมษายน 2018,ท่านคิดว่ารีวิวนี้มีประโยชน์หรือไม่,0,...,106,ประเทศไทย,Juthamard,th,False,False,2,คู่รัก,73,ดีลักซ์
1,,,,0,eaKGJBE9nJp4Wa0SXjZfGA==,8.8,,14 พฤศจิกายน 2017,ท่านคิดว่ารีวิวนี้มีประโยชน์หรือไม่,0,...,106,ประเทศไทย,Teerasak,th,False,False,0,คู่รัก,0,
2,2017-12-23T00:00:00+07:00,ธันวาคม 2017,2017-12-24T00:00:00+07:00,0,wjaEMMOSEmMuLbTu1NBjeg==,8.4,,25 ธันวาคม 2017,ท่านคิดว่ารีวิวนี้มีประโยชน์หรือไม่,0,...,106,ประเทศไทย,navapat,th,False,False,1,ครอบครัวที่มีเด็กโต,6,
3,,,,0,ggLmacLdiJjDUlQQPDmOUg==,6.3,,23 สิงหาคม 2017,ท่านคิดว่ารีวิวนี้มีประโยชน์หรือไม่,0,...,205,อิตาลี,Pornpichit,it,False,False,0,ครอบครัวที่มีเด็กเล็ก,0,
4,2017-06-17T00:00:00+07:00,มิถุนายน 2017,2017-06-18T00:00:00+07:00,0,y6WUtF3Dxxy79YZdGqwH9w==,7.6,,28 มิถุนายน 2017,นักเดินทาง 1 คนคิดว่ารีวิวนี้มีประโยชน์ แล้วท่...,1,...,106,ประเทศไทย,THANTHIP,th,False,False,1,ครอบครัวที่มีเด็กโต,5,


In [68]:
comments.to_csv('./comments.csv', index=False)