# Overview

**Sentiment Analysis in Hotel Reviews**

Creating a helpful tool for hotel owners to figure out what they can do to make their hotel better. This tool looks at different things like customer feedback and operational data to give clear advice on what changes can be made to improve guests' experiences and make the hotel run smoother.

**Roadmap**
![image.png](attachment:image.png)

# Initialization

## Libraries

In [7]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service as ChromeService 
from webdriver_manager.chrome import ChromeDriverManager 
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

## Import packages

In [8]:
import pandas as pd
import time
import numpy as np
from seleniumFunction import scrollPage,idData

## Web Scraping

We choose *agoda.com* website to crawling because its informative. 

The link is `"https://www.agoda.com/vi-vn/country/vietnam.html?site_id=1891474&tag=fe872c99-9477-72c0-54cf-6841dc26bb51&gad_source=1&device=c&network=g&adid=683003463985&rand=6822283655025895958&expid=&adpos=&aud=kwd-4997135212&gclid=EAIaIQobChMIwYTniPnwhAMVPix7Bx2zCAo8EAAYASAAEgKRtvD_BwE&pslc=1")
`

### CitiesData

In [6]:
driver = webdriver.Chrome()
driver.get(
    "https://www.agoda.com/vi-vn/country/vietnam.html?site_id=1891474&tag=fe872c99-9477-72c0-54cf-6841dc26bb51&gad_source=1&device=c&network=g&adid=683003463985&rand=6822283655025895958&expid=&adpos=&aud=kwd-4997135212&gclid=EAIaIQobChMIwYTniPnwhAMVPix7Bx2zCAo8EAAYASAAEgKRtvD_BwE&pslc=1")

# CSS_SELECTOR
time.sleep(5)
elems = driver.find_elements(By.CSS_SELECTOR, "#all-states-container [href]")
cities = [elem.text.split('\n') for elem in elems]
df = pd.DataFrame(cities, columns=['city', 'numofHotel'])

# NUMBER OF HOTEL IN EACH CITY
df['numofHotel'] = df['numofHotel'].str.extract(r'(\d+)')

# LINK FOR EACH CITY
df['link'] = [elem.get_attribute('href') for elem in elems]
df.head()

Unnamed: 0,city,numofHotel,link
0,Thành phố Hồ Chí Minh,17193,https://www.agoda.com/vi-vn/region/ho-chi-minh...
1,Thành phố Hà Nội,13130,https://www.agoda.com/vi-vn/region/ha-noi-prov...
2,Tỉnh Bà Rịa-Vũng Tàu,6858,https://www.agoda.com/vi-vn/region/ba-ria-vung...
3,Tỉnh Lâm Ðồng,6207,https://www.agoda.com/vi-vn/region/lam-dong-pr...
4,Thành phố Ðà Nẵng,6040,https://www.agoda.com/vi-vn/region/da-nang-pro...


In [9]:
href = 'https://www.agoda.com/vi-vn/search?city=13170&ds=uzJFWqIDn8P5IGhZ'

In [9]:
def gethotelId(sectionLink): # Link
    driver = webdriver.Chrome()
    driver.get(sectionLink)
    scrollPage(driver)
    pageNum = int((driver.find_element(By.CSS_SELECTOR, 'div[data-selenium="pagination"]').text).split()[3])
    # Create empty DataFrame
    elements = driver.find_elements(By.CSS_SELECTOR, 'li[data-selenium="hotel-item"]')
    hotelId = [element.get_attribute("data-hotelid") for element in elements]
    df = idData(driver, hotelId)
    # For loop for second page -->
    for _ in range(3 - 1):
        # Loop until reaching the end of the page
        scrollPage(driver)
        time.sleep(5)
        elements = driver.find_elements(By.CSS_SELECTOR, 'li[data-selenium="hotel-item"]')
        hotelId = [element.get_attribute("data-hotelid") for element in elements]
        df_new = idData(driver, hotelId)
        df = pd.concat([df, df_new], ignore_index=True)
        try:
            button = WebDriverWait(driver, 10).until(
                EC.element_to_be_clickable((By.CSS_SELECTOR, 'button[data-selenium="pagination-next-btn"]'))
            )
            button.click()
        except Exception as e:
            print(f"An error occurred: {e}")
    return df

In [10]:
df = gethotelId('https://www.agoda.com/vi-vn/search?city=13170&ds=uzJFWqIDn8P5IGhZ')

In [12]:
df.to_csv('hotelID.csv', index=False,encoding='utf-8-sig')

In [13]:
df

Unnamed: 0,hotelId,hotelLink
0,38358514,https://www.agoda.com/vi-vn/cozrum-homes-sonat...
1,2817185,https://www.agoda.com/vi-vn/the-blue-hotel/hot...
2,5646737,https://www.agoda.com/vi-vn/lotus-central-hote...
3,7295630,https://www.agoda.com/vi-vn/the-chill-suites-c...
4,22588043,https://www.agoda.com/vi-vn/cozrum-smart-first...
...,...,...
289,10989,https://www.agoda.com/vi-vn/rex-hotel-saigon/h...
290,32728435,https://www.agoda.com/vi-vn/saigon-pink-3-hote...
291,564180,https://www.agoda.com/vi-vn/saigon-hotel/hotel...
292,35311126,https://www.agoda.com/vi-vn/luxury-vinhomes-ce...


In [88]:
# url = "https://www.agoda.com/vi-vn/country/vietnam.html?site_id=1891474&tag=fe872c99-9477-72c0-54cf-6841dc26bb51&gad_source=1&device=c&network=g&adid=683003463985&rand=6822283655025895958&expid=&adpos=&aud=kwd-4997135212&gclid=EAIaIQobChMIwYTniPnwhAMVPix7Bx2zCAo8EAAYASAAEgKRtvD_BwE&pslc=1"

# options = webdriver.ChromeOptions() #newly added 
# options.headless = True #newly added 
# with webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()), options=options) as driver: #modified 
#     driver.get(url)

driver = webdriver.Chrome()

driver.get("https://www.agoda.com/vi-vn/country/vietnam.html?site_id=1891474&tag=fe872c99-9477-72c0-54cf-6841dc26bb51&gad_source=1&device=c&network=g&adid=683003463985&rand=6822283655025895958&expid=&adpos=&aud=kwd-4997135212&gclid=EAIaIQobChMIwYTniPnwhAMVPix7Bx2zCAo8EAAYASAAEgKRtvD_BwE&pslc=1")
time.sleep(5)

elems = driver.find_elements(By.CSS_SELECTOR, "#all-states-container [href]")
cities = [elem.text.split('\n') for elem in elems]
df = pd.DataFrame(cities, columns=['city', 'numofHotel'])
df['numofHotel'] = df['numofHotel'].str.extract(r'(\d+)')
df['link'] = [elem.get_attribute('href') for elem in elems]


In [89]:
df

Unnamed: 0,city,numofHotel,link
0,Thành phố Hồ Chí Minh,17009,https://www.agoda.com/vi-vn/region/ho-chi-minh...
1,Thành phố Hà Nội,12991,https://www.agoda.com/vi-vn/region/ha-noi-prov...
2,Tỉnh Bà Rịa-Vũng Tàu,6808,https://www.agoda.com/vi-vn/region/ba-ria-vung...
3,Tỉnh Lâm Ðồng,6181,https://www.agoda.com/vi-vn/region/lam-dong-pr...
4,Thành phố Ðà Nẵng,5926,https://www.agoda.com/vi-vn/region/da-nang-pro...
...,...,...,...
58,Tỉnh Bình Phước,29,https://www.agoda.com/vi-vn/region/binh-phuoc-...
59,Tỉnh Hà Nam,28,https://www.agoda.com/vi-vn/region/ha-nam-prov...
60,Tỉnh Nam Ðịnh,22,https://www.agoda.com/vi-vn/region/nam-dinh-pr...
61,Tỉnh Trà Vinh,21,https://www.agoda.com/vi-vn/region/tra-vinh-pr...


In [22]:
# link = [elem.get_attribute('href') for elem in elems]

In [60]:
href = df.link[1]
city = df.city[1]

In [69]:
city

'Thành phố Hà Nội'

In [76]:
driver = webdriver.Chrome()
driver.get(href)

time.sleep(5)

elems = driver.find_elements(By.CSS_SELECTOR, '#neighbor-container [href]')
section = [elem.text.split('\n')[0] for elem in elems]
section

['Hà Nội',
 'Gia Lâm',
 'Xuân Bảng',
 'Hoài Dưc Phủ',
 'Hạ Họi',
 'Ðục Khê',
 'Phùng Thôn']

In [77]:
# section = [elem.text.split('\n')[0] for elem in elems]
sectionLink = [elem.get_attribute('href') for elem in elems]

In [78]:
sectionLink

['https://www.agoda.com/vi-vn/city/hanoi-vn.html',
 'https://www.agoda.com/vi-vn/city/gia-lam-vn.html',
 'https://www.agoda.com/vi-vn/city/xuan-bang-vn.html',
 'https://www.agoda.com/vi-vn/city/hoai-duc-phu-vn.html',
 'https://www.agoda.com/vi-vn/city/ha-hoi-vn.html',
 'https://www.agoda.com/vi-vn/city/duc-khe-vn.html',
 'https://www.agoda.com/vi-vn/city/phung-thon-vn.html']

In [79]:
data = {
    'city': city,
    'section': section,
    'sectionLink': sectionLink
}
df = pd.DataFrame(data)
df

Unnamed: 0,city,section,sectionLink
0,Thành phố Hà Nội,Hà Nội,https://www.agoda.com/vi-vn/city/hanoi-vn.html
1,Thành phố Hà Nội,Gia Lâm,https://www.agoda.com/vi-vn/city/gia-lam-vn.html
2,Thành phố Hà Nội,Xuân Bảng,https://www.agoda.com/vi-vn/city/xuan-bang-vn....
3,Thành phố Hà Nội,Hoài Dưc Phủ,https://www.agoda.com/vi-vn/city/hoai-duc-phu-...
4,Thành phố Hà Nội,Hạ Họi,https://www.agoda.com/vi-vn/city/ha-hoi-vn.html
5,Thành phố Hà Nội,Ðục Khê,https://www.agoda.com/vi-vn/city/duc-khe-vn.html
6,Thành phố Hà Nội,Phùng Thôn,https://www.agoda.com/vi-vn/city/phung-thon-vn...


In [91]:
for a,b in zip([1,2],['a','b']):
    print(a)
    print(b)

1
a
2
b


`https://www.agoda.com/vi-vn/city/can-gio-vn.html`

In [4]:
import pandas as pd

df = pd.read_csv('sectionData.csv')
df

Unnamed: 0,city,section,sectionLink
0,Thành phố Hồ Chí Minh,Hồ Chí Minh,https://www.agoda.com/vi-vn/city/ho-chi-minh-c...
1,Thành phố Hồ Chí Minh,Cần Giờ,https://www.agoda.com/vi-vn/city/can-gio-vn.html
2,Thành phố Hà Nội,Hà Nội,https://www.agoda.com/vi-vn/city/hanoi-vn.html
3,Thành phố Hà Nội,Gia Lâm,https://www.agoda.com/vi-vn/city/gia-lam-vn.html
4,Thành phố Hà Nội,Xuân Bảng,https://www.agoda.com/vi-vn/city/xuan-bang-vn....
...,...,...,...
156,Tỉnh Kon Tum,Kon Von Ke,https://www.agoda.com/vi-vn/city/kon-von-kle-v...
157,Tỉnh Kon Tum,Kon Tum,https://www.agoda.com/vi-vn/city/kon-tum-vn.html
158,Tỉnh Kon Tum,Kon Rơbang,https://www.agoda.com/vi-vn/city/kon-robang-vn...
159,Tỉnh Bắc Ninh,Bắc Ninh,https://www.agoda.com/vi-vn/city/bac-ninh-vn.html


In [23]:
href = 'https://www.agoda.com/vi-vn/city/ho-chi-minh-city-vn.html'

In [24]:
import numpy as np
driver = webdriver.Chrome()
driver.get(href)
# element = driver.find_element(By.CSS_SELECTOR, '#neighbor-container [href]')

backdrop = driver.find_element(By.CSS_SELECTOR, ".SearchboxBackdrop")

# Execute JavaScript to remove the element from the DOM
driver.execute_script("arguments[0].parentNode.removeChild(arguments[0]);", backdrop)

button = driver.find_element(By.XPATH, '//*[@id="contentReact"]/article/div[1]/div/div[2]/div[3]/button/div')

button.click();



In [53]:
def idData(driver: webdriver,hotelId):
    
#     hotelName = []
    
    hotelLink = []
    
    for id in hotelId:
        elem = driver.find_element(By.CSS_SELECTOR, f'a[property-id="{id}"]')

#         hotelName.append(elem.text.split('\n')[1])
# data-selenium="hotel-name"
        hotelLink.append(elem.get_attribute('href'))

    return hotelLink

In [47]:
hehehoho = hotelId[0:5]
hotelName, hotelLink = idData(driver,hehehoho)
hotelName

['Mangrove Hotel Can Gio',
 'Ruby Cafe & Homestay',
 'SAY Camp Forest',
 'Hanh Phuc Hotel',
 'Cần Giờ Homestay (Can Gio Homestay)']

In [48]:
hotelLink

['https://www.agoda.com/vi-vn/mangrove-hotel-can-gio/hotel/can-gio-vn.html?finalPriceView=1&isShowMobileAppPrice=false&cid=-1&numberOfBedrooms=&familyMode=false&adults=1&children=0&rooms=1&maxRooms=0&checkIn=2024-03-24&isCalendarCallout=false&childAges=&numberOfGuest=0&missingChildAges=false&travellerType=-1&showReviewSubmissionEntry=false&currencyCode=VND&isFreeOccSearch=false&isCityHaveAsq=false&tspTypes=2,16,8&los=1&searchrequestid=991bc8d6-45cc-4041-91c8-a7abc14f8158',
 'https://www.agoda.com/vi-vn/ruby-cafe-homestay/hotel/can-gio-vn.html?finalPriceView=1&isShowMobileAppPrice=false&cid=-1&numberOfBedrooms=&familyMode=false&adults=1&children=0&rooms=1&maxRooms=0&checkIn=2024-03-24&isCalendarCallout=false&childAges=&numberOfGuest=0&missingChildAges=false&travellerType=-1&showReviewSubmissionEntry=false&currencyCode=VND&isFreeOccSearch=false&isCityHaveAsq=false&tspTypes=2,8&los=1&searchrequestid=991bc8d6-45cc-4041-91c8-a7abc14f8158',
 'https://www.agoda.com/vi-vn/say-camp-forest/hotel

In [57]:
href = 'https://www.agoda.com/vi-vn/search?city=13170&ds=uzJFWqIDn8P5IGhZ'

In [68]:
driver = webdriver.Chrome()

driver.get(href)

scrollPage(driver)

pageNum = int((driver.find_element(By.CSS_SELECTOR, 'div[data-selenium="pagination"]').text).split()[3])


# Create empty DataFrame
elements = driver.find_elements(By.CSS_SELECTOR, 'li[data-selenium="hotel-item"]')

hotelId = [element.get_attribute("data-hotelid") for element in elements]

hotelLink = idData(driver,hotelId)

data = {
    'hotelId': hotelId,
#     'hotelName': hotelName,
    'hotelLink': hotelLink
}
df = pd.DataFrame(data)


# For loop for second page -->
for _ in range(3-1):
    # Loop until reaching the end of the page
    scrollPage(driver)
    
    time.sleep(5)

    elements = driver.find_elements(By.CSS_SELECTOR, 'li[data-selenium="hotel-item"]')

    hotelId = [element.get_attribute("data-hotelid") for element in elements]
    
    hotelLink = idData(driver,hotelId)
    
    data = {
    'hotelId': hotelId,
    'hotelLink': hotelLink
    }
    
    df_new = pd.DataFrame(data)
    
    df = pd.concat([df, df_new], ignore_index=True)
    
    try:
        button = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.CSS_SELECTOR, 'button[data-selenium="pagination-next-btn"]'))
        )

        button.click()
    
    except Exception as e:
        print(f"An error occurred: {e}")
    
#     try: 
#         driver.find_element(By.CSS_SELECTOR, 'button[data-selenium="pagination-next-btn"]').click()
#     except:
#         break

In [62]:
        driver.find_element(By.CSS_SELECTOR, 'button[data-selenium="pagination-next-btn"]').click()


In [69]:
df

Unnamed: 0,hotelId,hotelLink
0,10984,https://www.agoda.com/vi-vn/oscar-saigon-hotel...
1,10976,https://www.agoda.com/vi-vn/sofitel-saigon-pla...
2,5646737,https://www.agoda.com/vi-vn/lotus-central-hote...
3,7295630,https://www.agoda.com/vi-vn/the-chill-suites-c...
4,5547645,https://www.agoda.com/vi-vn/avanti-boutique/ho...
...,...,...
163,2010778,https://www.agoda.com/vi-vn/melinda-hotel/hote...
164,489711,https://www.agoda.com/vi-vn/saigon-airport-blu...
165,34309448,https://www.agoda.com/vi-vn/sotetsu-grand-fres...
166,1184830,https://www.agoda.com/vi-vn/fusion-suites-saig...


In [None]:
data = {
    'section': section,
    'sectionLink': sectionLink
}

df_new = pd.DataFrame(data)

In [17]:
button = driver.find_element(By.CSS_SELECTOR, 'div[data-selenium="backdrop"]')

button.click();

ElementNotInteractableException: Message: element not interactable
  (Session info: chrome=122.0.6261.112)
Stacktrace:
	GetHandleVerifier [0x00007FF6E309AD02+56930]
	(No symbol) [0x00007FF6E300F602]
	(No symbol) [0x00007FF6E2EC419D]
	(No symbol) [0x00007FF6E2F0ACA2]
	(No symbol) [0x00007FF6E2EFF798]
	(No symbol) [0x00007FF6E2F2BC9A]
	(No symbol) [0x00007FF6E2EFF09A]
	(No symbol) [0x00007FF6E2F2BEB0]
	(No symbol) [0x00007FF6E2F481E2]
	(No symbol) [0x00007FF6E2F2BA43]
	(No symbol) [0x00007FF6E2EFD438]
	(No symbol) [0x00007FF6E2EFE4D1]
	GetHandleVerifier [0x00007FF6E3416F8D+3711213]
	GetHandleVerifier [0x00007FF6E34704CD+4077101]
	GetHandleVerifier [0x00007FF6E346865F+4044735]
	GetHandleVerifier [0x00007FF6E3139736+706710]
	(No symbol) [0x00007FF6E301B8DF]
	(No symbol) [0x00007FF6E3016AC4]
	(No symbol) [0x00007FF6E3016C1C]
	(No symbol) [0x00007FF6E30068D4]
	BaseThreadInitThunk [0x00007FFD71D9257D+29]
	RtlUserThreadStart [0x00007FFD72E4AA58+40]


In [2]:
href = 'https://www.agoda.com/vi-vn/city/ho-chi-minh-city-vn.html'

In [36]:
# List of Hotel
driver = webdriver.Chrome()

driver.get(href)

time.sleep(5)
# DELETE BACKDROP
backdrop = driver.find_element(By.CSS_SELECTOR, ".SearchboxBackdrop")

driver.execute_script("arguments[0].parentNode.removeChild(arguments[0]);", backdrop) # Execute JavaScript to remove the element from the DOM


button = driver.find_element(By.XPATH, '//*[@id="contentReact"]/article/div[1]/div/div[2]/div[3]/button/div')

button.click();

#

In [59]:
# backdrop = driver.find_element(By.CSS_SELECTOR, ".SearchboxBackdrop")
backdrop = driver.find_element(By.CSS_SELECTOR, "#page-backdrop")

driver.execute_script("arguments[0].parentNode.removeChild(arguments[0]);", backdrop) # Execute JavaScript to remove the element from the DOM

In [7]:
scrollPage(driver)

29050


In [91]:
scroll_step = 50

scroll_position = 0

# Loop until reaching the end of the page
while True:
    # Scroll down by the scroll step
    driver.execute_script("window.scrollTo(0, {});".format(scroll_position))

    # Update the scroll position
    scroll_position += scroll_step

    # Break the loop if reaching the end of the page
    if scroll_position >= driver.execute_script("return document.body.scrollHeight"):
        print(scroll_position)
        break

# Set it back to see the next page button
end_position = driver.execute_script("return document.body.scrollHeight") - 800
driver.execute_script("window.scrollTo(0, {});".format(end_position))


# def scrollPage(driver: webdriver.Chrome())
#     scroll_step = 50

#     scroll_position = 0

#     # Loop until reaching the end of the page
#     while True:
#         # Scroll down by the scroll step
#         driver.execute_script("window.scrollTo(0, {});".format(scroll_position))

#         # Update the scroll position
#         scroll_position += scroll_step

#         # Break the loop if reaching the end of the page
#         if scroll_position >= driver.execute_script("return document.body.scrollHeight"):
#             print(scroll_position)
#             break

#     # Set it back to see the next page button
#     end_position = driver.execute_script("return document.body.scrollHeight") - 800
#     driver.execute_script("window.scrollTo(0, {});".format(end_position))


17650


In [25]:
index = '13448481'

elem = driver.find_element(By.CSS_SELECTOR, f'a[property-id="{index}"]' )

text = elem.text.split('\n')[1]

link = elem.get_attribute('href')
# getLink.text.split('\n')[1]

# href = element.get_attribute("href")

In [26]:
text

'Mangrove Hotel Can Gio'

In [10]:
link = 'https://www.agoda.com/vi-vn/mangrove-hotel-can-gio/hotel/can-gio-vn.html?finalPriceView=1&isShowMobileAppPrice=false&cid=-1&numberOfBedrooms=&familyMode=false&adults=1&children=0&rooms=1&maxRooms=0&checkIn=2024-03-24&isCalendarCallout=false&childAges=&numberOfGuest=0&missingChildAges=false&travellerType=-1&showReviewSubmissionEntry=false&currencyCode=VND&isFreeOccSearch=false&isCityHaveAsq=false&tspTypes=2,16,8&los=1&searchrequestid=991bc8d6-45cc-4041-91c8-a7abc14f8158]'

In [11]:
driver = webdriver.Chrome()
driver.get(link)
df = pd.DataFrame()

In [16]:
# driver = webdriver.Chrome()
# driver.get(link)
# df = pd.DataFrame()

# hotelName = driver.find_element(By.CSS_SELECTOR, 'p[data-selenium="hotel-header-name"]').text
# hotelName

hotelAddress = driver.find_element(By.CSS_SELECTOR, 'span[data-selenium="hotel-address-map"]'=).text
hotelAddress
# while True:
#     time.sleep(5)
#     elements = driver.find_elements(By.CSS_SELECTOR, '#reviewSectionComments' )
#     elem = [element.text for element in elements]
#     print(elem[0])
#     cusReviews = np.array(elem[0].split('\n'))     
#     data = np.array_split(cusReviews, len(cusReviews) // 9)

#     df_new = pd.DataFrame(data)
#     df = pd.concat([df, df_new], ignore_index=True)

#     try:
#         button = driver.find_element(By.CSS_SELECTOR, 'i.ficon.ficon-24.ficon-carrouselarrow-right' )
#         # Move it to button element to able to click
#         driver.execute_script("arguments[0].scrollIntoView(); window.scrollBy(0, -200);", button)
#         time.sleep(2)
#         button.click()
#     except Exception as e:
#         print(f"An error occurred: {e}")
#         break

'146 Thanh Thoi, Long Thanh, Long Hoa, Long Hòa, Cần Giờ, Việt Nam, 579000'

In [72]:
time.sleep(5)
elements = driver.find_elements(By.CSS_SELECTOR, '#reviewSectionComments' )
elem = [element.text for element in elements]
cusReviews = np.array(elem[0].split('\n'))     
data = np.array_split(cusReviews, len(cusReviews) // 9)

df_new = pd.DataFrame(data)
df = pd.concat([df, df_new], ignore_index=True)

try:
    button = driver.find_element(By.CSS_SELECTOR, 'i.ficon.ficon-24.ficon-carrouselarrow-right' )
    # Move it to button element to able to click
    driver.execute_script("arguments[0].scrollIntoView(); window.scrollBy(0, -200);", button)
    time.sleep(2)
    button.click()
except Exception as e:
    print(f"An error occurred: {e}")
    

In [101]:
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,"10,0 Trên cả tuyệt vời",Phước từ Việt Nam,Cặp đôi,Phòng Đôi Tiêu Chuẩn,Đã ở 1 đêm vào Tháng 3 năm 2023,Everything is okay.”,"Phòng tắm hơi nhỏ nhưng đủ dùng, mọi thứ đều đ...",Đã nhận xét vào 15 tháng 6 2023,Được dịch tự động thông qua A.I. sản sinh,Xem bản gốc
1,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG,"9,6 Trên cả tuyệt vời",Thi từ Việt Nam,Gia đình có em bé,Phòng Gia Đình,Đã ở 1 đêm vào Tháng 9 năm 2023,Chuyến nghỉ Lễ dễ thương”,Khách sạn có vị trí rất gần biển và chợ (chờ n...,Đã nhận xét vào 04 tháng 9 2023,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG
2,"10,0 Trên cả tuyệt vời",Grey từ Việt Nam,Cặp đôi,Phòng Ngủ Đôi Cao Cấp,Đã ở 1 đêm vào Tháng 5 năm 2022,Mangrove Hotel Cần Giờ”,"Sát bên chợ Hải Sản, cách biển khoảng 50m. Hơi...",Đã nhận xét vào 28 tháng 12 2022,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG,
3,"10,0 Trên cả tuyệt vời",Hồng từ Việt Nam,Đi công tác,Phòng Ngủ Đôi Cao Cấp,Đã ở 1 đêm vào Tháng 11 năm 2022,Lựa chọn đúng đắn”,"Ks rất sạch, nv thân thiện, chỉ có duy nhất đi...",Đã nhận xét vào 13 tháng 11 2022,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG,
4,"10,0 Trên cả tuyệt vời",ba từ Việt Nam,Gia đình có em bé,Phòng Gia Đình,Đã ở 1 đêm vào Tháng 3 năm 2023,Trên cả tuyệt vời”,"Tiện lợi, gần chợ Hải sản Hàng Dương và gần cá...",Đã nhận xét vào 07 tháng 4 2023,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG,
5,"9,6 Trên cả tuyệt vời",Linh từ Việt Nam,Gia đình có em bé,Phòng Gia Đình,Đã ở 1 đêm vào Tháng 11 năm 2022,"chỗ ở gần biển , sạch sẽ , nhân viên nhiệt tình.”","chỗ ở sạch sẽ , nhân viên nhiệt tình , vị trí ...",Đã nhận xét vào 20 tháng 11 2022,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG,
6,"10,0 Trên cả tuyệt vời",Thanh từ Việt Nam,Gia đình có trẻ em,Phòng Đôi Tiêu Chuẩn,Đã ở 1 đêm vào Tháng 12 năm 2022,Ổn”,"Phòng ổn, mình đặt 2 phòng . Có điều phòng ở đ...",Đã nhận xét vào 22 tháng 3 2023,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG,
7,"10,0 Trên cả tuyệt vời",Nguyen từ Việt Nam,Cặp đôi,Phòng Đôi Tiêu Chuẩn,Đã ở 1 đêm vào Tháng 11 năm 2022,"Cơ sở vật chất mới, đẹp, sạch sẽ”",1 điểm lưu trú đáng tiền.,Đã nhận xét vào 29 tháng 11 2022,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG,
8,"10,0 Trên cả tuyệt vời",Nguyễn từ Việt Nam,Cặp đôi,Phòng Đôi Tiêu Chuẩn,Đã ở 1 đêm vào Tháng 9 năm 2023,Phòng đẹp”,Chất lượng,Đã nhận xét vào 17 tháng 9 2023,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG,
9,"10,0 Trên cả tuyệt vời",SON từ Việt Nam,Gia đình có em bé,Phòng Đôi Tiêu Chuẩn,Đã ở 1 đêm vào Tháng 5 năm 2022,Hotel tuyệt vời ”,Địa điểm và địa điểm quá tuyệt!,Đã nhận xét vào 21 tháng 10 2022,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG,


In [99]:
try:
    button = driver.find_element(By.CSS_SELECTOR, 'i.ficon.ficon-24.ficon-carrouselarrow-right' )
    # Move it to button element to able to click
    driver.execute_script("arguments[0].scrollIntoView(); window.scrollBy(0, -200);", button)
    time.sleep(2)
    button.click()
except Exception as e:
    print(f"An error occurred: {e}")
    

In [95]:
elem = [element.text for element in elements] 
elem

StaleElementReferenceException: Message: stale element reference: stale element not found
  (Session info: chrome=122.0.6261.112); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#stale-element-reference-exception
Stacktrace:
	GetHandleVerifier [0x00007FF6E309AD02+56930]
	(No symbol) [0x00007FF6E300F602]
	(No symbol) [0x00007FF6E2EC42E5]
	(No symbol) [0x00007FF6E2EC9261]
	(No symbol) [0x00007FF6E2ECB6EB]
	(No symbol) [0x00007FF6E2ECB7B0]
	(No symbol) [0x00007FF6E2F04D9B]
	(No symbol) [0x00007FF6E2F2BC9A]
	(No symbol) [0x00007FF6E2EFF09A]
	(No symbol) [0x00007FF6E2F2BEB0]
	(No symbol) [0x00007FF6E2F481E2]
	(No symbol) [0x00007FF6E2F2BA43]
	(No symbol) [0x00007FF6E2EFD438]
	(No symbol) [0x00007FF6E2EFE4D1]
	GetHandleVerifier [0x00007FF6E3416F8D+3711213]
	GetHandleVerifier [0x00007FF6E34704CD+4077101]
	GetHandleVerifier [0x00007FF6E346865F+4044735]
	GetHandleVerifier [0x00007FF6E3139736+706710]
	(No symbol) [0x00007FF6E301B8DF]
	(No symbol) [0x00007FF6E3016AC4]
	(No symbol) [0x00007FF6E3016C1C]
	(No symbol) [0x00007FF6E30068D4]
	BaseThreadInitThunk [0x00007FFD71D9257D+29]
	RtlUserThreadStart [0x00007FFD72E4AA58+40]


In [61]:
np.array(elem[0].split('\n'))     

array(['10,0 Trên cả tuyệt vời', 'Nguyen từ Việt Nam', 'Cặp đôi',
       'Phòng Đôi Tiêu Chuẩn', 'Đã ở 1 đêm vào Tháng 11 năm 2022',
       'Cơ sở vật chất mới, đẹp, sạch sẽ”', '1 điểm lưu trú đáng tiền.',
       'Đã nhận xét vào 29 tháng 11 2022',
       'Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG',
       '10,0 Trên cả tuyệt vời', 'SON từ Việt Nam', 'Gia đình có em bé',
       'Phòng Đôi Tiêu Chuẩn', 'Đã ở 1 đêm vào Tháng 5 năm 2022',
       'Hotel tuyệt vời ”', 'Địa điểm và địa điểm quá tuyệt!',
       'Đã nhận xét vào 21 tháng 10 2022',
       'Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG',
       '10,0 Trên cả tuyệt vời', 'Trang từ Việt Nam', 'Đi công tác',
       'Phòng Ngủ Đôi Cao Cấp', 'Đã ở 1 đêm vào Tháng 6 năm 2022',
       'Sạch ”', 'Mangrove có bữa ăn sáng miễn phí',
       'Đã nhận xét vào 12 tháng 6 2022',
       'Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG',
       '9,2 Trên cả tuyệt vời', 'Nguyen từ Việt Nam', 'Cặp đôi',
       'Phòng Đôi Tiêu Chuẩn', 'Đã ở

In [55]:
df   

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,"10,0 Trên cả tuyệt vời",Grey từ Việt Nam,Cặp đôi,Phòng Ngủ Đôi Cao Cấp,Đã ở 1 đêm vào Tháng 5 năm 2022,Mangrove Hotel Cần Giờ”,"Sát bên chợ Hải Sản, cách biển khoảng 50m. Hơi...",Đã nhận xét vào 28 tháng 12 2022,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG
1,"10,0 Trên cả tuyệt vời",Hồng từ Việt Nam,Đi công tác,Phòng Ngủ Đôi Cao Cấp,Đã ở 1 đêm vào Tháng 11 năm 2022,Lựa chọn đúng đắn”,"Ks rất sạch, nv thân thiện, chỉ có duy nhất đi...",Đã nhận xét vào 13 tháng 11 2022,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG
2,"10,0 Trên cả tuyệt vời",ba từ Việt Nam,Gia đình có em bé,Phòng Gia Đình,Đã ở 1 đêm vào Tháng 3 năm 2023,Trên cả tuyệt vời”,"Tiện lợi, gần chợ Hải sản Hàng Dương và gần cá...",Đã nhận xét vào 07 tháng 4 2023,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG
3,"10,0 Trên cả tuyệt vời",Thanh từ Việt Nam,Gia đình có trẻ em,Phòng Đôi Tiêu Chuẩn,Đã ở 1 đêm vào Tháng 12 năm 2022,Ổn”,"Phòng ổn, mình đặt 2 phòng . Có điều phòng ở đ...",Đã nhận xét vào 22 tháng 3 2023,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG
4,"9,6 Trên cả tuyệt vời",Linh từ Việt Nam,Gia đình có em bé,Phòng Gia Đình,Đã ở 1 đêm vào Tháng 11 năm 2022,"chỗ ở gần biển , sạch sẽ , nhân viên nhiệt tình.”","chỗ ở sạch sẽ , nhân viên nhiệt tình , vị trí ...",Đã nhận xét vào 20 tháng 11 2022,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG
5,"10,0 Trên cả tuyệt vời",Grey từ Việt Nam,Cặp đôi,Phòng Ngủ Đôi Cao Cấp,Đã ở 1 đêm vào Tháng 5 năm 2022,Mangrove Hotel Cần Giờ”,"Sát bên chợ Hải Sản, cách biển khoảng 50m. Hơi...",Đã nhận xét vào 28 tháng 12 2022,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG
6,"10,0 Trên cả tuyệt vời",Hồng từ Việt Nam,Đi công tác,Phòng Ngủ Đôi Cao Cấp,Đã ở 1 đêm vào Tháng 11 năm 2022,Lựa chọn đúng đắn”,"Ks rất sạch, nv thân thiện, chỉ có duy nhất đi...",Đã nhận xét vào 13 tháng 11 2022,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG
7,"10,0 Trên cả tuyệt vời",ba từ Việt Nam,Gia đình có em bé,Phòng Gia Đình,Đã ở 1 đêm vào Tháng 3 năm 2023,Trên cả tuyệt vời”,"Tiện lợi, gần chợ Hải sản Hàng Dương và gần cá...",Đã nhận xét vào 07 tháng 4 2023,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG
8,"10,0 Trên cả tuyệt vời",Thanh từ Việt Nam,Gia đình có trẻ em,Phòng Đôi Tiêu Chuẩn,Đã ở 1 đêm vào Tháng 12 năm 2022,Ổn”,"Phòng ổn, mình đặt 2 phòng . Có điều phòng ở đ...",Đã nhận xét vào 22 tháng 3 2023,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG
9,"9,6 Trên cả tuyệt vời",Linh từ Việt Nam,Gia đình có em bé,Phòng Gia Đình,Đã ở 1 đêm vào Tháng 11 năm 2022,"chỗ ở gần biển , sạch sẽ , nhân viên nhiệt tình.”","chỗ ở sạch sẽ , nhân viên nhiệt tình , vị trí ...",Đã nhận xét vào 20 tháng 11 2022,Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG


In [34]:
button = WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.CSS_SELECTOR, 'i.ficon.ficon-24.ficon-carrouselarrow-right' )))
button.click()

ElementClickInterceptedException: Message: element click intercepted: Element <i class="ficon ficon-24 ficon-carrouselarrow-right" tabindex="0"></i> is not clickable at point (611, 471). Other element would receive the click: <div class="BackToSearch-btnPanel">...</div>
  (Session info: chrome=122.0.6261.112)
Stacktrace:
	GetHandleVerifier [0x00007FF6E309AD02+56930]
	(No symbol) [0x00007FF6E300F602]
	(No symbol) [0x00007FF6E2EC42E5]
	(No symbol) [0x00007FF6E2F10A80]
	(No symbol) [0x00007FF6E2F0E8AB]
	(No symbol) [0x00007FF6E2F0C0B4]
	(No symbol) [0x00007FF6E2F0AE45]
	(No symbol) [0x00007FF6E2EFF798]
	(No symbol) [0x00007FF6E2F2BC9A]
	(No symbol) [0x00007FF6E2EFF09A]
	(No symbol) [0x00007FF6E2F2BEB0]
	(No symbol) [0x00007FF6E2F481E2]
	(No symbol) [0x00007FF6E2F2BA43]
	(No symbol) [0x00007FF6E2EFD438]
	(No symbol) [0x00007FF6E2EFE4D1]
	GetHandleVerifier [0x00007FF6E3416F8D+3711213]
	GetHandleVerifier [0x00007FF6E34704CD+4077101]
	GetHandleVerifier [0x00007FF6E346865F+4044735]
	GetHandleVerifier [0x00007FF6E3139736+706710]
	(No symbol) [0x00007FF6E301B8DF]
	(No symbol) [0x00007FF6E3016AC4]
	(No symbol) [0x00007FF6E3016C1C]
	(No symbol) [0x00007FF6E30068D4]
	BaseThreadInitThunk [0x00007FFD71D9257D+29]
	RtlUserThreadStart [0x00007FFD72E4AA58+40]


In [28]:
cusReviews = np.array(elem[0].split('\n'))     
data = np.array_split(cusReviews, len(cusReviews) // 9)

In [29]:
data

[array(['9,6 Trên cả tuyệt vời', 'Linh từ Việt Nam', 'Gia đình có em bé',
        'Phòng Gia Đình', 'Đã ở 1 đêm vào Tháng 11 năm 2022',
        'chỗ ở gần biển , sạch sẽ , nhân viên nhiệt tình.”',
        'chỗ ở sạch sẽ , nhân viên nhiệt tình , vị trí gần chợ Hàng Dương và cách biển tầm 500M. điểm trừ duy nhất là buổi tối hành lang phòng không mở đèn nên tối thui',
        'Đã nhận xét vào 20 tháng 11 2022',
        'Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG'], dtype='<U159'),
 array(['10,0 Trên cả tuyệt vời', 'Thanh từ Việt Nam',
        'Gia đình có trẻ em', 'Phòng Đôi Tiêu Chuẩn',
        'Đã ở 1 đêm vào Tháng 12 năm 2022', 'Ổn”',
        'Phòng ổn, mình đặt 2 phòng . Có điều phòng ở đây tuy mới nhưng nứt tường nhiều quá',
        'Đã nhận xét vào 22 tháng 3 2023',
        'Bạn thấy nhận xét này có hữu ích không?CÓ|KHÔNG'], dtype='<U159'),
 array(['10,0 Trên cả tuyệt vời', 'Nguyen từ Việt Nam', 'Cặp đôi',
        'Phòng Đôi Tiêu Chuẩn', 'Đã ở 1 đêm vào Tháng 11 năm 2022',
    

In [40]:
driver = driver.find_element(By.CSS_SELECTOR, 'i.ficon.ficon-24.ficon-carrouselarrow-right' )
driver.click()


NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":"i.ficon.ficon-24.ficon-carrouselarrow-right"}
  (Session info: chrome=122.0.6261.112); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#no-such-element-exception
Stacktrace:
	GetHandleVerifier [0x00007FF6E309AD02+56930]
	(No symbol) [0x00007FF6E300F602]
	(No symbol) [0x00007FF6E2EC42E5]
	(No symbol) [0x00007FF6E2F098ED]
	(No symbol) [0x00007FF6E2F09A2C]
	(No symbol) [0x00007FF6E2EFF13C]
	(No symbol) [0x00007FF6E2F2BCDF]
	(No symbol) [0x00007FF6E2EFF09A]
	(No symbol) [0x00007FF6E2F2BEB0]
	(No symbol) [0x00007FF6E2F481E2]
	(No symbol) [0x00007FF6E2F2BA43]
	(No symbol) [0x00007FF6E2EFD438]
	(No symbol) [0x00007FF6E2EFE4D1]
	GetHandleVerifier [0x00007FF6E3416F8D+3711213]
	GetHandleVerifier [0x00007FF6E34704CD+4077101]
	GetHandleVerifier [0x00007FF6E346865F+4044735]
	GetHandleVerifier [0x00007FF6E3139736+706710]
	(No symbol) [0x00007FF6E301B8DF]
	(No symbol) [0x00007FF6E3016AC4]
	(No symbol) [0x00007FF6E3016C1C]
	(No symbol) [0x00007FF6E30068D4]
	BaseThreadInitThunk [0x00007FFD71D9257D+29]
	RtlUserThreadStart [0x00007FFD72E4AA58+40]


In [111]:
reviewersInfo = driver.find_elements(By.CSS_SELECTOR, 'div[data-info-type="reviewer-name"]')
reviewer = [reviewerInfo.text for reviewerInfo in reviewersInfo]
reviewer[0].split(" ")
reviewer[3:4]

# groupsName = driver.find_elements(By.CSS_SELECTOR, 'div[data-info-type="group-name"]')
# group = [groupName.text for groupName in groupsName]

# roomsType = driver.find_elements(By.CSS_SELECTOR, 'div[data-info-type="room-type"]')
# room = [roomType.text for roomType in roomsType]

# staysDetail = driver.find_elements(By.CSS_SELECTOR, 'div[data-info-type="stay-detail"]')
# stay = [stayDetail.text for stayDetail in staysDetail]

# group-name
# room-type
# stay-detail
comments = driver.find_elements(By.CSS_SELECTOR, 'div[data-info-type="stay-detail"]')
comment = [comment.text for comment in comments]


['Phước', 'từ', 'Việt', 'Nam']

NoSuchWindowException: Message: no such window: target window already closed
from unknown error: web view not found
  (Session info: chrome=122.0.6261.129)
Stacktrace:
	GetHandleVerifier [0x00007FF67571AD02+56930]
	(No symbol) [0x00007FF67568F602]
	(No symbol) [0x00007FF6755442E5]
	(No symbol) [0x00007FF675521D4C]
	(No symbol) [0x00007FF6755B23F7]
	(No symbol) [0x00007FF6755C7891]
	(No symbol) [0x00007FF6755ABA43]
	(No symbol) [0x00007FF67557D438]
	(No symbol) [0x00007FF67557E4D1]
	GetHandleVerifier [0x00007FF675A96F8D+3711213]
	GetHandleVerifier [0x00007FF675AF04CD+4077101]
	GetHandleVerifier [0x00007FF675AE865F+4044735]
	GetHandleVerifier [0x00007FF6757B9736+706710]
	(No symbol) [0x00007FF67569B8DF]
	(No symbol) [0x00007FF675696AC4]
	(No symbol) [0x00007FF675696C1C]
	(No symbol) [0x00007FF6756868D4]
	BaseThreadInitThunk [0x00007FF869D7257D+29]
	RtlUserThreadStart [0x00007FF86AF4AA58+40]


In [4]:
data = {
    'reviewerName':reviewer[0],
    'place': 
    'groupName' = group,
    'roomType'
}
df = pd.DataFrame()

SyntaxError: invalid syntax (4112400317.py, line 4)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [7]:
link = 'https://www.agoda.com/vi-vn/mangrove-hotel-can-gio/hotel/can-gio-vn.html?finalPriceView=1&isShowMobileAppPrice=false&cid=-1&numberOfBedrooms=&familyMode=false&adults=1&children=0&rooms=1&maxRooms=0&checkIn=2024-03-24&isCalendarCallout=false&childAges=&numberOfGuest=0&missingChildAges=false&travellerType=-1&showReviewSubmissionEntry=false&currencyCode=VND&isFreeOccSearch=false&isCityHaveAsq=false&tspTypes=2,16,8&los=1&searchrequestid=991bc8d6-45cc-4041-91c8-a7abc14f8158]'
driver = webdriver.Chrome()
driver.get(link)
df = pd.DataFrame()

In [8]:
comments = driver.find_elements(By.CSS_SELECTOR, 'p[data-selenium="comment"]')
comment = [comment.text for comment in comments]

In [9]:
comment

['Sát bên chợ Hải Sản, cách biển khoảng 50m. Hơi xa thị trấn. Phòng ốc đẹp, sạch sẽ, mát mẻ tuy nhiên món ăn sáng khá cơ bản. Đồ ăn tương đương giá ở trung tâm tp',
 'Ks rất sạch, nv thân thiện, chỉ có duy nhất điểm trừ máy lạnh k mát . Khi phòng có vấn đề, liên hệ Lễ tân hỗ trợ rất nhanh. Cám ơn Mangrove!',
 'Tiện lợi, gần chợ Hải sản Hàng Dương và gần các dịch vụ ăn uống tại biển.',
 'Phòng ổn, mình đặt 2 phòng . Có điều phòng ở đây tuy mới nhưng nứt tường nhiều quá',
 'chỗ ở sạch sẽ , nhân viên nhiệt tình , vị trí gần chợ Hàng Dương và cách biển tầm 500M. điểm trừ duy nhất là buổi tối hành lang phòng không mở đèn nên tối thui']

In [10]:
scores = driver.find_elements(By.CSS_SELECTOR, 'div[class="Review-comment-leftScore"]')
score = [score.text for score in scores]
score

['10,0', '10,0', '10,0', '10,0', '9,6']

In [12]:
dates = driver.find_elements(By.CSS_SELECTOR, 'span[class="Review-statusBar-date "]')
date = [date.text for date in dates]
dateTime = [" ".join(day.split(" ")[4:]) for day in date]


['Đã nhận xét vào 28 tháng 12 2022',
 'Đã nhận xét vào 13 tháng 11 2022',
 'Đã nhận xét vào 07 tháng 4 2023',
 'Đã nhận xét vào 22 tháng 3 2023',
 'Đã nhận xét vào 20 tháng 11 2022']

In [15]:
dateTime

['28 tháng 12 2022',
 '13 tháng 11 2022',
 '07 tháng 4 2023',
 '22 tháng 3 2023',
 '20 tháng 11 2022']