# Library

There is a daily limit for google translate. <br>
I will apply Yandex Translate instead.

In [0]:
!pip install yandex-translater

Collecting yandex-translater
  Downloading https://files.pythonhosted.org/packages/8c/fa/c65a83cd5a0e9860f8dae2c4dd27f76bc100241508a2e29127f6c4f63b9f/yandex_translater-6.0-py2.py3-none-any.whl
Installing collected packages: yandex-translater
Successfully installed yandex-translater-6.0


In [0]:
# Web scraping
import requests
from bs4 import BeautifulSoup
from time import time,sleep
from random import randint

# Utilities
from tqdm.auto import tqdm
import numpy as np
import pandas as pd

# Download
from google.colab import files

PATH = "/content/drive/My Drive/sen_ana/"

# Scraping

In [0]:
def honestdoc_comment(url):
    """
    This function is to scrap data from a webboard (https://www.honestdocs.com).

    INPUT
    url : String
      URL of the target website
    
    OUTPUT
    comment : List
      List of comments
    score : List
      List of rating score
    """
    #create connection
    data = requests.get(url)
    print("requests code : {}".format(data.status_code)) 
    print("note\n2xx: success\n4xx, 5xx: error")
    
    #scrape comment and score
    start_time = time() #start scraping data from page1
    r = requests.get(url, params=dict(query="web scraping",page=1)) 
    soup = BeautifulSoup(r.text,"html.parser")
    n = len(soup.find_all("div",{"class":"comments__content"})) #find n of items in the page
    
    #extract each item
    comment = [soup.find_all("div",
                             {"class":"comments__content"})[i].get_text().strip() for i in range(0,n)]
    score = [soup.find_all("span",
                           {"class":"stars star-rating"})[i].attrs["data-score"] for i in range(0,n)]
    elapsed_time = time() - start_time #finish scraping data from page1
    print("Time used for scraping data from page - 1 : {} s".format(elapsed_time))
    sleep(randint(1,3)) #mimic human behavior
           
    p = 2 #start scraping data from page2
    while n > 0: #until the number of items in a page = 0
        start_time = time() 
        r = requests.get(url, params=dict(query="web scraping",page=p))
        soup = BeautifulSoup(r.text,"html.parser")
        n = len(soup.find_all("div",{"class":"comments__content"}))
        [comment.append(soup.find_all("div",
                                      {"class":"comments__content"})[i].get_text().strip()) for i in range(0,n)]
        [score.append(soup.find_all("span",
                                    {"class":"stars star-rating"})[i].attrs["data-score"]) for i in range(0,n)]
        elapsed_time = time() - start_time
        print("Time used for scraping data from page - {} : {} s".format(p, elapsed_time))
        p +=1
        sleep(randint(1,3))
    
    #backup data 
    pd.DataFrame({"comment": comment, 
                  "score": score,
                  "hospital": str(url[url.rfind("/")+1:])}).to_csv(PATH+"comment_"+str(url[url.rfind("/")+1:]) + ".csv", index=False)
    
    return comment, score

In [0]:
#scrape
comment, score = honestdoc_comment(r"https://www.honestdocs.co/hospitals/ramathibodi-hospital")

# restore data
rama = pd.read_csv(PATH+"comment_ramathibodi-hospital.csv")
rama.head()

requests code : 200
note
2xx: success
4xx, 5xx: error
Time used for scraping data from page - 1 : 1.5920238494873047 s
Time used for scraping data from page - 2 : 1.6432509422302246 s
Time used for scraping data from page - 3 : 1.573096752166748 s
Time used for scraping data from page - 4 : 1.5943946838378906 s
Time used for scraping data from page - 5 : 1.5959582328796387 s
Time used for scraping data from page - 6 : 1.5650711059570312 s
Time used for scraping data from page - 7 : 1.6089930534362793 s
Time used for scraping data from page - 8 : 1.5843214988708496 s
Time used for scraping data from page - 9 : 1.605072259902954 s
Time used for scraping data from page - 10 : 1.6643476486206055 s
Time used for scraping data from page - 11 : 1.56858229637146 s
Time used for scraping data from page - 12 : 1.5768179893493652 s
Time used for scraping data from page - 13 : 1.601515769958496 s
Time used for scraping data from page - 14 : 1.5573623180389404 s
Time used for scraping data from pag

Unnamed: 0,comment,score,hospital
0,เคยได้ไปลองใช้บริการคลีนิคนอกเวลาของรามาเมื่อต...,5,ramathibodi-hospital
1,ผมเคยไปทำเลสิกที่นี้ ดีมากครับตอนนี้ผ่ามาจะ2ปี...,4,ramathibodi-hospital
2,รักษามาหลายปีแล้วตั้งแต่อายุ14 ตอนนี้จะจบปริญญ...,5,ramathibodi-hospital
3,ที่ตึกพระเทพชั้น 2 สถานที่เครื่องมือดูทันสมัย ...,3,ramathibodi-hospital
4,Its a public hospital so service is bad (nurse...,4,ramathibodi-hospital


In [0]:
#scrape
comment, score = honestdoc_comment(r"https://www.honestdocs.co/hospitals/siriraj-hospital")

# restore data
siriraj = pd.read_csv(PATH+"comment_siriraj-hospital.csv")
siriraj.head()

requests code : 200
note
2xx: success
4xx, 5xx: error
Time used for scraping data from page - 1 : 1.7664403915405273 s
Time used for scraping data from page - 2 : 1.6024212837219238 s
Time used for scraping data from page - 3 : 1.7260518074035645 s
Time used for scraping data from page - 4 : 1.6759154796600342 s
Time used for scraping data from page - 5 : 1.5778965950012207 s
Time used for scraping data from page - 6 : 1.6101596355438232 s
Time used for scraping data from page - 7 : 1.5768942832946777 s
Time used for scraping data from page - 8 : 1.595670223236084 s
Time used for scraping data from page - 9 : 1.6447985172271729 s
Time used for scraping data from page - 10 : 1.7298524379730225 s
Time used for scraping data from page - 11 : 1.5760283470153809 s
Time used for scraping data from page - 12 : 1.5674002170562744 s
Time used for scraping data from page - 13 : 1.576171875 s
Time used for scraping data from page - 14 : 1.595900535583496 s
Time used for scraping data from page - 

Unnamed: 0,comment,score,hospital
0,พยาบาลบริการดีคุณหมอสุภาพโรงพยาบาลรักษาความสะอ...,5,siriraj-hospital
1,ใช้บริการปรึกษาเรื่องแผลคีลอยด์ที่บริเวรต้นแขน...,5,siriraj-hospital
2,เป็นโรงพยาบาลที่ดีมากๆคะเคยรักษาเนื้องอกที่มดล...,5,siriraj-hospital
3,รพ.ศิริราช คุณหมอและพยาบาลน่ารักมากค่ะ ให้คำแน...,5,siriraj-hospital
4,พาคุณย่าไปรักษาโรคมะเร็ง บริการดี รวดเร็วเป็นก...,5,siriraj-hospital


In [0]:
#scrape
comment, score = honestdoc_comment(r"https://www.honestdocs.co/hospitals/king-chulalongkorn-memorial-hospital")

# restore data
chula = pd.read_csv(PATH+"comment_king-chulalongkorn-memorial-hospital.csv")
chula.head()

requests code : 200
note
2xx: success
4xx, 5xx: error
Time used for scraping data from page - 1 : 1.5743703842163086 s
Time used for scraping data from page - 2 : 1.6330108642578125 s
Time used for scraping data from page - 3 : 1.6072766780853271 s
Time used for scraping data from page - 4 : 1.5983190536499023 s
Time used for scraping data from page - 5 : 1.5835871696472168 s
Time used for scraping data from page - 6 : 1.5709173679351807 s
Time used for scraping data from page - 7 : 1.618823766708374 s
Time used for scraping data from page - 8 : 1.7265453338623047 s
Time used for scraping data from page - 9 : 1.5819408893585205 s
Time used for scraping data from page - 10 : 1.586329460144043 s
Time used for scraping data from page - 11 : 1.5740118026733398 s
Time used for scraping data from page - 12 : 1.5558607578277588 s
Time used for scraping data from page - 13 : 1.577207088470459 s
Time used for scraping data from page - 14 : 1.5785541534423828 s
Time used for scraping data from p

Unnamed: 0,comment,score,hospital
0,เรื่อง ของเรื่องมีอยู่ว่า ไม่มีไข้ แต่โดนกักตั...,5,king-chulalongkorn-memorial-hospital
1,บริการค่อนข้างดีค่ะ คุณหมอพยาบาลใจดีเป็นกันเอง...,4,king-chulalongkorn-memorial-hospital
2,ไปรับการตรวจเรื่องเม็ดเลือดในปัสสาวะค่ะ ต้องจอ...,4,king-chulalongkorn-memorial-hospital
3,บริการค่อยข้างดีค่ะ แต่รอคิวนานนิดหน่อย แต่วิน...,5,king-chulalongkorn-memorial-hospital
4,ได้มีอาการอาหารเป็นพิษและเข้าทำการรักษาที่โรงพ...,5,king-chulalongkorn-memorial-hospital


I will use all three files in one dataframe, since it is more convenient for me. Separate files will be submitted for evaluation.

In [0]:
candi_hosp = pd.concat([rama,siriraj,chula], axis=0, ignore_index=True)
candi_hosp.to_csv(PATH+"candidate_hospitals.csv", index=False)
candi_hosp

Unnamed: 0,comment,score,hospital
0,เคยได้ไปลองใช้บริการคลีนิคนอกเวลาของรามาเมื่อต...,5,ramathibodi-hospital
1,ผมเคยไปทำเลสิกที่นี้ ดีมากครับตอนนี้ผ่ามาจะ2ปี...,4,ramathibodi-hospital
2,รักษามาหลายปีแล้วตั้งแต่อายุ14 ตอนนี้จะจบปริญญ...,5,ramathibodi-hospital
3,ที่ตึกพระเทพชั้น 2 สถานที่เครื่องมือดูทันสมัย ...,3,ramathibodi-hospital
4,Its a public hospital so service is bad (nurse...,4,ramathibodi-hospital
...,...,...,...
706,ค่ำวันที่ 26 ตุลาคม 2559 เหตุการณ์ในวันนั้นฉัน...,5,king-chulalongkorn-memorial-hospital
707,ทำเพื่ออะไรรีวิวนี้แต่เราไปรักษารพจุฬาก็ได้รับ...,5,king-chulalongkorn-memorial-hospital
708,ทาง รพ. บริการคนไข้ดีมาก ใส่ใจผู้ป่วย เป็นกันเ...,5,king-chulalongkorn-memorial-hospital
709,หมอเก่ง,3,king-chulalongkorn-memorial-hospital


# Duplicate comments

In [0]:
pd.concat(g for _, g in candi_hosp.groupby(["comment", "hospital"]) if len(g) > 1)

# apparently same comment, different scores
# row indexs are quite close, they will be considered duplicates
# will only keep the first row

Unnamed: 0,comment,score,hospital
364,ตรวจดีมากๆค่ะคุณหมอละเอียด พยาบาลก็ดีดูแลคนไข้...,4,king-chulalongkorn-memorial-hospital
367,ตรวจดีมากๆค่ะคุณหมอละเอียด พยาบาลก็ดีดูแลคนไข้...,5,king-chulalongkorn-memorial-hospital
13,เป็นโรงพยาบาลที่ทั้งครอบครัวและญาติใช้บริการ ร...,5,ramathibodi-hospital
14,เป็นโรงพยาบาลที่ทั้งครอบครัวและญาติใช้บริการ ร...,5,ramathibodi-hospital
16,เป็นโรงพยาบาลที่ทั้งครอบครัวและญาติใช้บริการ ร...,5,ramathibodi-hospital
251,โรงพยาบาลมีคลินิคผู้ป่วยนอก มีคนมาใช้บริการเยอ...,3,siriraj-hospital
254,โรงพยาบาลมีคลินิคผู้ป่วยนอก มีคนมาใช้บริการเยอ...,5,siriraj-hospital


In [0]:
candi_hosp.drop_duplicates(subset=["comment", "hospital"],keep='first',inplace=True)
candi_hosp.reset_index(inplace=True,drop=True)
candi_hosp

# 4 rows removed (1 for chula, 2 for rama, 1 for siriraj )

Unnamed: 0,comment,score,hospital
0,เคยได้ไปลองใช้บริการคลีนิคนอกเวลาของรามาเมื่อต...,5,ramathibodi-hospital
1,ผมเคยไปทำเลสิกที่นี้ ดีมากครับตอนนี้ผ่ามาจะ2ปี...,4,ramathibodi-hospital
2,รักษามาหลายปีแล้วตั้งแต่อายุ14 ตอนนี้จะจบปริญญ...,5,ramathibodi-hospital
3,ที่ตึกพระเทพชั้น 2 สถานที่เครื่องมือดูทันสมัย ...,3,ramathibodi-hospital
4,Its a public hospital so service is bad (nurse...,4,ramathibodi-hospital
...,...,...,...
702,ค่ำวันที่ 26 ตุลาคม 2559 เหตุการณ์ในวันนั้นฉัน...,5,king-chulalongkorn-memorial-hospital
703,ทำเพื่ออะไรรีวิวนี้แต่เราไปรักษารพจุฬาก็ได้รับ...,5,king-chulalongkorn-memorial-hospital
704,ทาง รพ. บริการคนไข้ดีมาก ใส่ใจผู้ป่วย เป็นกันเ...,5,king-chulalongkorn-memorial-hospital
705,หมอเก่ง,3,king-chulalongkorn-memorial-hospital


# Comment Translation

In [0]:
# Thai to English translation
from yandex.Translater import Translater

tr = Translater()
tr.set_key("trnsl.1.1.20200512T034022Z.ed5d7ccf14643c28.17c7515c3869f75fb38e02d7daadd421b8a7eb6b")
tr.set_from_lang("th")
tr.set_to_lang("en")

In [0]:
def th2en(comment):
  tr.set_text(comment)
  return tr.translate()

In [0]:
#translate
tqdm.pandas()
candi_hosp["en"] = candi_hosp.progress_apply(lambda x: th2en(x["comment"]), axis=1)

#print
candi_hosp.head()

HBox(children=(FloatProgress(value=0.0, max=707.0), HTML(value='')))




Unnamed: 0,comment,score,hospital,en
0,เคยได้ไปลองใช้บริการคลีนิคนอกเวลาของรามาเมื่อต...,5,ramathibodi-hospital,"Ever were going to try to use the service, the..."
1,ผมเคยไปทำเลสิกที่นี้ ดีมากครับตอนนี้ผ่ามาจะ2ปี...,4,ramathibodi-hospital,I've been to Lasik the this good now. coming t...
2,รักษามาหลายปีแล้วตั้งแต่อายุ14 ตอนนี้จะจบปริญญ...,5,ramathibodi-hospital,Treatment for years since the age of 14 will n...
3,ที่ตึกพระเทพชั้น 2 สถานที่เครื่องมือดูทันสมัย ...,3,ramathibodi-hospital,"Building the floor 2. place tools, modern look..."
4,Its a public hospital so service is bad (nurse...,4,ramathibodi-hospital,Its a public hospital so service is bad (the n...


In [0]:
candi_hosp.to_csv(PATH+"candidate_hospitals_translated.csv")