# Web Scraping seach_hospital

# Test with "นนทบุรี"

## Import Libraries

In [None]:
# import library
from urllib.parse import quote
from gazpacho import get, Soup
import pandas as pd

## Fetch data

In [13]:
# Original URL with non-ASCII characters
url = "https://healthgate.hss.moph.go.th/search/hospital?search_province=นนทบุรี"

# Encode the URL
encoded_url = quote(url, safe=':/?=&')

# Fetch the HTML content from the encoded URL
html = get(encoded_url)

# Continue with gazpacho to parse the HTML
soup = Soup(html)

In [15]:
soup

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <title>ค้นหารพสต.</title>
    <!-- Favicon -->
    <link rel="icon" href="../../favicon.ico" type="image/x-icon">

    <!-- Google Fonts -->
    <link href="https://fonts.googleapis.com/css?family=Open+Sans:400,600,700" rel="stylesheet">
    <link href="https://fonts.googleapis.com/icon?family=Material+Icons" rel="stylesheet" type="text/css">

    <!-- Bootstrap Core Css -->
    <link href="https://healthgate.hss.moph.go.th/public/templatebackend/assets/plugins/bootstrap/dist/css/bootstrap.css" rel="stylesheet" />

    <!-- Animate.css Css -->
    <link href="https://healthgate.hss.moph.go.th/public/templatebackend/assets/plugins/animate-css/animate.css" rel="stylesheet" />

    <!-- Font Awesome Css -->
    <link href="https://healthgate.hss.moph.go.th/public/templatebackend/assets/pl

## Find data

In [16]:
# Find the table body
table_body = soup.find('tbody')

# Extract each row from the table body
rows = table_body.find('tr', mode='all')

data = []
for row in rows:
    # For each row, find all cells
    cells = row.find('td', mode='all')
    # Extract text from each cell and append to the data list
    row_data = [cell.text for cell in cells]
    data.append(row_data)

# `data` now contains all the extracted data
for row in data:
    print(row)

['นนทบุรี', 'เมืองนนทบุรี', 'บางเขน', 'มิตรไมตรีคลินิกเวชกรรม(คลองประปา)', '004087900']
['นนทบุรี', 'เมืองนนทบุรี', 'ท่าทราย', 'สุขใจคลินิกเวชกรรม', '003268400']
['นนทบุรี', 'เมืองนนทบุรี', 'สวนใหญ่', 'สมบุญคลินิกเวชกรรม', '003267900']
['นนทบุรี', 'เมืองนนทบุรี', 'ท่าทราย', 'มิตรไมตรีคลินิกเวชกรรม(ท่าทราย)', '004130300']
['นนทบุรี', 'บางใหญ่', 'บางแม่นาง', 'มิตรไมตรีคลินิกเวชกรรม(คลองถนน)', '004142700']
['นนทบุรี', 'เมืองนนทบุรี', 'ตลาดขวัญ', 'บ้านอบอุ่นคลินิกเวชกรรม(สาขาเรวดี)', '004143300']
['นนทบุรี', 'เมืองนนทบุรี', 'บางรักน้อย', 'บ้านอบอุ่นคลินิกเวชกรรม(สาขาท่าอิฐ)', '004143400']
['นนทบุรี', 'บางกรวย', 'ปลายบาง', 'บ้านอบอุ่นคลินิกเวชกรรม(สาขาปลายบาง)', '004143500']
['นนทบุรี', 'เมืองนนทบุรี', 'บางเขน', 'มิตรไมตรีคลินิกเวชกรรม(ประชานิเวศน์3)', '004143800']
['นนทบุรี', 'ปากเกร็ด', 'บางตลาด', 'มิตรไมตรีคลินิกเวชกรรม(กฤษดานคร)', '004130400']
['นนทบุรี', 'บางใหญ่', 'บางเลน', 'มิตรไมตรีคลินิกเวชกรรม (เจ้าพระยา)', '004130500']
['นนทบุรี', 'เมืองนนทบุรี', 'สวนใหญ่', 'คลินิกทันตกรรมบ้านรัก

## Change into DataFrame

In [18]:
# Convert the list to a DataFrame
df = pd.DataFrame(data, columns=["จังหวัด", "อำเภอ", "ตำบล", "ชื่อหน่วยงาน/รพสต.", "Login Code"])

df

Unnamed: 0,จังหวัด,อำเภอ,ตำบล,ชื่อหน่วยงาน/รพสต.,Login Code
0,นนทบุรี,เมืองนนทบุรี,บางเขน,มิตรไมตรีคลินิกเวชกรรม(คลองประปา),004087900
1,นนทบุรี,เมืองนนทบุรี,ท่าทราย,สุขใจคลินิกเวชกรรม,003268400
2,นนทบุรี,เมืองนนทบุรี,สวนใหญ่,สมบุญคลินิกเวชกรรม,003267900
3,นนทบุรี,เมืองนนทบุรี,ท่าทราย,มิตรไมตรีคลินิกเวชกรรม(ท่าทราย),004130300
4,นนทบุรี,บางใหญ่,บางแม่นาง,มิตรไมตรีคลินิกเวชกรรม(คลองถนน),004142700
...,...,...,...,...,...
896,นนทบุรี,ปากเกร็ด,บางพูด,เด็นแคร์เซ็นเตอร์ คลินิกทันตกรรม,002371600
897,นนทบุรี,เมืองนนทบุรี,ท่าทราย,ศูนย์บริการสาธารณสุขเทศบาลนครนนทบุรีที่ 6,002886600
898,นนทบุรี,บางใหญ่,เสาธงหิน,โรงพยาบาลเกษมราษฎร์อินเตอร์เนชั่นแนล รัตนาธิเบ...,001178700
899,นนทบุรี,เมืองนนทบุรี,ท่าทราย,คลินิกทันตแพทย์บุญชัย,002372600


# search_hospital_all_province

In [20]:
from urllib.parse import quote
from gazpacho import get, Soup
import pandas as pd

# Fetch the main page HTML
main_url = "https://healthgate.hss.moph.go.th/search-hospital"
main_html = get(main_url)
main_soup = Soup(main_html)

# Find the <select> element for provinces
select_element = main_soup.find('select', {'id': 'search_province'})

# Convert the select_element back to HTML string if necessary or directly work with it
select_html = str(select_element)

# `soup` is the parsed HTML of the main page where provinces are listed
select = Soup(select_html)  # Parse the select HTML segment containing provinces
options = select.find('option', mode='all')[1:]  # Skip the first option which is usually a placeholder

# List to hold data from all provinces
all_data = []

for option in options:
    province_name = option.text
    province_value = quote(province_name)  # Ensure the province name is URL-encoded

    # Dynamically build the URL for each province
    url = f"https://healthgate.hss.moph.go.th/search/hospital?search_province={province_value}"
    
    # Fetch the HTML content for each province
    html = get(url)
    soup = Soup(html)

    # Repeat the extraction process for each province
    table_body = soup.find('tbody')
    rows = table_body.find('tr', mode='all')

    for row in rows:
        cells = row.find('td', mode='all')
        row_data = [cell.text for cell in cells]
        all_data.append(row_data)

# Convert all collected data into a DataFrame
df = pd.DataFrame(all_data, columns=["จังหวัด", "อำเภอ", "ตำบล", "ชื่อหน่วยงาน/รพสต.", "Login Code"])

In [21]:
df

Unnamed: 0,จังหวัด,อำเภอ,ตำบล,ชื่อหน่วยงาน/รพสต.,Login Code
0,กรุงเทพมหานคร,เขตจตุจักร,ลาดยาว,คลินิกทันตกรรมสตอรี่เดนทรัลโฮม,004139500
1,กรุงเทพมหานคร,เขตดินแดง,ดินแดง,ประชาสุขคลินิกเวชกรรม,004131600
2,กรุงเทพมหานคร,เขตดอนเมือง,ดอนเมือง,คลินิกทันตกรรมบ้านหมอเม,004139600
3,กรุงเทพมหานคร,เขตบางกอกน้อย,บางขุนนนท์,ประภัศร์คลินิกทันตกรรม,004139800
4,กรุงเทพมหานคร,เขตบางซื่อ,บางซื่อ,คลินิกเฉพาะทางด้านเวชกรรมไตเทียมประชาราษฎร์,004139900
...,...,...,...,...,...
27472,บึงกาฬ,ปากคาด,โนนศิลา,ศูนย์สุขภาพชุมชนโรงพยาบาลปากคาด,001104701
27473,บึงกาฬ,เซกา,เซกา,ศูนย์สุขภาพชุมชนเขตเมืองเซกา,001104602
27474,บึงกาฬ,โซ่พิสัย,โซ่,ศูนย์สุขภาพชุมชนโรงพยาบาลโซ่พิสัย,001104301
27475,บึงกาฬ,พรเจริญ,พรเจริญ,ศูนย์สุขภาพสุขภาพชุมชนโรงพยาบาลพรเจริญ,001104101


In [22]:
# Ensure the 'Login Code' column is treated as a string
df['Login Code'] = df['Login Code'].astype(str)

# Enforce 'Login Code' to have a length of 9 characters
df['Login Code'] = df['Login Code'].apply(lambda x: x.zfill(9) if len(x) < 9 else x[-9:])

# Export the DataFrame to a CSV file
df.to_csv('search_hospital.csv', index=False)