# Assignment: Extracting Static WebPage

Extract information about “วันพระ” for 3 years from:
- https://www.myhora.com/ปฏิทิน/วันพระ-พ.ศ.2563.aspx
- https://www.myhora.com/ปฏิทิน/วันพระ-พ.ศ.2564.aspx
- https://www.myhora.com/ปฏิทิน/วันพระ-พ.ศ.2565.aspx


Note that you can use dateparse package to parse Thai date.  First, we will have to install the package, this is for Google Colab users.  Otherwise, installing via command line is recommended (pip or conda).

In [1]:
!pip install dateparser



In [2]:
import dateparser

To convert from thai text date string, we will use the parse method.  Note that the parse method assumes the BC year, not BE.  Thus, we will have to subtract 543 from the year.  In addition, weekday() returns day of week with 0=Monday, ..., 6=Sunday.

In [3]:
dt = dateparser.parse('วันศุกร์ที่ 17 มกราคม 2563')

# this will print out weekday == 0 (Monday)
print(dt)
print(dt.weekday())

# this will print out weekday == 4 (Friday)
dt = dt.replace(year=dt.year-543)
print(dt)
print(dt.weekday())

2563-01-17 00:00:00
0
2020-01-17 00:00:00
4


In [4]:
dt = dateparser.parse('วันเสาร์ที่ 21 กันยายน 2564')
dt = dt.replace(year=dt.year-543)
print(dt)
print(dt.weekday())

2021-09-21 00:00:00
1


In [5]:
import requests
import re
from bs4 import BeautifulSoup

In [6]:
onepra2563 = requests.get('https://www.myhora.com/ปฏิทิน/วันพระ-พ.ศ.2563.aspx')
onepra2564 = requests.get('https://www.myhora.com/ปฏิทิน/วันพระ-พ.ศ.2564.aspx')
onepra2565 = requests.get('https://www.myhora.com/ปฏิทิน/วันพระ-พ.ศ.2565.aspx')

In [7]:
print(len(onepra2563.text))
print(len(onepra2564.text))
print(len(onepra2565.text))

56434
57492
56102


Count the distribution of number of week days that are “วันพระ” for all three years and answer the following questions:

## How many วันพระ in total (of 3 years)?

In [9]:
soup2563 = BeautifulSoup(onepra2563.text, 'lxml')
soup2564 = BeautifulSoup(onepra2564.text, 'lxml')
soup2565 = BeautifulSoup(onepra2565.text, 'lxml')

In [10]:
date = list()
days = list()
i = 0
for day in soup2563.find_all('div', {'class': 'bud-day-col'}):
    if i % 3 == 0:
        dt = dateparser.parse(day.get_text())
        dt = dt.replace(year=dt.year-543)
        date.append(day.get_text())
        days.append(dt.weekday())
    i = i + 1
j = 0
for day in soup2564.find_all('div', {'class': 'bud-day-col'}):
    if j % 3 == 0:
        dt = dateparser.parse(day.get_text())
        dt = dt.replace(year=dt.year-543)
        date.append(day.get_text())
        days.append(dt.weekday())
    j = j + 1
k = 0
for day in soup2565.find_all('div', {'class': 'bud-day-col'}):
    if k % 3 == 0:
        dt = dateparser.parse(day.get_text())
        dt = dt.replace(year=dt.year-543)
        date.append(day.get_text())
        days.append(dt.weekday())
    k = k + 1

In [11]:
import pandas as pd
df = pd.DataFrame(list(zip(date, days)),
               columns =['date', 'day'])

In [12]:
df

Unnamed: 0,date,day
0,วันพฤหัสบดีที่ 2 มกราคม 2563,3
1,วันพฤหัสบดีที่ 9 มกราคม 2563,3
2,วันศุกร์ที่ 17 มกราคม 2563,4
3,วันศุกร์ที่ 24 มกราคม 2563,4
4,วันเสาร์ที่ 1 กุมภาพันธ์ 2563,5
...,...,...
147,วันพฤหัสบดีที่ 1 ธันวาคม 2565,3
148,วันพฤหัสบดีที่ 8 ธันวาคม 2565,3
149,วันศุกร์ที่ 16 ธันวาคม 2565,4
150,วันพฤหัสบดีที่ 22 ธันวาคม 2565,3


## How many days in total (of 3 years) that วันพระ is Sunday?

In [13]:
df[df['day']==6]

Unnamed: 0,date,day
6,วันอาทิตย์ที่ 16 กุมภาพันธ์ 2563,6
8,วันอาทิตย์ที่ 1 มีนาคม 2563,6
9,วันอาทิตย์ที่ 8 มีนาคม 2563,6
24,วันอาทิตย์ที่ 28 มิถุนายน 2563,6
25,วันอาทิตย์ที่ 5 กรกฎาคม 2563,6
43,วันอาทิตย์ที่ 8 พฤศจิกายน 2563,6
44,วันอาทิตย์ที่ 15 พฤศจิกายน 2563,6
61,วันอาทิตย์ที่ 21 มีนาคม 2564,6
62,วันอาทิตย์ที่ 28 มีนาคม 2564,6
64,วันอาทิตย์ที่ 11 เมษายน 2564,6


In [14]:
df[df['day']==6].shape

(21, 2)

## Which day of the week that has the minimum number of วันพระ?

In [15]:
df.day.value_counts().idxmin()

5

## Which day of the week that has the maximum number of วันพระ?

In [16]:
df.day.value_counts().idxmax()

3