## Example API: Eurostat

Let's dive in by looking at an API that can be of use to us, the [EUROSTAT API](https://ec.europa.eu/eurostat/web/json-and-unicode-web-services).

The documentation linked gives a very useful summary of the structure of the requests:
![](https://github.com/nestauk/im-tutorials/blob/3-ysi-tutorial/notebooks/APIs/figures/eurostat_api.png?raw=1)
 
* host_url : fixed part of the request related to our website
* service : fixed part of the request related to the service
* version : fixed part of the request related to the version of the service
* format : data format to be returned (json or unicode)
* lang : language used for metadata (en/fr/de)
* datasetCode : unique code identifier of the queried dataset
* filters : specify the scope of the query (optional). There is a threshold of maximum 50 sub-indicators per query. The filters are specific to a dataset, depending on dataset dimensions.
    * precision : the number of decimals for the values returned by the request
    * unit : filter on the dataset's UNIT dimension 

# ตัวอย่าง 0 . การค้นหาใน Google

https://www.google.com/search?q=cat

![](./image/0.png)

# ตัวอย่าง 1. การหาตารางสอนของ  officerid=20710

https://home.sis.siam.edu/registrar/teach_time.asp?officerid=20710

![](https://raw.githubusercontent.com/Tuchsanai/152-495-Special-Topics-in-Electrical-Engineering/4e2a8ebb5a2354c54f59219ab616171aadbd5869/03_3_Api%20and%20Web%20scraping/image/1.png)

# ตัวอย่าง 2.การหารายชื่อ อาจารย์ทั้งหมด
https://home.sis.siam.edu/registrar/teach_time.asp?f_cmd=1

![](https://raw.githubusercontent.com/Tuchsanai/152-495-Special-Topics-in-Electrical-Engineering/4e2a8ebb5a2354c54f59219ab616171aadbd5869/03_3_Api%20and%20Web%20scraping/image/2.png)

# Basic HTML Document

![](https://raw.githubusercontent.com/Tuchsanai/152-495-Special-Topics-in-Electrical-Engineering/4e2a8ebb5a2354c54f59219ab616171aadbd5869/03_3_Api%20and%20Web%20scraping/image/3.png)

![](https://raw.githubusercontent.com/Tuchsanai/152-495-Special-Topics-in-Electrical-Engineering/4e2a8ebb5a2354c54f59219ab616171aadbd5869/03_3_Api%20and%20Web%20scraping/image/4.png)

![](https://raw.githubusercontent.com/Tuchsanai/152-495-Special-Topics-in-Electrical-Engineering/4e2a8ebb5a2354c54f59219ab616171aadbd5869/03_3_Api%20and%20Web%20scraping/image/5.png)



# Beginning to scrape with BeautifulSoup

In [1]:
# Install beautifulsoup4
!pip install beautifulsoup4

Collecting beautifulsoup4
  Downloading beautifulsoup4-4.10.0-py3-none-any.whl (97 kB)
Collecting soupsieve>1.2
  Using cached soupsieve-2.2.1-py3-none-any.whl (33 kB)
Installing collected packages: soupsieve, beautifulsoup4
Successfully installed beautifulsoup4-4.10.0 soupsieve-2.2.1


In [1]:
from bs4 import BeautifulSoup
import requests

In [4]:
html = requests.get("https://keithgalli.github.io/web-scraping/example.html")
bs = BeautifulSoup(html.content, "html.parser")
print(bs.prettify())

<html>
 <head>
  <title>
   HTML Example
  </title>
 </head>
 <body>
  <div align="middle">
   <h1>
    HTML Webpage
   </h1>
   <p>
    Link to more interesting example:
    <a href="https://keithgalli.github.io/web-scraping/webpage.html">
     keithgalli.github.io/web-scraping/webpage.html
    </a>
   </p>
  </div>
  <h2>
   A Header
  </h2>
  <p>
   <i>
    Some italicized text
   </i>
  </p>
  <h2>
   Another header
  </h2>
  <p id="paragraph-id">
   <b>
    Some bold text
   </b>
  </p>
 </body>
</html>



## find() and find_all() with BeautifulSoup

In [5]:
result_find = bs.find('h2')
result_findall = bs.find_all('h2')

print('find: ', result_find)
print('find_all: ', result_findall)

find:  <h2>A Header</h2>
find_all:  [<h2>A Header</h2>, <h2>Another header</h2>]


In [6]:
result_header_tags = bs.find_all(['h1', 'h2','h3','h4','h5','h6'])
print('Header: ', result_header_tags)

result_p_tags = bs.find_all('p')
print('p: ', result_p_tags)

Header:  [<h1>HTML Webpage</h1>, <h2>A Header</h2>, <h2>Another header</h2>]
p:  [<p>Link to more interesting example: <a href="https://keithgalli.github.io/web-scraping/webpage.html">keithgalli.github.io/web-scraping/webpage.html</a></p>, <p><i>Some italicized text</i></p>, <p id="paragraph-id"><b>Some bold text</b></p>]


In [7]:
for tag in result_p_tags:
    print(tag.get_text())

Link to more interesting example: keithgalli.github.io/web-scraping/webpage.html
Some italicized text
Some bold text


In [8]:
result_p_by_id = bs.find('p', attrs={'id': 'paragraph-id'})
print(result_p_by_id.get_text())

Some bold text


# โจทย์ 1. จงหารายชื่อ อาจารย์ ม. สยาม จาก 

https://home.sis.siam.edu/registrar/teach_time.asp?f_cmd=1

Hint :
       

In [1]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

html = requests.get("https://home.sis.siam.edu/registrar/teach_time.asp?f_cmd=1")
bs = BeautifulSoup(html.content, "html.parser")


วิธีที่ 1

In [2]:
result_findall = bs.find_all(['td'])

L_name = []

for tag_td in result_findall :
     font_tag = tag_td.find('font',attrs={"face":"MS Sans Serif" ,'size':'3'})
     if font_tag :
        L_name.append(font_tag.get_text())
    
    
df= pd.DataFrame({'name':L_name})
df

Unnamed: 0,name
0,ดร. ไกร โพธิ์งาม
1,ดร. ไกร โพธิ์งาม
2,ไกร โพธิ์งาม
3,ดร. ไพรัช วงศ์ยุทธไกร
4,ไพรัช วงศ์ยุทธไกร
...,...
5080,SEREE WONGMONTA
5081,อาจารย์ ชารีฟ เด่นสุมิตร
5082,SHARIF DENSUMITE
5083,อาจารย์ ภาควิชาเทคโนโลยีดิจิทัลและนวัตกรรม_1


In [3]:
# dropping ALL duplicate values
df = df.drop_duplicates(subset ="name",keep = False)
df = df.reset_index(drop=True)
df

Unnamed: 0,name
0,ไกร โพธิ์งาม
1,ดร. ไพรัช วงศ์ยุทธไกร
2,ไพรัช วงศ์ยุทธไกร
3,อาจารย์ กาญจนี มนต์วิเศษ
4,กาญจนี มนต์วิเศษ
...,...
4901,SEREE WONGMONTA
4902,อาจารย์ ชารีฟ เด่นสุมิตร
4903,SHARIF DENSUMITE
4904,อาจารย์ ภาควิชาเทคโนโลยีดิจิทัลและนวัตกรรม_1


วิธี 2.

In [10]:

result_findall = bs.find_all(['tr'])

L_name = []
L_url = []


for tag_tr in result_findall :
    
   tag_a    = tag_tr.find('a', href=True)
   font_tag = tag_tr.find_all(['font'],attrs={"face":"MS Sans Serif" ,'size':'3'})
    

   if  tag_a and len(font_tag)==2:
        url   = 'https://home.sis.siam.edu/registrar/'+tag_a['href']
        name  = font_tag[0].get_text()
        L_url.append(url)
        L_name.append(name)
        
        
    
df = pd.DataFrame({'name':L_name, 'url':L_url})
df = df.drop_duplicates(subset ="name",keep = False)
df = df.reset_index(drop=True)

df




Unnamed: 0,name,url
0,ดร. ไกร โพธิ์งาม,https://home.sis.siam.edu/registrar/teach_time...
1,ดร. ไพรัช วงศ์ยุทธไกร,https://home.sis.siam.edu/registrar/teach_time...
2,อาจารย์ กาญจนี มนต์วิเศษ,https://home.sis.siam.edu/registrar/teach_time...
3,อาจารย์ ขนิษฐา สังขรัตน์,https://home.sis.siam.edu/registrar/teach_time...
4,อาจารย์ คนึง ม่วงกล่อม,https://home.sis.siam.edu/registrar/teach_time...
...,...,...
2529,ดร. รัฐศาสตร์ กรสูต,https://home.sis.siam.edu/registrar/teach_time...
2530,รองศาสตราจารย์ นพ. พรพรต ลิ้มประเสริฐ,https://home.sis.siam.edu/registrar/teach_time...
2531,ดร. เสรี วงษ์มณฑา,https://home.sis.siam.edu/registrar/teach_time...
2532,อาจารย์ ชารีฟ เด่นสุมิตร,https://home.sis.siam.edu/registrar/teach_time...


In [15]:
i = 50
df.loc[i]['name']

'อาจารย์ สุรชาติ ศรีเมืองใต้'

In [16]:
df.loc[i]['url']

'https://home.sis.siam.edu/registrar/teach_time.asp?officerid=10479&f_cmd=2&officercode=39123013&officername=%CD%D2%A8%D2%C3%C2%EC+%CA%D8%C3%AA%D2%B5%D4+%C8%C3%D5%E0%C1%D7%CD%A7%E3%B5%E9&remark=&officeremail='

### ปัจจุบัน มี 3 เว็บที่แสดงข้อมูลคุณภาพอากาศปัจจุบันในประเทศไทยที่ใช้ข้อมูลจากสถานีวัดอากาศที่ไม่ใช้ข้อมูลจากดาวเทียมดังนี้ 
- AIR4THAI - เป็นข้อมูลจากกองจัดการคุณภาพอากาศและเสียง กรมควบคุมมลพิษ ที่ให้บริการบนเว็บ air4thai.pcd.go.th
- Bangkok Air Quality - เป็นข้อมูลจากกองจัดการคุณภาพอากาศและเสียงกรุงเทพมหานคร ที่ให้บริการคุณภาพอากาศตามจุดต่าง ๆ ของกรุงเทพมหานคร บนเว็บ bangkokairquality.com
- ศูนย์เฝ้าระวังคุณภาพอากาศ วช. - เป็นข้อมูลที่ทางสำนักงานการวิจัยแห่งชาติ (วช.) รวบรวมมาจัดทำเป็นเว็บให้บริการตรวจสอบคุณภาพอากาศประเทศไทยได้ทั่วโลก โดยให้บริการบนเว็บ pm2_5.nrct.go.th 
  
### ทั้งสามเว็บปรับปรุงข้อมูลทุก ๆ  1 ชั่วโมง โดยมีเพียง AIR4THAI เท่านั้นที่มี API ทั้ง JSON และ XML ให้ดึงไปใช้งานได้

In [1]:
import requests

url = 'http://air4thai.pcd.go.th/services/getNewAQI_JSON.php'
output = requests.get(url).json()
output


{'stations': [{'stationID': '02t',
   'nameTH': 'มหาวิทยาลัยราชภัฏบ้านสมเด็จเจ้าพระยา',
   'nameEN': 'Bansomdejchaopraya Rajabhat University',
   'areaTH': 'แขวงหิรัญรูจี เขตธนบุรี, กรุงเทพฯ',
   'areaEN': 'Hiran Ruchi, Khet Thon Buri, Bangkok',
   'stationType': 'GROUND',
   'lat': '13.732846',
   'long': '100.487662',
   'forecast': [],
   'LastUpdate': {'date': '2021-10-17',
    'time': '17:00',
    'PM25': {'value': '11', 'unit': 'µg/m³'},
    'PM10': {'value': '20', 'unit': 'µg/m³'},
    'O3': {'value': '16', 'unit': 'ppb'},
    'CO': {'value': '-', 'unit': 'ppm'},
    'NO2': {'value': '5', 'unit': 'ppb'},
    'SO2': {'value': '-', 'unit': 'ppb'},
    'AQI': {'Level': '1', 'aqi': '11'}}},
  {'stationID': '03t',
   'nameTH': 'ริมถนนทางหลวงหมายเลข 3902 ',
   'nameEN': 'Highway NO.3902 km.13 +600',
   'areaTH': 'ริมถนนกาญจนาภิเษก เขตบางขุนเทียน, กรุงเทพฯ',
   'areaEN': 'Kanchanaphisek Rd, Bang Khun Thian, Bangkok',
   'stationType': 'GROUND',
   'lat': '13.636514',
   'long': '100.41