<a href="https://colab.research.google.com/github/kanjanaengsrc/WebScraping/blob/master/BeautifulSoup101.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# การดึงข้อมูลจากเว็บไซต์ด้วยไพธอนและไลบรารี Beautiful Soup Version 4 (BS4)


*   ใช้ module สำหรับอ่านข้อมูลจาก url ที่ระบุด้วย urllib และ request
*   ใช้ module BeautifulSoup (BS4) สำหรับอ่าน DOM


/*** เสริม!! หากต้องการดูลำดับและค้นหา tag name ต่าง ๆ ใน html code เราสามารถใช้โค้ด JS ต่อไปนี้ ไปรันใน browser console **/


```
var i = 1;
[].forEach.call(document.getElementsByTagName("TAGNAME"),
   function(x) { 
     console.log(i++, x); 
   });
```

In [0]:
import requests
import urllib.parse
from bs4 import BeautifulSoup

ฟังก์ชัน readHtml ทำหน้าที่สร้าง http header และส่ง request ไปยัง url ที่กำหนด
เหตุผลที่ต้องสร้าง header คือ server บางตัวทำการตรวจสอบ abnormal access ก่อน หากพบว่าผิดปกติจะไม่ให้เข้าถึงทันที (Forbidden 403)

**หากต้องการพิสูจน์เรื่อง header ให้ลบ header ในโค้ดออก และเปลี่ยน url สำหรับดึงข้อมูลเป็น url = "https://www.freecodecamp.org/news/html-and-html5-example/"

In [0]:
def readHtml(url):
  headers = {'User-Agent':'Scraping-Bot'}
  response = requests.get(url,headers=headers)
  response.encoding = 'utf-8'
  return response.text

ในฟังก์ชัน showContents แสดงการใช้ฟังก์ชัน get_text() เพื่อเอาข้อมูลใน element มาแสดงผล


In [0]:
def showContents(contents):
  for content in contents:
    print(content.get_text())

ในฟังก์ชัน showLinks แสดงการใช้ฟังก์ชัน get พร้อมกับระบุ attribute ของสิ่งที่ต้องการ

In [0]:
def showLinks(links):
  for link in links:
    print(link.get_text(), end=" ")
    print(link.get('href'))

โปรแกรมเริ่มต้นการทำงานด้วยการสร้างต้นไม้ประเภทหนึ่งชื่อว่า DOM tree โดยการเรียกใช้ library BS4 ซึ่งระบุพารามิเตอร์ไว้ 2 ตัวคือ

1.   สตริงที่เขียนด้วยไวยากรณ์ภาษา markup language
2.   ชื่อ parser (ในที่นี้ใช้ html parser เนื่องจากอาร์กิวเม้นต์ในลำดับแรกมีลักษณะเป็นภาษา html)

In [0]:
url = "https://www.york.ac.uk/teaching/cws/wws/webpage1.html"
data = readHtml(url).replace('\n','')

In [6]:
data

'<HMTL><HEAD><TITLE>webpage1</TITLE></HEAD><BODY BGCOLOR="FFFFFf" LINK="006666" ALINK="8B4513" VLINK="006666"><TABLE WIDTH="75%" ALIGN="center"><TR><TD><DIV ALIGN="center"><H1>STARTING . . . </H1></DIV><DIV ALIGN="justify"><P>There are lots of ways to create web pages using already coded programmes. These lessons will teach you how to use the underlying HyperText Markup Language -  HTML. <BR><P>HTML isn\'t computer code, but is a language that uses US English to enable texts (words, images, sounds) to be inserted and formatting such as colo(u)r and centre/ering to be written in. The process is fairly simple; the main difficulties often lie in small mistakes - if you slip up while word processing your reader may pick up your typos, but the page will still be legible. However, if your HTML is inaccurate the page may not appear - writing web pages is, at the least, very good practice for proof reading!</P><P>Learning HTML will enable you to:<UL><LI>create your own simple pages<LI>read and

In [0]:
soup = BeautifulSoup(data,'html.parser')

เราสามารถดูต้นไม้ที่สร้างขึ้นได้ด้วยฟังก์ชัน prettify

In [8]:
soup.prettify()

'<hmtl>\n <head>\n  <title>\n   webpage1\n  </title>\n </head>\n <body alink="8B4513" bgcolor="FFFFFf" link="006666" vlink="006666">\n  <table align="center" width="75%">\n   <tr>\n    <td>\n     <div align="center">\n      <h1>\n       STARTING . . .\n      </h1>\n     </div>\n     <div align="justify">\n      <p>\n       There are lots of ways to create web pages using already coded programmes. These lessons will teach you how to use the underlying HyperText Markup Language -  HTML.\n       <br/>\n       <p>\n        HTML isn\'t computer code, but is a language that uses US English to enable texts (words, images, sounds) to be inserted and formatting such as colo(u)r and centre/ering to be written in. The process is fairly simple; the main difficulties often lie in small mistakes - if you slip up while word processing your reader may pick up your typos, but the page will still be legible. However, if your HTML is inaccurate the page may not appear - writing web pages is, at the least

# การค้นหาข้อมูลใน DOM Tree

ทดลองค้นหาข้อมูลภายใน element ต่าง ๆ ผ่านฟังก์ชัน 


1. find.TAGNAME.contents
2. find.TAGNAME.children
3. find('TAGNAME')
4. find+attrs (แบบระบุ attributes)
5. find+string

การใช้ฟังก์ชันเหล่านี้จะได้ผลลัพธ์ออกมาเพียง element เดียว ซึ่งเป็น element อันดับแรกนับจากรากของต้นไม้ DOM

In [0]:
body = soup.body.contents
ex = soup.find('h4')
value = soup.find(string='INSERTING IMAGES')
table = soup.find(attrs={
    'align':'left'
})
data = soup.find('div',attrs={
    'align':'center'
})

In [10]:
print('---Result of body---',body)
print('Result of ex',ex.get_text())
print('Result of value',value)
print('Result of table',table)
print('Result of data',data)

---Result of body--- [<table align="center" width="75%"><tr><td><div align="center"><h1>STARTING . . . </h1></div><div align="justify"><p>There are lots of ways to create web pages using already coded programmes. These lessons will teach you how to use the underlying HyperText Markup Language -  HTML. <br/><p>HTML isn't computer code, but is a language that uses US English to enable texts (words, images, sounds) to be inserted and formatting such as colo(u)r and centre/ering to be written in. The process is fairly simple; the main difficulties often lie in small mistakes - if you slip up while word processing your reader may pick up your typos, but the page will still be legible. However, if your HTML is inaccurate the page may not appear - writing web pages is, at the least, very good practice for proof reading!</p><p>Learning HTML will enable you to:<ul><li>create your own simple pages<li>read and appreciate pages created by others<li>develop an understanding of the creative and lite

หากไม่ต้องการให้ผลลัพธ์เก็บอยู่ในตัวแปร list แล้ว เราสามารถเรียกใช้ generator ที่ชื่อว่า children เพื่อวนรอบทำงานได้เลย
**ถึงแม้การใช้ find กับ children จะได้ผลลัพธ์เหมือนกัน แต่ optimization ต่างกัน

In [11]:
for child in soup.table.tr.td.children:
  if(child.name != None):
    print(child.name)

div
div


การค้นหาข้อมูลในต้นไม้ DOM อีกวิธีหนึ่งคือ find_all ซึ่งจะได้ผลลัพธ์ออกมามากกว่า 1 element และข้อมูลเก็บอยู่ในรูปของ list

In [12]:
heads = soup.find_all('h4')
links = soup.find_all('a')
print('----Result of heads----')
showContents(heads)
print('----Result of links----')
showLinks(links)

----Result of heads----
EXERCISE
----Result of links----
lesson two webpage2.html
back to wws index col3.html


ตัวอย่าง find_all ด้านล่างนี้เป็นการผสม regx เพื่อค้นหา attribute "href" ที่มีค่าสตริง .html ประกอบอยู่เท่านั้น ดังจะเห็นได้ว่า สตริง /inst/cws ไม่แสดงออกมาเหมือนตัวอย่างก่อนหน้า

In [0]:
import re
#href = soup.find_all(href=re.compile(".html"))
href = soup.find_all(attrs={
    'href':re.compile(".html")
})

In [14]:
href

[<a href="webpage2.html">lesson two</a>,
 <a href="col3.html">back to wws index</a>]

# การเดินทางใน DOM Tree (Traverse the DOM Tree)



> ให้เราจินตนาการว่าเราเดินทางไปในแต่ละกิ่งก้านของต้นไม้ สิ่งที่ต้องรู้จักคือ node ปัจจุบัน, node พ่อแม่, node น้อง (โหนดทางขวามือ), node พี่ (โหนดทางซ้ายมือ) และ node ลูก (เรื่องเดียวกับที่เรียนในวิชา Data Structures)
> สำหรับไลบรารี BS4 มีเครื่องมือให้เราเดินทางในต้นไม้ไว้เรียบร้อยแล้ว แบ่งประเภทการเดินทางออกเป็น 3 แบบคือ


1. เดินขึ้น ใช้ฟังก์ชัน
2. เดินลง
3. เดินในระดับเดียวกัน

โค้ดต่อไปนี้จะเริ่มเดินทางจาก body ของเพจ








In [0]:
body = soup.body

ทำการเดินขึ้นไปยังโหนดพ่อแม่ของ body ซึ่งก็คือ element ของ html ทั้งหมด

In [16]:
body.parent

<hmtl><head><title>webpage1</title></head><body alink="8B4513" bgcolor="FFFFFf" link="006666" vlink="006666"><table align="center" width="75%"><tr><td><div align="center"><h1>STARTING . . . </h1></div><div align="justify"><p>There are lots of ways to create web pages using already coded programmes. These lessons will teach you how to use the underlying HyperText Markup Language -  HTML. <br/><p>HTML isn't computer code, but is a language that uses US English to enable texts (words, images, sounds) to be inserted and formatting such as colo(u)r and centre/ering to be written in. The process is fairly simple; the main difficulties often lie in small mistakes - if you slip up while word processing your reader may pick up your typos, but the page will still be legible. However, if your HTML is inaccurate the page may not appear - writing web pages is, at the least, very good practice for proof reading!</p><p>Learning HTML will enable you to:<ul><li>create your own simple pages<li>read and 

เดินดูลูกทุกคนของ body ว่ามีใครบ้าง (เอาเฉพาะชื่อ tag มาเท่านั้น)
จะพบว่ามีโหนดลูกเพียงโหนดเดียวคือ table

In [17]:
for child in body.children:
  print(child.name)

table


จาก html code ที่นำมาใช้ พบว่าข้อมูลที่ปรากฎบนเว็บอยู่ใน element ของ td แรกของ table
และเพื่อให้เห็นภาพชัดเจนขึ้น จึงแสดงโหนดลูกของ td พร้อมกับ attribute ของ tag แต่ละอันดังนี้

In [18]:
for tdchild in body.table.tr.td.children:
  print(tdchild.name,'with ',tdchild.attrs)

div with  {'align': 'center'}
div with  {'align': 'justify'}


อยากไปหาน้องของพี่คนโต (div align center) ใช้ฟังก์ชัน next_sibling 

In [19]:
body.table.tr.td.div.next_sibling

<div align="justify"><p>There are lots of ways to create web pages using already coded programmes. These lessons will teach you how to use the underlying HyperText Markup Language -  HTML. <br/><p>HTML isn't computer code, but is a language that uses US English to enable texts (words, images, sounds) to be inserted and formatting such as colo(u)r and centre/ering to be written in. The process is fairly simple; the main difficulties often lie in small mistakes - if you slip up while word processing your reader may pick up your typos, but the page will still be legible. However, if your HTML is inaccurate the page may not appear - writing web pages is, at the least, very good practice for proof reading!</p><p>Learning HTML will enable you to:<ul><li>create your own simple pages<li>read and appreciate pages created by others<li>develop an understanding of the creative and literary implications of web-texts<li>have the confidence to branch out into more complex web design </li></li></li></

อยากไปหาลูกคนแรกของน้อง

In [20]:
body.table.tr.td.div.next_sibling.next_element

<p>There are lots of ways to create web pages using already coded programmes. These lessons will teach you how to use the underlying HyperText Markup Language -  HTML. <br/><p>HTML isn't computer code, but is a language that uses US English to enable texts (words, images, sounds) to be inserted and formatting such as colo(u)r and centre/ering to be written in. The process is fairly simple; the main difficulties often lie in small mistakes - if you slip up while word processing your reader may pick up your typos, but the page will still be legible. However, if your HTML is inaccurate the page may not appear - writing web pages is, at the least, very good practice for proof reading!</p><p>Learning HTML will enable you to:<ul><li>create your own simple pages<li>read and appreciate pages created by others<li>develop an understanding of the creative and literary implications of web-texts<li>have the confidence to branch out into more complex web design </li></li></li></li></ul></p><p>A HTML

เปรียบเทียบว่าโค้ดก่อนหน้าแสดงลูกคนแรกของ div ตัวที่สองจริงหรือไม่

In [21]:
for info in body.find('div',attrs={'align': 'justify'}).children:
  print('------')
  print(info)

------
<p>There are lots of ways to create web pages using already coded programmes. These lessons will teach you how to use the underlying HyperText Markup Language -  HTML. <br/><p>HTML isn't computer code, but is a language that uses US English to enable texts (words, images, sounds) to be inserted and formatting such as colo(u)r and centre/ering to be written in. The process is fairly simple; the main difficulties often lie in small mistakes - if you slip up while word processing your reader may pick up your typos, but the page will still be legible. However, if your HTML is inaccurate the page may not appear - writing web pages is, at the least, very good practice for proof reading!</p><p>Learning HTML will enable you to:<ul><li>create your own simple pages<li>read and appreciate pages created by others<li>develop an understanding of the creative and literary implications of web-texts<li>have the confidence to branch out into more complex web design </li></li></li></li></ul></p><p

ทดลองท่องไปใน element ต่าง ๆ ด้วย next_element และ next ซึ่งได้ผลลัพธ์เหมือนกัน

In [22]:
info.prettify()

'<p>\n There are lots of ways to create web pages using already coded programmes. These lessons will teach you how to use the underlying HyperText Markup Language -  HTML.\n <br/>\n <p>\n  HTML isn\'t computer code, but is a language that uses US English to enable texts (words, images, sounds) to be inserted and formatting such as colo(u)r and centre/ering to be written in. The process is fairly simple; the main difficulties often lie in small mistakes - if you slip up while word processing your reader may pick up your typos, but the page will still be legible. However, if your HTML is inaccurate the page may not appear - writing web pages is, at the least, very good practice for proof reading!\n </p>\n <p>\n  Learning HTML will enable you to:\n  <ul>\n   <li>\n    create your own simple pages\n    <li>\n     read and appreciate pages created by others\n     <li>\n      develop an understanding of the creative and literary implications of web-texts\n      <li>\n       have the confiden

In [23]:
info.next_element

'There are lots of ways to create web pages using already coded programmes. These lessons will teach you how to use the underlying HyperText Markup Language -  HTML. '

In [24]:
info.next_element.next_element

<br/>

In [25]:
info.next

'There are lots of ways to create web pages using already coded programmes. These lessons will teach you how to use the underlying HyperText Markup Language -  HTML. '

In [26]:
info.next.next

<br/>

In [27]:
info.next.next.next.next

"HTML isn't computer code, but is a language that uses US English to enable texts (words, images, sounds) to be inserted and formatting such as colo(u)r and centre/ering to be written in. The process is fairly simple; the main difficulties often lie in small mistakes - if you slip up while word processing your reader may pick up your typos, but the page will still be legible. However, if your HTML is inaccurate the page may not appear - writing web pages is, at the least, very good practice for proof reading!"

In [28]:
info.next_element.next_element.next_element.next_element

"HTML isn't computer code, but is a language that uses US English to enable texts (words, images, sounds) to be inserted and formatting such as colo(u)r and centre/ering to be written in. The process is fairly simple; the main difficulties often lie in small mistakes - if you slip up while word processing your reader may pick up your typos, but the page will still be legible. However, if your HTML is inaccurate the page may not appear - writing web pages is, at the least, very good practice for proof reading!"

เดินกลับไปหาโหนดก่อนหน้า

In [29]:
order = body.find('ul')
order

<ul><li>create your own simple pages<li>read and appreciate pages created by others<li>develop an understanding of the creative and literary implications of web-texts<li>have the confidence to branch out into more complex web design </li></li></li></li></ul>

In [30]:
order.previous_sibling

'Learning HTML will enable you to:'

In [31]:
order

<ul><li>create your own simple pages<li>read and appreciate pages created by others<li>develop an understanding of the creative and literary implications of web-texts<li>have the confidence to branch out into more complex web design </li></li></li></li></ul>