# การทำ Web Scraping ด้วย Python

#### --- แนะนำให้ใช้ Python 3 ---

ก่อนอื่นเรามาทำการ Import Library ต่างๆ ที่จำเป็นต้องใช้กัน

- `urllib` ใช้ในการเปิด url และโหลดหน้าเวบเพจ
- `BeautifulSoup` ใช้ในการประมวลผลหน้า HTML 
- `sleep` ใช้ในการรอก่อนจะส่ง request หน้าเวบอันต่อไป
- `copy` ใช้ในการ copy object 

In [2]:
import urllib
from bs4 import BeautifulSoup
from time import sleep
import copy

ทดลองดึงข้อมูล GDH จาก Wikipedia https://th.wikipedia.org/wiki/จีดีเอช_ห้าห้าเก้า

<img src="https://i.bug-a-boo.tv/images/5d67f5de7caf08b85e02d97e2770b7ff/bugabooimage.jpg"/>

โดยปกติแล้ว url จะต้องประกอบไปด้วยตัวอักษร ASCII เท่านั้น นั่นคือเป็นภาษาไทยไม่ได้! เราจะต้องทำการแปลง (หรือเรียกว่าการ quote string) ให้อยู่ในรูปแบบของ percent-encoded string เสียก่อนโดยใช้ฟังก์ชัน `urllib.quote()` (ปกติ browser ของเราจะทำการแปลงให้อัตโนมัติ ถ้าเราพิมพ์ภาษาไทยเข้าไป) 

In [39]:
page = 'จีดีเอช_ห้าห้าเก้า'
print('จีดีเอช_ห้าห้าเก้า' + ' => ' + urllib.parse.quote(page)) # Use urllib.quote() for Python 2

url = 'http://th.wikipedia.org/wiki/' + urllib.parse.quote(page)

จีดีเอช_ห้าห้าเก้า => %E0%B8%88%E0%B8%B5%E0%B8%94%E0%B8%B5%E0%B9%80%E0%B8%AD%E0%B8%8A_%E0%B8%AB%E0%B9%89%E0%B8%B2%E0%B8%AB%E0%B9%89%E0%B8%B2%E0%B9%80%E0%B8%81%E0%B9%89%E0%B8%B2


เมื่อได้ url ที่พร้อมใช้งานแล้ว เราก็เรียก `urllib.urlopen()` ตามด้วยคำสั่ง `read()` เพื่ออ่านไฟล์ HTML ได้เลย 

ก่อนจะ `print()` เราอาจจะอยาก unquote string ก่อน เพื่อให้เราอ่าน url ใน link ต่างๆ บนหน้า HTML ที่เป็นภาษาไทยได้ง่ายขึ้น (ไม่เชื่อลอง `print()` แบบไม่ unquote ดู!)

In [41]:
# ----- TO DO 1 -----
# แปลงข้อมูลในตัวแปร page โดยใช้ urllib.parse.quote() ให้อยู่ในรูปแบบ percent-encoded string 
# แล้วนำไปต่อท้าย 'http://th.wikipedia.org/wiki/' แล้วเก็บไว้ในตัวแปร url ตามเดิม

url_unquoted = urllib.parse.unquote(url)
print(url_unquoted)

http://th.wikipedia.org/wiki/จีดีเอช_ห้าห้าเก้า


In [44]:
html = urllib.request.urlopen(url).read() # Use urllib.urlopen() for Python 2
# print(html)
print(urllib.parse.unquote(str(html))) # Use urllib.unquote() for Python 2

b'<!DOCTYPE html>\n<html class="client-nojs" lang="th" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>\xe0\xb8\x88\xe0\xb8\xb5\xe0\xb8\x94\xe0\xb8\xb5\xe0\xb9\x80\xe0\xb8\xad\xe0\xb8\x8a - \xe0\xb8\xa7\xe0\xb8\xb4\xe0\xb8\x81\xe0\xb8\xb4\xe0\xb8\x9e\xe0\xb8\xb5\xe0\xb9\x80\xe0\xb8\x94\xe0\xb8\xb5\xe0\xb8\xa2</title>\n<script>document.documentElement.className = document.documentElement.className.replace( /(^|\\s)client-nojs(\\s|$)/, "$1client-js$2" );</script>\n<script>(window.RLQ=window.RLQ||[]).push(function(){mw.config.set({"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"\xe0\xb8\x88\xe0\xb8\xb5\xe0\xb8\x94\xe0\xb8\xb5\xe0\xb9\x80\xe0\xb8\xad\xe0\xb8\x8a","wgTitle":"\xe0\xb8\x88\xe0\xb8\xb5\xe0\xb8\x94\xe0\xb8\xb5\xe0\xb9\x80\xe0\xb8\xad\xe0\xb8\x8a","wgCurRevisionId":7839820,"wgRevisionId":7839820,"wgArticleId":755900,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":

จากนั้นก็เรียกใช้งาน BeautifulSoup เพื่อทำการประมวลผล (parse) หน้า HTML ที่เราได้มา 

In [45]:
soup = BeautifulSoup(html, 'html.parser')
print(soup.prettify()[0:1000])

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="th">
 <head>
  <meta charset="utf-8"/>
  <title>
   จีดีเอช - วิกิพีเดีย
  </title>
  <script>
   document.documentElement.className = document.documentElement.className.replace( /(^|\s)client-nojs(\s|$)/, "$1client-js$2" );
  </script>
  <script>
   (window.RLQ=window.RLQ||[]).push(function(){mw.config.set({"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"จีดีเอช","wgTitle":"จีดีเอช","wgCurRevisionId":7839820,"wgRevisionId":7839820,"wgArticleId":755900,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["บทความที่เนื้อหาบางส่วนรอเพิ่มเติม","จีดีเอช","บริษัทของไทย","จีเอ็มเอ็ม แกรมมี่","ธุรกิจภาพยนตร์","บริษัทผู้สร้างภาพยนตร์ไทย","บริษัทที่ก่อตั้งในปี พ.ศ. 2558"],"wgBreakFrames":false,"wgPageContentLanguage":"th","wgPageContentModel":"wikitext","wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefault

## บริษัทในเครือปัจุบันของ GDH

ในแบบฝึกหัดนี้เราจะทำการดึงข้อมูลบริษัทในเครือปัจจุบันและรายชื่อผู้กำกับภาพยนตร์ในสังกัด GDH จากหน้าวิกิพีเดียกัน 

<img src="source/current_branch.png">

จากภาพข้างต้น จะเห็นได้ว่าหัวข้อของตารางที่เขียนว่า **ปัจจุบัน** นั้น อยู่ภายใน Tag `<dt>` (description term) ทีนี้เรามาดูกันว่า เราจะสามารถดึง Element นั้นออกมาใช้งานได้อย่างไรบ้าง ค่อยๆลอง uncomment แต่ละวิธีแล้วลองรันดู

In [50]:
# soup.find? 

print("1. soup.find('dt'):")
print(soup.find('dt'))

print("2. soup.dt:") # shorthand 
print(soup.dt) 

print("3. soup.find_all('dt'):")
print(soup.find_all('dt'))

print("4. soup('dt'):") # shorthand 
print(soup('dt')) 

print("5. soup.find_all('dt')[0]:")
print(soup.find_all('dt')[0])

1. soup.find('dt'):
<dt>ปัจจุบัน</dt>
2. soup.dt:
<dt>ปัจจุบัน</dt>
3. soup.find_all('dt'):
[<dt>ปัจจุบัน</dt>, <dt>อดีต</dt>, <dt>ผลิตในนามจีดีเอช</dt>, <dt>ผลิตในนามภาพดีทวีสุข (เฉพาะช่วงที่เป็นบริษัทในเครือจีดีเอช)</dt>, <dt>ผลิตในนามงานดีทวีสุข</dt>]
4. soup('dt'):
[<dt>ปัจจุบัน</dt>, <dt>อดีต</dt>, <dt>ผลิตในนามจีดีเอช</dt>, <dt>ผลิตในนามภาพดีทวีสุข (เฉพาะช่วงที่เป็นบริษัทในเครือจีดีเอช)</dt>, <dt>ผลิตในนามงานดีทวีสุข</dt>]
5. soup.find_all('dt')[0]:
<dt>ปัจจุบัน</dt>


เนื่องจากหัวข้อปัจจุบันอยู่ใน Tag `<dt>` อันแรกของเพจนั้น เราสามารถเรียกใช้ element ได้ด้วยคำสั่ง `soup.find('dt')` หรือ `soup.dt`
หรือหากเราอยากจะหา element `<dt>` ทั้งหมดก่อน แล้วค่อยเลือก element ที่เราต้องการ ก็ทำได้เช่นกัน แบบในตัวอย่างสุดท้าย

## ผู้กำกับภาพยนตร์ในสังกัด GDH

<img src="source/director.png">

ก่อนอื่นเราต้องมาหากันก่อนว่าข้อมูลผู้กำกับภาพยนตร์นั้นอยู่ส่วนไหนของเพจ ลอง Inspect เพจดูว่าเราจะสามารถใช้ Element ไหนเป็นจุดเริ่มต้นใน DOM Tree และค่อยๆไล่หาข้อมูลที่เราต้องการได้บ้าง


ทีนี้จาก `<span>ผู้กำกับในสังกัด</dt>` เราจะไปดึงรายชื่อผู้กำกับ ที่อยู่ใน `<ul>` (unordered list) ได้อย่างไร? จริงๆ แล้วสามารถทำได้หลากหลายวิธี ลองดูตัวอย่างสักสองวิธีดังต่อไปนี้ 

In [51]:
print(soup.find_all('b'))

[<b>จีดีเอช</b>, <b>บริษัท จีดีเอช ห้าห้าเก้า จำกัด</b>, <b>จีดีเอช ห้าห้าเก้า</b>, <b>จีดีเอช</b>, <b>ส่วนนี้รอเพิ่มเติมข้อมูล</b>, <b>ผู้กำกับภาพยนตร์</b>, <b>GDH</b>, <b>นาดาวบางกอก</b>, <b>ภาพดีทวีสุข</b>, <b>งานดีทวีสุข</b>, <b>อดีตนักแสดงในสังกัด</b>, <b>นักแสดงนอกสังกัดที่เคยร่วมมีผลงาน</b>, <b>110.91 ล้านบาท</b>, <b>112.15 ล้านบาท</b>, <b>146.14 ล้านบาท</b>, <b>รายการท่องเที่ยว</b>, <b>ปกิณกะ</b>, <b>ข่าวและสาระเชิงข่าว</b>, <b>สารคดี</b>, <b>ปกิณกะ</b>, <b>คมชัดลึก</b>, <b>บุคคลสำคัญ</b>, <b>ภาพยนตร์</b>, <b>ละคร</b>, <b>2559</b>, <b>2560</b>, <b>2561</b>, <b>ผลงานอื่นๆ</b>, <b>ดูเพิ่มเติม</b>]


In [52]:
director_list = soup.find_all('b')[3].parent.find_next_sibling()
print(urllib.parse.unquote(str(director_list)))

<p>หลังการก่อตั้งบริษัท จีดีเอช ห้าห้าเก้า จำกัด ได้เสนอซีรีส์จำนวน 4 เรื่องทันที ได้แก่ ซีรีส์ <a class="mw-redirect" href="/wiki/ไดอารี่ตุ๊ดซี่ส์_เดอะซีรีส์" title="ไดอารี่ตุ๊ดซี่ส์ เดอะซีรีส์">ไดอารี่ตุ๊ดซี่ส์</a> ออกอากาศทางช่อง<a href="/wiki/จีเอ็มเอ็ม_25" title="จีเอ็มเอ็ม 25">จีเอ็มเอ็ม 25</a> เมื่อวันที่ 23 มกราคม 2559 ซีรีส์ <a href="/wiki/ไอซียู_พยาบาลพิเศษ..เคสพิศวง" title="ไอซียู พยาบาลพิเศษ..เคสพิศวง">ไอซียู พยาบาลพิเศษ..เคสพิศวง</a> ออกอากาศทางช่องจีเอ็มเอ็ม 25 เมื่อวันที่ 7 พฤษภาคม 2559 ซีรีส์แก๊สโซฮัก รักเต็มถึง ออกอากาศทางไลน์ทีวีเมื่อวันที่ 6 กุมภาพันธ์ 2559 และซีรีส์ <a class="new" href="/w/index.php?title=มาลี_เพื่อนรัก...พลังพิสดาร&amp;action=edit&amp;redlink=1" title="มาลี เพื่อนรัก...พลังพิสดาร (ไม่มีหน้า)">มาลี เพื่อนรัก...พลังพิสดาร 2</a> ที่ยังไม่มีกำหนดออกอากาศ และยังได้ผลิตภาพยนตร์ต่อเนื่องอีกสองเรื่อง เรื่องแรกเป็นแนวรัก-ชีวิต เรื่อง <i><a href="/wiki/แฟนเดย์..แฟนกันแค่วันเดียว" title="แฟนเดย์..แฟนกันแค่วันเดียว">แฟนเดย์..แฟนกันแค่วันเดียว</a></i> กำกับโดย<

In [53]:
director_list = soup.find('b', string='ผู้กำกับภาพยนตร์').find_next('ul')
print(urllib.parse.unquote(str(director_list)))

<ul><li><a href="/wiki/จิระ_มะลิกุล" title="จิระ มะลิกุล">จิระ มะลิกุล</a></li>
<li><a href="/wiki/ยงยุทธ_ทองกองทุน" title="ยงยุทธ ทองกองทุน">ยงยุทธ ทองกองทุน</a></li>
<li><a href="/wiki/อดิสรณ์_ตรีสิริเกษม" title="อดิสรณ์ ตรีสิริเกษม">อดิสรณ์ ตรีสิริเกษม</a></li>
<li><a href="/wiki/ทรงยศ_สุขมากอนันต์" title="ทรงยศ สุขมากอนันต์">ทรงยศ สุขมากอนันต์</a></li>
<li><a href="/wiki/วิทยา_ทองอยู่ยง" title="วิทยา ทองอยู่ยง">วิทยา ทองอยู่ยง</a></li>
<li><a href="/wiki/นิธิวัฒน์_ธราธร" title="นิธิวัฒน์ ธราธร">นิธิวัฒน์ ธราธร</a></li>
<li><a href="/wiki/คมกฤษ_ตรีวิมล" title="คมกฤษ ตรีวิมล">คมกฤษ ตรีวิมล</a></li>
<li><a href="/wiki/ปวีณ_ภูริจิตปัญญา" title="ปวีณ ภูริจิตปัญญา">ปวีณ ภูริจิตปัญญา</a></li>
<li><a href="/wiki/บรรจง_ปิสัญธนะกูล" title="บรรจง ปิสัญธนะกูล">บรรจง ปิสัญธนะกูล</a></li>
<li><a href="/wiki/ภาคภูมิ_วงศ์ภูมิ" title="ภาคภูมิ วงศ์ภูมิ">ภาคภูมิ วงศ์ภูมิ</a></li>
<li><a href="/wiki/โสภณ_ศักดาพิศิษฏ์" title="โสภณ ศักดาพิศิษฏ์">โสภณ ศักดาพิศิษฏ์</a></li>
<li><a class="new" href="/w/ind

เมื่อได้ `<ul>` ที่ต้องการมาเรียบร้อยแล้ว เราก็สามารถดึง text ที่อยู่ในแต่ละ `<li>` (list item) ในลิสต์นั้นได้เลย 

In [54]:
for li in director_list('li'):
    print(li.a.text)

จิระ มะลิกุล
ยงยุทธ ทองกองทุน
อดิสรณ์ ตรีสิริเกษม
ทรงยศ สุขมากอนันต์
วิทยา ทองอยู่ยง
นิธิวัฒน์ ธราธร
คมกฤษ ตรีวิมล
ปวีณ ภูริจิตปัญญา
บรรจง ปิสัญธนะกูล
ภาคภูมิ วงศ์ภูมิ
โสภณ ศักดาพิศิษฏ์
เมษ ธราธร
ชยนพ บุญประกอบ
นวพล ธำรงรัตนฤทธิ์


หลายคนอาจจะสังเกตเห็นว่ามีผู้กำกับบางคนยังไม่มีหน้าวิกิพีเดียของตัวเอง ถ้าลอง inspect ดีๆจะพบว่า link เหล่านั้น จะมี `class="new"` กำกับไว้ 

<img src="source/class_new.png">

ถ้าเราอยากได้รายชื่อผู้กำกับที่ยังไม่มีหน้าวิกิของตัวเอง เราก็สามารถทำได้โดยการดึกข้อมูลจาก link `<a>` ที่มี attribute `class` เท่ากับ `new`

In [55]:
for a in director_list.find_all('a', {"class": "new"}):  # Or director_list.find_all('a', class_ ='new')
    print(a.text)

เมษ ธราธร
ชยนพ บุญประกอบ


## นักแสดงนาดาวบางกอก

ได้เวลาทดสอบความสามารถกันแล้ว! ลองเขียนโค้ดเพื่อดึงรายชื่อนักแสดงในสังกัดนาดาวบางกอก จากวิกิพีเดียกันดู

<img src="source/nadao_artists.png">

In [56]:
# Assignment in class
artists_list = soup.find('b', string='นาดาวบางกอก').find_next('ul')
for li in artists_list('li'):
    print(li.a.text)

ศิรชัช เจียรถาวร
กันต์ ชุณหวัตร
ธนภพ ลีรัตนขจร
โอบนิธิ วิวรรธนวรางค์
ธิติ มหาโยธารักษ์
ธีรดนย์ ศุภพันธุ์ภิญโญ
วงศ์รวี นทีธร
กฤษณภูมิ พิบูลสงคราม
ชลธร คงยิ่งยง
ศนันธฉัตร ธนพัฒน์พิศาล
เขมิศรา พลเดช
ณิชาภัทร ฉัตรชัยพลรัตน์
นรีกุล เกตุประภากร
กัญญาวีร์ สองเมือง
ภาวดี คุ้มโชคไพศาล
ชญานิษฐ์ ชาญสง่าเวช
ชานน สันตินธรกุล
นฤภรกมล ฉายแสง
อทิตยา เครก
เสฎฐวุฒิ อนุสิทธิ์
ณภัทร โชคจินดาชัย
อวัช รัตนปิณฑะ
ต้นหน ตันติเวชกุล
สาริษฐ์ ตรัยเลิศวิเชียร
ณัชพัณณ์ ปรมะเจริญโรจน์
ธีธัช รัตนศรีทัย
อิงครัต ดำรงค์ศักดิ์กุล
จิรายุส ขาวใบไม้
กณิศ วิเชียรวนิชกุล
แดน พฤกษ์พยุง
ปณชัย ศรีอริยะรุ่งเรือง
กานดิศ วรรณอรุณ
พุฒิพงศ์ อัสสรัตนกุล
กฤษฏ์ อำนวยเดชกร
พลวิชญ์ เกตุประภากร
พาริส อินทรโกมาลย์สุต
เจษฎาวัฒน์ สุวรรณวนิชกิจ
ศวรรยา ไพศาลพยัคฆ์


## ผลงานภาพยนตร์ของ GDH

ในแบบฝึกหัดต่อไป เราจะมาทำการดึงข้อมูลภาพยนตร์ของ GDH จากหน้าวิกิพีเดียกัน ว่าหนังแต่ละเรื่องเข้าฉายเมื่อไหร่ ทำรายได้ไปมากน้อยแค่ไหน และใครเป็นผู้กำกับ

<img src="source/product.png">

เช่นเคย เรามาเริ่มต้นจากการหา `<table>` ที่เราต้องการกันก่อน

In [57]:
table = soup.find(string='ภาพยนตร์').find_next('table').find_next('table')
print(table)

<table class="wikitable">
<tbody><tr>
<th>ปี พ.ศ.</th>
<th>เรื่อง</th>
<th>ผลิตโดย</th>
<th>วันเข้าฉาย</th>
<th>รายได้สูงสุด (ล้านบาท)</th>
<th>หมายเหตุ
</th></tr>
<tr>
<td rowspan="2">2559</td>
<td><a href="/wiki/%E0%B9%81%E0%B8%9F%E0%B8%99%E0%B9%80%E0%B8%94%E0%B8%A2%E0%B9%8C..%E0%B9%81%E0%B8%9F%E0%B8%99%E0%B8%81%E0%B8%B1%E0%B8%99%E0%B9%81%E0%B8%84%E0%B9%88%E0%B8%A7%E0%B8%B1%E0%B8%99%E0%B9%80%E0%B8%94%E0%B8%B5%E0%B8%A2%E0%B8%A7" title="แฟนเดย์..แฟนกันแค่วันเดียว">แฟนเดย์..แฟนกันแค่วันเดียว</a></td>
<td rowspan="5"><a class="new" href="/w/index.php?title=%E0%B8%88%E0%B8%AD%E0%B8%81%E0%B8%A7%E0%B9%89%E0%B8%B2%E0%B8%87%E0%B8%9F%E0%B8%B4%E0%B8%A5%E0%B9%8C%E0%B8%A1&amp;action=edit&amp;redlink=1" title="จอกว้างฟิล์ม (ไม่มีหน้า)">จอกว้างฟิล์ม</a></td>
<td>1 กันยายน</td>
<td><b>110.91 ล้านบาท</b></td>
<td>
</td></tr>
<tr>
<td><a href="/wiki/%E0%B8%9E%E0%B8%A3%E0%B8%88%E0%B8%B2%E0%B8%81%E0%B8%9F%E0%B9%89%E0%B8%B2" title="พรจากฟ้า">พรจากฟ้า</a>
</td>
<td>1 ธันวาคม</td>
<td>42.88 ล้านบาท</td>
<t

ปัญหาอย่างหนึ่งของตารางนี้ คือการใช้คำสั่ง `rowspan` ทำให้แต่ละแถว `<tr>` ในตาราง อาจะมีจำนวนคอลัมน์ `<td>` ไม่เท่ากัน ส่งผลให้ชื่อหนัง อาจจะอยู่ในคอลัมน์ที่ 0 หรือ 1 ก็ได้ ขึ้นอยู่กับว่าแถวนั้นเป็นแถวแรกของปีนั้นๆหรือไม่ 

<img src="source/rowspan.png">

เพื่อความง่าย เราจะไม่สนใจปีที่หนังเข้าฉายกันไปก่อน และลบ `<td>` ทุกอันที่มีการระบุค่า `rowspan` ด้วยฟังก์ชัน `extract()` เนื่องจากเดี๋ยวเราจะกลับมาใช้ตารางเต็มๆกันอีกครั้ง เราจึงต้องสร้างอีก copy `table` ไว้ก่อน 


In [83]:
# print(table('tr'))
# print(table.find_all('td', {'rowspan': True}))

simplified_table = copy.copy(table) # จะเกิดอะไรขึ้นถ้าเราใช้ `simplified_table = table` ? 
for td in simplified_table('td', {'rowspan': True}):
    td.extract() # ลบ element จาก DOM tree

print(urllib.parse.unquote(str(simplified_table)))
# print(table)


<table class="wikitable">
<tbody><tr>
<th>ปี พ.ศ.</th>
<th>เรื่อง</th>
<th>ผลิตโดย</th>
<th>วันเข้าฉาย</th>
<th>รายได้สูงสุด (ล้านบาท)</th>
<th>หมายเหตุ
</th></tr>
<tr>

<td><a href="/wiki/แฟนเดย์..แฟนกันแค่วันเดียว" title="แฟนเดย์..แฟนกันแค่วันเดียว">แฟนเดย์..แฟนกันแค่วันเดียว</a></td>

<td>1 กันยายน</td>
<td><b>110.91 ล้านบาท</b></td>
<td>
</td></tr>
<tr>
<td><a href="/wiki/พรจากฟ้า" title="พรจากฟ้า">พรจากฟ้า</a>
</td>
<td>1 ธันวาคม</td>
<td>42.88 ล้านบาท</td>
<td>ร่วมจัดจำหน่ายกับ สิงห์ คอร์เปอเรชัน
</td></tr>
<tr>

<td><a href="/wiki/ฉลาดเกมส์โกง" title="ฉลาดเกมส์โกง">ฉลาดเกมส์โกง</a> <sup class="reference" id="cite_ref-12"><a href="#cite_note-12">[12]</a></sup></td>
<td>3 พฤษภาคม</td>
<td><b>112.15 ล้านบาท</b>
</td></tr>
<tr>
<td><a href="/wiki/เพื่อน..ที่ระลึก" title="เพื่อน..ที่ระลึก">เพื่อน..ที่ระลึก</a></td>
<td>7 กันยายน</td>
<td>34.70 ล้านบาท</td>
<td>
</td></tr>
<tr>

<td><a href="/wiki/น้อง.พี่.ที่รัก" title="น้อง.พี่.ที่รัก">น้อง.พี่.ที่รัก</a></td>
<td>10 พฤษภาคม <sup cl

จะเห็นได้ว่า ตอนนี้ทุกแถวมี `<td>` สามอัน เท่ากันหมดแล้ว ทีนี้เราก็สามารถดึงข้อมูลออกมาได้ง่ายๆตามนี้

In [84]:
for tr in simplified_table('tr'):
    cells = tr('td')
    if len(cells):  # ทำไมต้องมีบรรทัดนี้ ?
        print('"%s", "%s", "%s"' % (cells[0].text, cells[1].text, cells[2].text))

"แฟนเดย์..แฟนกันแค่วันเดียว", "1 กันยายน", "110.91 ล้านบาท"
"พรจากฟ้า
", "1 ธันวาคม", "42.88 ล้านบาท"
"ฉลาดเกมส์โกง [12]", "3 พฤษภาคม", "112.15 ล้านบาท
"
"เพื่อน..ที่ระลึก", "7 กันยายน", "34.70 ล้านบาท"
"น้อง.พี่.ที่รัก", "10 พฤษภาคม [13]", "146.14 ล้านบาท
"
"BNK48 : GIRLS DON’T CRY", "บีเอ็นเคโฟร์ตีเอต ออฟฟิศแซลมอน เฮ้าส์แพลน บี มีเดียเวรี่ แซด พิคเจอร์ส", "16 สิงหาคม"
"2,215 เชื่อ บ้า กล้า ก้าว", "จีดีเอช ห้าห้าเก้า", "6 กันยายน"
"K1189B54N", "25 ตุลาคม", "ยังไม่เข้าฉาย"
"Friend Zone", "กุมภาพันธ์", "ยังไม่เข้าฉาย [15]
"


เราจะกำจัดแหล่งข้อมูลอ้างอิง เช่น `[12],[13],[14]` ออกจากชุดข้อมูลเราได้อย่างไร

**HINT:** 
- ลอง inspect ดูว่า element เหล่านั้น มี attribute อะไรเป็นพิเศษ
- และเราจะสามารถลบ element นั้นก่อนที่จะประมวลผลตารางได้อย่างไร

In [85]:
# ----- TO DO 2 -----
# QUIZ(1%) จงลบแหล่งข้อมูลอ้างอิง เช่น [12],[13],[14] ออกจากข้อมูล 
for l in simplified_table.find_all("sup",{"class":"reference"}):
    l.extract()
for tr in simplified_table('tr'):
    cells = tr('td')
    if len(cells):  # ทำไมต้องมีบรรทัดนี้ ?
        print('"%s", "%s", "%s"' % (cells[0].text, cells[1].text, cells[2].text))








"แฟนเดย์..แฟนกันแค่วันเดียว", "1 กันยายน", "110.91 ล้านบาท"
"พรจากฟ้า
", "1 ธันวาคม", "42.88 ล้านบาท"
"ฉลาดเกมส์โกง ", "3 พฤษภาคม", "112.15 ล้านบาท
"
"เพื่อน..ที่ระลึก", "7 กันยายน", "34.70 ล้านบาท"
"น้อง.พี่.ที่รัก", "10 พฤษภาคม ", "146.14 ล้านบาท
"
"BNK48 : GIRLS DON’T CRY", "บีเอ็นเคโฟร์ตีเอต ออฟฟิศแซลมอน เฮ้าส์แพลน บี มีเดียเวรี่ แซด พิคเจอร์ส", "16 สิงหาคม"
"2,215 เชื่อ บ้า กล้า ก้าว", "จีดีเอช ห้าห้าเก้า", "6 กันยายน"
"K1189B54N", "25 ตุลาคม", "ยังไม่เข้าฉาย"
"Friend Zone", "กุมภาพันธ์", "ยังไม่เข้าฉาย 
"


สำหรับคนที่อยากรู้ว่า ถ้าจะเอาข้อมูลปีที่เข้าฉายมาใช้ด้วย เราจะทำได้อย่างไร ลองพยายามทำความเข้าใจโค้ดข้างล่างนี้ดู

In [88]:
for sup in table('sup'):
    sup.extract()

rows = table('tr')
header = rows[0]
n_cols = len(header('th'))

current_year = None
movies = []

for tr in rows[1:]:
    movie = {}
    cells = tr('td')
    if cells[0].has_attr('rowspan'):
        current_year = tr.td.text
        cells = cells[1:]

    movie['year'] = current_year
    movie['name'] = cells[0].text
    movie['release_date'] = '%s %s' % (cells[1].text, current_year)
    movie['gross'] = cells[2].text
    movie['url'] = urllib.parse.unquote(cells[0].a['href'])
    movies.append(movie)

# TO DO 3 : เปลี่ยน url format % ให้อยู่ในรูปแบบ utf-8 (ต้องการแสดงผล url ที่เป็นภาษาไทย)
# ตัวอย่าง :เปลี่ยนจาก '/wiki/%E0%B9%81%E0%B8%9F%E0%B8%99%E0%B9%80%E0%B8%94%E0%B8%A2%E0%B9%8C' ให้เป็น '/wiki/แฟนเดย์..แฟนกันแค่วันเดียว'


print(movies)

[{'year': '2559', 'name': 'แฟนเดย์..แฟนกันแค่วันเดียว', 'release_date': 'จอกว้างฟิล์ม 2559', 'gross': '1 กันยายน', 'url': '/wiki/แฟนเดย์..แฟนกันแค่วันเดียว'}, {'year': '2559', 'name': 'พรจากฟ้า\n', 'release_date': '1 ธันวาคม 2559', 'gross': '42.88 ล้านบาท', 'url': '/wiki/พรจากฟ้า'}, {'year': '2560', 'name': 'ฉลาดเกมส์โกง ', 'release_date': '3 พฤษภาคม 2560', 'gross': '112.15 ล้านบาท\n', 'url': '/wiki/ฉลาดเกมส์โกง'}, {'year': '2560', 'name': 'เพื่อน..ที่ระลึก', 'release_date': '7 กันยายน 2560', 'gross': '34.70 ล้านบาท', 'url': '/wiki/เพื่อน..ที่ระลึก'}, {'year': '2561', 'name': 'น้อง.พี่.ที่รัก', 'release_date': '10 พฤษภาคม  2561', 'gross': '146.14 ล้านบาท\n', 'url': '/wiki/น้อง.พี่.ที่รัก'}, {'year': '2561', 'name': 'BNK48 : GIRLS DON’T CRY', 'release_date': 'บีเอ็นเคโฟร์ตีเอต ออฟฟิศแซลมอน เฮ้าส์แพลน บี มีเดียเวรี่ แซด พิคเจอร์ส 2561', 'gross': '16 สิงหาคม', 'url': '/wiki/BNK48_:_GIRLS_DON’T_CRY'}, {'year': '2561', 'name': '2,215 เชื่อ บ้า กล้า ก้าว', 'release_date': 'จีดีเอช ห้าห้าเก้า

ถึงตอนนี้ทุกคนอาจจะสงสัยว่า ทำไมเราต้องเขียนโค้ดให้มันวุ่นวายขนาดนี้ แค่ copy/paste แป๊ปเดียวก็เสร็จแล้ว

ถูกต้อง! และ Data scientist ที่ดีก็ควรจะเลือกใช้วิธีที่ช่วยให้เราทำงานได้เร็วที่สุด 

แต่...ตัวอย่างข้างต้นนั้น เป็นเพียงตัวอย่างง่ายๆเท่านั้น ในตัวอย่างถัดไป เราจะมาดึงข้อมูลว่าหนังแต่ละเรื่องใครกำกับ ซึ่งข้อมูลนี้ไม่ได้ให้มาในตาราง แต่เราสามารถหาได้ในหน้าวิกิของหนังแต่ละเรื่อง 

In [None]:
# โค๊ดเหมือนเดิม เราเอากลับมาเป็น % เหมือนเดิมเพราะภาษาไทยใช้ในการแสดงผลเท่านั้น
# ไม่สามารถนำ url ที่มีภาษาไทยต่อท้ายมา crawl data ได้

movies = []

for tr in rows[1:]:
    movie = {}
    cells = tr('td')
    if cells[0].has_attr('rowspan'):
        current_year = tr.td.text
        cells = cells[1:]

    movie['year'] = current_year
    movie['name'] = cells[0].text
    movie['release_date'] = '%s %s' % (cells[1].text, current_year)
    movie['gross'] = cells[2].text
    movie['url'] = cells[0].a['href']
    movies.append(movie)
    
print(movies)

In [None]:
for movie in movies:
    print('Processing ' + movie['name'] + '...')
    
    if movie['name'] == 'K1189B54N' or movie['name'] == 'Friend Zone':
        movie['directors'] = [u'ไม่ทราบรายชื่อผู้กำกับ']
        continue
        
    movie_html = urllib.request.urlopen('http://th.wikipedia.com' + movie['url'])
    movie_soup = BeautifulSoup(movie_html, 'html.parser')
    direct_td = movie_soup.find('th', text='กำกับ').find_next()
    movie['directors'] = [x.text for x in direct_td('a')] # list comprehension
    
    # มารยาทในการดึงข้อมูลเราควรที่จะต้องใส่ sleep เพื่อไม่ให้ server ทำงานหนักเกินไป
    sleep(1) 

In [None]:
for m in movies:
    print('"%s", "%s", "%s", "%s"' % 
          (m['name'], m['release_date'], m['gross'], m['directors']))