# การทำ Web Scraping ด้วย Python

#### --- แนะนำให้ใช้ Python 3 ---

ก่อนอื่นเรามาทำการ Import Library ต่างๆ ที่จำเป็นต้องใช้กัน

- `urllib` ใช้ในการเปิด url และโหลดหน้าเวบเพจ
- `BeautifulSoup` ใช้ในการประมวลผลหน้า HTML 
- `sleep` ใช้ในการรอก่อนจะส่ง request หน้าเวบอันต่อไป
- `copy` ใช้ในการ copy object 

In [2]:
import urllib
from bs4 import BeautifulSoup
from time import sleep
import copy

ทดลองดึงข้อมูล GDH จาก Wikipedia https://th.wikipedia.org/wiki/จีดีเอช_ห้าห้าเก้า

<img src="https://i.bug-a-boo.tv/images/5d67f5de7caf08b85e02d97e2770b7ff/bugabooimage.jpg"/>

โดยปกติแล้ว url จะต้องประกอบไปด้วยตัวอักษร ASCII เท่านั้น นั่นคือเป็นภาษาไทยไม่ได้! เราจะต้องทำการแปลง (หรือเรียกว่าการ quote string) ให้อยู่ในรูปแบบของ percent-encoded string เสียก่อนโดยใช้ฟังก์ชัน `urllib.quote()` (ปกติ browser ของเราจะทำการแปลงให้อัตโนมัติ ถ้าเราพิมพ์ภาษาไทยเข้าไป) 

In [21]:
page = 'จีดีเอช_ห้าห้าเก้า'
print('จีดีเอช_ห้าห้าเก้า' + ' => ' + urllib.parse.quote(page)) # Use urllib.quote() for Python 2

url = 'http://th.wikipedia.org/wiki/' + page

จีดีเอช_ห้าห้าเก้า => %E0%B8%88%E0%B8%B5%E0%B8%94%E0%B8%B5%E0%B9%80%E0%B8%AD%E0%B8%8A_%E0%B8%AB%E0%B9%89%E0%B8%B2%E0%B8%AB%E0%B9%89%E0%B8%B2%E0%B9%80%E0%B8%81%E0%B9%89%E0%B8%B2


เมื่อได้ url ที่พร้อมใช้งานแล้ว เราก็เรียก `urllib.urlopen()` ตามด้วยคำสั่ง `read()` เพื่ออ่านไฟล์ HTML ได้เลย 

ก่อนจะ `print()` เราอาจจะอยาก unquote string ก่อน เพื่อให้เราอ่าน url ใน link ต่างๆ บนหน้า HTML ที่เป็นภาษาไทยได้ง่ายขึ้น (ไม่เชื่อลอง `print()` แบบไม่ unquote ดู!)

In [22]:
# ----- TO DO 1 -----
# แปลงข้อมูลในตัวแปร page โดยใช้ urllib.parse.quote() ให้อยู่ในรูปแบบ percent-encoded string 
# แล้วนำไปต่อท้าย 'http://th.wikipedia.org/wiki/' แล้วเก็บไว้ในตัวแปร url ตามเดิม

url = urllib.parse.unquote(url)
print(url)

http://th.wikipedia.org/wiki/จีดีเอช_ห้าห้าเก้า


In [24]:
html = urllib.request.urlopen(url).read() # Use urllib.urlopen() for Python 2
# print(html)
# print(urllib.parse.unquote(str(html))) # Use urllib.unquote() for Python 2

AttributeError: module 'urllib' has no attribute 'urlopen'

จากนั้นก็เรียกใช้งาน BeautifulSoup เพื่อทำการประมวลผล (parse) หน้า HTML ที่เราได้มา 

In [None]:
soup = BeautifulSoup(html, 'html.parser')
print(soup.prettify()[0:1000])

## บริษัทในเครือปัจุบันของ GDH

ในแบบฝึกหัดนี้เราจะทำการดึงข้อมูลบริษัทในเครือปัจจุบันและรายชื่อผู้กำกับภาพยนตร์ในสังกัด GDH จากหน้าวิกิพีเดียกัน 

<img src="source/current_branch.png">

จากภาพข้างต้น จะเห็นได้ว่าหัวข้อของตารางที่เขียนว่า **ปัจจุบัน** นั้น อยู่ภายใน Tag `<dt>` (description term) ทีนี้เรามาดูกันว่า เราจะสามารถดึง Element นั้นออกมาใช้งานได้อย่างไรบ้าง ค่อยๆลอง uncomment แต่ละวิธีแล้วลองรันดู

In [None]:
# soup.find? 

print("1. soup.find('dt'):")
print(soup.find('dt'))

#print("2. soup.dt:") # shorthand 
#print(soup.dt) 

#print("3. soup.find_all('dt'):")
#print(soup.find_all('dt'))

# print("4. soup('dt'):") # shorthand 
# print(soup('dt')) 

#print("5. soup.find_all('dt')[0]:")
#print(soup.find_all('dt')[0])

เนื่องจากหัวข้อปัจจุบันอยู่ใน Tag `<dt>` อันแรกของเพจนั้น เราสามารถเรียกใช้ element ได้ด้วยคำสั่ง `soup.find('dt')` หรือ `soup.dt`
หรือหากเราอยากจะหา element `<dt>` ทั้งหมดก่อน แล้วค่อยเลือก element ที่เราต้องการ ก็ทำได้เช่นกัน แบบในตัวอย่างสุดท้าย

## ผู้กำกับภาพยนตร์ในสังกัด GDH

<img src="source/director.png">

ก่อนอื่นเราต้องมาหากันก่อนว่าข้อมูลผู้กำกับภาพยนตร์นั้นอยู่ส่วนไหนของเพจ ลอง Inspect เพจดูว่าเราจะสามารถใช้ Element ไหนเป็นจุดเริ่มต้นใน DOM Tree และค่อยๆไล่หาข้อมูลที่เราต้องการได้บ้าง


ทีนี้จาก `<span>ผู้กำกับในสังกัด</dt>` เราจะไปดึงรายชื่อผู้กำกับ ที่อยู่ใน `<ul>` (unordered list) ได้อย่างไร? จริงๆ แล้วสามารถทำได้หลากหลายวิธี ลองดูตัวอย่างสักสองวิธีดังต่อไปนี้ 

In [None]:
print(soup.find_all('b'))

In [None]:
director_list = soup.find_all('b')[3].parent.find_next_sibling()
print(urllib.parse.unquote(str(director_list)))

In [None]:
director_list = soup.find('b', string='ผู้กำกับภาพยนตร์').find_next('ul')
print(urllib.parse.unquote(str(director_list)))

เมื่อได้ `<ul>` ที่ต้องการมาเรียบร้อยแล้ว เราก็สามารถดึง text ที่อยู่ในแต่ละ `<li>` (list item) ในลิสต์นั้นได้เลย 

In [None]:
for li in director_list('li'):
    print(li.a.text)

หลายคนอาจจะสังเกตเห็นว่ามีผู้กำกับบางคนยังไม่มีหน้าวิกิพีเดียของตัวเอง ถ้าลอง inspect ดีๆจะพบว่า link เหล่านั้น จะมี `class="new"` กำกับไว้ 

<img src="source/class_new.png">

ถ้าเราอยากได้รายชื่อผู้กำกับที่ยังไม่มีหน้าวิกิของตัวเอง เราก็สามารถทำได้โดยการดึกข้อมูลจาก link `<a>` ที่มี attribute `class` เท่ากับ `new`

In [None]:
for a in director_list.find_all('a', {"class": "new"}):  # Or director_list.find_all('a', class_ ='new')
    print(a.text)

## นักแสดงนาดาวบางกอก

ได้เวลาทดสอบความสามารถกันแล้ว! ลองเขียนโค้ดเพื่อดึงรายชื่อนักแสดงในสังกัดนาดาวบางกอก จากวิกิพีเดียกันดู

<img src="source/nadao_artists.png">

In [None]:
# Assignment in class
artists_list = soup.find('b', string='นาดาวบางกอก').find_next('ul')
for li in artists_list('li'):
    print(li.a.text)

## ผลงานภาพยนตร์ของ GDH

ในแบบฝึกหัดต่อไป เราจะมาทำการดึงข้อมูลภาพยนตร์ของ GDH จากหน้าวิกิพีเดียกัน ว่าหนังแต่ละเรื่องเข้าฉายเมื่อไหร่ ทำรายได้ไปมากน้อยแค่ไหน และใครเป็นผู้กำกับ

<img src="source/product.png">

เช่นเคย เรามาเริ่มต้นจากการหา `<table>` ที่เราต้องการกันก่อน

In [None]:
table = soup.find(string='ภาพยนตร์').find_next('table').find_next('table')
print(table)

ปัญหาอย่างหนึ่งของตารางนี้ คือการใช้คำสั่ง `rowspan` ทำให้แต่ละแถว `<tr>` ในตาราง อาจะมีจำนวนคอลัมน์ `<td>` ไม่เท่ากัน ส่งผลให้ชื่อหนัง อาจจะอยู่ในคอลัมน์ที่ 0 หรือ 1 ก็ได้ ขึ้นอยู่กับว่าแถวนั้นเป็นแถวแรกของปีนั้นๆหรือไม่ 

<img src="source/rowspan.png">

เพื่อความง่าย เราจะไม่สนใจปีที่หนังเข้าฉายกันไปก่อน และลบ `<td>` ทุกอันที่มีการระบุค่า `rowspan` ด้วยฟังก์ชัน `extract()` เนื่องจากเดี๋ยวเราจะกลับมาใช้ตารางเต็มๆกันอีกครั้ง เราจึงต้องสร้างอีก copy `table` ไว้ก่อน 


In [None]:
# print(table('tr'))
# print(table.find_all('td', {'rowspan': True}))

simplified_table = copy.copy(table) # จะเกิดอะไรขึ้นถ้าเราใช้ `simplified_table = table` ? 
for td in simplified_table('td', {'rowspan': True}):
    td.extract() # ลบ element จาก DOM tree

print(urllib.parse.unquote(str(simplified_table)))
# print(table)


จะเห็นได้ว่า ตอนนี้ทุกแถวมี `<td>` สามอัน เท่ากันหมดแล้ว ทีนี้เราก็สามารถดึงข้อมูลออกมาได้ง่ายๆตามนี้

In [None]:
for tr in simplified_table('tr'):
    cells = tr('td')
    if len(cells):  # ทำไมต้องมีบรรทัดนี้ ?
        print('"%s", "%s", "%s"' % (cells[0].text, cells[1].text, cells[2].text))

เราจะกำจัดแหล่งข้อมูลอ้างอิง เช่น `[12],[13],[14]` ออกจากชุดข้อมูลเราได้อย่างไร

**HINT:** 
- ลอง inspect ดูว่า element เหล่านั้น มี attribute อะไรเป็นพิเศษ
- และเราจะสามารถลบ element นั้นก่อนที่จะประมวลผลตารางได้อย่างไร

In [None]:
# ----- TO DO 2 -----
# QUIZ(1%) จงลบแหล่งข้อมูลอ้างอิง เช่น [12],[13],[14] ออกจากข้อมูล 








สำหรับคนที่อยากรู้ว่า ถ้าจะเอาข้อมูลปีที่เข้าฉายมาใช้ด้วย เราจะทำได้อย่างไร ลองพยายามทำความเข้าใจโค้ดข้างล่างนี้ดู

In [None]:
for sup in table('sup'):
    sup.extract()

rows = table('tr')
header = rows[0]
n_cols = len(header('th'))

current_year = None
movies = []

for tr in rows[1:]:
    movie = {}
    cells = tr('td')
    if cells[0].has_attr('rowspan'):
        current_year = tr.td.text
        cells = cells[1:]

    movie['year'] = current_year
    movie['name'] = cells[0].text
    movie['release_date'] = '%s %s' % (cells[1].text, current_year)
    movie['gross'] = cells[2].text
    movie['url'] = cells[0].a['href']
    movies.append(movie)

# TO DO 3 : เปลี่ยน url format % ให้อยู่ในรูปแบบ utf-8 (ต้องการแสดงผล url ที่เป็นภาษาไทย)
# ตัวอย่าง :เปลี่ยนจาก '/wiki/%E0%B9%81%E0%B8%9F%E0%B8%99%E0%B9%80%E0%B8%94%E0%B8%A2%E0%B9%8C' ให้เป็น '/wiki/แฟนเดย์..แฟนกันแค่วันเดียว'


print(movies)

ถึงตอนนี้ทุกคนอาจจะสงสัยว่า ทำไมเราต้องเขียนโค้ดให้มันวุ่นวายขนาดนี้ แค่ copy/paste แป๊ปเดียวก็เสร็จแล้ว

ถูกต้อง! และ Data scientist ที่ดีก็ควรจะเลือกใช้วิธีที่ช่วยให้เราทำงานได้เร็วที่สุด 

แต่...ตัวอย่างข้างต้นนั้น เป็นเพียงตัวอย่างง่ายๆเท่านั้น ในตัวอย่างถัดไป เราจะมาดึงข้อมูลว่าหนังแต่ละเรื่องใครกำกับ ซึ่งข้อมูลนี้ไม่ได้ให้มาในตาราง แต่เราสามารถหาได้ในหน้าวิกิของหนังแต่ละเรื่อง 

In [None]:
# โค๊ดเหมือนเดิม เราเอากลับมาเป็น % เหมือนเดิมเพราะภาษาไทยใช้ในการแสดงผลเท่านั้น
# ไม่สามารถนำ url ที่มีภาษาไทยต่อท้ายมา crawl data ได้

movies = []

for tr in rows[1:]:
    movie = {}
    cells = tr('td')
    if cells[0].has_attr('rowspan'):
        current_year = tr.td.text
        cells = cells[1:]

    movie['year'] = current_year
    movie['name'] = cells[0].text
    movie['release_date'] = '%s %s' % (cells[1].text, current_year)
    movie['gross'] = cells[2].text
    movie['url'] = cells[0].a['href']
    movies.append(movie)
    
print(movies)

In [None]:
for movie in movies:
    print('Processing ' + movie['name'] + '...')
    
    if movie['name'] == 'K1189B54N' or movie['name'] == 'Friend Zone':
        movie['directors'] = [u'ไม่ทราบรายชื่อผู้กำกับ']
        continue
        
    movie_html = urllib.request.urlopen('http://th.wikipedia.com' + movie['url'])
    movie_soup = BeautifulSoup(movie_html, 'html.parser')
    direct_td = movie_soup.find('th', text='กำกับ').find_next()
    movie['directors'] = [x.text for x in direct_td('a')] # list comprehension
    
    # มารยาทในการดึงข้อมูลเราควรที่จะต้องใส่ sleep เพื่อไม่ให้ server ทำงานหนักเกินไป
    sleep(1) 

In [None]:
for m in movies:
    print('"%s", "%s", "%s", "%s"' % 
          (m['name'], m['release_date'], m['gross'], m['directors']))