# Python Web Scraping Tutorial #1: ใช้ Pandas ดึงข้อมูลที่เป็นตารางจากหน้า Website

by Nior Atthakorn

การใช้ [Python](https://www.python.org) ดึงข้อมูลจาก website สามารถทำได้หลายวิธี มี library ที่หลากหลายมากมายให้เลือกใช้ตามสะดวก ขึ้นอยู่กับว่ารูปแบบของความต้องการใช้งานในตอนนั้นเป็นยังไง

ในบทความนี้เราจะใช้แค่ [Pandas](https://pandas.pydata.org) ที่เป็น library ซึ่งเรานิยมใช้ในการ manipulate data กัน มาทำ Web Scraping ซึ่งจะเหมาะกับหน้า website แบบไหน และมีขั้นตอนวิธีการทำยังไง ก็เชิญอ่านต่อได้ทางด้านล่างนี้เลย หรือถ้าใครสะดวกช่องทางอื่น ก็สามารถตาม link ด้านล่างนี้ไปได้เลยจ้า เอ้า เริ่ม!

<table align="center">
    <td>
        <a href="https://github.com/NiorAP/web_scraping_tutorials/blob/master/Python%20Web%20Scraping%20Tutorial%20%231/Python%20Web%20Scraping%20Tutorial%20%231.ipynb">
            <img src="https://pngimg.com/uploads/github/github_PNG58.png" width="100"/>
            <center>
                ดูใน GitHub
            </center>
        </a>
    </td>
    <td>
        <a href="https://colab.research.google.com/drive/1XRVgggQDU05vXk3QxVj48xXL-QiNG_1F">
            <img src="https://colab.research.google.com/img/colab_favicon_256px.png" width="100"/>
            <center>
                ลองเล่นใน Google Colab
            </center>
        </a>
    </td>
    <td>
        <a href="https://medium.com/@nioratthakorn/python-web-scraping-tutorial-1-9cba93ac2690">
            <img src="https://cdn4.iconfinder.com/data/icons/vector-brand-logos/40/Medium-512.png"/ width="100">
            <center>
                อ่านใน Medium
            </center>
        </a>
    </td>
</table>

การใช้ Pandas ในการทำ Web Scraping มีความสามารถที่จำกัด แต่ถ้าข้อมูลที่เราต้องการนั้นอยู่ในรูปแบบที่สามารถใช้ Pandas ได้ จะสามารถทำการ scrape ได้สะดวกมากๆๆๆๆ

ตัว Pandas อย่างที่เรารู้กันคือมีตัวชูโรงเป็น [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) ซึ่งมีลักษณะการเก็บข้อมูลเป็นตาราง เพราะฉะนั้นหน้า website ที่เหมาะจะใช้ Pandas ในการ Scrape ก็คือ website ที่มีข้อมูลที่เราต้องการอยู่ในรูปแบบตารางนั่นเองงงง

รู้งี้แล้ว ลองดูหน้า website ที่เราต้องการ scrape ว่าข้อมูลส่วนที่เราอยากได้เป็นตารางมั้ย ถ้าใช่ก็ลุยโลดดดด

<b><i>ขั้นตอนที่ 1</i></b> ตามปกติสามัญสากลโลกเลยครับ เราเริ่มจากการ [`import`](https://docs.python.org/2.0/ref/import.html) library ที่จะใช้ ในที่นี้จะใช้ Pandas เพียงอย่างเดียว ก็จัดการ `import` เข้ามาเลย

In [1]:
import pandas as pd

<b><i>ขั้นตอนที่ 2</i></b> ให้เราใส่ url ของ website ที่เราต้องการ scrape โดย url ต้องเป็นภาษาอังกฤษเท่านั้น (ถ้า url มีภาษาไทย ใช้ไม่ได้) ในที่นี้จะใช้ website [ราคาหลักทรัพย์ใน SET50](https://marketdata.set.or.th/mkt/sectorquotation.do?sector=SET50&language=th&country=TH) ของ [set.or.th](https://www.set.or.th/) ต้องขออนุญาตและขอขอบคุณมา ณ ที่นี้ด้วยนะครับ -/\\- (ถ้าใครสงสัยเรื่อง url สามารถอ่านเพิ่มเติมได้[ในนี้](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.read_html.html)เลย)

In [2]:
url = 'https://marketdata.set.or.th/mkt/' \
    + 'sectorquotation.do?sector=SET50&language=th&country=TH'

เนื่องจาก url ยาว เลยเขียนแยกเป็น 2 ท่อน ไม่ต้องตกใจไปจ้า

<b><i>ขั้นตอนที่ 3</i></b> ให้เราใช้ function [`read_html`](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.read_html.html) ของ Pandas ซึ่งโดยปกติแล้วสามารถรับ parameter ได้หลากหลายรูปแบบ ซึ่งรูปแบบที่เราจะใช้ในวันนี้คือการใส่ url ของหน้า website ที่เราต้องการ scrape เข้าไปโดยตรง จากนั้นตัว function จะไปดึงข้อมูลทั้งหมดจาก website นั้นๆ แล้ว scan ดูทั้งหน้าว่ามีตารางอยู่ตรงไหนบ้าง แปลงแต่ละตารางเป็น DataFrame แล้วใส่ไว้ใน list ให้เราเลย สะดวกมากกกก

In [3]:
dfs = pd.read_html(url)

แค่นี้ก็จบขั้นตอนการ scrape แล้ว มาลองดูผลลัพธ์กันสักหน่อยละกัน

ก่อนอื่นลองดูว่าจำนวนตารางที่ได้ตรงกับในหน้า website ที่เราเห็นมั้ย

In [4]:
len(dfs)

3

จะเห็นว่ามี 3 ตาราง ครบตามต้องการพอดิบพอดีเลย

ลองมาดูส่วนหนึ่งของแต่ละตารางที่ได้กันบ้าง ว่าตรงกับในหน้า website ที่เห็นมั้ย

In [5]:
dfs[0].head()

Unnamed: 0,ดัชนี,ล่าสุด,เปลี่ยนแปลง,%เปลี่ยนแปลง,สูงสุด,ต่ำสุด,ปริมาณ('000 หุ้น),มูลค่า(ล้านบาท)
0,SET,1206.87,-8.08,-0.66,1213.55,1192.98,14507999,86680.21
1,SET50,815.97,-9.45,-1.14,823.28,805.74,2382569,62515.32
2,SET100,1782.56,-16.36,-0.91,1796.64,1759.83,3586410,68925.09
3,sSET,482.62,8.23,1.73,484.89,473.14,816989,1567.32
4,SETCLMV,749.28,-9.15,-1.21,757.38,741.32,696288,17886.27


In [6]:
dfs[1].head()

Unnamed: 0,ดัชนี,ล่าสุด,เปลี่ยนแปลง,%เปลี่ยนแปลง,ปริมาณ(หุ้น),มูลค่า('000 บาท)
0,SET50,815.97,-9.45,-1.14,2382568956,62515315.87


In [7]:
dfs[2].head()

Unnamed: 0,หลักทรัพย์,เครื่องหมาย,เปิด,สูงสุด,ต่ำสุด,ล่าสุด,เปลี่ยนแปลง,%เปลี่ยนแปลง,เสนอซื้อ,เสนอขาย,ปริมาณ(หุ้น),มูลค่า('000 บาท)
0,ADVANC,,193.0,193.5,186.5,187.5,-7.5,-3.85,187.5,188.0,22318339,4215918.54
1,AOT,,57.25,57.25,55.0,56.5,-1.0,-1.74,56.5,56.75,46898780,2623660.91
2,AWC,,4.16,4.4,4.12,4.14,0.1,2.48,4.14,4.16,76796973,326674.46
3,BANPU,,6.1,6.15,5.9,6.05,-0.2,-3.2,6.0,6.05,35257616,212272.91
4,BBL,,99.75,107.0,98.0,105.5,5.0,4.98,105.0,105.5,20737751,2126183.64


โอ้โหเฮ๊ะ เหมือนเป๊ะอย่างกะจับวาง

เป็นไงกันบ้างครับกับการทำ Web Scraping ด้วย Pandas ง่ายใช่ไหมหล่ะครับ แต่ก็ยังมีเงื่อนไขในการใช้งานเยอะเลย

เราจะแก้ปัญหาพวกนั้นยังไง ใช้เครื่องมืออะไร ติดตามตอนต่อไปได้ที่นี่เลย:  
[Python Web Scraping Tutorial #2: ใช้ Requests มาช่วย Pandas ดึงข้อมูล](https://medium.com/@nioratthakorn/python-web-scraping-tutorial-2-7a8d09a36093)

สำหรับวันนี้ไปก่อนละจ้า บายยยย