# Python Web Scraping Tutorial #1: ใช้ Pandas ดึงข้อมูลที่เป็นตารางจากหน้า Website

การใช้ Python ดึงข้อมูลจาก website สามารถทำได้หลายวิธี มี library ที่หลากหลายมากมายให้เลือกใช้ตามสะดวก ขึ้นอยู่กับว่ารูปแบบของความต้องการใช้งานในตอนนั้นเป็นยังไง

ในบทความนี้เราจะใช้แค่ Pandas ที่เป็น library ซึ่งเรานิยมใช้ในการ manipulate data กัน มาทำ Web Scraping ซึ่งจะเหมาะกับหน้า website แบบไหน และมีขั้นตอนวิธีการทำยังไง ก็เชิญอ่านต่อได้ทางด้านล่างนี้เลย หรือถ้าใครสะดวกช่องทางอื่น ก็สามารถตาม link ด้านล่างนี้ไปได้เลยจ้า เอ้า เริ่ม!

<table align="center">
    <td>
        <a href="https://github.com/NiorAP/web_scraping_tutorials/blob/master/Python_Web_Scraping_Tutorial_#1.ipynb">
            <img src="https://pngimg.com/uploads/github/github_PNG58.png" width="100"/>
            <center>
                ดูใน GitHub
            </center>
        </a>
    </td>
    <td>
        <a href="https://colab.research.google.com/drive/1XRVgggQDU05vXk3QxVj48xXL-QiNG_1F">
            <img src="https://colab.research.google.com/img/colab_favicon_256px.png" width="100"/>
            <center>
                ดูใน Google Colab
            </center>
        </a>
    </td>
    <td>
        <a href="">
            <img src="https://cdn4.iconfinder.com/data/icons/vector-brand-logos/40/Medium-512.png"/ width="100">
            <center>
                ดูใน Medium
            </center>
        </a>
    </td>
</table>

การใช้ Pandas ในการทำ Web Scraping มีความสามารถที่จำกัด แต่ถ้าข้อมูลที่เราต้องการนั้นอยู่ในรูปแบบที่สามารถใช้ Pandas ได้ จะสามารถทำการ scrape ได้สะดวกมากๆๆๆๆ

ตัว Pandas อย่างที่เรารู้กันคือมีตัวชูโรงเป็น DataFrame ซึ่งมีลักษณะการเก็บข้อมูลเป็นตาราง เพราะฉะนั้นหน้า website ที่เหมาะจะใช้ Pandas ในการ Scrape ก็คือ website ที่มีข้อมูลที่เราต้องการอยู่ในรูปแบบตารางนั่นเองงงง

รู้งี้แล้ว ลองดูหน้า website ที่เราต้องการ scrape ว่าข้อมูลส่วนที่เราอยากได้เป็นตารางมั้ย ถ้าใช่ก็ลุยโลดดดด

<b><i>ขั้นตอนแรก</i></b> ตามปกติสามัญสากลโลกเลยครับ เราเริ่มจากการ import library ที่จะใช้ ในที่นี้จะใช้ [Pandas](https://pandas.pydata.org/about/index.html) เพียงอย่างเดียว ก็จัดการ import เข้ามาเลย

In [0]:
import pandas as pd

<b><i>ขั้นตอนที่ 2</i></b> ให้เราใส่ url ของ website ที่เราต้องการ scrape โดย url ต้องเป็นภาษาอังกฤษเท่านั้น (ถ้า url มีภาษาไทย ใช้ไม่ได้) ในที่นี้จะใช้ website [ราคาหลักทรัพย์ใน SET50](https://marketdata.set.or.th/mkt/sectorquotation.do?sector=SET50&language=th&country=TH) ของ set.or.th ต้องขออนุญาตและขอขอบคุณมา ณ ที่นี้ด้วยนะครับ -/\\- (ถ้าใครสงสัยเรื่อง url สามารถอ่านเพิ่มเติมได้ใน[นี้](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.read_html.html)เลย)

In [0]:
url = 'https://marketdata.set.or.th/mkt/' \
    + 'sectorquotation.do?sector=SET50&language=th&country=TH'

เนื่องจาก url ยาว เลยเขียนแยกเป็น 2 ท่อน ไม่ต้องตกใจไปจ้า

<b><i>ขั้นตอนที่ 3</i></b> ให้เราใช้ function [read_html](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.read_html.html) ของ Pandas ซึ่งโดยปกติแล้วสามารถรับ parameter ได้หลากหลายรูปแบบ ซึ่งรูปแบบที่เราจะใช้ในวันนี้คือการใส่ url ของหน้า website ที่เราต้องการ scrape เข้าไปโดยตรง จากนั้นตัว function จะไปดึงข้อมูลทั้งหมดจาก website นั้นๆ แล้ว scan ดูทั้งหน้าว่ามีตารางอยู่ตรงไหนบ้าง แปลงแต่ละตารางเป็น dataframe แล้วใส่ไว้ใน list ให้เราเลย สะดวกมากกกก

In [0]:
dfs = pd.read_html(url)

แค่นี้ก็จบขั้นตอนการ scrape แล้ว มาลองดูผลลัพธ์กันสักหน่อยละกัน

ก่อนอื่นลองดูว่าจำนวนตารางที่ได้ตรงกับในหน้า website ที่เราเห็นมั้ย

In [4]:
len(dfs)

3

จะเห็นว่ามี 3 ตาราง ครบตามต้องการพอดิบพอดีเลย

ลองมาดูแต่ละตารางที่ได้กันบ้าง ว่าตรงกับในหน้า website ที่เห็นมั้ย

In [5]:
dfs[0].head()

Unnamed: 0,ดัชนี,ล่าสุด,เปลี่ยนแปลง,%เปลี่ยนแปลง,สูงสุด,ต่ำสุด,ปริมาณ('000 หุ้น),มูลค่า(ล้านบาท)
0,SET,1207.14,-7.81,-0.64,1213.55,1192.98,14186162,84689.09
1,SET50,816.13,-9.29,-1.13,823.28,805.74,2331429,61306.69
2,SET100,1782.77,-16.15,-0.9,1796.64,1759.83,3511441,67540.52
3,sSET,482.46,8.07,1.7,484.89,473.14,796182,1525.24
4,SETCLMV,748.98,-9.45,-1.25,757.38,741.32,682926,17531.13


In [6]:
dfs[1].head()

Unnamed: 0,ดัชนี,ล่าสุด,เปลี่ยนแปลง,%เปลี่ยนแปลง,ปริมาณ(หุ้น),มูลค่า('000 บาท)
0,SET50,816.13,-9.29,-1.13,2331428638,61306692.61


In [7]:
dfs[2].head()

Unnamed: 0,หลักทรัพย์,เครื่องหมาย,เปิด,สูงสุด,ต่ำสุด,ล่าสุด,เปลี่ยนแปลง,%เปลี่ยนแปลง,เสนอซื้อ,เสนอขาย,ปริมาณ(หุ้น),มูลค่า('000 บาท)
0,ADVANC,,193.0,193.5,186.5,187.5,-7.5,-3.85,187.5,188.0,21863526,4130638.4
1,AOT,,57.25,57.25,55.0,56.5,-1.0,-1.74,56.25,56.5,46122415,2579755.98
2,AWC,,4.16,4.4,4.12,4.18,0.14,3.47,4.18,4.2,74379104,316599.86
3,BANPU,,6.1,6.15,5.9,6.0,-0.25,-4.0,6.0,6.05,34205415,205928.75
4,BBL,,99.75,107.0,98.0,106.0,5.5,5.47,105.5,106.0,19954947,2043271.57


โอ้โหเฮ๊ะ เหมือนเป๊ะอย่างกะจับวาง

เป็นไงกันบ้างครับกับการทำ Web Scraping ด้วย Pandas ง่ายใช่ไหมหล่ะครับ แต่ก็ยังมีเงื่อนไขในการใช้งานเยอะเลย เราจะแก้ปัญหาพวกนั้นยังไง ใช้เครื่องมืออะไร ติดตามได้ในตอนต่อๆ ไปนะครับ สำหรับวันนี้ไปก่อนละจ้า บายยยย