# SESSION B: 爬蟲實戰與資料分析

In [1]:
# Session B 會用到的套件 (不包含資料分析部分)
import requests
from bs4 import BeautifulSoup
import re
import pandas as pd


## 範例 03: BeautifulSoup + regular expression

透過 BeautifulSoup 加上 regular expression ，能夠輕鬆的找出所有符合您規則的標籤、屬性或是內容。

與 regular expression 的 **re.findall()** 不同在於，這邊必須使用 **re.compile**，如此一來 BeautifulSoup 就會知道您要使用 regular expression，並且回傳所有符合條件的標籤、屬性或是內容。

In [2]:
# 萬年起手式
import requests
from bs4 import BeautifulSoup
import re

response = requests.get("https://jimmy15923.github.io/example_page")
soup = BeautifulSoup(response.text, 'lxml')

In [3]:
soup.find_all(re.compile("t(d|r)"))  # 找出所有 td 或 tr 的標籤

[<tr>
 <th>標頭 1 (table-header)</th>
 <th>標頭 2 (table-header)</th>
 <th>標頭 3 (table-header)</th>
 <th>標頭 4 (table-header)</th>
 </tr>, <tr>
 <td> 列2 欄1 </td>
 <td class="zzz"> 列2 欄2 (我的屬性 class="zzz") </td>
 <td>
 <a href="http://www.yahoo.com.tw">列2 欄3 (我是 a 標籤，屬性 href=網址) </a>
 </td>
 <td>
 <a href="http://foundation.datasci.tw/">列2 欄4 (資料協會) </a>
 </td>
 </tr>, <td> 列2 欄1 </td>, <td class="zzz"> 列2 欄2 (我的屬性 class="zzz") </td>, <td>
 <a href="http://www.yahoo.com.tw">列2 欄3 (我是 a 標籤，屬性 href=網址) </a>
 </td>, <td>
 <a href="http://foundation.datasci.tw/">列2 欄4 (資料協會) </a>
 </td>, <tr>
 <td value="5566">列3 欄1 </td>
 <td>列3 欄2
 				<ol>
 <li class="zz">我是 li 標籤 (列表)，屬性 class="zz" </li>
 <li> 第二個 li 標籤 </li>
 </ol>
 </td>
 <td>
 <a href="http://foundation.datasci.tw/python-crawling-170813/" id="hyperlink"> 列3 欄3 (資料協會-python 爬蟲實戰)</a>
 </td>
 <td class="zzzz">列3 欄4 (我的屬性 class="zzzz")</td>
 </tr>, <td value="5566">列3 欄1 </td>, <td>列3 欄2
 				<ol>
 <li class="zz">我是 li 標籤 (列表)，屬性 class="zz" 

In [4]:
soup.find_all("", {"class":re.compile("z+")})    # 找出所有屬性為 class 且值包含至少一個 z 以上的標籤

[<div class="zzz" id="id1">我是有著屬性 class="zzz" 的標籤內容</div>,
 <td class="zzz"> 列2 欄2 (我的屬性 class="zzz") </td>,
 <li class="zz">我是 li 標籤 (列表)，屬性 class="zz" </li>,
 <td class="zzzz">列3 欄4 (我的屬性 class="zzzz")</td>]

In [5]:
print(soup.find_all("", text = re.compile("python")))  # 找出所有 text 內容包含 python 文字的標籤

['網頁名稱-python crawler', 'python_crawler', ' 列3 欄3 (資料協會-python 爬蟲實戰)', 'python_crawler']


## 練習 03: BeautifulSoup + regular expression (8 mins)

Q1. [範例網頁中](https://jimmy15923.github.io/example_page)可以看到有許多超連結，請找出那些超連結的網址是以資料協會網站開頭的標籤("http://foundation.datasci.tw/...")

In [6]:
import requests
from bs4 import BeautifulSoup
import re

In [7]:
# your codes
response = requests.get("https://jimmy15923.github.io/example_page")
soup = BeautifulSoup(response.text, 'lxml')
print(soup.find_all("",href = re.compile("http://foundation.datasci.tw/")))

[<a href="http://foundation.datasci.tw/">列2 欄4 (資料協會) </a>, <a href="http://foundation.datasci.tw/python-crawling-170813/" id="hyperlink"> 列3 欄3 (資料協會-python 爬蟲實戰)</a>]


Q2. 請觀察[518 黃頁網](http://yp.518.com.tw/service-life.html?ctf=10)，並找出所有位在新北市的店家地址

In [2]:
import requests
from bs4 import BeautifulSoup
import re

In [3]:
# your codes
response = requests.get("https://jimmy15923.github.io/518")
soup = BeautifulSoup(response.text, 'lxml')
print(soup.find_all("li",class_="comp_loca", text = re.compile("新北")))

[<li class="comp_loca">新北市 / 永和區 永亨路49號</li>, <li class="comp_loca">新北市 / 板橋區 僑中一街124巷62-20號</li>, <li class="comp_loca">新北市 / 板橋區 僑中一街124巷62-20號</li>, <li class="comp_loca">新北市 / 板橋區 國光路39號</li>]
