# 爬蟲練習

## 複習一下

### requests 的使用

* 使用 get 方法讀取網站原始碼

```python
r = requests.get(url)
```

* 使用 post 方法讀取網站原始碼

```python
r = requests.post(url, data=data)
```

參考連結：[Python Requests.Quickstart](http://docs.python-requests.org/en/master/user/quickstart/)

### 使用 beautifulsoup 剖析 HTML 程式碼

```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(r.text, 'lxml')
soup.select('div p')[0].text
```

CSS Selector 的使用請參考：

* [CSS Selector Reference](https://www.w3schools.com/cssref/css_selectors.asp)
* [CSS Attribute Selector](https://www.w3schools.com/css/css_attribute_selectors.asp)

BeautifulSoup 的其他使用方式，請參考：

* [Beautiful Soup 4.2.0 文档](https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html)

### 剖析 json 檔

* 使用 requests 抓取 json 檔，可以在後面加上 .json() 直接剖析 json 檔案。
* 如果是檔案或字串，可以使用 json 模組來剖析。

## 可以練習抓資料的網址：

* [政府開放資料平台](https://data.gov.tw/)
* [鉅亨網](https://www.cnyes.com/)

***

In [1]:
import requests
from bs4 import BeautifulSoup

### 範例一

* 請抓取底下 url 的網站原始碼

In [None]:
url = "http://example.com"

In [None]:
r = requests.get(url)

In [None]:
r.text

### 範例二

* 讀取底下 url 裡面的 json 檔

參考：[https://bit.ly/2FZbAcz](https://bit.ly/2FZbAcz)

In [None]:
url = "http://opendata.khcc.gov.tw/public/OD_ksml_info.ashx"

In [None]:
data = requests.get(url).json()

In [None]:
data[0]

In [None]:
for x in data[:5]:
    print(x['Title'], "==>", x['OpenTime'])

### 範例三

* 使用 requests + BequtifulSoup 抓取底下 url 的新聞文章。
* url = "[https://news.cnyes.com/news/id/3949102](https://news.cnyes.com/news/id/3949102)"

In [None]:
url = 'https://news.cnyes.com/news/id/3949102'

In [None]:
r = requests.get(url)
soup = BeautifulSoup(r.text, 'lxml')
soup.select('div[itemprop="articleBody"]')[0].text

***

## 請抓取底下連結的新聞文章

url = '[https://tw.finance.appledaily.com/realtime/20180121/1283033/](https://tw.finance.appledaily.com/realtime/20180121/1283033/)'

In [None]:
url = 'https://tw.finance.appledaily.com/realtime/20180121/1283033/'

## 請列出底下連結的新聞標題

url = "[http://news.ltn.com.tw/list/breakingnews/business](http://news.ltn.com.tw/list/breakingnews/business)"

In [2]:
url = "http://news.ltn.com.tw/list/breakingnews/business"

In [3]:
r = requests.get(url)
soup = BeautifulSoup(r.text, 'lxml')

In [10]:
soup.select('div.whitecon.boxTitle > ul p')

[<p>又有建案法拍！樹林透天整批31戶 一拍底價6.49億													</p>,
 <p>投資如興虧2.5億元？ 國發基金：長期仍受惠													</p>,
 <p>不滿父親與妹亂倫產子 特斯拉CEO與爸反目													</p>,
 <p>金融聯合都更服務公司 林旺根出任董座													</p>,
 <p>兆豐銀被詐貸案 兆豐銀聲明駁斥：保留法律追訴權													</p>,
 <p>3/24重要財經新聞一覽													</p>,
 <p>資金尋求避險 美元兌日圓貶至2016年大選後低點													</p>,
 <p>兩岸最低薪資比一比 台北22k是上海11k的2倍													</p>,
 <p>市場憂貿易戰湧向避險資產 黃金升至1個月來高位													</p>,
 <p>美301制裁 鎖定中國10大戰略產業													</p>,
 <p>美中貿易戰日本參一腳！將對中、韓部分鋼鐵產品徵反傾銷稅													</p>,
 <p>市場擔心美國制裁伊朗 國際油價大漲													</p>,
 <p>擔憂美中貿易戰 美股創27個月來最大單週跌幅													</p>,
 <p>兆豐氣炸否認！被傳詐貸相關人員移送法辦													</p>,
 <p>憂心貿易戰 美股重挫													</p>,
 <p>貿易戰疑慮引發賣壓 歐股挫													</p>,
 <p>大同2017年轉虧為盈 EPS0.03元													</p>,
 <p>中國竊取智慧財產問題 美國正式向WTO投訴													</p>,
 <p>中華電信擬處分精測1500張													</p>,
 <p>利機去年每股盈餘1.22元 擬配發1元現金股利													</p>]

In [16]:
l = soup.select('div.whitecon.boxTitle > ul p')
my_news = list()
for item in l:
    #print(item.text)
    my_news.append(item.text.strip())
my_news

['又有建案法拍！樹林透天整批31戶 一拍底價6.49億',
 '投資如興虧2.5億元？ 國發基金：長期仍受惠',
 '不滿父親與妹亂倫產子 特斯拉CEO與爸反目',
 '金融聯合都更服務公司 林旺根出任董座',
 '兆豐銀被詐貸案 兆豐銀聲明駁斥：保留法律追訴權',
 '3/24重要財經新聞一覽',
 '資金尋求避險 美元兌日圓貶至2016年大選後低點',
 '兩岸最低薪資比一比 台北22k是上海11k的2倍',
 '市場憂貿易戰湧向避險資產 黃金升至1個月來高位',
 '美301制裁 鎖定中國10大戰略產業',
 '美中貿易戰日本參一腳！將對中、韓部分鋼鐵產品徵反傾銷稅',
 '市場擔心美國制裁伊朗 國際油價大漲',
 '擔憂美中貿易戰 美股創27個月來最大單週跌幅',
 '兆豐氣炸否認！被傳詐貸相關人員移送法辦',
 '憂心貿易戰 美股重挫',
 '貿易戰疑慮引發賣壓 歐股挫',
 '大同2017年轉虧為盈 EPS0.03元',
 '中國竊取智慧財產問題 美國正式向WTO投訴',
 '中華電信擬處分精測1500張',
 '利機去年每股盈餘1.22元 擬配發1元現金股利']

## Demo1: 爬網站照片 [食譜]
- link: http://www.wech.com.tw/breads/910/23.jpg


In [4]:
import requests

url = "http://www.wech.com.tw/breads/910/23.jpg"
r = requests.get(url)


In [6]:
requests.codes.ok

200

In [10]:
if r.status_code == 200:
    with open('im.jpg', 'wb') as f:
        f.write(r.content)
    print('finish to save a image')
else:
    print('bad return code')
    

finish to save a image


## 基本準備工作做好了!
- 原來的網頁：http://www.wech.com.tw/breads/b01/23.html
- 顯示從01~65，共有這麼多張圖，全爬下來就是一本書囉~
- 我們開始來試試吧


In [14]:
import requests
import os

if(not os.path.exists('./img')):
    os.makedirs('./img')

url_base = "http://www.wech.com.tw/breads/910/"
for i in range(1, 66):
    url = url_base + '%02d.jpg'%(i)
    r = requests.get(url)
    if r.status_code == 200:
        with open('./img/img_%02d.jpg'%(i), 'wb') as f:
            f.write(r.content)
        print('[%02d]finish to save a image'%(i))
    else:
        print('[%02d]bad return code'%(i))
    

[01]finish to save a image
[02]finish to save a image
[03]finish to save a image
[04]finish to save a image
[05]finish to save a image
[06]finish to save a image
[07]finish to save a image
[08]finish to save a image
[09]finish to save a image
[10]finish to save a image
[11]finish to save a image
[12]finish to save a image
[13]finish to save a image
[14]finish to save a image
[15]finish to save a image
[16]finish to save a image
[17]finish to save a image
[18]finish to save a image
[19]finish to save a image
[20]finish to save a image
[21]finish to save a image
[22]finish to save a image
[23]finish to save a image
[24]finish to save a image
[25]finish to save a image
[26]finish to save a image
[27]finish to save a image
[28]finish to save a image
[29]finish to save a image
[30]finish to save a image
[31]finish to save a image
[32]finish to save a image
[33]finish to save a image
[34]finish to save a image
[35]finish to save a image
[36]finish to save a image
[37]finish to save a image
[