# Outline

* [Why Crawler](#Why-Crawler?)
* [爬蟲簡易概念](#爬蟲簡易概念)
* [內建函式庫 v.s. 第三方函式庫](#內建函式庫-v.s.-第三方函式庫)
    * 範例一 - 抓取html tag
    * 範例二 - 抓取json格式
* [爬蟲範例 - 抓ptt網頁版資料](#爬蟲範例---抓ptt網頁版資料)
* [爬蟲範例 - 抓郵遞區號資料(ajax)](#爬蟲範例---抓郵遞區號資料(ajax))

<hr>

# Why Crawler?

* 原始網站做得太爛，乾脆自己爬出資料做一個（[萌典](https://www.moedict.tw)、[ZIPCodeTW](http://zipcode.mosky.tw/about)）
* 資料分析（[whoscall](http://whoscall.com)）
* 搜尋引擎（Google, Yahoo）
* 整合型網站（[表特N大](https://www.facebook.com/beauty.university.tw?fref=ts)、[比價網](http://ezprice.com.tw)、[翻書客](http://findbook.tw)、[feedly](https://feedly.com)）
* 無聊，好玩，練功

<hr>

# 爬蟲簡易概念

1. 分析網站結構
    * static
    * dynamic (ajax)
2. 取得需要的資料 - use python
    * 取得網頁原始碼 - [requests](http://docs.python-requests.org/en/latest/)
    * 取得需要的資訊 - [pyquery](http://pyquery.readthedocs.org/en/latest/index.html)
3. 儲存結果
    * csv
    * json
    * [mongodb](http://www.mongodb.org) ([pymongo](http://api.mongodb.org/python/current/))
4. 定時更新資料 (optional)

## 小技巧

* 觀測表格(form)的傳送資訊
* Developer Tools - Network

<hr>

# 內建函式庫 v.s. 第三方函式庫

先看看只使用python內建函式庫，該如何抓連線與抓取想要的資料

## 範例一 - 抓取html tag

假設要抓某網站上的某個標籤資料<br>
以抓取title tag中的字串為例

### 作法一

In [137]:
from urllib2 import urlopen

url = 'http://minstrel.lionfree.net'
u = urlopen(url)
data = u.read()
print data

 <!DOCTYPE HTML>
 <html>
 <head>
     <meta charset="UTF-8">
     <title>hi</title>
     
 </head>
 <body>
     <p>test</p>
 </body>
 </html>



In [103]:
import re

pattern = '<title.*?>(.+?)</title>'
result = re.findall(pattern, data)

In [104]:
result

['hi']

### 作法二

In [139]:
import requests

url = 'http://minstrel.lionfree.net'
r = requests.get(url)
print r.text

 <!DOCTYPE HTML>
 <html>
 <head>
     <meta charset="UTF-8">
     <title>hi</title>
     
 </head>
 <body>
     <p>test</p>
 </body>
 </html>



In [144]:
from pyquery import PyQuery as pq

s = pq(r.text)
s('title')

[<title>]

In [146]:
s('title').text()

'hi'

## 範例二 - 抓取json格式

抓取網站上的json資料

### 做法一

In [155]:
from urllib2 import urlopen

url = 'https://graph.facebook.com/Perfume.global'
u = urlopen(url)
data = u.read()
print data

{"id":"369369099754870","about":"\"Perfume\" Global Official Page","band_members":"A-CHAN \nKASHIYUKA \nNOCCHi ","bio":"Established in the year 2000. Perfume is one of the top girl\u2019s pop unit in Japan. Consisting of 3 members, the group is well known for their futuristic concept and their creative performance. Sound produced by Yasutaka Nakata (capsule) they\u2019ve achieved many awards in the Japanese market. Multiple gold singles, 1 double platinum album, and 2 gold albums and more.\n\nHistory:\nThe group made their first major release in the year 2005. The first breakthrough was with their hit single \u201cPolyrhythm\u201d in the year 2007. This song took techno pop music and culture to a mainstream level. Appearing in many TV programs, public advertisements and music being featured in the movie \u201cCars 2\u201d, the group instantly became the top pop iconic figure in Japan. \n\nThe first national tour launched in 2008. Reaching the top venue in Japan, the \u201cTokyo Dome\u2

In [156]:
import json

j_data = json.loads(data)
print j_data

{u'username': u'Perfume.global', u'can_post': False, u'hometown': u'JAPAN', u'likes': 314526, u'parking': {u'street': 0, u'lot': 0, u'valet': 0}, u'id': u'369369099754870', u'category': u'Musician/band', u'has_added_app': False, u'talking_about_count': 24132, u'record_label': u'UNIVERSAL MUSIC', u'is_community_page': False, u'band_members': u'A-CHAN \nKASHIYUKA \nNOCCHi ', u'website': u'http://www.perfume-global.com/ www.perfume-web.jp ', u'bio': u'Established in the year 2000. Perfume is one of the top girl\u2019s pop unit in Japan. Consisting of 3 members, the group is well known for their futuristic concept and their creative performance. Sound produced by Yasutaka Nakata (capsule) they\u2019ve achieved many awards in the Japanese market. Multiple gold singles, 1 double platinum album, and 2 gold albums and more.\n\nHistory:\nThe group made their first major release in the year 2005. The first breakthrough was with their hit single \u201cPolyrhythm\u201d in the year 2007. This song 

### 作法二

In [160]:
import requests

url = 'https://graph.facebook.com/Perfume.global'
r = requests.get(url)
print r.json()

{u'username': u'Perfume.global', u'can_post': False, u'hometown': u'JAPAN', u'likes': 314526, u'parking': {u'street': 0, u'lot': 0, u'valet': 0}, u'id': u'369369099754870', u'category': u'Musician/band', u'has_added_app': False, u'talking_about_count': 24132, u'record_label': u'UNIVERSAL MUSIC', u'is_community_page': False, u'band_members': u'A-CHAN \nKASHIYUKA \nNOCCHi ', u'website': u'http://www.perfume-global.com/ www.perfume-web.jp ', u'bio': u'Established in the year 2000. Perfume is one of the top girl\u2019s pop unit in Japan. Consisting of 3 members, the group is well known for their futuristic concept and their creative performance. Sound produced by Yasutaka Nakata (capsule) they\u2019ve achieved many awards in the Japanese market. Multiple gold singles, 1 double platinum album, and 2 gold albums and more.\n\nHistory:\nThe group made their first major release in the year 2005. The first breakthrough was with their hit single \u201cPolyrhythm\u201d in the year 2007. This song 

<hr>

# 爬蟲範例 - 抓ptt網頁版資料

假設我們今天想要抓表特板的資料<br>
https://www.ptt.cc/bbs/Beauty/index.html

## 觀察網頁結構

主頁資訊1
```html
<div class="r-ent">
    <div class="nrec"><span class="hl f2">4</span></div>
    <div class="mark"></div>
    <div class="title">

            <a href="/bbs/Beauty/M.1401063362.A.DA7.html">[正妹] 原住民～</a>

    </div>
    <div class="mteta">
    
            <div class="date"> 5/26</div>
            <div class="author">adam0201</div>
    
    </div>
</div>
```
主頁資訊2
```html
<div class="btn-group pull-right">
    <a class="btn wide" href="/bbs/Beauty/index1.html">最舊</a>
    <a class="btn wide" href="/bbs/Beauty/index1476.html">&lsaquo; 上頁</a>
    <a class="btn wide disabled">下頁 &rsaquo;</a>
    <a class="btn wide" href="/bbs/Beauty/index.html">最新</a>
</div>
```

需要的資訊

* 標題名稱 (.title中的文字)
* 標題連結 (.title中的超連結)
* 推文數量統計 (.nrec中的文字)
* 頁面數 (.btn-group pull-right中的第二個超連結)

## 文章頁面資訊

頁面資訊1
```html
<div class="article-metaline">
    <span class="article-meta-tag">作者</span>
    <span class="article-meta-value">maybr (阿紮)</span>
</div>
<div class="article-metaline-right">
    <span class="article-meta-tag">看板</span>
    <span class="article-meta-value">Beauty</span>
</div>
<div class="article-metaline">
    <span class="article-meta-tag">標題</span>
    <span class="article-meta-value">[正妹] 貓眼可愛女孩</span>
</div>
<div class="article-metaline">
    <span class="article-meta-tag">時間</span>
    <span class="article-meta-value">Mon May 11 18:21:58 2015</span>
</div>
```
頁面資訊2
```html
<div id="main-content" class="bbs-screen bbs-content"><div class="article-metaline">
...
</div>
```

需要的資訊

* 圖片連結 (#main-content中的超連結，需判斷)
* 發文日期 (第三個.article-meta-value中的文字)

## 取得需要的資料

In [4]:
import requests
from pyquery import PyQuery as pq

url = 'https://www.ptt.cc/bbs/Beauty/index.html'
r = requests.get('https://www.ptt.cc/bbs/Beauty/index.html')
s = pq(r.text)

### 因為很常用到，所以寫成函式

In [19]:
def get_requests_data(url):                    
        r = requests.get(url)
        s = pq(r.text)
        return s

In [20]:
s = get_requests_data('https://www.ptt.cc/bbs/Beauty/index.html')

### 取得所有頁面總數

In [21]:
def get_max_pages(url):
    s = get_requests_data(url)
    pull_right_urls = pq(s('div.btn-group.pull-right > a')[1]).\
        attr("href").split("index")[1].split(".")                     
    max_page = int(pull_right_urls[0])                                
    return max_page + 1                                               

In [22]:
get_max_pages('https://www.ptt.cc/bbs/Beauty/index.html')

1477

### 取得所有頁面的超連結

In [26]:
def get_all_pages_url(url):
    max_page = get_max_pages(url)
    url = 'https://www.ptt.cc/bbs/Beauty/index.html'
    url_head = url.split('index')[0]                         
    all_urls = [url_head + "index%s.html" % i for i in range(max_page)]
    all_urls.append(url)                                     
    return all_urls                                                    

In [27]:
get_all_pages_url('https://www.ptt.cc/bbs/Beauty/index.html')

['https://www.ptt.cc/bbs/Beauty/index0.html',
 'https://www.ptt.cc/bbs/Beauty/index1.html',
 'https://www.ptt.cc/bbs/Beauty/index2.html',
 'https://www.ptt.cc/bbs/Beauty/index3.html',
 'https://www.ptt.cc/bbs/Beauty/index4.html',
 'https://www.ptt.cc/bbs/Beauty/index5.html',
 'https://www.ptt.cc/bbs/Beauty/index6.html',
 'https://www.ptt.cc/bbs/Beauty/index7.html',
 'https://www.ptt.cc/bbs/Beauty/index8.html',
 'https://www.ptt.cc/bbs/Beauty/index9.html',
 'https://www.ptt.cc/bbs/Beauty/index10.html',
 'https://www.ptt.cc/bbs/Beauty/index11.html',
 'https://www.ptt.cc/bbs/Beauty/index12.html',
 'https://www.ptt.cc/bbs/Beauty/index13.html',
 'https://www.ptt.cc/bbs/Beauty/index14.html',
 'https://www.ptt.cc/bbs/Beauty/index15.html',
 'https://www.ptt.cc/bbs/Beauty/index16.html',
 'https://www.ptt.cc/bbs/Beauty/index17.html',
 'https://www.ptt.cc/bbs/Beauty/index18.html',
 'https://www.ptt.cc/bbs/Beauty/index19.html',
 'https://www.ptt.cc/bbs/Beauty/index20.html',
 'https://www.ptt.cc/bb

### 取得標題、超連結、推文等資訊，並暫存在變數中

In [28]:
def get_article_metadata_lists(one_ptt_url):
    s = get_requests_data(one_ptt_url)
    
    s = s('.r-ent')
    article_metadata = []
    for i in range(len(s)):                                                             
        metadata = {} 
        article = s.eq(i)
        relative_article_url = article('.title a').attr("href")                         
        if relative_article_url and relative_article_url.startswith('/bbs'):            
            url = 'http://www.ptt.cc%s' % relative_article_url                          
            metadata['url'] = relative_article_url.split('/')[-1][:-5]                  
            metadata['push'] = article('.nrec').text()
            metadata['title'] = article('.title').text()                                
            article_metadata.append(metadata)                                           
                
    return article_metadata

In [29]:
d = get_article_metadata_lists('https://www.ptt.cc/bbs/Beauty/index.html')

In [35]:
d

[{'push': '10',
  'title': u'[\u795e\u4eba] \u6377\u904b\u6b63\u59b9',
  'url': 'M.1431402618.A.341'},
 {'push': 'X1',
  'title': u'[\u795e\u4eba] \u9ed1\u7537\u5f71\u7247\u88e1\u7684\u6b63\u59b9',
  'url': 'M.1431403169.A.276'},
 {'push': '',
  'title': u'[\u6b63\u59b9] ig\u901b\u5230\u7684',
  'url': 'M.1431404642.A.2DB'},
 {'push': '3',
  'title': u'[\u6b63\u59b9] \u6797\u53e3\u9192\u543e-\u6e05\u7389\u98f2\u6599\u5e97\u6b63\u59b9',
  'url': 'M.1431407478.A.87F'},
 {'push': '3',
  'title': u'[\u516c\u544a] \u4e0d\u9858\u4e0a\u8868\u7279 \uff06 \u512a\u6587\u63a8\u85a6 \uff06 \u6aa2\u8209\u5efa\u8b70\u5c08\u5340',
  'url': 'M.1351581974.A.F60'},
 {'push': '',
  'title': u'[\u516c\u544a] \u8868\u7279\u677f\u677f\u898f (2015.2.12)',
  'url': 'M.1423752558.A.849'},
 {'push': '30',
  'title': u'[\u516c\u544a] \u5c0d\u65bc\u8b3e\u7f75\uff0c\u5e0c\u671b\u5927\u5bb6\u5c07\u5fc3\u6bd4\u5fc3',
  'url': 'M.1430099938.A.3B7'}]

In [61]:
def result(d):
    for node in d:
        for data in node:
            print data, node[data]
        print '\n'




In [62]:
result(d)

url M.1431402618.A.341
push 10
pic ['http://i.imgur.com/YsMsNs4.jpg']
date Tue May 12 11:50:15 2015
title [神人] 捷運正妹


url M.1431403169.A.276
push X1
title [神人] 黑男影片裡的正妹


url M.1431404642.A.2DB
push 
title [正妹] ig逛到的


url M.1431407478.A.87F
push 3
pic ['http://imgur.com/yTLkKOY.jpg', 'http://imgur.com/MBeIF8O.jpg']
date Tue May 12 13:11:14 2015
title [正妹] 林口醒吾-清玉飲料店正妹


url M.1351581974.A.F60
push 3
title [公告] 不願上表特 ＆ 優文推薦 ＆ 檢舉建議專區


url M.1423752558.A.849
push 
title [公告] 表特板板規 (2015.2.12)


url M.1430099938.A.3B7
push 30
title [公告] 對於謾罵，希望大家將心比心




### 取得單篇文章內的資訊：日期、圖片超連結

In [47]:
def get_article_data(article_url):                                           
    url = 'http://www.ptt.cc/bbs/Beauty/' + article_url + '.html'            
                                                                             
    s = get_requests_data(url)                                               
                                                                             
    data = {}                                                                
    metadata = s('.article-meta-value')                                      
    if len(metadata) != 4:                                                   
        return data                                                          
                                                                             
    urls = s('#main-content > a').map(lambda i, e: pq(this).text())     
    pic_urls = []                                                            
    for url in urls:                                                         
        if url.endswith('.gif'):
            continue                                                         
                                                                             
        if url.endswith('.jpg') or url.endswith('.png'):                     
            pic_urls.append(url)                              
                                                                             
    date = metadata.eq(3).text()                                                      
                                                                             
    if pic_urls:                                                             
        data['pic'] = pic_urls                                               
        data['date'] = date                                                  
    return data

In [54]:
data = []
for node in d:
    article_data = get_article_data(node['url'])
    if article_data:
        article_data.update(node)
        data.append(article_data)

In [63]:
result(data)

url M.1431402618.A.341
push 10
title [神人] 捷運正妹
date Tue May 12 11:50:15 2015
pic ['http://i.imgur.com/YsMsNs4.jpg']


url M.1431407478.A.87F
push 3
title [正妹] 林口醒吾-清玉飲料店正妹
date Tue May 12 13:11:14 2015
pic ['http://imgur.com/yTLkKOY.jpg', 'http://imgur.com/MBeIF8O.jpg']




## 額外補充1 - 善用cookies

若是想抓取八卦板<br>
https://www.ptt.cc/bbs/Gossiping/index.html

In [64]:
url = 'https://www.ptt.cc/bbs/Gossiping/index.html'
r = requests.get(url)

In [65]:
print r.text

<!DOCTYPE html>
<html>
	<head>
		<meta charset="utf-8" />
		

<meta name="viewport" content="width=device-width">

<title>批踢踢實業坊</title>

<link rel="stylesheet" type="text/css" href="//images.ptt.cc/v2.13/bbs-common.css" />
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/v2.13/bbs.css" media="screen" />
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/v2.13/pushstream.css" media="screen" />
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/v2.13/bbs-print.css" media="print" />


<script src="//ajax.googleapis.com/ajax/libs/jquery/2.1.1/jquery.min.js"></script>
<script src="//images.ptt.cc/v2.13/bbs.js"></script>


		

<script type="text/javascript">

  var _gaq = _gaq || [];
  _gaq.push(['_setAccount', 'UA-32365737-1']);
  _gaq.push(['_setDomainName', 'ptt.cc']);
  _gaq.push(['_trackPageview']);

  (function() {
    var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;
    ga.src = ('https:' == document.location.pro

觀察網頁傳送資訊，善用cookies

In [70]:
cookies = {'over18': '1'}
r = requests.get(url, cookies=cookies)

In [71]:
print r.text

<!DOCTYPE html>
<html>
	<head>
		<meta charset="utf-8" />
		

<meta name="viewport" content="width=device-width">

<title>看板 Gossiping 文章列表 - 批踢踢實業坊</title>

<link rel="stylesheet" type="text/css" href="//images.ptt.cc/v2.13/bbs-common.css" />
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/v2.13/bbs.css" media="screen" />
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/v2.13/pushstream.css" media="screen" />
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/v2.13/bbs-print.css" media="print" />


<script src="//ajax.googleapis.com/ajax/libs/jquery/2.1.1/jquery.min.js"></script>
<script src="//images.ptt.cc/v2.13/bbs.js"></script>


		

<script type="text/javascript">

  var _gaq = _gaq || [];
  _gaq.push(['_setAccount', 'UA-32365737-1']);
  _gaq.push(['_setDomainName', 'ptt.cc']);
  _gaq.push(['_trackPageview']);

  (function() {
    var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;
    ga.src = ('https:' == d

## 額外補充2 - 善用referer

ppt.cc的圖片無法直接連取<br>
http://ppt.cc/0HLX

In [72]:
url = 'http://ppt.cc/0HLX@.jpg'
r = requests.get(url)

In [76]:
r.history

[<Response [302]>]

In [77]:
headers = {'referer': 'http://ppt.cc'}
r = requests.get(url, headers=headers)

In [78]:
r.history

[]

In [79]:
f = open('pretty.jpg', 'wb')
f.write(r.content)
f.close()

<img src="pretty.jpg">

## 練習題

* 試著利用函式庫datetime，儲存ptt的date資料
* 試著判斷與處理超連結，分辨不同網站的圖片
* 試著利用mongodb，把data的資料存起來
* 試著在資料庫中對date資料加入index

<hr>

# 爬蟲範例 - 抓郵遞區號資料(ajax)

假設今天想要了解全台灣的地址與對應的郵遞區號<br>
http://www.post.gov.tw/post/internet/Postal/index.jsp?ID=208

* 觀察ajax傳送的資訊
* 觀察表格傳送的資訊

## 試著抓取街道資料

In [95]:
import requests

url = 'http://www.post.gov.tw/post/internet/Postal/streetNameData.jsp'
data = {'city': '桃園市', 'cityarea': '中壢區',}
r = requests.post(url, data=data)

In [96]:
print r.text

<?xml version="1.0" encoding="UTF-8"?><xml-body><array><array0>七福新村</array0><array0>九和一街</array0><array0>九和二街</array0><array0>九和三街</array0><array0>九和四街</array0><array0>九和五街</array0><array0>九和六街</array0><array0>八德路</array0><array0>力行大樓</array0><array0>力行北街</array0><array0>力行街</array0><array0>十全社區</array0><array0>三友新村</array0><array0>三民路１段</array0><array0>三光路</array0><array0>三和一街</array0><array0>三和二街</array0><array0>三和三街</array0><array0>三芝路</array0><array0>三樂一街</array0><array0>三樂二街</array0><array0>三樂三街</array0><array0>下三座屋</array0><array0>下內壢</array0><array0>下石頭</array0><array0>下興南</array0><array0>下舊社</array0><array0>上內壢</array0><array0>上石頭</array0><array0>上舊社</array0><array0>大仁一街</array0><array0>大仁二街</array0><array0>大仁三街</array0><array0>大仁四街</array0><array0>大仁五街</array0><array0>大仁街</array0><array0>大同新村</array0><array0>大同路</array0><array0>大同路和平巷</array0><array0>大圳路</array0><array0>大圳路１段</array0><array0>大圳路２段</array0><array0>大圳路３段</array0><array0>大安街</array0><array0>大成路１段</array0><array0>

In [97]:
from pyquery import PyQuery as pq

s = pq(r.text)

ValueError: Unicode strings with encoding declaration are not supported. Please use bytes input or XML fragments without declaration.

In [98]:
s = pq(r.content)

In [99]:
st = s('array0').map(lambda i, e: pq(e).text())

In [100]:
for s in st:
    print s

七福新村
九和一街
九和二街
九和三街
九和四街
九和五街
九和六街
八德路
力行大樓
力行北街
力行街
十全社區
三友新村
三民路１段
三光路
三和一街
三和二街
三和三街
三芝路
三樂一街
三樂二街
三樂三街
下三座屋
下內壢
下石頭
下興南
下舊社
上內壢
上石頭
上舊社
大仁一街
大仁二街
大仁三街
大仁四街
大仁五街
大仁街
大同新村
大同路
大同路和平巷
大圳路
大圳路１段
大圳路２段
大圳路３段
大安街
大成路１段
大享別莊
大享街
大享街１段
大勇一街
大勇二街
大勇三街
大勇四街
大莊路
大智街
大華二街
大華路
大農路
大德街
山下
山大一路
山大二路
山大路
山安路
山佳一路
山佳二路
山坪路
山坡路
山東一路
山東路
山德路
山錦路
中大新村
中大路
中山東路１段
中山東路１段中興二村
中山東路２段
中山東路３段
中山東路３段文化新村
中山東路４段
中山路
中仁新村
中北新村
中北路
中北路２段
中台路
中央西路１段
中央西路２段
中央西路２段尚義村
中央東路
中央路
中平路
中正五路
中正路
中正路２段
中正路３段
中正路４段
中光路
中和路
中明東路
中明路
中美路
中美路１段
中美路２段
中原新村
中原新村仁愛樓
中原新村忍耐樓
中原新村和平樓
中原路
中華路１段
中華路２段
中園路
中園路２段
中新東路
中新路
中福路
中福路２段
中寮街
中興巷
中興路
中龍路
中豐北路
中豐北路１段
中豐北路２段
中豐路
中觀路１段
中觀路２段
五光一街
五光二街
五光三街
五泰新村
五常街
五族二街
五族三街
五族街
五華街
五聖路
五福街
五穀街
五興路
五權新村
仁和街
仁美
仁美二街
仁美三街
仁美四街
仁美新村
仁慈路
仁愛路
仁福一街
仁福二街
仁福三街
仁福四街
仁福五街
仁德一街
仁德二街
仁德三街
仁德四街
仁德五街
仁德七街
仁德八街
仁德街
元化路
元化路２段
元生一街
元生二街
元生三街
內江街
內定一街
內定二街
內定三街
內定五街
內定六街
內定七街
內定八街
內定九街
內定十街
內定十一街
內定十二街
內定十三街
內定十五街
內定十六街
內定十八街
內定二十街
內定二十二街
內厝一路
內厝二路
內厝三路
內厝五路
內厝六路
內厝八路
內厝九路
內厝十路
內厝十一路
內厝子
內厝路
六和路
公園路２段
天成新村
天祥一街

## 試著模擬查詢

In [90]:
data

{'city': '\xe6\xa1\x83\xe5\x9c\x92\xe5\xb8\x82',
 'cityarea': '\xe4\xb8\xad\xe5\xa3\xa2\xe5\x8d\x80'}

In [112]:
data.update({'list': '1', 'list_type': '1', 'firstView': '1'})

In [113]:
url = 'http://www.post.gov.tw/post/internet/Postal/index.jsp?ID=208'

In [114]:
print st[14]

三光路


In [118]:
data['street'] = st[14]
r = requests.post(url, data=data)
result = pq(r.text)

In [119]:
table =  result('.TableStyle_02').eq(0) #因為會抓到兩個，第一個才是我們要的

In [121]:
zip_st = table('tr').map(lambda i, e: pq(e).text())

In [129]:
for data in zip_st:
    print data

郵遞區號 區域 路名 段號 投遞範圍
32047 中壢區 三光路 0 連 289號以下
32055 中壢區 三光路 0 連 290號至 459號


In [130]:
for data in zip_st:
    print data.replace(" ", ",", 4)

郵遞區號,區域,路名,段號,投遞範圍
32047,中壢區,三光路,0,連 289號以下
32055,中壢區,三光路,0,連 290號至 459號


In [138]:
data = {
'list': '1',
'list_type': '1',
'firstView': '1',
'city': '桃園市',
'cityarea': '中壢區',
}

In [139]:
for name in st[11:20]:
    data['street'] = name
    r = requests.post(url, data=data)
    result = pq(r.text)
    row =  result('.TableStyle_02:first')
    new_row = row.items('tr')
    new_row.next()
    for i in new_row:
        print i.text() 

32060 中壢區 十全社區 0 全
32051 中壢區 三友新村 0 全
32051 中壢區 三民路 １段 連 400號以下
32049 中壢區 三民路 １段 連 401號以上
32047 中壢區 三光路 0 連 289號以下
32055 中壢區 三光路 0 連 290號至 459號
32081 中壢區 三和一街 0 全
32081 中壢區 三和二街 0 全
32081 中壢區 三和三街 0 全
32054 中壢區 三芝路 0 全
32047 中壢區 三樂一街 0 全


## 練習題

* 試著爬取所有的郵遞區號資訊，並存成csv檔
* 參考[zipcodetw](https://github.com/moskytw/zipcodetw)是如何利用郵遞區號資料，做出簡易查詢的服務

# 加分作業

* 試著思考是否平常使用網路時，會遇到需要爬資料解決的問題？
* 試著利用今天課堂分享的python與crawler技巧，寫一個簡單的爬蟲程式，整理資料，存入資料庫
    * 爬蟲程式 %
    * 資料庫 %
    * 心得報告 %
    
* 參考網站
    * 社群網站(dcard, weibo, pixnet)
    * 新聞網站(蘋果日報, TVBS, 自由時報)
    * 拍賣網站(Y拍, 露天)
    * 購物網站(amazon, 博客來, 讀冊, pchome, 掏寶)
    * 論壇(巴哈姆特, mobile01)
    * 線上資源(影片, 文字, 圖片)