# Crawler基礎－requests傳值、爬取圖片

## 目錄
- [GET 傳值](#GET-傳值)  
- [POST 傳值](#POST-傳值)
- [抓取圖片](#抓取圖片)

## 範例網站
- 檢驗GET http://httpbin.org/get
- 檢驗POST http://httpbin.org/post
- 大量圖片網站 https://www.istockphoto.com/photos/parkour

In [1]:
import requests

## GET 傳值

GET傳值兩種方法：
1. 用 url 傳送(使用 ?、& 連接)
2. 用參數傳送

### 用 url

In [2]:
# 在網址後面使用 ? 和 & 傳送
res = requests.get('http://httpbin.org/get?a=apple&b=banana')

In [3]:
# 把回傳的json印出來
# 可以看到 args 已經得到我們傳入的數值
res.json()

{'args': {'a': 'apple', 'b': 'banana'},
 'headers': {'Accept': '*/*',
  'Accept-Encoding': 'gzip, deflate',
  'Connection': 'close',
  'Host': 'httpbin.org',
  'User-Agent': 'python-requests/2.18.4'},
 'origin': '140.117.178.29',
 'url': 'http://httpbin.org/get?a=apple&b=banana'}

### 用參數傳送

In [4]:
# 也可以輸入 python 變數
data = {'c':'cocoa','d':'delete'}
res = requests.get('http://httpbin.org/get',data)

In [5]:
# 一樣看到 args 獲得資料
res.json()

{'args': {'c': 'cocoa', 'd': 'delete'},
 'headers': {'Accept': '*/*',
  'Accept-Encoding': 'gzip, deflate',
  'Connection': 'close',
  'Host': 'httpbin.org',
  'User-Agent': 'python-requests/2.18.4'},
 'origin': '140.117.178.29',
 'url': 'http://httpbin.org/get?c=cocoa&d=delete'}

## POST 傳值

POST 的話可以透過以下兩種方式傳送：
1. HTML 的 < form > 標籤
2. requests.post 傳送data

In [6]:
# 和 get 傳送變數一樣
# 記得使用requests.post函式
data = {'e':'elephant','s':'song'}
res = requests.post('http://httpbin.org/post',data)

In [7]:
# 可以觀察到 form 接收到了我們的資料
res.json()

{'args': {},
 'data': '',
 'files': {},
 'form': {'e': 'elephant', 's': 'song'},
 'headers': {'Accept': '*/*',
  'Accept-Encoding': 'gzip, deflate',
  'Connection': 'close',
  'Content-Length': '17',
  'Content-Type': 'application/x-www-form-urlencoded',
  'Host': 'httpbin.org',
  'User-Agent': 'python-requests/2.18.4'},
 'json': None,
 'origin': '140.117.178.29',
 'url': 'http://httpbin.org/post'}

## 抓取圖片

In [8]:
from bs4 import BeautifulSoup

In [9]:
# 先創個放照片的資料夾
from os import makedirs
makedirs('pic/',exist_ok=True)

### 單一圖片

- 示範圖片 http://www.nsysu.edu.tw/ezfiles/0/1000/gallery/9/509/gallery_509_9271250_63619.jpg

In [10]:
url = 'http://www.nsysu.edu.tw/ezfiles/0/1000/gallery/9/509/gallery_509_9271250_63619.jpg'

In [11]:
# 利用 requests 幫我們獲得這張圖片
res = requests.get(url)

In [12]:
# request完之後 使用.content獲得圖片的原始編碼
res.content[0:100]

b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x01\x00`\x00`\x00\x00\xff\xdb\x00C\x00\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\x01\xff\xdb\x00C\x01\x01\x01\x01\x01\x01\x01'

In [13]:
# 是一種很特別的 二進位
type(res.content)

bytes

In [14]:
# 開啟一個 jpg 檔案
# 模式使用 w 來寫入 b 代表 binary 二進位
# 使用 write 把 content 寫進去
jpg = open('pic/nsysu.jpg','wb')
jpg.write(res.content)
jpg.close()

### 同時抓取大量圖片

抓取圖片可以結合我們之前學到的 multiple-page  
一次抓取大量圖片 下載到電腦裡面
不過網站要是靜態的才可以（instagram flickr是動態的）
所以我們來實做看看吧
EX: ptt Beauty、部落格相簿、論壇貼圖版

這裡以一個圖片網站為例  
叫做 istockphoto

In [15]:
# 到網站獲得所有原始碼
# 發送 request 請求、放到 html 解析器裡
url = 'https://www.istockphoto.com/photos/parkour'
res = requests.get(url)
soup = BeautifulSoup(res.text,'html.parser')

In [16]:
# 使用 find_all 找出所有的 img 標籤
# 看看找到多少個
img_list = soup.find_all('img')
len(img_list)

81

In [17]:
# 我們可以從 img_list 裡面使用 .get('src')
# 取出圖片網址
for i in range(32,35):
    print(img_list[i].get('src'))

https://media.istockphoto.com/photos/young-man-practicing-parkour-in-the-city-picture-id485321190?k=6&m=485321190&s=612x612&w=0&h=U4vRAwlYayoWtU9YhPBhOr9rN1e1LW1-lbjsSrO9EIE=
https://media.istockphoto.com/photos/risky-man-jumping-picture-id513823595?k=6&m=513823595&s=612x612&w=0&h=LzCRYBp-1FPreaYwyt-WEHerL54gftMtVKK_4awmSHY=
https://media.istockphoto.com/photos/sporty-woman-outdoors-picture-id541986736?k=6&m=541986736&s=612x612&w=0&h=-0xtE5UcXIpJUuP-nxu-g6zbg-2_FuG7B6yJ5u07X-k=


In [18]:
# 檢查看看是否真的是照片
# 是我們要的內容
# (這段比較複雜 複製貼上就好)
from IPython.display import display, Image
for i in range(32,37):
    display(Image(url=img_list[i].get('src'),retina=True))

In [19]:
# 結合前面抓取圖片的方法
# 把全部存到電腦
for i in range(0,len(img_list)):
    # 只使用合法的圖片網址
    img_url = img_list[i].get('src')
    
    if img_url and 'http' in img_url:
        res = requests.get(img_url)
        
        file_name = f'pic/pic{i:02}.jpg'
        jpg = open(file_name,'wb')
        jpg.write(res.content)
        jpg.close