# 存储媒体文件

## 存储媒体文件的两种主要方式：只获取文件URL链接，或者直接把源文件下载下来

### 可以通过媒体文件所在的URL链接直接引用它

优点
- 爬虫运行更快，耗费的流量更少，只需要链接，不需要下载文件
- 可以节省存储空间，只需要存储URL链接
- 存储URL的代码更容易写，也不需要实现文件下载代码
- 不下载文件可以降低目标主机服务器的负载

缺点
- 内嵌在你的网站或者应用中的外站URL链接被称为盗链（hotlinking）,使用盗链可能会有麻烦，每个网站都有防盗链的措施。
- 链接文件在别人的服务器上，所以你的应用就要跟着别人的节奏运行
- 盗链很容易改变
- 现实中的浏览器不仅可以请求HTML页面并切换页面，也会下载访问页面上所有的资源。

## urllib.request.urlretrieve可以根据文件的URL下载文件

In [1]:
from urllib.request import urlretrieve
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com")
soup = BeautifulSoup(html, 'lxml')
imageLocation = soup.find("a", {"id":"logo"}).find("img")["src"]
urlretrieve(imageLocation, "logo.jpg")

('logo.jpg', <http.client.HTTPMessage at 0x250f358e3c8>)

In [2]:
imageLocation = soup.find("a", {"target":"_blank"}).find("img")["src"]
urlretrieve(imageLocation, "book.jpg")

('book.jpg', <http.client.HTTPMessage at 0x250f35b1a20>)

大多数爬虫都不可能一天只下载一个文件。下面的程序会把http://pythonscraping.com 主页上所有src属性的文件都下载下来

## 下载该主页上的所有SRC属性的文件

In [12]:
import os
from urllib.request import urlretrieve
from urllib.request import urlopen
from bs4 import BeautifulSoup

downloadDirectory = "downloaded"
baseUrl = "http://pythonscraping.com"
def getAbsoluteURL(baseUrl, source):
    if source.startswith("http://www."):
        url = "http://" + source[11:]
    elif source.startswith("http://"):
        url = source
    elif source.startswith("www."):
        url = source[4:]
        url = "http://" + source
    else:
        url = baseUrl + "/" + source
    if baseUrl not in url:
        return None
    return url

def  getDownloadPath(baseUrl, absoluteUrl, downloadDirectory):
    path = absoluteUrl.replace("www.", "")
    path = path.replace(baseUrl, "")
    path = downloadDirectory + path
    directory = os.path.dirname(path)
    if not os.path.exists(directory):
        os.makedirs(directory)
    return path

In [13]:
html = urlopen("http://www.pythonscraping.com")
soup = BeautifulSoup(html, 'lxml')
downloadList = soup.findAll(src=True)

for download in downloadList:
    fileUrl = getAbsoluteURL(baseUrl, download["src"])
    if fileUrl is not None:
        print(fileUrl)
    try:
        urlretrieve(fileUrl, getDownloadPath(baseUrl, fileUrl, downloadDirectory))
    except Exception as e:
        print(fileUrl + " cannot download!")

http://pythonscraping.com/misc/jquery.js?v=1.4.4
http://pythonscraping.com/misc/jquery.js?v=1.4.4 cannot download!
http://pythonscraping.com/misc/jquery.once.js?v=1.2
http://pythonscraping.com/misc/jquery.once.js?v=1.2 cannot download!
http://pythonscraping.com/misc/drupal.js?os2esm
http://pythonscraping.com/misc/drupal.js?os2esm cannot download!
http://pythonscraping.com/sites/all/themes/skeletontheme/js/jquery.mobilemenu.js?os2esm
http://pythonscraping.com/sites/all/themes/skeletontheme/js/jquery.mobilemenu.js?os2esm cannot download!
http://pythonscraping.com/sites/all/modules/google_analytics/googleanalytics.js?os2esm
http://pythonscraping.com/sites/all/modules/google_analytics/googleanalytics.js?os2esm cannot download!
http://pythonscraping.com/sites/default/files/lrg_0.jpg


TypeError: unsupported operand type(s) for +: 'NoneType' and 'str'