## 5.1 미디어 파일

- 참조를 저장하는 것
    - 파일이 위치한 URL을 저장하기만 하면 된다
    - 장점
        - 스크레이퍼가 파일을 내려받을 필요가 없으므로 훨씬 빨리 동작, 대역폭도 적게 요구
        - URL만 저장하므로 컴퓨터의 공간도 확보
        - URL만 저장하고 파일을 내려받지 않는 코드는 만들기 쉽다
        - 큰 파일을 내려받지 않으므로 호스트 서버의 부하도 적다
    - 단점
        - 핫링크(URL을 웹사이트나 앱에 포함)의 말썽이 생길 소지가 많다
        - 공개된 블로그 같은 곳에 핫링크 이미지를 쓰면 난처한 일이 생길 수 있다.
        - 앱에 사용할 미디어 파일을 다른 사람의 서버에 맡기고 싶지 않을 수 있다.
        - 외부의 있는 파일은 바뀔 수 있다.
        - 나중에 저장하려 했는데, 막상 그 파일이 사라졌거나 다른 것으로 바뀔 수 있다.
        - 실제 웹 브라우저는 페이지의 HTML만 요청하지 않고, 거기 포함된 파일도 내려 받는다.
        - 스크래이퍼에서 파일을 내려받으면 실제 사람이 사이트를 보는 것 처럼 보일 수 있고, 이것이 장점일 때가 있다.
- 파일 자체를 내려 받는 것

#### 원격 URL의 파일을 내려 받을 때
- urllib.request.urlretrieve

In [None]:
from urllib.request import urlretrieve
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com")
bsObj = BeautifulSoup(html, "html.parser")
imageLocation = bsObj.find("a", {"id":"logo"}).find("img")["src"]
urlretrieve(imageLocation, "logo.jpg")

#### src속성에 연결되어 있는 내부파일 다운로드

In [None]:
import os
from urllib.request import urlretrieve
from urllib.request import urlopen
from bs4 import BeautifulSoup

downloadDirectory = "downloaded"
baseUrl = "http://pythonscraping.com"

def getAbsoluteURL(baseUrl, source):
    if source.startswith("http://www."):
        url = "http://"+source[11:]
    elif source.startswith("http://"):
        url = source
    elif source.startswith("www."):
        url = source[4:]
        url = "http://"+source
    else:
        url = baseUrl+"/"+source
    if baseUrl not in url:
        return None
    return url

def getDownloadPath(baseUrl, absoluteUrl, downloadDirectory):
    path = absoluteUrl.replace("www.", "")
    path = path.replace(baseUrl, "")
    path = downloadDirectory+path
    directory = os.path.dirname(path)

    if not os.path.exists(directory):
        os.makedirs(directory)

    return path

html = urlopen("http://www.pythonscraping.com")
bsObj = BeautifulSoup(html, "html.parser")
downloadList = bsObj.findAll(src=True)

for download in downloadList:
    fileUrl = getAbsoluteURL(baseUrl, download["src"])
    if fileUrl is not None:
        print(fileUrl)
        urlretrieve(fileUrl, getDownloadPath(baseUrl, fileUrl, downloadDirectory))