# 한꺼번에 다운받는 데 필요한 처리 내용

지금까지 BeautifulSoup와  CSS 선택자의 사용법을 살펴봄. 하지만 이것만으로는 링크에 있는 것을 한꺼번에 다운받을 수 없음.

일단 a 태그의 링크 대상이 상대 경로일 수 있음. 그래서 링크 대상이 HTML일 경우, 해당 HTML의 내용에 추가적인 처리를 해야함.
그리고 링크를 재귀적으로 다운받아야 함. 이번 절에서는 링크에 있는 것을 한꺼번에 다운받는 기법을 소개하겠음.


# 상대 경로를 전개하는 방법

그럼 일단 첫 번째 문제부터 살펴보겠음.
일단 a 태그의 href 속성에 링크 대상이 "../img/hoge.png" 처럼 상대 경로로 적혀 있다고 합시다. a 태그가 상대 경로로 주어졌을 때 대상에 있는 것을 다운받으려면 상대 경로를 절대 경로로 변환해야함. 

상대 경로를 전개할 때는 urllib.parser.urljoin()을 사용함. 실제로 프로그램을 확인해보자

In [1]:
from urllib.parse import urljoin

base = "http://example.com/html/a.html"

print(urljoin(base, "b.html"))
print(urljoin(base, "sub/c.html"))
print(urljoin(base, "../index.html"))
print(urljoin(base, "../img/hoge.png"))
print(urljoin(base, "../css/hoge.css"))

http://example.com/html/b.html
http://example.com/html/sub/c.html
http://example.com/index.html
http://example.com/img/hoge.png
http://example.com/css/hoge.css


결과를 보면 기본 URL을 기반으로 상대 경로를 절대 경로로 변환한다는 것을 알 수 있음. 이처럼 상대 경로를 절대 경로로 변환하는 urljoin() 함수의 사용법을 살펴봅시다.

[서식] urllib.parse.urljoin()의 사용법
urljoin(base, path)

이 함수는 첫 번째 매개뱐수로 기본 URL, 두 번째 매개변수로 상대 경로를 지정함.

만약 상대 경로(path 매개변수)가 http:// 등으로 시작한다면 기본 URL(base 매개뱐수)를 무시하고, 번째 매개변수에 지정한 URL 리런함.
예제 코드를 동작시켜보자

In [2]:
from urllib.parse import urljoin

base = "http://example.com/html/a.html"

print( urljoin(base, "/hoge.html"))
print( urljoin(base, "http://otherExample.com/wiki"))
print( urljoin(base, "//anotherExample.org/test"))


http://example.com/hoge.html
http://otherExample.com/wiki
http://anotherExample.org/test


이처럼 urljoin() 함수를 사용하면 a 태그의 href 속성에 지정돼 있는 경로를 절대 경로로 쉽게 변환할 수 있음.

# 모든 페이지를 한꺼번에 다운받는 프로그램

일단 이번 절에서는 웹에 있는 파이썬 문서 중에서 library 폴더 아래에 있는 모든 것을 다운받아보겠음. 

프로그램을 실행하면 사이트 내부의 파일 또는 HTML 등을 모두 다운로드 받음.

In [8]:
# 파이썬 메뉴얼을 재귀적으로 다운받는 프로그램
# 모듈 읽어들이기 -- 1
from bs4 import BeautifulSoup
from urllib.request import *
from urllib.parse import *
from os import makedirs
import os.path, time, re

# 이미 처리한 파일이지 확인하기 위한 변수 -- 2
proc_files = {}

# HTML 내부에 있는 링크를 추출하는 함수 -- 3
def enum_links(html, base):
    soup = BeautifulSoup(html, "html.parser")
    links = soup.select("link[rel = 'stylesheet']") # CSS
    links += soup.select("a[href]") # 링크
    result = []
    
    # href 속성을 추출하고, 링크를 절대 경로로 변환 -- 4
    for a in links:
        href = a.attrs['href']
        url = urljoin(base, href)
        result.append(url)
    return result

# 파일을 다운받고 저장하는 함수 -- 5
def download_file(url):
    o = urlparse(url)
    savepath = "./" + o.netloc + o.path
    if re.search(r"/$", savepath): # 폴더라면 index.html
        savepath += "index.html"
    savedir = os.path.dirname(savepath)
    #  모두 다운로드 됐는지 확인하기 
    if not os.path.exists(savedir):
        print("mkdir = ", savedir)
        makdirs(savedir)
    # 파일 다운로드 받기 -- 6
    try :
        print("download = ", url)
        urlretrieve(url, savepath)
        time.sleep(1) # 1초 휴식 -- 7
        return savepath
    except:
        print("download_fail : ", url)
        return None
# HTML을 분석하고 다운받는 함수 -- 8
def analyze_html(url, root_url):
    savepath = download_file(url)
    if savepath is None: return
    if savepath is proc_files: return # 이미 처리되었다면 실행하지 않음 -- 9
    proc_files[savepath] = True
    print("analyze_html = ", url)
    
    for link_url in links:
        # 링크가 루트 이외의 경로를 나타낸다면 무시 -- 11
        if link_url.find(root_url) != 0:
            if not re.search(r".css$", link_url) : continue
        # HTML 이라면
        if re.search(r".(html|htm)$", link_url):
            # 재귀적으로 HTML 파일 분석하기
            analyze_html(link_url, root_url)
            continue
        # 기타 파일
        download_file(link_url)
        
if __name__ == "__main__":
    # URL에 있는 모든 것 다운로드하기 -- 12
    url = "https://docs.python.org/3.5/library/"
    analyze_html(url, url)

mkdir =  ./docs.python.org/3.5/library


NameError: name 'makdirs' is not defined