# 포스트에 사용된 이미지 다운로드


![10.jpg](images/10.jpg)

# index.html
탐색기로 네이버 아이디 폴더를 보면 index.html 파일과 각 포스트에 해당하는 logNo 이름으로 html 파일들이 정상적으로 생성되어있는 것을 확인 할 수 있습니다. index.html 을 열어보면 위의 이미지 처럼 현재 다운로드한 모든 블로그의 포스트가 정상적으로 링크되어있는지도 확인 할 수 있습니다.

![11.jpg](images/11.jpg)

이미지가 사용된 포스트를 아무거나 하나 눌러서 클릭해보면 어떤건 이미지가 이상하게 나오기도 하고 어떤건 이미지 사이즈가 작게 나오기도 하는걸 볼 수 있습니다. 그리고 해당 이미지는 네이버 서버에 있는 상황이기 때문에 우리는 이 이미지도 다운로드 하는게 좋을것 같습니다. 그럼 이미지를 다운로드 하는 함수를 먼저 작성해보도록 하겠습니다.

In [None]:
import random
import string
import shutil

def random_generator(size=6, chars=string.ascii_lowercase + string.digits):
    return ''.join(random.choice(chars) for x in range(size))

def download_image(url, image_dir):
    if url[0:4] == "http":
        r = requests.get(url, stream=True)
        if r.status_code == 200:
            image_file_path = image_dir + "\\{}.jpg".format(random_generator(20))
            with open(image_file_path, 'wb') as f:
                r.raw.decode_content = True
                shutil.copyfileobj(r.raw, f)
            return image_file_path
    return None

### 이미지 다운로드

이미지 주소를 넘겨받으면 해당 주소의 이미지 파일을 다운로드 하는 download_image 함수를 작성하고 이미지 파일명을 위해 랜덤한 문자열을 리턴해주는 함수 하나를 작성합니다. 이미지의 파일명은 20글자의 랜덤한 글자를 사용하도록 하겠습니다. 이미지를 정상적으로 다운로드 하였으면 해당 파일명의 경로를 리턴합니다.


### 이미지 링크 추출

이미지를 다운로드 하기 위해선 먼저 포스트의 상세 내용에서 이미지 태그만을 추출해야 합니다. 그런에 여기서도 주의할점이 스마트에디터의 버전에 따라 2가지의 이미지 요소 클래스명이 다릅니다. 이미지 태그를 추출하기 위해서 get_detail 함수를 수정하도록 하겠습니다.

In [None]:
def get_detail(naver_id, logNo, image_dir):
    image_save_dir = image_dir + "\\{}".format(logNo)
    if not os.path.exists(image_save_dir):
        os.mkdir(image_save_dir)

    url = "https://blog.naver.com/PostView.nhn?blogId={}&logNo={}".format(naver_id, logNo)
    r = requests.get(url)
    bs = BeautifulSoup(r.text, "lxml")
    contents = bs.select_one("div#postViewArea > div")
    if contents is None:
        contents = bs.select_one("div.se-main-container")

    imgs = contents.select("img")
    for img in imgs:
        src = img.get("data-lazy-src")
        if src is None:
            src = img.get("src")
        save_image = download_image(src, image_save_dir)
        if save_image is not None:
            img["src"] = save_image
    return contents


### get_detail()

이미지를 어디에 다운로드 할지 이미지 폴더 경로를 인자로 받게 수정했습니다. 그리고 이미지 폴더 밑에 각 포스트 인덱스번호로 폴더를 또 생성하여 이곳에 저장하기로 합니다. 최종적으로 추출한 본문내용이 들어있는 BeautifulSoup 형태의 contents 변수 값에서 img 태그 요소를 선택 합니다. 그리고 이렇게 파싱된 img 요소들에서 스마트에디터 버전에 따른 클래스명으로 이미지의 주소를 파싱합니다.

### 주의점

여기서 중요한 부분은 download_image() 함수를 통해 이미지를 다운로드 한 후에 기존의 이미지 주소인 img['src'] 의 값을 download_image() 함수가 리턴한 파일 경로로 변경을 해야 합니다. 그래야 최종적으로 본문 내용인 contents 값을 html 로 작성했을 경우 현재 파일의 경로의 이미지가 출력 되게 됩니다.

```img['src'] = save_image```

# 파이썬 logging 사용

보통 프로그램이 어떻게 돌아가고 있는지를 확인하기 위해 print() 문을 사용하여 로그를 출력합니다만 여기서는 파이썬에서 제공하는 logging 라이브러리를 활용해서 로그를 출력하도록 하겠습니다.

In [None]:
import logging

logger = logging.getLogger(__name__)
logger.setLevel(logging.DEBUG)
log_handler = logging.StreamHandler()
log_handler.setLevel(logging.DEBUG)

formatter = logging.Formatter('[%(levelname)s] %(asctime)s-%(message)s', datefmt='%m/%d/%Y %I:%M:%S %p')
log_handler.setFormatter(formatter)
logger.addHandler(log_handler)

파이썬의 로거는 각 모듈마다 구현할 수 있습니다. 그래서 최초 logging.getLogger(__name__) 을 통해 현재 모듈의 로거를 생성합니다. 로거가 출력하는 최소 레벨을 DEBUG 부터 출력하게 설정하고 화면에 로그를 출력하기 위해 StreamHandler()를 생성합니다.

### 출력형태
Formatter 를 활용해서 로거가 출력하는 메세지를 원하는데로 설정할 수 있는데 여기서는 레벨, 시간, 메세지의 출력 옵션을 설정하였습니다. 이렇게 생성한 포맷터를 로그핸들러에 설정하고 설정된 로그 핸들러를 로거에 추가하면 준비는 끝났습니다.

In [None]:
import requests
from bs4 import BeautifulSoup
import hjson
import urllib
import os
import shutil
import random
import string
import logging

logger = logging.getLogger(__name__)
logger.setLevel(logging.DEBUG)
log_handler = logging.StreamHandler()
log_handler.setLevel(logging.DEBUG)

formatter = logging.Formatter('[%(levelname)s] %(asctime)s-%(message)s', datefmt='%m/%d/%Y %I:%M:%S %p')
log_handler.setFormatter(formatter)
logger.addHandler(log_handler)

def get_category(naver_id):
    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36",
        "Referer": "https://blog.naver.com/PostList.nhn?blogId={}&categoryNo=0&from=postList".format(naver_id)
    }
    url = "https://blog.naver.com/WidgetListAsync.nhn?blogId={}&enableWidgetKeys=challengeMasterTrack_3%2CchallengeMasterTrack_2%2C1282902%2Csearch%2Ctitle%2Cmenu%2Cprofile%2Ccategory%2C1296453%2C1296454%2Cbuddyconnect%2Ccounter%2Cvisitorgp%2Crss%2C431894%2Cstat%2Ccontent%2Cgnb%2Cexternalwidget%2Cmusic".format(naver_id)
    category = {}
    _r = requests.get(url, headers=header)
    _json = hjson.loads(_r.text)
    _category_str = _json.get("category").get("content")
    bs = BeautifulSoup(_category_str, "lxml")
    links = bs.select("a")
    for l in links:
        _href = l.get("href")
        if _href is None or _href == "#":
            continue
        _text = l.text
        _id = l.get("id")
        _id = _id.replace("category", "")
        if category.get(_id) is None:
            category[_id] = _text
    return category


def get_list(naver_id, category, max_page=None):
    results = []
    page = 1
    while True:
        url = "https://blog.naver.com/PostTitleListAsync.nhn?blogId={}&viewdate=&currentPage={}&categoryNo=&parentCategoryNo=&countPerPage=30".format(naver_id, page)
        r = requests.get(url)
        _json = hjson.loads(r.text)
        _posts = _json.get("postList")
        _paging = _json.get("pagingHtml")

        for _p in _posts:
            _logNo = _p.get("logNo")
            _title = urllib.request.unquote(_p.get("title")).replace("+", " ")
            _category_no = _p.get("categoryNo")
            _parent_category_no = _p.get("parentCategoryNo")
            _add_date = _p.get("addDate")
            _category = category[_category_no]

            results.append({
                "logNo": _logNo,
                "title": _title,
                "categoryNo": _category_no,
                "parentCategoryNo": _parent_category_no,
                "addDate": _add_date,
                "category": _category
            })

        bs = BeautifulSoup(_paging, "lxml")
        _next_tag = bs.select_one("a.next")
        if _next_tag is None:
            break
        if max_page is not None and max_page <= page:
            break
        page += 1
    return results


def random_generator(size=6, chars=string.ascii_lowercase + string.digits):
    return ''.join(random.choice(chars) for x in range(size))


def download_image(url, image_dir):
    if url[0:4] == "http":
        r = requests.get(url, stream=True)
        if r.status_code == 200:
            image_file_path = image_dir + "\\{}.jpg".format(random_generator(20))
            with open(image_file_path, 'wb') as f:
                r.raw.decode_content = True
                shutil.copyfileobj(r.raw, f)
            return image_file_path
    return None


def get_detail(naver_id, logNo, image_dir):
    image_save_dir = image_dir + "\\{}".format(logNo)
    if not os.path.exists(image_save_dir):
        os.mkdir(image_save_dir)

    url = "https://blog.naver.com/PostView.nhn?blogId={}&logNo={}".format(naver_id, logNo)
    r = requests.get(url)
    bs = BeautifulSoup(r.text, "lxml")
    contents = bs.select_one("div#postViewArea > div")
    if contents is None:
        contents = bs.select_one("div.se-main-container")

    imgs = contents.select("img")
    for img in imgs:
        src = img.get("data-lazy-src")
        if src is None:
            src = img.get("src")
        save_image = download_image(src, image_save_dir)
        if save_image is not None:
            img["src"] = save_image

        logger.debug("이미지 다운로드 {}".format(src))
    return contents


def make_index(save_dir, blog_post_list):
    with open(save_dir + "\\index.html", "w", encoding="utf-8") as f:
        html = "<table>"
        f.write(html)
        f.write("\n")
        for b in blog_post_list:
            _logNo = b.get("logNo")
            _title = b.get("title")
            f.write("<tr><td>")
            f.write("<a href='{}.html' target='_blank'>{}</a>".format(_logNo, _title))
            f.write("</td></tr>")
            f.write("\n")


def main():
    naver_id = "nkj2001"
    current_path = os.path.dirname(os.path.realpath(__file__))
    save_dir = current_path + "\\" + naver_id
    image_dir = save_dir + "\\images"
    if not os.path.exists(save_dir):
        os.mkdir(save_dir)
    if not os.path.exists(image_dir):
        os.mkdir(image_dir)

    blog_title, category = get_blog(naver_id)
    blog_post_list = get_list(naver_id, category, max_page=1)

    make_index(save_dir, blog_post_list)

    for b in blog_post_list:
        _logNo = b.get("logNo")
        contents = get_detail(naver_id, _logNo, image_dir)

        with open(save_dir + "\\{}.html".format(_logNo), "w", encoding="utf-8") as f:
            f.write(str(contents))

if __name__ == "__main__":
    main()