# 프로그램을 기능별로 함수로 작성

이전에 작성한 프로그램을 크게 기능별로 나누어 봅니다.
- 카테고리 정보 추출
- 리스트 목록 추출
- 상세 페이지 추출

이렇게 나누어진 형태대로 함수화 시켜 코드를 수정합니다.

In [None]:
import requests
from bs4 import BeautifulSoup
import hjson
import urllib


def get_category(naver_id):
    '''카테고리 정보를 추출하는 함수
    params:
        naver_id : 네이버 블로그 아이디
    return:
        dict : 카테고리[인덱스] = 카테고리
    '''
    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36",
        "Referer": "https://blog.naver.com/PostList.nhn?blogId={}&categoryNo=0&from=postList".format(naver_id)
    }

    url = "https://blog.naver.com/WidgetListAsync.nhn?blogId={}&enableWidgetKeys=challengeMasterTrack_3%2CchallengeMasterTrack_2%2C1282902%2Csearch%2Ctitle%2Cmenu%2Cprofile%2Ccategory%2C1296453%2C1296454%2Cbuddyconnect%2Ccounter%2Cvisitorgp%2Crss%2C431894%2Cstat%2Ccontent%2Cgnb%2Cexternalwidget%2Cmusic".format(naver_id)
    category = {}
    _r = requests.get(url, headers=header)
    _json = hjson.loads(_r.text)
    _category_str = _json.get("category").get("content")
    bs = BeautifulSoup(_category_str, "lxml")
    links = bs.select("a")
    for l in links:
        _href = l.get("href")
        if _href is None or _href == "#":
            continue
        _text = l.text
        _id = l.get("id")
        _id = _id.replace("category", "")
        if category.get(_id) is None:
            category[_id] = _text
    return category


def get_list(naver_id, category, max_page=None):
    '''네이버 블로그에서 포스트 리스트를 추출하는 함수
    params:
        naver_id : 네이버 블로그 아이디
        category : 카테고리 정보 dict
        max_page : 크롤링 할 블로그 포스트의 최대 페이지
    return:
        list [{
            logNo : 블로그 포스트 인덱스
            title : 포스트 제목
            categoryNo : 카테고리 인덱스
            parentCategoryNo : 부모 카테고리 인덱스
            addDate : 날짜
            category : 카테고리명
        }]
    '''
    results = []
    page = 1
    while True:
        url = "https://blog.naver.com/PostTitleListAsync.nhn?blogId={}&viewdate=&currentPage={}&categoryNo=&parentCategoryNo=&countPerPage=30".format(naver_id, page)
        r = requests.get(url)
        _json = hjson.loads(r.text)
        _posts = _json.get("postList")
        _paging = _json.get("pagingHtml")

        for _p in _posts:
            _logNo = _p.get("logNo")
            _title = urllib.request.unquote(_p.get("title")).replace("+", " ")
            _category_no = _p.get("categoryNo")
            _parent_category_no = _p.get("parentCategoryNo")
            _add_date = _p.get("addDate")
            _category = category[_category_no]

            results.append({
                "logNo": _logNo,
                "title": _title,
                "categoryNo": _category_no,
                "parentCategoryNo": _parent_category_no,
                "addDate": _add_date,
                "category": _category
            })

        bs = BeautifulSoup(_paging, "lxml")
        _next_tag = bs.select_one("a.next")
        if _next_tag is None:
            break
        if max_page is not None and max_page <= page:
            break
        page += 1
    return results


def get_detail(naver_id, logNo):
    '''네이버 블로그 상세 페이지에서 본문 내용만 추출해주는 함수
    params:
        naver_id : 네이버 블로그 아이디
        logNo : 네이버 블로그 포스트 인덱스
    return:
        str : 블로그 상세 내용 html
    '''
    url = "https://blog.naver.com/PostView.nhn?blogId={}&logNo={}".format(naver_id, logNo)
    r = requests.get(url)
    bs = BeautifulSoup(r.text, "lxml")
    contents = bs.select_one("div#postViewArea > div")
    if contents is None:
        contents = bs.select_one("div.se-main-container")
    return contents

## 파일 저장

위에서 구한 모든 내용을 현재 py 파일 기준 폴더에 네이버 아이디로 폴더를 생성하여 하드디스크에 html 파일로 저장하도록 하겠습니다. 포스트 제목에는 특수문자등이 포함되어있을 수 있으니 각 포스트의 파일명은 포스트의 인덱스 값인 logNo 를 기준으로 생성합니다.

In [None]:
def main():
    naver_id = "nkj2001"
    current_path = os.path.dirname(os.path.realpath(__file__))
    save_dir = current_path + "\\" + naver_id
    if not os.path.exists(save_dir):
        os.mkdir(save_dir)

    category = get_category(naver_id)
    blog_post_list = get_list(naver_id, category, max_page=1)

    for b in blog_post_list:
        _logNo = b.get("logNo")
        contents = get_detail(naver_id, _logNo)

        with open(save_dir + "\\{}.html".format(_logNo), "w", encoding="utf-8") as f:
            f.write(str(contents))

## 리스트 파일 생성

게시물은 하드디스크에 포스트의 인덱스를 파일 이름으로 저장합니다. 단, 이렇게 저장하는 경우 해당 파일이름을 보고는 어떤 게시물인지 알 수 없으니 해당 게시물의 리스트 HTML 을 만드는 기능을 추가합니다.

In [None]:
def make_index(save_dir, blog_post_list):
    with open(save_dir + "\\index.html", "w", encoding="utf-8") as f:
        html = "<table>"
        f.write(html)
        f.write("\n")
        for b in blog_post_list:
            _logNo = b.get("logNo")
            _title = b.get("title")

            f.write("<tr><td>")
            f.write("<a href='{}.html' target='_blank'>{}</a>".format(_logNo, _title))
            f.write("</td></tr>")
            f.write("\n")

# 전체 코드

In [None]:
'''
파일저장
'''

import requests
from bs4 import BeautifulSoup
import hjson
import urllib
import os


def get_category(naver_id):
    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36",
        "Referer": "https://blog.naver.com/PostList.nhn?blogId={}&categoryNo=0&from=postList".format(naver_id)
    }

    url = "https://blog.naver.com/WidgetListAsync.nhn?blogId={}&enableWidgetKeys=challengeMasterTrack_3%2CchallengeMasterTrack_2%2C1282902%2Csearch%2Ctitle%2Cmenu%2Cprofile%2Ccategory%2C1296453%2C1296454%2Cbuddyconnect%2Ccounter%2Cvisitorgp%2Crss%2C431894%2Cstat%2Ccontent%2Cgnb%2Cexternalwidget%2Cmusic".format(naver_id)
    category = {}
    _r = requests.get(url, headers=header)
    _json = hjson.loads(_r.text)
    _category_str = _json.get("category").get("content")
    bs = BeautifulSoup(_category_str, "lxml")
    links = bs.select("a")
    for l in links:
        _href = l.get("href")
        if _href is None or _href == "#":
            continue
        _text = l.text
        _id = l.get("id")
        _id = _id.replace("category", "")
        if category.get(_id) is None:
            category[_id] = _text
    return category


def get_list(naver_id, category, max_page=None):
    results = []
    page = 1
    while True:
        url = "https://blog.naver.com/PostTitleListAsync.nhn?blogId={}&viewdate=&currentPage={}&categoryNo=&parentCategoryNo=&countPerPage=30".format(naver_id, page)
        r = requests.get(url)
        _json = hjson.loads(r.text)
        _posts = _json.get("postList")
        _paging = _json.get("pagingHtml")

        print(category)
        for _p in _posts:
            _logNo = _p.get("logNo")
            _title = urllib.request.unquote(_p.get("title")).replace("+", " ")
            _category_no = _p.get("categoryNo")
            _parent_category_no = _p.get("parentCategoryNo")
            _add_date = _p.get("addDate")
            _category = category[_category_no]

            results.append({
                "logNo": _logNo,
                "title": _title,
                "categoryNo": _category_no,
                "parentCategoryNo": _parent_category_no,
                "addDate": _add_date,
                "category": _category
            })

        bs = BeautifulSoup(_paging, "lxml")
        _next_tag = bs.select_one("a.next")
        if _next_tag is None:
            break
        if max_page is not None and max_page <= page:
            break
        page += 1
    return results


def get_detail(naver_id, logNo):
    url = "https://blog.naver.com/PostView.nhn?blogId={}&logNo={}".format(naver_id, logNo)
    r = requests.get(url)
    bs = BeautifulSoup(r.text, "lxml")
    contents = bs.select_one("div#postViewArea > div")
    if contents is None:
        contents = bs.select_one("div.se-main-container")
    return contents


def make_index(save_dir, blog_post_list):
    with open(save_dir + "\\index.html", "w", encoding="utf-8") as f:
        html = "<table>"
        f.write(html)
        f.write("\n")
        for b in blog_post_list:
            _logNo = b.get("logNo")
            _title = b.get("title")

            f.write("<tr><td>")
            f.write("<a href='{}.html' target='_blank'>{}</a>".format(_logNo, _title))
            f.write("</td></tr>")
            f.write("\n")


def main():
    naver_id = "nkj2001"
    current_path = os.path.dirname(os.path.realpath(__file__))
    save_dir = current_path + "\\" + naver_id
    if not os.path.exists(save_dir):
        os.mkdir(save_dir)

    category = get_category(naver_id)
    blog_post_list = get_list(naver_id, category, max_page=1)

    make_index(save_dir, blog_post_list)

    for b in blog_post_list:
        _logNo = b.get("logNo")
        contents = get_detail(naver_id, _logNo)

        with open(save_dir + "\\{}.html".format(_logNo), "w", encoding="utf-8") as f:
            f.write(str(contents))


if __name__ == "__main__":
    main()