# 다음 블로그 크롤러
  
### 블로그 크롤러
- BASE_URL = 'blog.daum.net/'
- STEP
   1. 'blog.daum.net/(daum ID)' 에 접속
   2. frame src 정보를 가져오기('_blog/ArticleCateList.do?blogid=(blog id)' 구하기)
   3. form values들 구해서 남은 param 채우기 
   4. 전체 게시물 숫자 및 게시물 하단 페이지 숫자에서 마지막 페이지 구하기
      (사용처 : 마지막 페이지 개수 구해서 for문 반복 횟수 지정)
   5. frame 해제 url을 통해 페이지 바꿔주기
   6. 'currentPage=' 부분 바꿔주면서 url 구하기
   7. 수집한 url에 접속하여 게시물 가져오기
  



> frame 해제 url : http://blog.daum.net/_blog/ArticleCateList.do?blogid=[블로그 ID]&vblogid=&beforePage=1&maxarticleno=0&minarticleno=0&maxregdt=0&minregdt=0&currentPage=1&listScale=12&viewKind=T&dispkind=B2202&CATEGORYID=0&categoryId=0&articleno=&regdt=&date=&calv=&chgkey=0&totalcnt=0

In [1]:
from bs4 import BeautifulSoup
import requests

import platform
import pandas as pd

import time
import datetime
import re

In [34]:
BLOG_TYPE = 'DM'

BASE_URL = 'http://blog.daum.net/'
ALL_LIST_PARAM = '_blog/ArticleCateList.do?blogid='
PAGE_PARAM = '&vblogid=&beforePage=1&maxarticleno={0}&minarticleno={1}&maxregdt={2}&minregdt={3}&currentPage=1&listScale=12&viewKind=T&dispkind=B2202&CATEGORYID=0&categoryId=0&articleno={4}&regdt={5}&date=&calv=&chgkey={6}&totalcnt=0'

#### step1. blogger_id 받아와서 blog에 접속하여 bs4 soup을 통해 frame src 정보 가져오기

In [189]:
blogger_id = 'p7777877'

In [190]:
def get_frame_src_info(blogger_id):
    '''
        iframe의 해제를 위해 frame src 정보를 가져오는 메소드
        :param   : blogger_if(str)
        :return  : frame_src_info(str)
    '''
    url = BASE_URL + blogger_id
    req = requests.get(url)
    soup= BeautifulSoup(req.text, 'html.parser')
    frame_src_info = soup.frame['src']
    
    return frame_src_info

In [191]:
frame_src = get_frame_src_info(blogger_id)
frame_src

'/_blog/BlogTypeMain.do?blogid=0IQjd&admin='

#### step2. frame src에서 blog_id 정보 가져오기

In [192]:
def get_blog_id(frame_src_info):
    '''
        frame src에서 blog id를 가져오는 메소드
        :param   : frame_src_info(str)
        :return  : blog_id(str)
    '''
    p = re.compile('[blogid=]\w+[&]')
    m = p.search(frame_src_info)
    blog_id = m.group(0)[1:-1]
    
    return blog_id

In [193]:
blog_id = get_blog_id(frame_src)
blog_id

'0IQjd'

#### step3.  '전체보기' 페이지로 전환하기

In [194]:
def switch_all_list_page(blog_id):
    '''
        게시글 목록의 전체를 볼 수 있는 '전체보기' 페이지로 넘어가는 url을
        만들어주는 메소드
        :param   : blog_id(str)
        :return  : all_list_page_url(str)
    '''
    all_list_page_url = BASE_URL+ALL_LIST_PARAM+blog_id
    
    return all_list_page_url

In [195]:
all_list_page_url = switch_all_list_page(blog_id)
all_list_page_url

'http://blog.daum.net/_blog/ArticleCateList.do?blogid=0IQjd'

#### step4. bs4 soup을 통해 필요 param 구해서 PAGE_PARAM 채우기

In [196]:
def get_param_info(all_list_page_url):
    '''
        page를 넘길 때 필요한 파라미터들의 값을 페이지에서 구하고 
        PAGE_PARAM에 넣어주는 메소드
        :param   : all_list_page_url(str)
        :return  : page_param(str)
    '''
    parm_req = requests.get(all_list_page_url)
    parm_soup = BeautifulSoup(parm_req.text, 'html.parser')

    parm_form = parm_soup.find_all('form')
    
    # 구하는 value 값들이 제대로 들어 있는 곳을 찾기 위함
    for par in parm_form:
        if len(str(par.find('input')).split('\n')) == 19:
            parm_values = str(par.find('input')).split('\n')

    maxarticleno = parm_values[3].split('"')[-2]
    minarticleno = parm_values[4].split('"')[-2]
    maxregdt     = parm_values[5].split('"')[-2]
    minregdt     = parm_values[6].split('"')[-2]
    articleno    = parm_values[13].split('"')[-2]
    regdt        = parm_values[14].split('"')[-2]
    chgkey       = parm_values[17].split('"')[-2]

    page_param = PAGE_PARAM.format(maxarticleno, minarticleno, maxregdt, minregdt, articleno, regdt, chgkey)

    return page_param

In [197]:
page_param = get_param_info(all_list_page_url)
page_param

'&vblogid=&beforePage=1&maxarticleno=6984599&minarticleno=6984571&maxregdt=20191023082958&minregdt=20190819055900&currentPage=1&listScale=12&viewKind=T&dispkind=B2202&CATEGORYID=0&categoryId=0&articleno=6984599&regdt=20191023082958&date=&calv=&chgkey=Tvpw4cA86OF3W52MmyyIiRgaC7LUoyoDhdxPCx.Nfck0&totalcnt=0'

#### step5. '전체보기'가 가능한 blog_url과 page_param을 더해 frame이 해제되고 page를 바꿀 수 있는 완전한 url로 변환

In [198]:
def make_blog_url(all_list_page_url, page_param):
    '''
        all_list_page_url과 page_param을 합쳐 완전한 blog_url로 만들어주는 메소드
        :param   : all_list_page_url(str), page_param(str)
        :return  : blog_url(str)
    '''
    blog_url = all_list_page_url+ page_param
    
    return blog_url

In [199]:
blog_url = make_blog_url(all_list_page_url, page_param)
blog_url

'http://blog.daum.net/_blog/ArticleCateList.do?blogid=0IQjd&vblogid=&beforePage=1&maxarticleno=6984599&minarticleno=6984571&maxregdt=20191023082958&minregdt=20190819055900&currentPage=1&listScale=12&viewKind=T&dispkind=B2202&CATEGORYID=0&categoryId=0&articleno=6984599&regdt=20191023082958&date=&calv=&chgkey=Tvpw4cA86OF3W52MmyyIiRgaC7LUoyoDhdxPCx.Nfck0&totalcnt=0'

#### step6. 전체 게시물 숫자 및 전체 게시물 페이지 구하기

In [200]:
def get_total_board_info(blog_url):
    blog_req = requests.get(blog_url)
    blog_soup = BeautifulSoup(blog_req.text, 'html.parser')

    total_board_num       = get_total_board_num(blog_soup)
    total_board_page_num  = get_total_board_page_num(blog_soup)
    print('전체 게시물은 '+total_board_num+'개, 전체 게시물 페이지는 '+total_board_page_num+'개입니다.')
    
    return total_board_page_num

In [201]:
def get_total_board_num(blog_soup):
    total_board = blog_soup.h2.text

    p = re.compile('[(]\d+[)]')
    m = p.search(total_board)
    total_board_num = m.group()[1:-1]
    
    return total_board_num

In [202]:
def get_total_board_page_num(blog_soup):
    total_board_page = blog_soup.find('div',{'id':'cNumbering'}).text

    p = re.compile('[...]\d+\s')
    m = p.search(total_board_page)
    total_board_page_num = m.group()[1:-1]
    
    return total_board_page_num

In [203]:
total_board_page_num = get_total_board_info(blog_url)

전체 게시물은 4811개, 전체 게시물 페이지는 161개입니다.


#### step7. 전체 게시물 페이지 url(list) 구하기

In [204]:
def make_regex_page_blog_url(blog_url,total_board_page_num):
    regex_page_blog_url = list()

    for i in range(1, int(total_board_page_num)+1):
        regex_page_blog_url.append(re.sub('currentPage=1', 'currentPage='+str(i), blog_url))
    return regex_page_blog_url

In [205]:
regex_page_blog_url = make_regex_page_blog_url(blog_url, total_board_page_num)
regex_page_blog_url

['http://blog.daum.net/_blog/ArticleCateList.do?blogid=0IQjd&vblogid=&beforePage=1&maxarticleno=6984599&minarticleno=6984571&maxregdt=20191023082958&minregdt=20190819055900&currentPage=1&listScale=12&viewKind=T&dispkind=B2202&CATEGORYID=0&categoryId=0&articleno=6984599&regdt=20191023082958&date=&calv=&chgkey=Tvpw4cA86OF3W52MmyyIiRgaC7LUoyoDhdxPCx.Nfck0&totalcnt=0',
 'http://blog.daum.net/_blog/ArticleCateList.do?blogid=0IQjd&vblogid=&beforePage=1&maxarticleno=6984599&minarticleno=6984571&maxregdt=20191023082958&minregdt=20190819055900&currentPage=2&listScale=12&viewKind=T&dispkind=B2202&CATEGORYID=0&categoryId=0&articleno=6984599&regdt=20191023082958&date=&calv=&chgkey=Tvpw4cA86OF3W52MmyyIiRgaC7LUoyoDhdxPCx.Nfck0&totalcnt=0',
 'http://blog.daum.net/_blog/ArticleCateList.do?blogid=0IQjd&vblogid=&beforePage=1&maxarticleno=6984599&minarticleno=6984571&maxregdt=20191023082958&minregdt=20190819055900&currentPage=3&listScale=12&viewKind=T&dispkind=B2202&CATEGORYID=0&categoryId=0&articleno=69

# 다음 블로그 parsing 모듈 종류

### 공통사항 : 아래 TAG들은 div, id='cContent' 안에 들어있음
1. WebAList - WebAFirst + WebEList 
    : 매 페이지의 첫번째 게시물이 WebAFirst에 있고, 나머지 게시물(두번째 게시물~)은 WebEList에 있음
2. WebBTable
    : 일반적인 게시판 목록
3. WebCList
    : 일반적인 게시판 목록(오른쪽에 소게시판이 있음)
4. WebEList
    : 일반적인 게시판 목록
5. DiaryList
    : 게시판 왼쪽에 달력 표시가 있음
6. GalleryList
    : 게시판 목록에 있는 게시글들이 그림으로 되어있음
7. artList
    : 일반적인 게시판 목록

#### step8. 한 페이지에 있는 모든 게시물 url 가져오기

In [206]:
def get_board_url(one_regex_page_blog_url):
    '''
        게시물 1개 페이지에 있는 게시물 url을 수집하는 메소드
        :param   : one of regex_page_blog_url(str/one value of list)
        :return  : board_url(list)        
    '''
    # 게시물 1 페이지 파싱
    board_req = requests.get(one_regex_page_blog_url)
    board_soup = BeautifulSoup(board_req.text, 'html.parser')

    board_content = board_soup.find('div', {'id':'cContent'})

    # 파싱 후, div, id='cContent'에 어떤 'List' 형식인지 판별하기
    is_valid_alist = True if board_content.find('table',{'class':'WebAList'}) else False

    if is_valid_alist:
        board_url_list = type_webalist(board_content)
        print("This blog's type is WebAList.")
    else: pass

    # 파싱 후, div, id='cContent'에 어떤 'List' 형식인지 판별하기
    is_valid_btable = True if board_soup.find('div',{'class':'WebBTable'}) else False

    if is_valid_btable:
        board_url_list = type_webbtable(board_content)
        print("This blog's type is WebBTable.")
    else: pass

    # 파싱 후, div, id='cContent'에 어떤 'List' 형식인지 판별하기
    is_valid_clist = True if board_soup.find('table',{'class':'WebCList'}) else False

    if is_valid_clist:
        board_url_list = type_webclist(board_content)
        print("This blog's type is WebCList.")
    else: pass

    # 파싱 후, div, id='cContent'에 어떤 'List' 형식인지 판별하기
    is_valid_elist = True if board_soup.find('div',{'class':'webERightP'}) else False

    if is_valid_elist:
        board_url_list = type_webelist(board_content)
        print("This blog's type is webERightP.")
    else: pass

    # 파싱 후, div, id='cContent'에 어떤 'List' 형식인지 판별하기
    is_valid_diary = True if board_soup.find('table',{'class':'DiaryTList'}) else False

    if is_valid_diary:
        board_url_list = type_diarylist(board_content)
        print("This blog's type is DiaryTList.")
    else: pass

    # 파싱 후, div, id='cContent'에 어떤 'List' 형식인지 판별하기
    is_valid_gallery = True if board_soup.find('ul',{'class':'GalleryList'}) else False

    if is_valid_gallery:
        board_url_list = type_gallerylist(board_content)
        print("This blog's type is GalleryList.")
    else: pass

    # 파싱 후, div, id='cContent'에 어떤 'List' 형식인지 판별하기
    is_valid_arti = True if board_soup.find('table',{'class':'artiList'}) else False

    if is_valid_arti:
        board_url_list = type_artlist(board_content)
        print("This blog's type is artiList.")
    else: pass

    return board_url_list

#### 1. WebAList parsing

In [207]:
def type_webalist(board_content):
    '''
        board_content의 type이 WebAList인 경우에 type에 맞게 tag를 파싱해 url을 가져오는 메소드
        :param   : board_content(bs4.tag)
        :return  : board_url(list)
    '''
    # WebAList = WebAFirst + WebAList
    board_url = list()

    # WebAFirst
    board_first = board_content.find('div',{'class':'webAFirst'})
    board_url.append(BASE_URL+board_first.a['href'][1:])

    # WebAList
    board = board_content.find_all('td',{'class':'title'})
    for t in board:
        board_url.append(BASE_URL+t.a['href'][1:])
    
    return board_url

#### 2. WebBTable parsing

In [208]:
def type_webbtable(board_content):
    '''
        board_content의 type이 WebBTable 경우에 type에 맞게 tag를 파싱해 url을 가져오는 메소드
        :param   : board_content(bs4.tag)
        :return  : board_url(list)
    '''
    # WebBTable
    board_url = list()
    
    board = board_content.find_all('td',{'class':'title'})
    for t in board:
        board_url.append(BASE_URL+t.a['href'][1:])
    
    return board_url

#### 3. WebCList parsing

In [209]:
def type_webclist(board_content):
    '''
        board_content의 type이 WebCList 경우에 type에 맞게 tag를 파싱해 url을 가져오는 메소드
        :param   : board_content(bs4.tag)
        :return  : board_url(list)
    '''
    # WebCList
    board_url = list()
    
    board = board_content.find_all('td',{'class':'title'})
    for t in board:
        board_url.append(BASE_URL+t.a['href'][1:])
    
    return board_url

#### 4. WebEList parsing

In [210]:
def type_webelist(board_content):
    '''
        board_content의 type이 WebEList 경우에 type에 맞게 tag를 파싱해 url을 가져오는 메소드
        :param   : board_content(bs4.tag)
        :return  : board_url(list)
    '''
    # WebEList
    board_url = list()

    board = board_content.find_all('td',{'class':'title'})
    for t in board:
        board_url.append(BASE_URL+t.a['href'][1:])
    
    return board_url

#### 5. DiaryList parsing

In [211]:
def type_diarylist(board_content):
    '''
        board_content의 type이 DiaryList 경우에 type에 맞게 tag를 파싱해 url을 가져오는 메소드
        :param   : board_content(bs4.tag)
        :return  : board_url(list)
    '''
    # DiaryList
    board_url = list()
    
    board = board_content.find_all('td',{'class':'contArea'})
    for t in board:
        board_url.append(BASE_URL+t.a['href'][1:])
    
    return board_url

#### 6. GalleryList parsing

In [212]:
def type_gallerylist(board_content):
    '''
        board_content의 type이 GalleryList 경우에 type에 맞게 tag를 파싱해 url을 가져오는 메소드
        :param   : board_content(bs4.tag)
        :return  : board_url(list)
    '''
    # GalleryList
    board_url = list()

    board_gallery = board_content.find('ul',{'class':'GalleryList'})
    board = board_gallery.find_all('li')
    for t in board:
        board_url.append(BASE_URL+t.a['href'][1:])
    
    return board_url

#### 7. artList parsing

In [213]:
def type_artlist(board_content):
    '''
        board_content의 type이 artList 경우에 type에 맞게 tag를 파싱해 url을 가져오는 메소드
        :param   : board_content(bs4.tag)
        :return  : board_url(list)
    '''
    # artList
    board_url = list()

    board = board_content.find_all('td',{'class':'title'})
    for t in board:
        board_url.append(BASE_URL+t.a['href'][1:])
    
    return board_url

In [214]:
board_url_list = list()
for i in range(0, len(regex_page_blog_url)):
    print(i)
    board_url_list += get_board_url(regex_page_blog_url[i])

0
This blog's type is WebAList.
1
This blog's type is WebAList.
2
This blog's type is WebAList.
3
This blog's type is WebAList.
4
This blog's type is WebAList.
5
This blog's type is WebAList.
6
This blog's type is WebAList.
7
This blog's type is WebAList.
8
This blog's type is WebAList.
9
This blog's type is WebAList.
10
This blog's type is WebAList.
11
This blog's type is WebAList.
12
This blog's type is WebAList.
13
This blog's type is WebAList.
14
This blog's type is WebAList.
15
This blog's type is WebAList.
16
This blog's type is WebAList.
17
This blog's type is WebAList.
18
This blog's type is WebAList.
19
This blog's type is WebAList.
20
This blog's type is WebAList.
21
This blog's type is WebAList.
22
This blog's type is WebAList.
23
This blog's type is WebAList.
24
This blog's type is WebAList.
25
This blog's type is WebAList.
26
This blog's type is WebAList.
27
This blog's type is WebAList.
28
This blog's type is WebAList.
29
This blog's type is WebAList.
30
This blog's type 

In [215]:
len(board_url_list) #4811

4812

#### step9. blog_type, blogger_id, 수집한 게시물 url, post_num을 dataframe에 저장

In [216]:
def make_basic_DF():
    '''
        기본 데이터프레임을 만들어 주는 모듈
        :return: df
    '''
    dataframe = pd.DataFrame()
    dataframe['blog_type']       = ''
    dataframe['blogger_id']      = ''
    dataframe['post_num']        = ''
    dataframe['key']             = ''
    dataframe['board_url']       = ''
    dataframe['title']           = ''
    dataframe['content']         = ''
    dataframe['board_category']  = ''
    dataframe['blogger_nick']    = ''
    dataframe['date']            = ''

    return dataframe

def insert_DM_DF(dataframe, blogger_id, board_url_list):
    blog_type = BLOG_TYPE
    blogger_id = blogger_id

    dataframe['board_url']   = board_url_list
    dataframe['blog_type']   = blog_type
    dataframe['blogger_id']  = blogger_id

    pattern = re.compile('articleno=\w+')
    for u in range(0, len(board_url_list)):
        reg_post_num              = pattern.search(board_url_list[u])
        post_num                  = reg_post_num.group().split('=')[1]
        dataframe['post_num'][u]  = post_num

    for i in range(0, len(dataframe)):
        dataframe['key'][i] = blog_type+"_"+blogger_id+"_"+dataframe['post_num'][i]

    return dataframe

In [217]:
dm_df = make_basic_DF()
dm_df = insert_DM_DF(dm_df, blogger_id, board_url_list)

In [218]:
dm_df

Unnamed: 0,blog_type,blogger_id,post_num,key,board_url,title,content,board_category,blogger_nick,date
0,DM,p7777877,6984599,DM_p7777877_6984599,http://blog.daum.net/_blog/BlogTypeView.do?blo...,,,,,
1,DM,p7777877,6984598,DM_p7777877_6984598,http://blog.daum.net/_blog/BlogTypeView.do?blo...,,,,,
2,DM,p7777877,6984597,DM_p7777877_6984597,http://blog.daum.net/_blog/BlogTypeView.do?blo...,,,,,
3,DM,p7777877,6984596,DM_p7777877_6984596,http://blog.daum.net/_blog/BlogTypeView.do?blo...,,,,,
4,DM,p7777877,6984595,DM_p7777877_6984595,http://blog.daum.net/_blog/BlogTypeView.do?blo...,,,,,
5,DM,p7777877,6984594,DM_p7777877_6984594,http://blog.daum.net/_blog/BlogTypeView.do?blo...,,,,,
6,DM,p7777877,6984593,DM_p7777877_6984593,http://blog.daum.net/_blog/BlogTypeView.do?blo...,,,,,
7,DM,p7777877,6984592,DM_p7777877_6984592,http://blog.daum.net/_blog/BlogTypeView.do?blo...,,,,,
8,DM,p7777877,6984591,DM_p7777877_6984591,http://blog.daum.net/_blog/BlogTypeView.do?blo...,,,,,
9,DM,p7777877,6984590,DM_p7777877_6984590,http://blog.daum.net/_blog/BlogTypeView.do?blo...,,,,,


In [164]:
print(dm_df['board_url'][0])
print(dm_df['post_num'][0])

http://blog.daum.net/_blog/BlogTypeView.do?blogid=0uYPK&articleno=925&categoryId=0®dt=20191022040000
925


In [47]:
board_url_list[0]

'http://blog.daum.net/_blog/BlogTypeView.do?blogid=0uYPK&articleno=925&categoryId=0®dt=20191022040000'

#### step10. 게시글 parsing

In [350]:
from selenium import webdriver

PROJECT_ROOT = '/project/bigpycraft/a3rcs/'
WD_CHROME_PATH_WIN   = 'driver/chromedriver.exe'
WD_CHROME_PATH_MAC   = 'driver/macos/chromedriver'
WD_CHROME_PATH_LINUX = 'driver/linux/chromedriver'

def get_driver() :
    '''
        웹드라이브를 호출하는 메소드
        parmam : None
        Result : driver  , ChromeWebDriver
    '''

    if platform.system() == 'Windows' :  # MacOS
        driver = webdriver.Chrome(executable_path=PROJECT_ROOT + WD_CHROME_PATH_WIN)
    elif platform.system() == 'Darwin' :  # Windows
        driver = webdriver.Chrome(executable_path=PROJECT_ROOT + WD_CHROME_PATH_MAC)
    elif platform.system() == 'Linux' :  # Linux
        driver = webdriver.Chrome(executable_path=PROJECT_ROOT + WD_CHROME_PATH_LINUX)
    else :
        print("It's unknown system. Hangul fonts are not supported!")

    return driver


In [248]:
def regex_front_content_text(content_text):
    p1_start = re.compile('[<!--]')
    m1_start = p1_start.search(content_text)

    p1_end = re.compile('[>]')
    m1_end = p1_end.search(content_text)

    regex_content_text = re.sub(content_text[m1_start.start():m1_end.end()],'',content_text)
    
    return regex_content_text

In [282]:
def regex_tail_content_text(content_text):
    
    regex_content_text = content_text[:content_text.find('var flashVersion')]
    
    return regex_content_text

In [325]:
def get_head_info(df_board_url):
    
    head_info = dict()
    
    brd_req = requests.get(df_board_url)
    brd_soup = BeautifulSoup(brd_req.text, 'html.parser')

    title           = brd_soup.find('strong',{'class':'cB_Title cB_TitleImage'}).text.replace('\n','').replace('\t','').rstrip()
    board_category  = brd_soup.find('span',{'class':'cB_Folder'}).text
    nickname        = brd_soup.find('span',{'class':'cB_Name'}).text
    upload_date     = brd_soup.find('span',{'class':'cB_Tdate'}).text
    
    head_info['title']           = title
    head_info['board_category']  = board_category
    head_info['nickname']        = nickname
    head_info['date']            = upload_date[:10].replace('.', '')
    
    return head_info

In [358]:
def get_content_info(driver, df_board_url, df_post_num):
    
    content_info = dict()
    
    
    driver.get(df_board_url)
    driver.switch_to_frame('if_b_'+df_post_num)
    test_soup = BeautifulSoup(driver.page_source, 'html.parser')

    content = re.sub('\n|\u200b|\xa0|\uf0fc|\t', '', test_soup.find('div',{'id':'cContent'}).text)

    content = regex_tail_content_text(regex_front_content_text(content))
    
    content_info['content'] = content

    return content_info

In [361]:
def gather_all_content(dm_df):
    
    all_content_info = list()
    
    driver = get_driver()
    for i in range(0, 5):
        
        print(i,'번째 줄입니다.', dm_df['board_url'][i])
        head_info = get_head_info(dm_df['board_url'][i])
        content_info = get_content_info(driver, dm_df['board_url'][i], dm_df['post_num'][i])
        
        head_info.update(content_info)
        
        all_content_info.append(head_info)
    
    return all_content_info       



In [362]:
dd = gather_all_content(dm_df)

0 번째 줄입니다. http://blog.daum.net/_blog/BlogTypeView.do?blogid=0IQjd&articleno=6984599&categoryId=0®dt=20191023082958


  import sys


1 번째 줄입니다. http://blog.daum.net/_blog/BlogTypeView.do?blogid=0IQjd&articleno=6984598&categoryId=0®dt=20191022055900
2 번째 줄입니다. http://blog.daum.net/_blog/BlogTypeView.do?blogid=0IQjd&articleno=6984597&categoryId=0®dt=20191021055900
3 번째 줄입니다. http://blog.daum.net/_blog/BlogTypeView.do?blogid=0IQjd&articleno=6984596&categoryId=0®dt=20191017055900
4 번째 줄입니다. http://blog.daum.net/_blog/BlogTypeView.do?blogid=0IQjd&articleno=6984595&categoryId=0®dt=20191016055900


In [363]:
info

[{'title': '2019 오송 화장품뷰티산업엑스포 충북 가을축제 열려요',
  'board_category': '충청도',
  'nickname': '윤 중',
  'upload_date': '20191023',
  'content': '충북 가을축제2019 오송 화장품뷰티산업엑스포Cosmetics & Brauty EXPO Osong Korea 2019윤중의 맛& 멋을 찾아주신 여러분 안녕하세요?아름다운 피부와 건강한 모습을 가꾸는 미인전 세계 누구나 관심은 물론이고욕망이 많은분야이기도 합니다올해로 6회째를 맞이한2019 오송 화장품 뷰티산업엑스포는 10월 22일부터 10월 26일까지 5일동안충북 청주의 오송역 내 일원에서 열립니다K뷰티를 주도하는 화장품 산업으로서국내·외의 유명 브랜드 상품 홍보 · 판매장과 화장품기업들을 위한 비즈니스 등의 장이 펼쳐지고 관광객들에게는 다양한 뷰티 체험행사가 마음을충분히 사로잡을 것이 확실한 현장을 소개합니다2019 오송 화장품 뷰티산업엑스포Cosmetics & Brauty EXPO Osong Korea 20192019, 10, 22(화)` 10, 26(토) 〔5일간〕충북 청주 오송역에서 산업전시, 무역상담, 판매, 콘퍼런스 등, 참가규모는기업체 250개사, 바이어 1,000명, 관람객 9만 명충북 청주시 오송역 충북 청주시 흥덕구 오송읍 오송가락로 123(봉산리 149-3)네비 양이 친절하게 잘 안내합니다2019 오송 화장품 뷰티산업엑스포 조감도충북 청주 오송역을 중심으로마켓관, 비즈니스관, 기업관 1~3,뷰티마켓관, 푸드트럭& 푸드코트오송역 인근 관광안내청남대, 상당산성, 대청호, 수암골예술촌, 중앙공원 등오송역 주차장 주소는충북 청주시 오송읍 오송리 5-2청주시 흥덕구 오송리 오송역A, B, C, D, E 주차장 주차 가능합니다전시품목화장품 기초화장품, 기능성 화장품, 색조 메이크업 제품, 유기농, 한방화장품피부관리실 전용 화장품, 향수, 비누, 청결제 등패킹 모발관리 제품, 탈모 의약품, 두피관리 등네일피부관리 

In [347]:
def update_save_DM_DF(dm_df, all_content_info, blogger_id) :
    '''
    기존에 만들어져 있던 데이터 프레임에 모든 게시물의 내용을 추가 및 저장

    :params : dataframe, parsed content, blog_type, user_id
    :return : dataframe(all_information in it)

    '''

    blog_type = BLOG_TYPE

    for num in range(len(all_content_info)) :
        dm_df['title'][num]           = all_content_info[num]['title']
        dm_df['content'][num]         = all_content_info[num]['content']
        dm_df['board_category'][num]  = all_content_info[num]['board_category']
        dm_df['blogger_nick'][num]    = all_content_info[num]['nickname']
        dm_df['date'][num]            = all_content_info[num]['date']

#     dataframe.to_csv('{0}_{1}.csv'.format(blog_type, blogger_id), index = False)

    return dm_df

In [348]:
dm_df = update_save_DM_DF(dm_df, info, blogger_id)