In [165]:
# import

from tqdm import tqdm_notebook  # 진행과정 시각화
from datetime import timedelta  # 시간날짜
import time
import re
import os
import datetime
import pandas as pd
import numpy as np
import gc

import requests
import urllib.request
import urllib.error
import urllib.parse
from bs4 import BeautifulSoup  # 크롤링

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.chrome.options import Options

from IPython.core.display import display, HTML
display(HTML('<style>.container {width:100% !important; }</style>'))

In [162]:
def del_outword(string):
    '''크롤링 후 이모티콘, \u200b과 같은 문자가 아닌 것 제거
    [출처](https://stackoverflow.com/questions/33404752/removing-emojis-from-a-string-in-python)
    '''
    #이모지제거
    emoji_pattern = re.compile("["
                u"\U0001F600-\U0001F64F"  # emoticons
                u"\U0001F300-\U0001F5FF"  # symbols & pictographs
                u"\U0001F680-\U0001F6FF"  # transport & map symbols
                u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                u"\U00002702-\U000027B0"
                u"\U0001f926-\U0001f937"
                u'\U00010000-\U0010ffff'
                u"\u200d"
                u"\u2640-\u2642"
                u"\u2600-\u2B55"
                u"\u23cf"
                u"\u23e9"
                u"\u231a"
                u"\u3030"
                u"\ufe0f"
    "]+", flags=re.UNICODE)

    #분석에 어긋나는 불용어구 제외 (특수문자, 의성어)
    han = re.compile(r'[ㄱ-ㅎㅏ-ㅣ!?~"^_\n\r#\ufeff\u200d\u200b\u7643\ufffd\u682e\u62c4]+')
    
    string = emoji_pattern.sub(r'',string)
    string = han.sub(r'',string)
    
    return string

def time_change(x):
    '''검색결과에 있는 문자를 날짜로 변경
    네이버 블로그 크롤링시 작성일자가 1분전/1시간전/1일전으로 나타는 경우가 가끔씩 존재
    이러한 패턴을 일반적인 YY-MM-DD형태로 변환함
    그리고 월별 계산이 중요하므로 모든 데이터는 1일로 통일
    
    Return
    -------
    x : datetime
        날짜형형태로 전환
        
    Example
    -------
    >>> x = "47분 전"
    >>> time_change(x)
    datetime.datetime(2020, 6, 1, 0, 0)
    
    >>> x2 = "2019.01.31"
    >>> time_change(x2)
    datetime.datetime(2019, 1, 1, 0, 0)
    '''
    
    min_pattern = re.compile('[0-9]+'+"분 전")
    hour_pattern = re.compile('[0-9]+'+"시간 전")
    day_pattern = re.compile('[0-9]+'+"일 전")

    today = datetime.datetime.today().date()
    # 일자
    if "일" in x :
        d = re.findall(day_pattern, x)[0][0]
        x = today - timedelta(days=int(d))
    elif "시간" in x:
        d = re.findall(hour_pattern, x)[0]
        x = today
    elif "분" in x:
        d = re.findall(min_pattern, x)[0]
        x = today
    elif x == "어제":
        x = today - timedelta(days=1)
    elif type(x) == str: # 'YY.NN.DD'형태
        x = datetime.datetime.strptime(x.replace('.', '-')[:-1], '%Y-%m-%d')
    
    #모든일자를 1일로 통일
    x = datetime.datetime.strptime(x.strftime('%Y-%m')+"-01","%Y-%m-%d")
    return x

def make_date_list(start_year,end_year,month_gap = 1,year_gap = 1, types = 'month'):
    '''검색에 사용할 날짜 list를 생성
    시작년도, 마지막년도를 입력하고 월별간격, 연별 간격을 입력하면
    검색에 사용할 "YYMMDD"형태의 날짜 list를 반환
    
    Parameters
    ----------
    start_year(int) : 검색을 시작할 연도
    end_year(int) : 검색을 종료할 연도
    month_gap(int) : 몇개월 단위로 검색할 것인지
    year_gap(int) : 몇년 단위로 검색할 것인지
    types(string) : 'year' or 'month'로 연간검색 혹은 월간검색지정
    
    Returns 
    -------
    start_date, end_date : list
        YYMMDD형태의 string형태의 날짜들은 반환한다
    
    Examples
    --------
    >>> make_date_list(start_year = 2010, end_year = 2011,month_gap = 1,year_gap = 1, types = 'month')
    start_date = ['20100101', '20100701', '20110101', '20110701']
    end_date = ['20100131', '20100731', '20110131', '20110731']
    
    >>> make_date_list(start_year = 2010, end_year = 2013,year_gap = 1, types = 'year')
    start_date = ['20100101', '20110101', '20120101', '20130101']
    end_date = ['20101231', '20111231', '20121231', '20131231']
    '''
    #일자
    month_gap = month_gap*100
    start_month = []
    end_month = []
    
    #MMDD 형태 추출
    for date in range(101,1202,month_gap):
        start_month.append(date)
    start_month = list(map(lambda x : '{:0>4}'.format(str(x)),start_month))

    for date in range(131,1232,month_gap):
        end_month.append(date)
    end_month = list(map(lambda x : '{:0>4}'.format(str(x)),end_month))

    start_date = []
    end_date = []
    
    #YYMMDD 형태로 추출
    if types.lower() == 'month':
        for year in range(start_year,end_year+1,year_gap):
            for date in start_month:
                start_date.append(str(year)+date)
            for date in end_month:
                end_date.append(str(year)+date)
    elif types.lower() == 'year':
        for year in range(start_year,end_year+1,year_gap):
            start_date.append(str(year)+'0101')
            end_date.append(str(year)+'1231')
            
        
    return start_date,end_date

In [267]:
def make_date_list(start_year,end_year,month_gap = 1,year_gap = 1, types = 'month'):
    '''검색에 사용할 날짜 list를 생성
    시작년도, 마지막년도를 입력하고 월별간격, 연별 간격을 입력하면
    검색에 사용할 "YYMMDD"형태의 날짜 list를 반환
    
    Parameters
    ----------
    start_year(int) : 검색을 시작할 연도
    end_year(int) : 검색을 종료할 연도
    month_gap(int) : 몇개월 단위로 검색할 것인지
    year_gap(int) : 몇년 단위로 검색할 것인지
    types(string) : 'year' or 'month'로 연간검색 혹은 월간검색지정
    
    Returns 
    -------
    start_date, end_date : list
        YYMMDD형태의 string형태의 날짜들은 반환한다
    
    Examples
    --------
    >>> make_date_list(start_year = 2010, end_year = 2011,month_gap = 1,year_gap = 1, types = 'month')
    start_date = ['20100101', '20100701', '20110101', '20110701']
    end_date = ['20100131', '20100731', '20110131', '20110731']
    
    >>> make_date_list(start_year = 2010, end_year = 2013,year_gap = 1, types = 'year')
    start_date = ['20100101', '20110101', '20120101', '20130101']
    end_date = ['20101231', '20111231', '20121231', '20131231']
    '''
    #일자
    month_gap = month_gap*100
    start_month = []
    end_month = []
    
    #MMDD 형태 추출
    for date in range(101,1202,month_gap):
        start_month.append(date)
    start_month = list(map(lambda x : '{:0>4}'.format(str(x)),start_month))

    for date in range(131,1232,month_gap):
        end_month.append(date)
    end_month = list(map(lambda x : '{:0>4}'.format(str(x)),end_month))

    start_date = []
    end_date = []
    
    #YYMMDD 형태로 추출
    if types.lower() == 'month':
        for year in range(start_year,end_year+1,year_gap):
            for date in start_month:
                start_date.append(str(year)+date)
            for date in end_month:
                end_date.append(str(year)+date)
    elif types.lower() == 'year':
        for year in range(start_year,end_year+1,year_gap):
            start_date.append(str(year)+'0101')
            end_date.append(str(year)+'1231')
            
        
    return start_date,end_date

In [None]:
keyword = '강릉'
date_option=8
date_from='20200101'
date_to='20201231'
base_url = f'https://search.naver.com/search.naver?date_from={date_from}&date_option={date_option}&date_to={date_to}&dup_remove=1&nso=&post_blogurl=&post_blogurl_without=&query={keyword}&sm=tab_pge&srchby=all&st=sim&where=post'
#저장위치
os.makedirs('./new_output',exist_ok=True)

### 함수화
* 추가스크롤 발생시 추가로 url복사됨 (현재해결방안 중복된것 drop) -> 추후 특정위치 이상 발전이 없으면 중지하는 방안 필요

In [264]:
def new_crawling(keyword, date_from='', date_to='', save=True):
    '''네이버 블로그 검색결과가 드래그 방식으로 바뀜(기존 페이지방식)
    따라서 셀레니움으로 최대(1000건) 드래그후 작성일자, 제목, url을 가져온 후 
    request로 각 블로그에 접속하여 본문추출
    이 과정에서 네이버블로그가 아닌 블로그 제외됨(tistory, daum등)
    
    parameter
    ---------
    keyword(string) : 검색하고 싶은 키워드 "keyword +필수어" 형태로 필수단어 추가 가능
    date_from(YYYYMMDD) : (default = "") date_option이 8일때 사용 검색 시작일자를 지정
    date_to(YYYYMMDD) : (default = ""), date_option이 8일때 사용 검색 마지막일자를 지정
    save(bool) : (default = True)csv로 저장 여부 결정
    
    Returns
    ---------
    df : DataFrame
      post_dates title  full_text         url
    0 2010-01-01 title  [full_text]       http://blog.naver.com/PostView.nhn?blogId=wend...  
    
    '''
    
    base_url = f'https://search.naver.com/search.naver?date_from={date_from}&date_option=8&date_to={date_to}&dup_remove=1&nso=&post_blogurl=&post_blogurl_without=&query={keyword}&sm=tab_pge&srchby=all&st=sim&where=post'
    
    #임시저장
    blog_urls = dict()
    blog_urls['dates'] = []
    blog_urls['title'] = []
    blog_urls['urls'] = []
    options = Options()
    
    # 크롬드라이버 작동 
    options.add_argument('--start-maximized') #전체화면
    options.add_argument('--headless') #headless(화면안켜고)
    driver = webdriver.Chrome(executable_path='./chromedriver', chrome_options=options)
    driver.get(base_url)

    #최대 아래로 스크롤
    count =1
    string = '1'
    some_tag = '1'
    for i in range(0,40):
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(0.5)
        count += 1
    source = driver.page_source
    # print(count)
    driver.close()

    #각 정보 불러오기
    soup = BeautifulSoup(source, 'html.parser')

    #dates
    dates_list = soup.select('div > div.total_sub > span > span > span.etc_dsc_area > span')
    dates = pd.Series(dates_list).apply(lambda x : x.text)
    blog_urls['dates'] = blog_urls['dates'] + list(dates)

    #titles
    title_list = soup.select('div > a.api_txt_lines.total_tit')
    titles = pd.Series(title_list).apply(lambda x : x.text)
    blog_urls['title'] = blog_urls['title'] + list(titles)

    #link
    link_list = soup.select('div.total_dsc_wrap a.total_dsc')
    links = pd.Series(link_list).apply(lambda x : x.get('href'))
    blog_urls['urls'] = blog_urls['urls'] + list(links)
    
    #중복제거
    df = pd.DataFrame(blog_urls)
    df = df.drop_duplicates('urls')
    blog_urls['urls'] = df['urls']
    ori_length = len(blog_urls['urls'])
    # 본문가져오기
    output_error = []
    texts = []
    for i, url in tqdm_notebook(enumerate(blog_urls['urls'])):
        count = i
        try:
            # 블로그 url안에 들어가기(아직 크롤링불가)
            get_blog_post_content_code = requests.get(url)
            get_blog_post_content_text = get_blog_post_content_code.text
            get_blog_post_content_soup = BeautifulSoup(
                get_blog_post_content_text, 'lxml')

            # 크롤링가능한 url에 접속
            real_blog_post_url = "http://blog.naver.com" + get_blog_post_content_soup.select('#mainFrame')[0].get('src')
            get_real_blog_post_content_code = requests.get(real_blog_post_url)
            get_real_blog_post_content_text = get_real_blog_post_content_code.text
            get_real_blog_post_content_soup = BeautifulSoup(get_real_blog_post_content_text, 'lxml')

            # 본문  (postviewarea 패턴과 se-main-container 2가지 유형이 있어 분리함)
            try:
                blog_post_content = get_real_blog_post_content_soup.select('div.se-main-container')
                if len(blog_post_content) == 0:
                    blog_post_content = get_real_blog_post_content_soup.select('div#postViewArea')
                    if len(blog_post_content) == 0:
                        blog_post_content = get_real_blog_post_content_soup.select('div.se_component_wrap.sect_dsc.__se_component_area')

                string = ""
                for sentence in blog_post_content[0].stripped_strings:
                    try :
                        string += " "+sentence.replace('\xa0', " ")
                    except :
                        pass
                    # 비언어 텍스트제거
                string = del_outword(string)
                # 공백에러대처
                blank_check = string.replace(" ", "")
                if len(blank_check) == 0:
                    texts.append(["X"])
                else:
                    texts.append([string])
                count += 1
            except Exception as ex:
                print(ex)
                texts.append(["X"])
                output_error.append(count)
                count += 1

        except Exception as ex:
#             print('가져오기에러 {num}번째'.format(num=count), ex)
            output_error.append(count)
            count += 1
            pass

    #후처리 및 dataframe 생성
    df = df.drop(output_error)
    df['text'] = texts
    lenght = df.shape[0]
    last_length = len(output_error)
    print(f'검색된길이:{ori_length},제외된 길이:{last_length}')

    #저장
    if save == True:
        today = datetime.datetime.today().date()
        str(today)
        os.makedirs(f'./new_output/{keyword}',exist_ok=True)
        df.to_csv(f'./new_output/{keyword}/{date_from}~{date_to}_{keyword}_{last_length}_{today}.csv',index=False)
    return df

In [274]:
start_dates, end_dates = make_date_list(2010,2011)
for date_num in range(0, len(date_from)):
    date_from = start_dates[date_num]
    date_to = end_dates[date_num]
    new_crawling(keyword, date_from, date_to,True)



검색된길이: 1000


Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`


HBox(children=(FloatProgress(value=1.0, bar_style='info', max=1.0), HTML(value='')))

가져오기에러 8번째 list index out of range
가져오기에러 31번째 list index out of range
가져오기에러 64번째 list index out of range
가져오기에러 84번째 list index out of range
가져오기에러 86번째 list index out of range
가져오기에러 87번째 list index out of range
가져오기에러 88번째 list index out of range
가져오기에러 96번째 list index out of range
가져오기에러 103번째 list index out of range
가져오기에러 104번째 list index out of range
가져오기에러 105번째 list index out of range
가져오기에러 114번째 list index out of range
가져오기에러 115번째 list index out of range
가져오기에러 117번째 list index out of range
가져오기에러 121번째 list index out of range
가져오기에러 124번째 list index out of range
가져오기에러 126번째 list index out of range
가져오기에러 131번째 list index out of range
가져오기에러 133번째 list index out of range
가져오기에러 137번째 list index out of range
가져오기에러 138번째 list index out of range
가져오기에러 144번째 list index out of range
가져오기에러 146번째 list index out of range
가져오기에러 184번째 list index out of range
가져오기에러 186번째 list index out of range
가져오기에러 197번째 list index out of range
가져오기에러 202번째 list index out of range
가져오기에러 203

HBox(children=(FloatProgress(value=1.0, bar_style='info', max=1.0), HTML(value='')))

가져오기에러 5번째 list index out of range
가져오기에러 8번째 list index out of range
가져오기에러 14번째 list index out of range
가져오기에러 17번째 list index out of range
가져오기에러 38번째 list index out of range
가져오기에러 47번째 list index out of range
가져오기에러 49번째 list index out of range
가져오기에러 64번째 list index out of range
가져오기에러 71번째 list index out of range
가져오기에러 75번째 list index out of range
가져오기에러 96번째 list index out of range
가져오기에러 97번째 list index out of range
가져오기에러 104번째 list index out of range
가져오기에러 106번째 list index out of range
가져오기에러 110번째 list index out of range
가져오기에러 111번째 list index out of range
가져오기에러 114번째 list index out of range
가져오기에러 116번째 list index out of range
가져오기에러 118번째 list index out of range
가져오기에러 126번째 list index out of range
가져오기에러 129번째 list index out of range
가져오기에러 134번째 list index out of range
가져오기에러 137번째 list index out of range
가져오기에러 141번째 list index out of range
가져오기에러 143번째 list index out of range
가져오기에러 171번째 list index out of range
가져오기에러 188번째 list index out of range
가져오기에러 200번째 li

HBox(children=(FloatProgress(value=1.0, bar_style='info', max=1.0), HTML(value='')))

가져오기에러 12번째 list index out of range
가져오기에러 34번째 list index out of range
가져오기에러 53번째 list index out of range
가져오기에러 71번째 list index out of range
가져오기에러 79번째 list index out of range
가져오기에러 82번째 list index out of range
가져오기에러 87번째 list index out of range
가져오기에러 88번째 list index out of range
가져오기에러 90번째 list index out of range
가져오기에러 95번째 list index out of range
가져오기에러 96번째 list index out of range
가져오기에러 97번째 list index out of range
가져오기에러 99번째 list index out of range
가져오기에러 101번째 list index out of range
가져오기에러 104번째 list index out of range
가져오기에러 110번째 list index out of range
가져오기에러 124번째 list index out of range
가져오기에러 144번째 list index out of range
가져오기에러 147번째 list index out of range
가져오기에러 152번째 list index out of range
가져오기에러 153번째 list index out of range
가져오기에러 155번째 list index out of range
가져오기에러 164번째 list index out of range
가져오기에러 171번째 list index out of range
가져오기에러 172번째 list index out of range
가져오기에러 177번째 list index out of range
가져오기에러 179번째 list index out of range
가져오기에러 183번째 l

HBox(children=(FloatProgress(value=1.0, bar_style='info', max=1.0), HTML(value='')))

가져오기에러 13번째 list index out of range
가져오기에러 15번째 list index out of range
가져오기에러 18번째 list index out of range
가져오기에러 33번째 list index out of range
가져오기에러 72번째 list index out of range
가져오기에러 77번째 list index out of range
가져오기에러 86번째 list index out of range
가져오기에러 97번째 list index out of range
가져오기에러 101번째 list index out of range
가져오기에러 102번째 list index out of range
가져오기에러 104번째 list index out of range
가져오기에러 105번째 list index out of range
가져오기에러 108번째 list index out of range
가져오기에러 110번째 list index out of range
가져오기에러 115번째 list index out of range
가져오기에러 116번째 list index out of range
가져오기에러 117번째 list index out of range
가져오기에러 121번째 list index out of range
가져오기에러 130번째 list index out of range
가져오기에러 157번째 list index out of range
가져오기에러 175번째 list index out of range
가져오기에러 186번째 list index out of range
가져오기에러 187번째 list index out of range
가져오기에러 189번째 list index out of range
가져오기에러 194번째 list index out of range
가져오기에러 199번째 list index out of range
가져오기에러 201번째 list index out of range
가져오기에러 20

HBox(children=(FloatProgress(value=1.0, bar_style='info', max=1.0), HTML(value='')))

가져오기에러 31번째 list index out of range
가져오기에러 44번째 list index out of range
가져오기에러 45번째 list index out of range
가져오기에러 55번째 list index out of range
가져오기에러 65번째 list index out of range
가져오기에러 86번째 list index out of range
가져오기에러 100번째 list index out of range
가져오기에러 119번째 list index out of range
가져오기에러 125번째 list index out of range
가져오기에러 126번째 list index out of range
가져오기에러 127번째 list index out of range
가져오기에러 130번째 list index out of range
가져오기에러 133번째 list index out of range
가져오기에러 148번째 list index out of range
가져오기에러 150번째 list index out of range
가져오기에러 176번째 list index out of range
가져오기에러 197번째 list index out of range
가져오기에러 205번째 list index out of range
가져오기에러 207번째 list index out of range
가져오기에러 209번째 list index out of range
가져오기에러 210번째 list index out of range
가져오기에러 211번째 list index out of range
가져오기에러 217번째 list index out of range
가져오기에러 219번째 list index out of range
가져오기에러 222번째 list index out of range
가져오기에러 223번째 list index out of range
가져오기에러 224번째 list index out of range
가져오기에러 

HBox(children=(FloatProgress(value=1.0, bar_style='info', max=1.0), HTML(value='')))

가져오기에러 7번째 list index out of range
가져오기에러 15번째 list index out of range
가져오기에러 23번째 list index out of range
가져오기에러 33번째 list index out of range
가져오기에러 46번째 list index out of range
가져오기에러 59번째 list index out of range
가져오기에러 90번째 list index out of range
가져오기에러 92번째 list index out of range
가져오기에러 97번째 list index out of range
가져오기에러 106번째 list index out of range
가져오기에러 110번째 list index out of range
가져오기에러 114번째 list index out of range
가져오기에러 118번째 list index out of range
가져오기에러 122번째 list index out of range
가져오기에러 137번째 list index out of range
가져오기에러 140번째 list index out of range
가져오기에러 143번째 list index out of range
가져오기에러 145번째 list index out of range
가져오기에러 151번째 list index out of range
가져오기에러 154번째 list index out of range
가져오기에러 158번째 list index out of range
가져오기에러 160번째 list index out of range
가져오기에러 161번째 list index out of range
가져오기에러 164번째 list index out of range
가져오기에러 166번째 list index out of range
가져오기에러 169번째 list index out of range
가져오기에러 171번째 list index out of range
가져오기에러 174번

HBox(children=(FloatProgress(value=1.0, bar_style='info', max=1.0), HTML(value='')))

가져오기에러 8번째 list index out of range
가져오기에러 13번째 list index out of range
가져오기에러 27번째 list index out of range
가져오기에러 28번째 list index out of range
가져오기에러 29번째 list index out of range
가져오기에러 31번째 list index out of range
가져오기에러 33번째 list index out of range
가져오기에러 42번째 list index out of range
가져오기에러 65번째 list index out of range
가져오기에러 83번째 list index out of range
가져오기에러 92번째 list index out of range
가져오기에러 95번째 list index out of range
가져오기에러 105번째 list index out of range
가져오기에러 112번째 list index out of range
가져오기에러 125번째 list index out of range
가져오기에러 126번째 list index out of range
가져오기에러 129번째 list index out of range
가져오기에러 142번째 list index out of range
가져오기에러 143번째 list index out of range
가져오기에러 147번째 list index out of range
가져오기에러 148번째 list index out of range
가져오기에러 150번째 list index out of range
가져오기에러 157번째 list index out of range
가져오기에러 161번째 list index out of range
가져오기에러 163번째 list index out of range
가져오기에러 171번째 list index out of range
가져오기에러 173번째 list index out of range
가져오기에러 250번째 l

HBox(children=(FloatProgress(value=1.0, bar_style='info', max=1.0), HTML(value='')))

가져오기에러 22번째 list index out of range
가져오기에러 24번째 list index out of range
가져오기에러 31번째 list index out of range
가져오기에러 32번째 list index out of range
가져오기에러 57번째 list index out of range
가져오기에러 66번째 list index out of range
가져오기에러 68번째 list index out of range
가져오기에러 70번째 list index out of range
가져오기에러 73번째 list index out of range
가져오기에러 85번째 list index out of range
가져오기에러 128번째 list index out of range
가져오기에러 129번째 list index out of range
가져오기에러 131번째 list index out of range
가져오기에러 132번째 list index out of range
가져오기에러 133번째 list index out of range
가져오기에러 141번째 list index out of range
가져오기에러 143번째 list index out of range
가져오기에러 144번째 list index out of range
가져오기에러 145번째 list index out of range
가져오기에러 150번째 list index out of range
가져오기에러 153번째 list index out of range
가져오기에러 156번째 list index out of range
가져오기에러 161번째 list index out of range
가져오기에러 166번째 list index out of range
가져오기에러 168번째 list index out of range
가져오기에러 177번째 list index out of range
가져오기에러 211번째 list index out of range
가져오기에러 214번

### 각 블로그 들어가서 url주소 따오는 방법(느림)

In [233]:
options = Options()
# 크롬드라이버 작동 
# os.chdir(',') #크롬드라이버위치
options.add_argument('--start-maximized') #전체화면
# options.add_argument('--headless') #headless(화면안켜고)
driver = webdriver.Chrome(executable_path='./chromedriver', chrome_options=options)

#저장위치
blog_urls = dict()
blog_urls['dates'] = []
blog_urls['title'] = []
blog_urls['urls'] = []

#검색위치 
driver.get(base_url)
#최대 1천개
try :
    for i in tqdm_notebook(range(1,1001)):
        blog_url = driver.find_element_by_xpath(f'//*[@id="sp_blog_{i}"]/div/a[2]')
        #title
        title = blog_url.text
        blog_urls['title'].append(title)
        #date
        date = driver.find_element_by_xpath(f'//*[@id="sp_blog_{i}"]/div/div[1]/span/span/span[1]/span').text
        blog_urls['dates'].append(date)
        blog_url.click()
        driver.switch_to.window(driver.window_handles[-1]) #탭전환
        blog_urls['urls'].append(driver.current_url)
        driver.close()
        driver.switch_to.window(driver.window_handles[0]) #탭복구
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
except:
    pass

  
Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`


HBox(children=(FloatProgress(value=0.0, max=59999.0), HTML(value='')))




### 셀레니움으로 최대치(1천건)까지 아래로 스크롤 후 긁어오기
* 최대 1천이 아닐때 에러날것 -> 대안1 최대 1천건 스크롤(42번) 문제사항(문서가 짧으면 무의미한 스크롤) 대안필요

In [242]:
options = Options()
# 크롬드라이버 작동 
options.add_argument('--start-maximized') #전체화면
# options.add_argument('--headless') #headless(화면안켜고)
driver = webdriver.Chrome(executable_path='./chromedriver', chrome_options=options)

#저장위치
blog_urls = dict()
blog_urls['dates'] = []
blog_urls['title'] = []
blog_urls['urls'] = []

#검색위치 
driver.get(base_url)

  """


In [None]:
#_view_review_body_html > div > more-contents > div > ul

In [179]:
options = Options()
# 크롬드라이버 작동 
options.add_argument('--start-maximized') #전체화면
# options.add_argument('--headless') #headless(화면안켜고)
driver = webdriver.Chrome(executable_path='./chromedriver', chrome_options=options)

#저장위치
blog_urls = dict()
blog_urls['dates'] = []
blog_urls['title'] = []
blog_urls['urls'] = []

#검색위치 
driver.get(base_url)

#최대 아래로 스크롤
count =1
string = '1'
some_tag = '1'
while type(some_tag) == type(string): #sele
    try : 
        some_tag = driver.find_element_by_id('sp_blog_1000')
    except:
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(1)
        count += 1
print(count)

  """


34


In [250]:
options = Options()
# 크롬드라이버 작동 
options.add_argument('--start-maximized') #전체화면
options.add_argument('--headless') #headless(화면안켜고)
driver = webdriver.Chrome(executable_path='./chromedriver', chrome_options=options)

#저장위치
blog_urls = dict()
blog_urls['dates'] = []
blog_urls['title'] = []
blog_urls['urls'] = []

#검색위치 
driver.get(base_url)

#최대 아래로 스크롤
count =1
string = '1'
some_tag = '1'
for i in range(0,40):
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(0.1)
    count += 1
source = driver.page_source
# print(count)
driver.close()

#각 정보 불러오기
soup = BeautifulSoup(source, 'html.parser')

#dates
dates_list = soup.select('div > div.total_sub > span > span > span.etc_dsc_area > span')
dates = pd.Series(dates_list).apply(lambda x : x.text)
blog_urls['dates'] = blog_urls['dates'] + list(dates)

#titles
title_list = soup.select('div > a.api_txt_lines.total_tit')
titles = pd.Series(title_list).apply(lambda x : x.text)
blog_urls['title'] = blog_urls['title'] + list(titles)

#link
link_list = soup.select('div.total_dsc_wrap a.total_dsc')
links = pd.Series(link_list).apply(lambda x : x.get('href'))
blog_urls['urls'] = blog_urls['urls'] + list(links)


  """


In [253]:
df = pd.DataFrame(blog_urls)

df_dict =  df.to_dict()

In [258]:
pd.DataFrame(df_dict)

Unnamed: 0,dates,title,urls
0,2020.12.17.,드라이브로 강릉 가볼만한곳 6,https://blog.naver.com/nailstan?Redirect=Log&l...
1,2020.12.25.,강릉 가볼만한곳 정동진부터 당일 5곳,https://blog.naver.com/tcacyc?Redirect=Log&log...
2,2020.12.29.,신선하게 즐겼던 강릉 횟집,https://dlfauddl.blog.me/222189422030
3,2020.12.31.,엄선해본 강원도 강릉 맛집 LIST,https://blog.naver.com/opop525?Redirect=Log&lo...
4,2020.12.29.,다채로웠던 강릉 맛집 추천 리스트,https://blog.naver.com/hangilchi?Redirect=Log&...
5,2020.12.26.,광고가 아닌 강릉 횟집 경포대 환호횟집,https://blog.naver.com/river0703?Redirect=Log&...
6,2020.12.26.,단번에 빠졌던 강릉횟집,https://blog.naver.com/llzzinll?Redirect=Log&l...
7,2020.12.26.,행복했던 강릉 횟집,https://blog.naver.com/amanda_som?Redirect=Log...
8,2020.11.28.,겨울에 강릉 가볼만한곳 모음,https://blog.naver.com/ultrabat?Redirect=Log&l...
9,2020.12.25.,강릉 회센터 회 맛집이구만!,https://blog.naver.com/amore_bh?Redirect=Log&l...


### 저장

In [232]:
# 본문가져오기
output_error = []
texts = []
for i, url in tqdm_notebook(enumerate(blog_urls['urls'])):
    count = i
    try:
        # 블로그 url안에 들어가기(아직 크롤링불가)
        get_blog_post_content_code = requests.get(url)
        get_blog_post_content_text = get_blog_post_content_code.text
        get_blog_post_content_soup = BeautifulSoup(
            get_blog_post_content_text, 'lxml')

        # 크롤링가능한 url에 접속
        real_blog_post_url = "http://blog.naver.com" + get_blog_post_content_soup.select('#mainFrame')[0].get('src')
        get_real_blog_post_content_code = requests.get(real_blog_post_url)
        get_real_blog_post_content_text = get_real_blog_post_content_code.text
        get_real_blog_post_content_soup = BeautifulSoup(get_real_blog_post_content_text, 'lxml')

        # 본문  (postviewarea 패턴과 se-main-container 2가지 유형이 있어 분리함)
        try:
            blog_post_content = get_real_blog_post_content_soup.select('div.se-main-container')
            if len(blog_post_content) == 0:
                blog_post_content = get_real_blog_post_content_soup.select('div#postViewArea')
                if len(blog_post_content) == 0:
                    blog_post_content = get_real_blog_post_content_soup.select('div.se_component_wrap.sect_dsc.__se_component_area')

            string = ""
            for sentence in blog_post_content[0].stripped_strings:
                try :
                    string += " "+sentence.replace('\xa0', " ")
                except :
                    pass
                # 비언어 텍스트제거
            string = del_outword(string)
            # 공백에러대처
            blank_check = string.replace(" ", "")
            if len(blank_check) == 0:
                texts.append(["X"])
            else:
                texts.append([string])
            count += 1
        except Exception as ex:
            print('url_load_error')
            texts.append(["X"])
            output_error.append(count)
            count += 1

    except Exception as ex:
        print('가져오기에러 {num}번째'.format(num=count), ex)
        output_error.append(count)
        count += 1
        pass

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  after removing the cwd from sys.path.


HBox(children=(FloatProgress(value=1.0, bar_style='info', max=1.0), HTML(value='')))

가져오기에러 73번째 list index out of range
가져오기에러 93번째 list index out of range
가져오기에러 98번째 list index out of range
가져오기에러 99번째 list index out of range
가져오기에러 221번째 list index out of range
가져오기에러 235번째 list index out of range
가져오기에러 245번째 list index out of range
가져오기에러 259번째 list index out of range
가져오기에러 284번째 list index out of range
가져오기에러 314번째 list index out of range
가져오기에러 325번째 list index out of range
가져오기에러 336번째 list index out of range
가져오기에러 337번째 list index out of range
가져오기에러 358번째 list index out of range
가져오기에러 359번째 list index out of range
가져오기에러 419번째 list index out of range
가져오기에러 471번째 list index out of range
가져오기에러 480번째 list index out of range
가져오기에러 493번째 list index out of range
가져오기에러 518번째 list index out of range
가져오기에러 602번째 list index out of range
가져오기에러 628번째 list index out of range



In [233]:
len(blog_urls['dates'])

630

In [235]:
len(output_error)

22

In [236]:
len(texts)

608

In [158]:
#후처리 및 dataframe 생성
df = pd.DataFrame(blog_urls)
df = df.drop(output_error)
df['text'] = texts
lenght = df.shape[0]

#저장
if save == True:
    today = datetime.datetime.today().date()
    str(today)
    os.makedirs(f'./new_output/{keyword}',exist_ok=True)
    df.to_csv(f'./new_output/{keyword}/{date_from}~{date_to}_{keyword}_{lenght}_{today}.csv',index=False)