In [1]:
import os
import urllib.request
import requests
import re
import time
import datetime
from selenium import webdriver
from bs4 import BeautifulSoup 
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service as ChromeService
from urllib.parse import quote
import pandas as pd
import numpy as np

In [2]:
options = webdriver.ChromeOptions()
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option("useAutomationExtension", False)

#### 제목, 링크, 발행일자 크롤링

In [10]:
# 옵션 사항이 반영된 블로그 링크 리스트

def nv_crawling(keyword, start_date, end_date): 
    # 웹 드라이버 불러오기
    browser = webdriver.Chrome(executable_path=r'D:\VS_work\chromedriver.exe', options=options)
    browser.implicitly_wait(3)
    
    # 블로그 제목, 링크, 발행날짜 뽑기
    title_list = []
    link_list = []
    pubdate_list = []
    
    for st, en in zip(start_date, end_date):
        # 사이트 주소는 네이버
        url = 'https://search.naver.com/search.naver?where=blog&query=' + quote(keyword) + f'&sm=tab_opt&nso=so:r,p:from{st}to{en}'
        browser.get(url)
        time.sleep(1)

        # 무한 스크롤 내리기(숫자만큼 내려감)
        for c in range(1, 500): 
            browser.find_element(By.TAG_NAME,'body').send_keys(Keys.PAGE_DOWN)
            browser.implicitly_wait(5)
            time.sleep(0.2)

        # 블로그 포스팅 제목, 주소가 담긴 몸통
        items= browser.find_elements_by_class_name('total_area')
        #len(items)
        for item in items:
            print('\n') # 문자열 줄바꿈
            
            # 블로그 게시글 제목
            title = item.find_element_by_class_name('total_tit').text
            title_list.append(title)
            print('제목 : ', title)      
            
            # 블로그 링크 : 브런치, 다음, 티스토리 공백
            link = item.find_element_by_class_name('total_tit').get_attribute('href')
            
            if 'naver' in link:
                link_list.append(link)

            elif 'brunch' in link: # brunch 블로그가 나오면 공백으로 남기기
                link_list.append(np.nan)

            elif 'daum' in link: # brunch 블로그가 나오면 공백으로 남기기
                link_list.append(np.nan)

            elif 'tistory' in link: # brunch 블로그가 나오면 공백으로 남기기
                link_list.append(np.nan)
            
            else: 
                link_list.append(np.nan)

            # 발행일자
            pubdate = item.find_element_by_class_name('sub_time').text
            pubdate = pubdate.rstrip('.') # 오른쪽 끝단의 '.' 삭제
            pubdate = pubdate.replace('.', '-')

            # 3시간 전, 4일 전, 어제 따로 처리
            now = datetime.datetime.now() # 오늘 날짜 불러오기
            if '시간 전' in pubdate:
                pubdate = now.strftime('%Y-%m-%d')
                pubdate_list.append(pubdate)
            elif '일 전' in pubdate:
                temp = int(pubdate[0:1])
                temp = datetime.timedelta(days=temp)
                pubdate = datetime.datetime.now() - temp
                pubdate = pubdate.strftime('%Y-%m-%d')
                pubdate_list.append(pubdate)
            elif '어제' in pubdate:
                temp = datetime.timedelta(days=1)
                pubdate = datetime.datetime.now() - temp
                pubdate = pubdate.strftime('%Y-%m-%d')
                pubdate_list.append(pubdate)
            else:
                pubdate_list.append(pubdate)
            print('발행일자 : ',pubdate)
    print('크롤링한 총 개수 :', len(title_list))    
    return title_list, link_list, pubdate_list 
    #브라우저 닫기
    browser.quit()    


#### 본문 크롤링

In [15]:
def contents_crawling(link_list):
    browser = webdriver.Chrome(executable_path=r'D:\VS_work\chromedriver.exe', options=options)
    browser.implicitly_wait(3)
    
    # 위에서 생성한 css selector list 하나씩 클릭하여 본문 url얻기
    content_list = []
    for i in link_list:
        try:
            # 블로그 링크 하나씩 불러오기
            browser.get(i)
            time.sleep(1)
            # 블로그 안 본문이 있는 iframe에 접근하기
            browser.switch_to.frame("mainFrame")
            # 본문 내용 크롤링하기
            try:
                a = browser.find_element_by_css_selector('div.se-main-container').text
                content_list.append(a)
            except:  # NoSuchElement 오류시 예외처리(구버전 블로그에 적용)
                a = browser.find_element_by_css_selector('div#content-area').text
                content_list.append(a)
            # print(본문: \n', a)
        except: # 네블 외 블로그들은 공백으로 넘어가기
            content_list.append('')
            continue # 공백은 무시한 채 계속 진행
    print('<<본문 크롤링이 완료되었습니다.>>')
    return content_list
   
    # 브라우저 닫기
    browser.quit() 

#### 데이터프레임 만들기

In [4]:
#제목, 링크, 발행일자를 Dataframe으로 만들기 : 엑셀로 저장
def df_make(title_list, link_list, pubdate_list):
    df = pd.DataFrame({'제목':title_list, '링크':link_list, '발행일자':pubdate_list})
    # df = pd.DataFrame({'제목':title_list, '링크':link_list, '발행일자':pubdate_list, '본문':content_list})
    return df

#### 메인함수

In [16]:
# 메인 함수 : 함수 한꺼번에 실행
if __name__=='__main__':
    # 키워드 받기
    keyword = input('키워드를 입력해주세요 : ')
    # 날짜 리스트
    start_date = [20190101, 20190201, 20190301, 20190401, 20190501, 20190601, 20190701, 20190801, 20190901, 20191001, 20191101, 20191201]
    end_date = [20190131, 20190228, 20190331, 20190430, 20190531, 20190630, 20190731, 20190831, 20190930, 20191031, 20191130, 20191231]
    title_list, link_list, pubdate_list = nv_crawling(keyword, start_date, end_date)
    df = df_make(title_list, link_list, pubdate_list)


  browser = webdriver.Chrome(executable_path=r'D:\VS_work\chromedriver.exe', options=options)
  items= browser.find_elements_by_class_name('total_area')




제목 :  전동킥보드 배터리, 리필 수리는 고프리 양산
발행일자 :  2019-01-05


제목 :  파리여행/파리스냅, 파리를 여행하는 새로운 방법 '전동 킥보드'
발행일자 :  2019-01-31


제목 :  (ChiangMai)' - 뉴런(Neuron) 전동 킥보드 어플 이용하기
발행일자 :  2019-01-24


제목 :  다양하게 활용가능한 2단 전동킥보드
발행일자 :  2019-01-02


제목 :  전동킥보드는 역시 나인봇... feat 헬리오시티, 전동 킥보드...
발행일자 :  2019-01-20


제목 :  제주도 체험 이도일동 원도심투어 (feat. 전동킥보드)
발행일자 :  2019-01-25


제목 :  자전거 핸드폰 거치대 전동킥보드에 달아봄
발행일자 :  2019-01-21


제목 :  수원 전동킥보드는 구매는? 전문가가 있는 아이휠 수원 본사
발행일자 :  2019-01-25


제목 :  제주전동킥보드 이브이트립 A코스 (성산일출봉 일출트립)
발행일자 :  2019-01-18


제목 :  나인봇 전동킥보드 후기
발행일자 :  2019-01-14


제목 :  삼시세끼, 통영 전동킥보드 윈드휠, 통영해안도로, 진주냉면
발행일자 :  2019-01-15


제목 :  빵구 잘나는 전동킥보드 타이어 방탄타이어로 개조하기
발행일자 :  2019-01-09


제목 :  제주 전동킥보드 대여... 공유전동킥보드 원탑 출범...
발행일자 :  2019-01-01


제목 :  대리운전 전동킥보드 중국공장
발행일자 :  2019-01-06


제목 :  [이노킴 OX] 이노킴 옥스 듀얼(DUAL) 전동킥보드
발행일자 :  2019-01-30


제목 :  프리미엄 전동킥보드 오프로드용 로드용 인싸아이템 추천!!
발행일자 :  2019-01-28


제목 :  전동킥보드 키박스 설치
발행일자 :  2019-01-28


제목 :  전동킥보드 배터리 수리- 밸런싱 작업
발행일자 :  2019-01-19


제목 :  듀얼트론2 

In [11]:
# df = df_make(title_list, link_list, pubdate_list, content_list)

### DB에 데이터프레임 넣기

In [17]:
import psycopg2
conn_str = 'host=172.30.1.1 dbname=naver_blog user=postgres password=1234 port=5432'
try: 
    conn = psycopg2.connect(conn_str)
    print('=====접속 성공=====')
except psycopg2.DatabaseError as db_err:
    print('접속오류!!')
    print(db_err)

=====접속 성공=====


In [18]:
import sqlalchemy
from sqlalchemy import create_engine

# 커서 생성
cur = conn.cursor()

# engine 생성
engine = create_engine('postgresql://postgres:1234@172.30.1.1:5432/naver_blog')

# 실행할 때마다 다른 값이 나오지 않게 테이블 제거
cur.execute('DROP TABLE IF EXISTS 전동킥보드2019')

df.to_sql(name='전동킥보드2019',
        con = engine,
        schema='public',
        if_exists='replace', # {'fail', 'replace', 'append'}, dafault : 'fail'
        index= True,
        index_label='id',
        chunksize= 100,
        dtype= {
            'id' : sqlalchemy.types.INTEGER(),
            '제목' : sqlalchemy.types.VARCHAR(200),
            '링크' : sqlalchemy.types.VARCHAR(200),
            '발행일자' : sqlalchemy.types.VARCHAR(20)
            # '본문' : sqlalchemy.types.VARCHAR(200000)
        })