In [1]:
import os
import urllib.request
import requests
import re
import time
import datetime
from selenium import webdriver
from bs4 import BeautifulSoup 
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service as ChromeService
from urllib.parse import quote
import pandas as pd
import numpy as np

In [2]:
options = webdriver.ChromeOptions()
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option("useAutomationExtension", False)

#### 제목, 링크, 발행일자 크롤링

In [7]:
# 옵션 사항이 반영된 블로그 링크 리스트

def nv_crawling(keyword): 
    # 웹 드라이버 불러오기
    browser = webdriver.Chrome(executable_path=r'C:\Users\User\Desktop\drivers\chromedriver.exe', options=options)
    browser.implicitly_wait(2)
    
    # 날짜 리스트
    start_date = [20210101, 20210201, 20210301, 20210401, 20210501, 20210601, 20210701, 20210801, 20210901, 20211001, 20211101, 20211201]
    end_date = [20210131, 20210228, 20210331, 20210430, 20210531, 20210630, 20210731, 20210831, 20210930, 20211031, 20211130, 20211231]
    # 블로그 제목, 링크, 발행날짜 뽑기
    title_list = []
    link_list = []
    pubdate_list = []
    
    for st, en in zip(start_date, end_date):
        # 사이트 주소는 네이버
        url = 'https://search.naver.com/search.naver?where=blog&query=' + quote(keyword) + f'&sm=tab_opt&nso=so:r,p:from{st}to{en}'
        browser.get(url)
        time.sleep(1)

        # 무한 스크롤 내리기(숫자만큼 내려감)
        for c in range(1, 500): 
            browser.find_element(By.TAG_NAME,'body').send_keys(Keys.PAGE_DOWN)
            browser.implicitly_wait(10)
            time.sleep(0.2)

        # 블로그 포스팅 제목, 주소가 담긴 몸통
        items= browser.find_elements_by_class_name('total_area')
        #len(items)
        for item in items:
            print('\n') # 문자열 줄바꿈
            
            # 블로그 게시글 제목
            title = item.find_element_by_class_name('total_tit').text
            title_list.append(title)
            print('제목 : ', title)      
            
            # 블로그 링크 : 브런치, 다음, 티스토리 공백
            link = item.find_element_by_class_name('total_tit').get_attribute('href')
            
            if 'naver' in link:
                link_list.append(link)

            elif 'brunch' in link: # brunch 블로그가 나오면 공백으로 남기기
                link_list.append(np.nan)

            elif 'daum' in link: # brunch 블로그가 나오면 공백으로 남기기
                link_list.append(np.nan)

            elif 'tistory' in link: # brunch 블로그가 나오면 공백으로 남기기
                link_list.append(np.nan)
            
            else: 
                link_list.append(np.nan)

            # 발행일자
            pubdate = item.find_element_by_class_name('sub_time').text
            pubdate = pubdate.rstrip('.') # 오른쪽 끝단의 '.' 삭제
            pubdate = pubdate.replace('.', '-')

            # 3시간 전, 4일 전, 어제 따로 처리
            now = datetime.datetime.now() # 오늘 날짜 불러오기
            if '시간 전' in pubdate:
                pubdate = now.strftime('%Y-%m-%d')
                pubdate_list.append(pubdate)
            elif '일 전' in pubdate:
                temp = int(pubdate[0:1])
                temp = datetime.timedelta(days=temp)
                pubdate = datetime.datetime.now() - temp
                pubdate = pubdate.strftime('%Y-%m-%d')
                pubdate_list.append(pubdate)
            elif '어제' in pubdate:
                temp = datetime.timedelta(days=1)
                pubdate = datetime.datetime.now() - temp
                pubdate = pubdate.strftime('%Y-%m-%d')
                pubdate_list.append(pubdate)
            else:
                pubdate_list.append(pubdate)
            print('발행일자 : ',pubdate)
    print('크롤링한 총 개수 :', len(title_list))    
    return title_list, link_list, pubdate_list 
    #브라우저 닫기
    browser.quit()    


#### 본문 크롤링

In [8]:
def contents_crawling(link_list):
    browser = webdriver.Chrome(executable_path=r'C:\Users\User\Desktop\drivers\chromedriver.exe', options=options)
    browser.implicitly_wait(2)
    
    # 위에서 생성한 css selector list 하나씩 클릭하여 본문 url얻기
    content_list = []
    for i in link_list:
        try:
            # 블로그 링크 하나씩 불러오기
            browser.get(i)
            time.sleep(1)
            # 블로그 안 본문이 있는 iframe에 접근하기
            browser.switch_to.frame("mainFrame")
            # 본문 내용 크롤링하기
            try:
                a = browser.find_element_by_css_selector('div.se-main-container').text
                content_list.append(a)
            except:  # NoSuchElement 오류시 예외처리(구버전 블로그에 적용)
                a = browser.find_element_by_css_selector('div#content-area').text
                content_list.append(a)
            # print(본문: \n', a)
        except: # 네블 외 블로그들은 공백으로 넘어가기
            content_list.append('')
            continue # 공백은 무시한 채 계속 진행
    print('<<본문 크롤링이 완료되었습니다.>>')
    return content_list
   
    # 브라우저 닫기
    browser.quit() 

#### 데이터프레임 만들기

In [9]:
#제목, 링크, 발행일자를 Dataframe으로 만들기 : 엑셀로 저장
def df_make(title_list, link_list, pubdate_list, content_list):
    df = pd.DataFrame({'제목':title_list, '링크':link_list, '발행일자':pubdate_list, '본문':content_list})
    return df

#### 메인함수

In [10]:
# 메인 함수 : 함수 한꺼번에 실행
if __name__=='__main__':
    # 날짜 받기
    keyword = input('키워드를 입력해주세요 : ')
    title_list, link_list, pubdate_list = nv_crawling(keyword)
    content_list = contents_crawling(link_list)
    df = df_make(title_list, link_list, pubdate_list, content_list)


  browser = webdriver.Chrome(executable_path=r'C:\Users\User\Desktop\drivers\chromedriver.exe', options=options)
  items= browser.find_elements_by_class_name('total_area')




제목 :  아기와 함께 캠핑을 #8) 연천나린오토캠핑장 솔가람 글램핑장
발행일자 :  2021-01-05


제목 :  캠핑밀키트 :: 맛콘 용호낙지 ♪
발행일자 :  2021-01-06


제목 :  장기동 삼겹살이 맛있는 캠핑분위기의 생파
발행일자 :  2021-01-02


제목 :  캠핑 떡볶이 누구나 좋아하는 청주쭈떡볶이로!
발행일자 :  2021-01-30


제목 :  2021년 첫 캠핑 화천 답게 캠핑장 인생 캠핑장 갱신!
발행일자 :  2021-01-03


제목 :  캠핑 접이식 테이블 신일 팬히터 받침대로 사용 맞춤이다.
발행일자 :  2021-01-31


제목 :  포천 비둘기낭 캠핑장에서의 겨울캠핑(2021년 1월)
발행일자 :  2021-01-23


제목 :  맥시멀라이프 차량용 빔스크린 차박캠핑 나만의 영화관 완성
발행일자 :  2021-01-08


제목 :  캠핑 랜턴 추천 오래 가는 스노우피크 녹턴 랜턴
발행일자 :  2021-01-15


제목 :  광산구 캠핑 분위기가 다했다 수다래캠핑카페 바베큐파티
발행일자 :  2021-01-04


제목 :  평창 아트인아일랜드 동계캠핑 [놀러가요 ep.1]
발행일자 :  2021-01-13


제목 :  여파로 인기 급상승! 캠핑카 관련 기술의 특허 출원 동향
발행일자 :  2021-01-15


제목 :  우드롤테이블 실용적인 감성캠핑용품 하드기어
발행일자 :  2021-01-07


제목 :  대구 인근 추천 오토캠핑장 [청도 캠프원] / 추천 캠핑음식 짝꿍
발행일자 :  2021-01-07


제목 :  중고버스 캠핑카 : 희망하시는 분들이 보면 좋은 정보
발행일자 :  2021-01-27


제목 :  볼보 v50 캠핑카 개조 - 레퍼런스 찾아보기
발행일자 :  2021-01-02


제목 :  캠핑장 추천: 온수수영장이 있는 핀란드 캠핑성(아이와함께...
발행일자 :  2021-01-17


제목 :  캠핑용품은 고릴라캠핑 인천점 오늘도 득템~
발행일자 :  2021-

  browser = webdriver.Chrome(executable_path=r'C:\Users\User\Desktop\drivers\chromedriver.exe', options=options)
  a = browser.find_element_by_css_selector('div.se-main-container').text
  a = browser.find_element_by_css_selector('div#content-area').text


<<본문 크롤링이 완료되었습니다.>>


In [11]:
# df = df_make(title_list, link_list, pubdate_list, content_list)

### DB에 데이터프레임 넣기

In [11]:
import psycopg2
conn_str = 'host=localhost dbname=naver_blog user=postgres password=1234 port=5432'
try: 
    conn = psycopg2.connect(conn_str)
    print('=====접속 성공=====')
except psycopg2.DatabaseError as db_err:
    print('접속오류!!')
    print(db_err)

=====접속 성공=====


In [12]:
import sqlalchemy
from sqlalchemy import create_engine

# 커서 생성
cur = conn.cursor()

# engine 생성
engine = create_engine('postgresql://postgres:1234@localhost:5432/naver_blog')

# 실행할 때마다 다른 값이 나오지 않게 테이블 제거
cur.execute('DROP TABLE IF EXISTS 캠핑2021')

df.to_sql(name='캠핑2021',
        con = engine,
        schema='public',
        if_exists='replace', # {'fail', 'replace', 'append'}, dafault : 'fail'
        index= True,
        index_label='id',
        chunksize= 100,
        dtype= {
            'id' : sqlalchemy.types.INTEGER(),
            '제목' : sqlalchemy.types.VARCHAR(200),
            '링크' : sqlalchemy.types.VARCHAR(200),
            '발행일자' : sqlalchemy.types.VARCHAR(20),
            '본문' : sqlalchemy.types.VARCHAR(200000)
        })