In [2]:
# import the libraries
import time
import re
import random as rd
import pandas as pd
import numpy as np
import collections
from tqdm import tqdm
import pickle
import datetime

import requests
from bs4 import BeautifulSoup as bs
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager

from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.service import Service as ChromeService
from selenium.webdriver.chrome.options import Options as ChromeOptions
from selenium.common.exceptions import NoSuchElementException
from selenium.common.exceptions import TimeoutException
from webdriver_manager.chrome import ChromeDriverManager

In [3]:
# Driver setting
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
headers = {
    "User-Agent": user_agent
}

def setWebdriver():
    service = ChromeService(executable_path=ChromeDriverManager().install())    # 크롬 드라이버 최신 버전 설정

    options = ChromeOptions()
    options.add_argument('user-agent=' + user_agent)
    # options.add_argument('--start-maximized') #브라우저가 최대화된 상태로 실행됩니다.
    # options.add_argument('headless') #headless모드 브라우저가 뜨지 않고 실행됩니다.
    #options.add_argument('--window-size= x, y') #실행되는 브라우저 크기를 지정할 수 있습니다.
    #options.add_argument('--start-fullscreen') #브라우저가 풀스크린 모드(F11)로 실행됩니다.
    #options.add_argument('--blink-settings=imagesEnabled=false') #브라우저에서 이미지 로딩을 하지 않습니다.
    options.add_argument('--mute-audio') #브라우저에 음소거 옵션을 적용합니다.
    options.add_argument('incognito') #시크릿 모드의 브라우저가 실행됩니다.
    driver = webdriver.Chrome(service=service, options=options)

    return driver

In [4]:
# make URL
def makeURL():
    global query, start_date, end_date
    # 검색어, 시작 날짜, 종료 날짜 입력
    query = input("검색어를 입력하세요: ") # 검색어 입력, keyword: 우크라이나
    start_date = re.sub(r'[^0-9]', '', input("시작 날짜를 yyyy.mm.dd 형식으로 입력하세요: ")) # 시작 날짜(정규식을 이용하여 숫자만 추출)
    end_date = re.sub(r'[^0-9]', '', input("종료 날짜를 yyyy.mm.dd 형식으로 입력하세요: "))    # 종료 날짜(정규식을 이용하여 숫자만 추출)
    # URL 설정
    url = f'https://search.naver.com/search.naver?ssc=tab.cafe.all&cafe_where=&query={query}&ie=utf8&st=rel&date_option=8&date_from={start_date}&date_to={end_date}&srchby=text&dup_remove=1&cafe_url=&without_cafe_url=&sm=tab_opt&nso=so%3Add%2Cp%3Afrom20230101to20240404&nso_open=1&prdtype=0'

    return url

In [5]:
# Scroll down
def scrollDown(driver, whileSeconds): 
    end = driver.execute_script("return document.body.scrollHeight")
    # while (True):
    #     driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    #     time.sleep(rd.uniform(0.8, 1.2))
    #     new_end = driver.execute_script("return document.body.scrollHeight")
    #     if new_end == end:
    #         break
    #     end = new_end

    start = datetime.datetime.now() # 스크롤 다운 시작 시간 설정
    end = start + datetime.timedelta(seconds=whileSeconds) # 스크롤 다운 종료 시간 설정
    with tqdm(total=whileSeconds, desc='Scrolling Down...', leave='False') as pbar:
        while (datetime.datetime.now() < end):
            # 페이지 맨 아래로 스크롤 다운
            driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')
            time.sleep(1)        
            pbar.update(1)

    return

In [6]:
# get title&URL
def getTitleURL(driver):
    # 블로그 글 element 수집
    try:
        articles = driver.find_elements(By.CLASS_NAME, "detail_box");   #print(articles)
    except:
        print(f'articles error...')
    # title_list, url_list 초기화
    title_list = [] # 제목 리스트
    url_list = []   # URL 리스트
    # title, url 수집
    for article in tqdm(articles, desc="Colleting title and URL..."):    
        try:
            # title
            title = article.find_element(By.CLASS_NAME, "title_link").text;      title_list.append(title);       #print(f'Title: {title}')
            # url
            url = article.find_element(By.CLASS_NAME, "title_link").get_attribute("href");
            url_list.append(url);           #print(f'URL: {url}')
        except:
            print(f'title or url error...')
    
    # print('-'*200)

    return title_list, url_list

In [7]:
# blog contents crawling
def getContents(driver, title_list, url_list):
    mainText_list = [] # 블로그 본문 리스트 초기화
    commentCnt_list = [] # 댓글 수 리스트 초기화
    comment_list = []   # 댓글 리스트 초기화
    imgCnt_list = []    # 이미지 수 리스트 초기화     
    img_list = []    # 이미지 리스트 초기화
    videoCnt_list = []  # 동영상 수 리스트 초기화
    video_list = [] # 동영상 리스트 초기화

    for i, url in enumerate(tqdm(url_list, desc="Contents...")):
        driver.get(url)
        time.sleep(1) # 로딩 대기
        
        # print(f'Title: {title_list[i]}');   print(f'URL: {url}')

        iframes = driver.find_elements(By.TAG_NAME, "iframe")    # iframe 수집
        if len(iframes) > 0:    # iframe이 있는지 확인
            # for iframe in iframes:
            #     print(f'iframe name: {iframe.get_attribute("name")}')  # iframe 이름 출력
            driver.switch_to.frame('cafe_main') # iframe 요소로 전환

            # 블로그 본문 수집
            try:
                main_text = driver.find_element(By.CLASS_NAME, "se-main-container").text    # 블로그 본문 텍스트 수집, se-main-container, ContentRenderer
                mainText_list.append(main_text)    # 블로그 본문 리스트에 추가
                # print(f'Main text collected!');  # print(f'Main text: {main_text}'); 
            except:
                mainText_list.append(None) # 블로그 본문이 없는 경우 None 추가
                
            # 댓글 수 수집
            try:
                comment_cnt = int(driver.find_element(By.CLASS_NAME, "num").text)    # 댓글 수 수집
                commentCnt_list.append(comment_cnt) # 댓글 수 리스트에 추가
                # print(f'Comment count: {comment_cnt}')
            except:
                commentCnt_list.append(None) # 댓글 수가 없는 경우 None 추가
                print(f'comment count error..., URL: {url}')

            # 댓글 수집
            if (comment_cnt > 0):
                try:
                    comments = [comment.text for comment in driver.find_elements(By.CLASS_NAME, "text_comment")]    # 댓글 수집
                    comment_list.append(comments)   # 댓글 리스트에 추가
                    # print(f'comments({len(comments)}): {comments}')
                except:
                    print(f'comments error2..., URL: {url}')
            else:
                comment_list.append(None)   # 댓글이 없는 경우 None 추가

            # 이미지 수집
            try:
                images = [img.get_attribute('src') for img in driver.find_elements(By.TAG_NAME, "img")]    # 이미지 수집
                imgCnt_list.append(len(images)) # 이미지 수 리스트에 추가
                if (len(images) > 0):
                    img_list.append(images); 
                    # print(f'Images({len(images)}: {images})')
                else:
                    img_list.append(None);        
                    # print(f'There is no images...')
            except:
                print(f'images error..., URL: {url}')

            # 동영상 수집
            try:
                videos = [video.get_attribute('src') for video in driver.find_elements(By.CSS_SELECTOR, "iframe[src]")]    # 동영상 수집
                videoCnt_list.append(len(videos))   # 동영상 수 리스트에 추가
                if (len(videos) > 0): 
                    video_list.append(videos)
                    # print(f'Videos({len(videos)}: {videos})')
                else: 
                    video_list.append(None)
                    # print(f'There is no videos...')
            except:
                print(f'videos error..., URL: {url}')
        else:
            print(f'There is no iframe!!, URL: {url}')
            

        # print('-'*200)
        time.sleep(rd.uniform(0.3, 0.8))

    return mainText_list, commentCnt_list, comment_list, imgCnt_list, img_list, videoCnt_list, video_list

In [8]:
if __name__ == "__main__":
    # 웹드라이버 초기화
    driver = setWebdriver()

    # URL 생성
    url = makeURL()

    # URL 접속
    driver.get(url)

    # 스크롤 다운
    scrollDown(driver, 4)

    # 블로그 title, url 수집
    title_list, url_list = getTitleURL(driver)

    # 블로그 콘텐츠 수집
    mainText_list, commentCnt_list, comment_list, imgCnt_list, img_list, videoCnt_list, video_list = getContents(driver, title_list, url_list)

    # shutdown webdriver 202
    driver.quit()

    # DataFrame 생성
    df = pd.DataFrame({
        "title": title_list,
        "url": url_list,
        "main_text": mainText_list,
        "comment_cnt": commentCnt_list,
        "comment": comment_list,
        "img_cnt": imgCnt_list,
        "img": img_list,
        "video_cnt": videoCnt_list,
        "video": video_list,
        "ch1": ["naver" for _ in range(len(title_list))],
        "ch2": ["blog" for _ in range(len(title_list))]
    })
    print(df)

    # DataFrame 저장
    file_path = "../data/";    file_name = f"naverCafe_crawling({query}, {start_date}-{end_date}).pkl"
    df.to_pickle(file_path + file_name)

Scrolling Down...: 100%|██████████| 4/4 [00:04<00:00,  1.01s/it]
Colleting title and URL...: 100%|██████████| 150/150 [00:02<00:00, 59.89it/s]
Contents...: 100%|██████████| 150/150 [06:13<00:00,  2.49s/it]


                                      title  \
0                               우크라이나는 기우는가   
1    [2312-5] 외국우표 분양 - 우크라이나, 폴란드 등 (97품목)   
2                       우크라이나에 3조 49억 지원하네요   
3                   러시아-우크라이나를 잊으신 것은 아니겠죠?   
4                  러시아 우크라이나 전쟁에 대한 미국의 전략은   
..                                      ...   
145                          감동주의!!우크라이나 찬양   
146                        우크라이나 우회 성공한건가요!   
147         이근 대위 뺑소니 혐의 우크라이나 참전 여권법 위반 재판   
148      속보 - 러시아 우크라이나 전쟁 이후 최대규모 공격 단행...   
149            우크라이나 대형 댐 붕괴 … 주민 수천 명 대피 중   

                                                   url  \
0    https://cafe.naver.com/wotat/1163281?art=ZXh0Z...   
1    https://cafe.naver.com/philatelyst/368733?art=...   
2    https://cafe.naver.com/momsofsongdoifez/120043...   
3    https://cafe.naver.com/vietnamsketch/444502?ar...   
4    https://cafe.naver.com/jaegebal/4912915?art=ZX...   
..                                                 ...   
145  https://cafe.naver.com/g