## selenium을 이용한 동적 크롤링 연습문제 : 네이버웹툰

### 네이버 웹툰 페이지에서 데이터 추출
- https://comic.naver.com/genre/bestChallenge.nhn  
- [전제베스트도전] 웹툰에서
    - 제목, 작가, 별점, 조회수 추출

### 문제1
- 한 페이지 크롤링
- https://comic.naver.com/genre/bestChallenge.nhn 페이지에서
- 현재 페이지의 [전제베스트도전] 웹툰에서
    - 제목, 작가, 별점, 조회수 추출해서
    - 데이터프레임 생성 : naver_webtoon_df

### 문제2
- 1 ~ 20 페이지까지 추출해서 데이터프레임으로 생성

In [1]:
# naver_webtoon_df_final
# naver_webtoon.csv

In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

from urllib.request import urlopen
import pandas as pd
import bs4
import requests
import selenium
from selenium import webdriver
from selenium.webdriver.common.by import By   # 셀레니움 4.0 부터 포함된 객체(모듈)

from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

In [3]:
import time

In [4]:
# (1) webdriver객체 생성
chrome_options = webdriver.ChromeOptions()
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)

In [5]:
# 접속
driver.get('https://comic.naver.com/genre/bestChallenge.nhn')

In [6]:
# 현재 페이지의 [전제베스트도전] 웹툰에서
# 제목, 작가, 별점, 조회수 추출해서
# 데이터프레임 생성 : naver_webtoon_df

# title : #content > div:nth-child(2) > ul:nth-child(2) > li:nth-child(1) > div > a.ContentTitle__title_area--x24vt > span
# author : #content > div:nth-child(2) > ul:nth-child(2) > li:nth-child(1) > div > a.ContentAuthor__author--CTAAP
# star : #content > div:nth-child(2) > ul:nth-child(2) > li:nth-child(1) > div > div > span.Rating__star_area--dFzsb > span
# views : #content > div:nth-child(2) > ul:nth-child(2) > li:nth-child(1) > div > div > span.Rating__view_area--GQb_S > span

In [48]:
webtoons = driver.find_elements(By.CSS_SELECTOR, '#content > div:nth-child(2) > ul:nth-child(2) > li')
title = []
author = []
star = []
views = []

for i in range(len(webtoons)):
    title.append(webtoons[i].find_element(By.CSS_SELECTOR, '.ContentTitle__title_area--x24vt').text)
    author.append(webtoons[i].find_element(By.CSS_SELECTOR, '.ContentAuthor__author--CTAAP').text)
    star.append(webtoons[i].find_element(By.CSS_SELECTOR, '.Rating__star_area--dFzsb').text)
    views.append(webtoons[i].find_element(By.CSS_SELECTOR, '.Rating__view_area--GQb_S').text)


In [49]:
# dataframe생성
naver_df= pd.DataFrame({'제목':title, '작가':author, '별점':star, '조회수':views})
naver_df.to_csv('./crawl_data/naver_webtoon_df.csv', index=0)

In [51]:
# test
read_df= pd.read_csv('./crawl_data/naver_webtoon_df.csv')
read_df

Unnamed: 0,제목,작가,별점,조회수
0,UP\n블랙홀괴담,아폴로,별점\n9.63,조회수\n19만
1,UP\n덤덤씨 이야기,최덤덤,별점\n9.27,조회수\n1.2만
2,UP\n우당탕탕 콩삼이,콩삼이,별점\n9.66,조회수\n15만
3,UP\n진<zin>,나련수,별점\n8.44,"조회수\n5,819"
4,UP\n아빠는 N살,유영근,별점\n9.90,"조회수\n4,956만"
5,UP\n산군대잔치,다영좍가,별점\n9.87,조회수\n464만
6,UP\n꽈따와 구갈이,똘정 X 르지,별점\n9.61,조회수\n12만
7,UP\n타임머신 만들기,자드나인,별점\n9.49,조회수\n3.7만
8,UP\n집에서 뽀짝뽀짝,그랑,별점\n9.67,조회수\n16만
9,나태한 마왕은 신과 싸우기로 결심한다.,백창훈,별점\n9.87,조회수\n150만


### 1~20페이지 크롤링

In [42]:
# import selenium
# from selenium import webdriver
# from selenium.webdriver.common.by import By   # 셀레니움 4.0 부터 포함된 객체(모듈)

# from selenium.webdriver.chrome.service import Service
# from webdriver_manager.chrome import ChromeDriverManager

# (1) webdriver객체 생성
# chrome_options = webdriver.ChromeOptions()
# driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)

In [34]:
# (2) 데이터 프레임 생성
all_naver_df = pd.DataFrame({
    '제목' : [],
    '작가':[],
    '별점':[],
    '조회수':[]
})

In [18]:
all_naver_df

Unnamed: 0,제목,작가,별점,조회수


In [52]:
# (3) 한페이지 추출해서 df에 붙여넣기
def get_page_webtoon(url):
    global all_naver_df

    try:
        driver.get(url)
        time.sleep(2)
    
        # 추출
        webtoons = driver.find_elements(By.CSS_SELECTOR, '#content > div:nth-child(2) > ul:nth-child(2) > li')
        title, author, star, views = [[] for _ in range(4)]
        
        for webtoon in webtoons:
            title.append(webtoon.find_element(By.CSS_SELECTOR, '.ContentTitle__title_area--x24vt').text)
            author.append(webtoon.find_element(By.CSS_SELECTOR, '.ContentAuthor__author--CTAAP').text)
            star.append(webtoon.find_element(By.CSS_SELECTOR, '.Rating__star_area--dFzsb').text)
            views.append(webtoon.find_element(By.CSS_SELECTOR, '.Rating__view_area--GQb_S').text)

        # dataframe에 추가
        df= pd.DataFrame({'제목':title, '작가':author, '별점':star, '조회수':views})
        all_naver_df = pd.concat([all_naver_df, df], axis=0, ignore_index=True)
    except:
        print('페이지 추출 중 오류!')
              

In [40]:
# 함수 테스트 - 주석 처리 할 것
# get_page_webtoon('https://comic.naver.com/genre/bestChallenge?page=1')
# all_naver_df

In [53]:
# (4) 여러페이지 추출
base_url = 'https://comic.naver.com/genre/bestChallenge?page='

for i in range(1,11):
    print('%i번째 페이지 추출중'%i)
    url = base_url + str(i)
    get_page_webtoon(url)    # 한 페이지 가져오기


1번째 페이지 추출출
2번째 페이지 추출출
3번째 페이지 추출출
4번째 페이지 추출출
5번째 페이지 추출출
6번째 페이지 추출출
7번째 페이지 추출출
8번째 페이지 추출출
9번째 페이지 추출출
10번째 페이지 추출출


In [33]:
# (5) dataframe생성
all_naver_df.to_csv('./crawl_data/all_naver_webtoon_df.csv', index=0)

In [None]:
driver.close()