### 주제 : 네이버 웹툰에서 특정 요인이 작품의 인기에 미치는 영향
[ 조건 ]
- 명제 1 : 요인은 '태그, 이용 가능 연령, 요일, 작가'이다. <br/>
- 명제 2 : 작품의 인기는 '선호작 수, 최근 10화 평균 평점'로 평가한다. <br/>
- 명제 3 : 10화 미만 연재 작품의 경우 현재 존재하는 모든 화의 평균 평점으로 최근 10화 평균 평점을 대체한다. 

[ 가설 ]
- 가설 1 : 특정 '태그'를 가지고 있는 웹툰의 인기가 높을 것이다. <br/>
- 가설 2 : 특정 '요일'에 연재하는 웹툰의 인기가 높을 것이다. <br/>
- 가설 3 : 특정 '이용 가능 연령'인 웹툰의 인기가 높을 것이다. <br/>
- 가설 4 : 특정 '작가'가 만든 웹툰의 인기가 높을 것이다. 

### 크롤링 / 엑셀화 ( 이하 Code / Markdown을 통해 확인 )

- 데이터 저장 과정에서 list, dict, Class 사용
    - 'WebtoonName' 참고 <br/>
    - 웹툰 제목을 받아올 수 있는 'https://comic.naver.com/webtoon'에서 각 웹툰의 제목 받아오기 <br/>
    : 웹툰 제목을 잘 받아왔는지 확인하기 위해 텍스트 파일 생성 <br/>
    - 이후 각 웹툰을 webtoonlist = [ ]에 dict{ '웹툰 제목' : Class() } 형태로 저장 <br/>
    - 연산 과정에서 List Comprehension 사용 <br/>
    - Class 구성 <br/>
        - str( 제목 ), set( 태그 ), int( 이용 연령 ), str( 요일 ), int( 선호작 수 ), float( 최근 10화 평균 평점 ), set( 작가 ) <br/>
        - **생성자** ( self, 이름 ) <br/>
        - 각 데이터 설정 함수 ( self, 데이터 ) <br/>
        : 태그, 작가 설정 과정에서 태그, 작가 = set()을 통해 초기화 해주지 않으면 오류 발생. <br/>
        → *Why? ( 아직 의문이 해소되지 않음 )* <br/>
<br/>
- 웹페이지 이동 방법 1 ( 오류 )
    - 웹툰의 검색 창에 각 웹툰의 이름 입력 및 검색 버튼 클릭 <br/>
    - 이후 웹툰 검색 결과에서 웹툰 페이지로 이동을 위해 버튼 클릭 <br/>
<br/>
- 웹페이지 이동 방법 2 ( 작동 )
    - 전체 웹툰 제목을 받아올 수 있는 'https://comic.naver.com/webtoon'에서 각 웹툰의 href 값을 받아오기 <br/>
    - 이후 driver.get(href)를 통해 중간 과정 없이 바로 웹툰 페이지로 이동하여 크롤링 <br/>
    : 방법 변경을 통해 웹 페이지의 이동 횟수 ½로 감소<br/>
<br/>
- 정상 작동 확인
    - 제목, 태그, 이용 연령, 작가, 요일, 평균 평점, 선호작 수 출력 <br/>
    - from IPython.display import clear_output를 활용하여 1개의 웹툰씩 확인 가능 <br/>
    - 0.5초 마다 각 웹툰의 정보가 출력 <br/>
<br/>
- 엑셀화
    - 'Webtoon List.xlsx' 참고 <br/>
    - 각 컬럼 명 <br/>
        - 제목 | 태그 | 이용 연령 | 작가 | 요일 | 평균 평점 | 선호작 수
    - 행 개수 <br/>
        - 579개 ( 2023년 05월 21일 기준 / 이후 프로그램을 실행할 때마다 업데이트 예정 ) <br/>

<img src=.\참고\jpg1.jpg width="708px" height="400px" > <img src=.\참고\jpg2.jpg width="708px" height="400px" >

### Selenium / Webdriver 기본설정

In [1]:
from selenium import webdriver
import time
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
_sleep_time = 0.5

### Selenium / Webdriver 설치 

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
from openpyxl import Workbook
import time
import csv
import copy

options = Options()
options.add_experimental_option('detach', True)
options.add_experimental_option('excludeSwitches', ['enable-logging'])
service = Service(ChromeDriverManager().install())

### 페이지 불러오기

In [2]:
from selenium import webdriver\

driver = webdriver.Chrome(".\chromedriver.exe")

driver.get("https://comic.naver.com/webtoon")
time.sleep(5)

  driver = webdriver.Chrome(".\chromedriver.exe")


### class Webtoon( )
1. 이름 = " "<br/>
2. 태그 = [ ]<br/>
3. 이용 연령 = 0 <br/>
4. 요일 = " "<br/>
5. 선호작 수 = 0 <br/>
6. 최근 10화 평균 평점 = 0.0 <br/>
7. 웹툰 작가 설정 = [ ]

In [3]:
class Webtoon() :
    tags=set()
    age=0
    day=""
    select = 0
    avg_rating10 = 0.0
    artists = set()

    def __init__(self, name="") :   # 웹툰 설정
        if name == "" :
            print("웹툰명이 입력되지 않았습니다. ")
            return None
        else :
            self.name = name

    def SetWTTags(self, mytags:list) :     # 웹툰 태그 추가
        self.tags=set()             # 없으면 태그 오류 (모든 태그가 입력됨) Why?
        for content in mytags :
            if content not in self.tags :
                self.tags.add(content)
    
    def SetWTAge(self, ageset:str) :             # 웹툰 시청 나이 설정
        if ageset == "전체연령가" :
            self.age = 0
        elif ageset == "12세 이용가" :
            self.age = 12
        elif ageset == "15세 이용가" :
            self.age = 15
        elif ageset == "18세 이용가" :
            self.age = 18

    def SetWTDay(self, myday:str) :     # 웹툰 연재 날짜 추가
        if myday == None :
            print("요일이 입력되지 않았습니다. ")
        else :
            self.day = myday
    
    def SetWTSelect(self, num:int) :          # 웹툰 선착 설정
        self.select = num
    
    def SetWTRating(self, num:float) :     # 웹툰 최근 10화 평균 평점 설정
        self.avg_rating10 = num
    
    def SetWTArtists(self, myartists:list) :  # 웹툰 작가 설정
        self.artists = set()        # 없으면 작가 오류 (모든 작가가 입력됨) Why?
        if myartists==[] :
            print("작가명이 입력되지 않았습니다. ")
            return None
        else :
            for content in myartists :
                if content not in self.artists :
                    self.artists.add(content)
    

### 웹툰 제목
웹툰 제목 크롤링<br/>
→ webtoon = set( ) # 중복 제거<br/>

In [4]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

webtoon=set()
driver.get("https://comic.naver.com/webtoon")
time.sleep(5)

# for title in driver.find_element(By.CLASS_NAME, 'WeekdayMainView__daily_list--R52q0').find_elements('class name', 'text') :
for title in driver.find_element(By.CLASS_NAME, 'WeekdayMainView__daily_all_wrap--UvRFc').find_elements('class name', 'text') :
    webtoon.add(title.text)

### WebtoonName.txt

In [16]:
from selenium import webdriver

with open('.\WebtoonName.txt','wt') as op:
    for content in webtoon :
        op.write(str(content)+"\n")

### 저장
class Webtoon( ) 형태로 각각의 웹툰을 저장<br/>
→ webtoonlist={ 웹툰 제목 : class Webtoon( ) }

In [5]:
webtoonlist={}
for content in webtoon :
    webtoonlist[content] = Webtoon(content)

### 테스트

In [6]:
# print(webtoonlist.keys())

for content in webtoonlist.keys() :
    print(webtoonlist[content].name)

아포크리파
네버엔딩달링
순정빌런
천하제일 대사형
선배는 나빠요!
봐선 안되는 것
퀘스트지상주의
최강부캐
판사 이한영
나쁜 마법사의 꿈
여신님의 호랑이 공략법
헥토파스칼
전남편의 미친개를 길들였다
강남의 기사
중독연구소
여우자매
1초
생존고백
놓지마 정신줄 시즌3
또다시 열일곱
그 기사가 레이디로 사는 법
바스티안
칼부림
THE 런웨이
메모리얼
히어로메이커
한림체육관
히어로 더 맥시멈
나이트런
별난식당
흑화한 노예남을 길들였다
방송은 방송으로 봐
역주행!
세기말 풋사과 보습학원
싸움독학
플레이어
별을 쫓는 소년들
사랑받는 시집살이
이상한 변호사 우영우
킬링대디
세레나
스터디그룹
허리케인 공주님
완벽한 파트너
연우의 순정
사랑의 헌옷수거함
그렇고 그런 바람에
최후의 금빛아이
에이머
방과후 레시피
묘령의 황자
부캐인생
나의 작은 서점
교환학생
칼에 취한 밤을 걷다
무사만리행
렌탈히어로
사상최강
크림슨 하트
짝사랑의 마침표
나노마신
보물과 괴물의 도시
신화급 귀속 아이템을 손에 넣었다
역대급 영지 설계사
배달의 신
내게 종말은 게임이다
윈드브레이커
진짜 진짜 이혼해
브레이커 : 이터널 포스
줄리에게
대리게임
백수세끼
슈퍼스타 천대리
외모지상주의
네이처맨
히어로 킬러
케찰코아틀 - 헤수스
아침을 지나 밤으로
은주의 방 2~3부
앵무살수
프로듀스 온리원
내남친 킹카만들기
올빼미와 여름 하늘
연애의 기록
해골협객
패션쇼
마도전생기
집사, 주세요!
연애고수
DARK MOON: 회색 도시
마루는 강쥐
약빨이 신선함
미시령
러브 똘츄얼리
우리의 연애일지
인과관계
세라는 망돌
나의 불편한 상사
미래의 골동품 가게
안미운 우리들
원하나
완벽한 부부는 없다
중매쟁이 아가 황녀님
너의 미소가 함정
거짓말의 뉘앙스
불쌍해야 하는 남자
아이돌만 하고 싶었는데
이종 격투기
원주민 공포만화
디펜스 게임의 폭군이 되었다
후덜덜덜 남극전자
108명의 그녀들
뮤즈 온 유명
킬 더 드래곤
뜨거운 홍차
내게 필요한 NO맨스
애증화음
시한부 천재 암흑기사
유사연애
우투리: THE LEGACY
로어 올림

### 웹툰 정보 크롤링 : 방식 1 (실패)
  
실패 사유 : 2 → 3 과정에서 오류 발생 <br/>
해결하기 힘들다고 판단 → 새로운 방식 탐색 <br/>
<br/>
[ 작동방식 ] <br/>
1. 검색에 각각의 웹툰 이름 입력 및 검색 버튼 클릭 <br/>
2. 웹툰 검색 페이지에서 일치하는 웹툰을 발견 <br/>
3. 웹툰 페이지로 들어가 웹 크롤링 <br/>
4. 이후 네이버 웹툰 전체 페이지로 이동 <br/>

In [None]:
element = driver.find_element('class name', 'SearchBar__search_input--k5nfk')
scearch_botton = driver.find_element('class name', 'SearchBar__btn_search--SsL7v')

for content in webtoon :
    # 웹툰 이름 입력
    element.click()
    element.send_keys(content)

    # 검색버튼클릭
    scearch_botton.click()
    driver.implicitly_wait(_sleep_time*3)

    # 웹툰 페이지로 연결
    tags=[]
    name=""
    count=0.0
    if webtoonlist[content].name is driver.find_element('class name', 'ContentTitle__search_title--nndrf').text :
        driver.get(driver.find_element('class name', 'ContentTitle__title_area--x24vt ContentTitle__type_c--x4gqW').get_attribute('href'))
        driver.implicitly_wait(_sleep_time*3)
    else :
        print("웹 페이지 연결에 오류가 발생했습니다. ")
    
    # 웹툰 페이지
    if webtoonlist[content].name is content :
        webtoon_info_meta_info = driver.find_element('class name', 'ContentMetaInfo__meta_info--GbTg4')
        webtoon_tag_group_ul = driver.find_element('class name', 'TagGroup__tag_group--uUJza')

        # 작가 설정
        tags.append(webtoon_info_meta_info.find_element('class name', 'ContentMetaInfo__link--xTtO6').text)
        webtoonlist[content].SetWTArtist(tags) 

        # 요일 설정
        webtoonlist[content].SetWTDay(webtoon_info_meta_info.find_element('class name', 'ContentMetaInfo__info_item--utGrf').text) 

        # 나이 설정
        webtoonlist[content].SetWTAge(webtoon_info_meta_info.find_elements('class name', 'ContentMetaInfo__dot--uCVnt').text)

        # 태그 설정
        tags=[]
        tags=webtoon_tag_group_ul.find_element('class name', 'TagGroup__tag_group--uUJza').find_elements('tag name', 'a')
        webtoonlist[content].AddWTTags(tags)

        # 선작 설정
        webtoonlist[content].SetWTSelect(driver.find_element('class name', 'EpisodeListUser__count--fNEWK').text)
            
        # 평점 설정
        count_list = driver.find_elements('class name', 'text')
        for i in range(10) :
            count+=count_list[i]
        webtoonlist[content].SetWTRating(count/10)

### 웹툰 정보 크롤링 : 방식 2 ( 23m 21s )
[ 작동방식 ] <br/>
1. 모든 웹툰의 href를 set( )에 저장 <br/>
2. driver.get(href)를 통해 각 웹툰 사이트로 이동 <br/>
3. 웹툰 페이지로 들어가 웹 크롤링 <br/>

In [7]:
# 각 웹툰 href를 set에 저장

driver.get('https://comic.naver.com/webtoon')
time.sleep(5)

# webtoon_href_list = driver.find_element(By.CLASS_NAME, 'WeekdayMainView__daily_list--R52q0').find_elements(By.CLASS_NAME, 'ContentTitle__title_area--x24vt')
webtoon_href_list = driver.find_elements(By.CLASS_NAME, 'ContentTitle__title_area--x24vt')
href_list = set()
for href in webtoon_href_list :
    href_list.add(href.get_attribute('href'))

In [8]:
for href in href_list :
    # 웹툰 페이지로 이동
    driver.get(href)
    time.sleep(1)
    
    # 웹툰 페이지 제목 가져오기
    name = driver.find_element(By.CLASS_NAME, 'EpisodeListInfo__title--mYLjC')
    try :       # 휴재(<i> class)가 존재하는 경우
        name.find_element('tag name', 'i').text
        content = name.text.strip("\n휴재")
    except :    # 존재하지 않는 경우
        content = name.text
    
    # class에 데이터 채우기
    if webtoonlist[content].name == content :
        # 작가 / 요일 / 나이 설정
        artist, day, age = [], '', ''
        webtoon_info_list = None
        webtoon_info_list = driver.find_element(By.CSS_SELECTOR, '#content > div.EpisodeListInfo__comic_info--yRAu0 > div > div.ContentMetaInfo__meta_info--GbTg4').text.split("\n")
        day, age = webtoon_info_list[-3], webtoon_info_list[-1]
        for i in range(3) :
            webtoon_info_list.remove(webtoon_info_list[-1])
        for i in range(int(len(webtoon_info_list)/2)) :
            artist.append(webtoon_info_list[2*i+1])
        webtoonlist[content].SetWTArtists(artist)
        webtoonlist[content].SetWTDay(day)
        webtoonlist[content].SetWTAge(age)

        # 태그 설정
        tag = []
        tag_list = None
        tag_list = driver.find_element(By.CSS_SELECTOR, '#content > div.EpisodeListInfo__comic_info--yRAu0 > div > div.EpisodeListInfo__summary_wrap--ZWNW5 > div > div').text
        tag = tag_list.split("\n")
        webtoonlist[content].SetWTTags(tag)

        # 선작 설정
        webtoonlist[content].SetWTSelect(int(driver.find_element(By.CLASS_NAME, 'EpisodeListUser__count--fNEWK').text.replace(',','')))
            
        # 평점 설정
        amount = 0.0
        amount_list = driver.find_elements(By.CLASS_NAME, 'EpisodeListList__item--M8zq4')
        count_amount = 10 if len(amount_list) >= 10 else len(amount_list)
        for i in range(count_amount) :    
            amount+=float(amount_list[i].find_element(By.CLASS_NAME, 'text').text)
        amount/=count_amount
        webtoonlist[content].SetWTRating(amount)

### 정상 확인 ( 4m 50s )

In [9]:
from IPython.display import clear_output

for content in webtoonlist.keys() :
    print(f"제     목 : {webtoonlist[content].name}")
    print(f"태     그 : {webtoonlist[content].tags}")
    print(f"이용 연령 : {webtoonlist[content].age}")
    print(f"요     일 : {webtoonlist[content].day}")
    print(f"선호작 수 : {format(webtoonlist[content].select,',')}")
    print(f"평균 평점 : {webtoonlist[content].avg_rating10 : .3f}")
    print(f"작     가 : {webtoonlist[content].artists}")

    time.sleep(0.5)
    clear_output(wait=True)

제     목 : 네가 죽기를 바랄 때가 있었다
태     그 : {'#로판', '#구원서사', '#로맨스', '#소설원작', '#혐관로맨스', '#후회물'}
이용 연령 : 0
요     일 : 목요웹툰
선호작 수 : 197,529
평균 평점 :  9.939
작     가 : {'아란', '기매', '진서'}


### 엑셀화

In [12]:
from openpyxl import Workbook
import csv
wb = Workbook()
ws = wb.worksheets[0]

# 엑셀 시트명
ws.title = 'Webtoon List'

# 엑셀 파일 저장
wb.save(ws.title+'.xlsx')

# 엑셀 항목 설정
cell_list = ['A', 'B', 'C', 'D', 'E', 'F']
ws['A1'], ws['B1'], ws['C1'], ws['D1'], ws['E1'], ws['F1'], ws['G1'] = '제목', '태그', '이용 연령', '작가', '요일', '평균 평점', '선호작 수'

# 엑셀 항목 기입
count = 2
for content in webtoonlist.keys() :

    ws['A'+str(count)] = webtoonlist[content].name

    webtoontag = ""
    for tag in webtoonlist[content].tags :
        webtoontag += tag
    ws['B'+str(count)] = webtoontag

    ws['C'+str(count)] = webtoonlist[content].age

    webtoonartists = ""
    for artist in webtoonlist[content].artists :
        webtoonartists += (artist+",")
    ws['D'+str(count)] = webtoonartists[:-2]

    ws['E'+str(count)] = webtoonlist[content].day

    ws['F'+str(count)] = round(webtoonlist[content].avg_rating10, 3)

    ws['G'+str(count)] = webtoonlist[content].select
    count+=1

# 엑셀 파일 저장
wb.save(ws.title+'.xlsx')

### 엑셀화 및 그래프화
- 파이 그래프
- matplotlib
- pandas 다중 막대 그래프

### 그래프화

In [90]:
import pandas
import matplotlib as mp
import matplotlib.pyplot as plt
import numpy as np
from IPython.display import display
%matplotlib inline

# 폰트 설정
mp.rc('font', family = 'NanumGothic')
# 유니코드에서 음수 부호 설정
mp.rc('axes', unicode_minus = False)

### 태그 관련 DataFrame

In [96]:
import numpy as np

taglist={}
tagname=set()
# 태그 이름 저장
for content in webtoonlist.keys() :
    for name in webtoonlist[content].tags :
        tagname.add(name)
        
# 태그별 평균 평점, 평균 선작수 저장
for tgnm in tagname :
    taglist[tgnm]=[0,0] # 평균 평점, 평균 선호작수
    count = 0
    for content in webtoonlist.keys() :
        if tgnm in webtoonlist[content].tags :
            taglist[tgnm][0]+=webtoonlist[content].avg_rating10
            taglist[tgnm][1]+=webtoonlist[content].select
            count+=1
        else :
            continue
    # 태그를 가진 웹툰의 수가 20개 이상일 경우만 색인
    if count>=20 :
        taglist[tgnm][0]/=count # 평균 평점
        taglist[tgnm][1]/=count # 평균 선호작수
    else :
        del(taglist[tgnm])
print('웹툰 20개 이상일 때 태그 개수: ', len(taglist), '개', sep='')

# 태그 별 그래프
df=pandas.DataFrame(columns=['제목','평균 평점', '선호작수'])
count = 0
for tgnm in taglist.keys() :
    df.loc[f'{tgnm}'] = [tgnm, f'{taglist[tgnm][0] : .3f}', f'{taglist[tgnm][1] : .2f}']
    count+=1
df.set_index("제목", inplace=True)
srtd_df = df.sort_values(by='평균 평점', ascending=False)
display(srtd_df) # 평균 평점 내림차순 정리

웹툰 20개 이상일 때 태그 개수: 22개


Unnamed: 0_level_0,평균 평점,선호작수
제목,Unnamed: 1_level_1,Unnamed: 2_level_1
#로맨스코미디,9.922,133977.68
#회귀,9.91,212366.5
#학원로맨스,9.91,207864.64
#로판,9.903,128642.97
#2021 지상최대공모전,9.901,112919.08
#현실로맨스,9.896,87272.24
#연예계,9.878,127697.87
#사이다,9.877,267730.68
#힐링,9.873,81868.5
#로맨스,9.871,134728.6


In [100]:
srtd_df.plot.bar(x=df.index, y=0, rot=0, fontsize=5)

KeyError: "None of [Index(['#회귀', '#게임판타지', '#2030연애', '#판타지', '#성장드라마', '#2021 지상최대공모전', '#연예계',\n       '#현실로맨스', '#복수극', '#로맨스코미디', '#학원로맨스', '#무협/사극', '#액션', '#사이다', '#스릴러',\n       '#학원물', '#소설원작', '#힐링', '#로맨스', '#드라마', '#로판', '#먼치킨'],\n      dtype='object', name='제목')] are in the [columns]"