In [2]:
from bs4 import BeautifulSoup
import requests

## 클래스

### Crawler

웹툰 크롤러에 대한 모든 기능을 가지고 있는 클래스

#### 클래스 속성

- 웹툰 목록 URL

#### 인스턴스 속성

#### 프로퍼티

- html (웹툰 목록 페이지의 html을 가져옴)
- webtoon_data_list (WebtoonData목록을 가져옴)

#### 메서드



### WebtoonData

웹툰 하나에 해당

#### 속성

- 고유 아이디 (webtoon_id)
- 제목 (title)
- 썸네일 이미지 (url_img_thumbnail)
- (protected)작가 (_author)
- (protected)작품설명 (_description)

#### 프로퍼티

- 작가 (author) (상세보기에서 가져오면서 _author속성을 채우기)
- 작품설명 (description) (상세보기에서 가져오면서 _description속성을 채우기)

#### 메서드





### EpisodeData

웹툰의 각 화 하나에 해당

- 웹툰별 에피소드 고유 아이디 (episode_id)
- 제목 (title)
- 썸네일 이미지 (url_img_thumbnail)
- 별점 (rating)
- 등록일 (created_date)

## WebtoonData목록 만들기

1. `https://comic.naver.com/webtoon/weekday.nhn`의 내용을 `weekday.html`파일에 저장
2. `weekday.html`파일을 열어 읽은 HTML을 파싱, WebtoonData인스턴스 목록을 만들어서 `webtoon_list`변수에 할당

파싱에는 BeautifulSoup4 라이브러리를 사용  
[공식문서](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#css-selectors)를 참조

첫 코드는

```
html = <HTML문자열>
soup = BeautifulSoup(html, 'lxml')
```

In [3]:
response = requests.get('https://comic.naver.com/webtoon/weekday.nhn')
open('weekday.html', 'wt').write(response.text)

243678

In [4]:
html = open('weekday.html', 'rt').read()
soup = BeautifulSoup(html, 'lxml')

In [7]:
# div class="list_area daily_all"요소가 가진
# 모든 .col목록들을 col_list에 할당

# .list_area.daily_all은 웹툰 전체목록 부분에 해당
# .col요소는 각 요일부분에 해당
col_list = soup.select_one('div.list_area.daily_all').select('.col')

In [18]:
# .col내부에 있는 li요소 한개가 웹툰 한개에 해당
# col_list(요일 목록)를 순회하며 각 col(요일)이 가진 모든 웹툰(li)요소들을
#  li_list에 추가하기
li_list = []
for col in col_list:
    col_li_list = col.select('.col_inner ul > li')
    li_list.extend(col_li_list)

In [21]:
class WebtoonData:
    def __init__(self, webtoon_id, title, url_thumbnail):
        self.webtoon_id = webtoon_id
        self.title = title
        self.url_thumbnail = url_thumbnail
        
    def __repr__(self):
        return self.title

In [41]:
import re

webtoon_data_dict = {}
for li in li_list:
    href = li.select_one('a.title')['href']
    m = re.search(r'titleId=(\d+)', href)
    webtoon_id = m.group(1)
    title = li.select_one('a.title').get_text(strip=True)
    url_thumbnail = li.select_one('.thumb > a > img')['src']
    
    if not title in webtoon_data_dict:
        new_webtoon_data = WebtoonData(webtoon_id, title, url_thumbnail)
        webtoon_data_dict[title] = new_webtoon_data

In [42]:
for key, webtoon_data in webtoon_data_dict.items():
    print(webtoon_data)

신의 탑
뷰티풀 군바리
윈드브레이커
소녀의 세계
대학일기
평범한 8반
니편내편
데드라이프
신을 죽이는 방법
가우스전자 시즌3~4
내 여자친구는 상남자
링크보이
일진에게 회초리
이것도 친구라고
마왕이 되는 중2야
오늘의 순정망화
이상하고 아름다운
마이너스의 손
부로콜리왕자
유일무이 로맨스
혈투
히어로메이커
피플
닥터 하운드
꿈의 기업
반투명인간
와장창창! 자취맨
오직 나의 주인님
홍차리브레
열대어
찬란하지 않아도 괜찮아
여신강림
노블레스
하이브3
랜덤채팅의 그녀!
마음의소리
원주민 공포만화
덴마
신암행어사
신도림
빙탕후루
자판귀
신의 언어
놓지마 정신줄 시즌2
삼국지톡
창궐
노곤하개
바른연애 길잡이
제로게임
윌유메리미
에이머
악마와 계약연애
은주의 방 2~3부
문래빗
열정호구
불괴
참새는 새!신부
위장불륜 (僞裝不倫)
패밀리 사이즈
간질간질
반듯한 이용으로 당신을 응원합니다!
유미의 세포들
복학왕
고수
연놈
세상은 돈과 권력
헬퍼 2 : 킬베로스
이츠마인
신석기녀
조선왕조실톡
레사 시즌2~3
격기3반
언덕 위의 제임스
요리GO
로베스의 완전감각
미시령
12차원 소년들
성공한 덕후
2018 루키 단편선-지옥캠프
펀브로커
고교생을 환불해 주세요
그 판타지 세계에서 사는 법
자취로운 생활
안녕, 대학생
옆반의 인어
씬커
1인용 기분
푸른사막 아아루
칼부림
일렉시드
만 화 고
여심강타(feat.금연)
연애혁명
신과함께 (재)
기기괴괴
타인은 지옥이다
좀비딸
하드캐리
최강전설 강해효
캉타우
쿠베라
간 떨어지는 동거
전자오락수호대
가담항설
이름을 불러주세요
롤랑롤랑
파도를 찾아라!
35cm
트롤트랩
아르마
소유
백귀야행지
5kg을 위하여
Doll 체인지
하나의 하루
좋아하는 부분
킬더킹
특수 영능력 수사반
호러와 로맨스
그랜드 배틀 토너먼트
비둘기가 물고 온 남자
안전의 참견 시즌2
외모지상주의
갓 오브 하이스쿨
스위트홈
테러맨
더 게이머
밥 먹고 갈래요?
결계녀
화장 지워주는 남자
개를 낳았다
걸어서 30분
냐한남자
암흑도시
하르모니아
엔드리스
몽홀
골든 체인지
강변살다

In [59]:
url_episode_list = 'https://comic.naver.com/webtoon/list.nhn?titleId=183559&weekday=mon'
response = requests.get(url_episode_list)

In [60]:
html = response.text
soup = BeautifulSoup(html, 'lxml')

In [61]:
# 각 Episode의 url_thumbnail, title, no, rating, created_date를
#   꺼내어 출력해보기

In [63]:
table = soup.select_one('table.viewList')
tr_list = table.select('tr')[1:]
import re
for tr in tr_list:
    try:
        td_list = tr.select('td')

        href = td_list[0].select_one('a')['href']
        no = re.search(r'no=(\d+)', href).group(1)

        url_thumbnail = td_list[0].select_one('img')['src']
        title = td_list[1].select_one('a').get_text(strip=True)
        rating = td_list[2].select_one('strong').get_text()
        created_date = td_list[3].get_text(strip=True)

        print(no, title, rating, created_date, url_thumbnail)
    except:
        pass

403 2부 321화 9.93 2018.09.30 https://shared-comic.pstatic.net/thumb/webtoon/183559/403/thumbnail_202x120_ee970c1f-eea6-4517-aef6-797057fa3584.jpg
402 2부 320화 9.97 2018.09.23 https://shared-comic.pstatic.net/thumb/webtoon/183559/402/thumbnail_202x120_b1426349-ae94-4eaf-bd63-9b2af4bdef2c.jpg
401 2부 319화 9.98 2018.09.16 https://shared-comic.pstatic.net/thumb/webtoon/183559/401/thumbnail_202x120_f851ac1e-02ab-430c-84df-abf304aafc83.jpg
400 2부 318화 9.96 2018.09.09 https://shared-comic.pstatic.net/thumb/webtoon/183559/400/thumbnail_202x120_7fe1272a-9451-4870-bc16-24f38361ee4b.jpg
399 2부 317화 9.97 2018.09.02 https://shared-comic.pstatic.net/thumb/webtoon/183559/399/thumbnail_202x120_16e00f43-8310-4e29-a638-4c3281275192.jpg
398 2부 316화 9.97 2018.08.26 https://shared-comic.pstatic.net/thumb/webtoon/183559/398/thumbnail_202x120_d3777f52-76c7-4e0c-9fdb-4842893598a0.jpg
397 2부 315화 9.96 2018.08.19 https://shared-comic.pstatic.net/thumb/webtoon/183559/397/thumbnail_202x120_71bbf3a3-1c89-414b-9010-4d

In [49]:
html2 = '<tr class="band_banner v2"></tr>'
soup2 = BeautifulSoup(html2, 'lxml')

In [50]:
tr = soup2.select_one('tr')

In [52]:
tr['class']

['band_banner', 'v2']