## 클래스 

### Crawler

웹툰 크롤러에 대한 모든 기능을 가지고 있는 클래스

#### 클래스 속성

웹툰 목록 URL

#### 인스턴스 속성

- 

#### 프로퍼티

- html (웹툰 목록 페이지의 html을 가져옴)
- webtoon_data_list (webtoon목록을 가져옴

#### 메서드



### webtoonData
웹툰 하나에 해당

#### 속성

- 고유 아이디 (webtoon_id)
- 제목 (title)
- 썸네일 이미지 (url_img_thumbnail)
- (protected)작가 (_author)
- (protected)작품설명 (_description)

#### 프로퍼티

- 작가 (author)(상세보기에서 가져오면서 _author속성을 채우기)
- 작품설명 (description)(상세보기에서만 가져올 수 있음)

#### 메서드


### EpisodeData

웹툰의 각 화 하나에 해당

- 웹툰별 에피소드 고유 아이디 (episode_id)
- 제목 (title)
- 썸네일 이미지 (url_img_thumbnail)
- 별점 (rating)
- 등록일 (created_date)



## webtoonData 목록 만들기
1. https://comic.naver.com/webtoon/weekday.nhn 의 내용을 weekday.html 파일에 저장
2. weekday.html 파일을 열어 읽은 HTML을 파싱, webtoonData인스턴스 목록을 만들어서 webtoon_list 변수에 할당
파싱에는 BeautifulSoup4 라이브러리를 사용
https://www.crummy.com/software/BeautifulSoup/bs4/doc/#css-selectors 를 참조

첫 코드는

```
html = <HTML문자열>
soup = BeautifulSoup(html, 'lxml')
```

In [1]:
import requests
from bs4 import BeautifulSoup
import re

In [2]:
response = requests.get('https://comic.naver.com/webtoon/weekday.nhn')
open('weekday.html', 'wt').write(response.text)

241729

In [3]:
html = open('weekday.html', 'rt').read()
soup = BeautifulSoup(html, 'lxml')

In [4]:
# div class="list_area daily_all"요소가 가진
# 모든 .col목록들을 col_list에 할당

# .list_area.daily_all은 웹툰 전체목록 부분에 해당
# .col요소는 각 요일부분에 해당
col_list = soup.select_one('div.list_area.daily_all').select('.col')

In [5]:
len(col_list)

7

In [6]:
# .col내부에 있는 li요소 한개가 웹툰 한개에 해당
# col_list(요일 목록)를 순회하며 각 col(요일)이 가진 모든 웹툰(li)요소들을
# li_list에 추가하기

li_list = []
for col in col_list:
    col_li_list = col.select('.col_inner ul > li')
    li_list.extend(col_li_list)

In [7]:
class WebtoonData:
    def __init__(self, webtoon_id, title, url_thumbnail):
        self.webtoon_id = webtoon_id
        self.title = title
        self.url_thumbnail = url_thumbnail
        
    def __repr__(self):
        return self.title

In [62]:
# for li in li_list:
#     print(li.get_text(strip=True))
# get_text(strip=True) 그 안에 텍스트 속성만을 가져온다

class WebtoonData:
    def __init__(self, webtoon_id, title, url_thumbnail):
        self.webtoon_id = webtoon_id
        self.title = title
        self.url_thumbnail = url_thumbnail
        
    def __repr__(self):
        return self.title
    
webtoon_data_dict = {}
for li in li_list:
    href = li.select_one('a.title')['href']
    m = re.search(r'titleId=(\d+)', href)
    webtoon_id = m.group(1)
    title = li.select_one('a.title').get_text(strip=True)
    url_thumbnail = li.select_one('.thumb > a > img')['src']
    
    if title not in webtoon_data_dict:
        new_webtoon_data = WebtoonData(webtoon_id, title, url_thumbnail)
        webtoon_data_dict[title] = new_webtoon_data

In [63]:
for key, webtoon_data in webtoon_data_dict.items():
    print(key, webtoon_data)

신의 탑 신의 탑
뷰티풀 군바리 뷰티풀 군바리
윈드브레이커 윈드브레이커
소녀의 세계 소녀의 세계
대학일기 대학일기
평범한 8반 평범한 8반
니편내편 니편내편
데드라이프 데드라이프
신을 죽이는 방법 신을 죽이는 방법
가우스전자 시즌3~4 가우스전자 시즌3~4
내 여자친구는 상남자 내 여자친구는 상남자
링크보이 링크보이
일진에게 회초리 일진에게 회초리
이것도 친구라고 이것도 친구라고
오늘의 순정망화 오늘의 순정망화
마왕이 되는 중2야 마왕이 되는 중2야
이상하고 아름다운 이상하고 아름다운
마이너스의 손 마이너스의 손
부로콜리왕자 부로콜리왕자
유일무이 로맨스 유일무이 로맨스
혈투 혈투
히어로메이커 히어로메이커
피플 피플
닥터 하운드 닥터 하운드
꿈의 기업 꿈의 기업
반투명인간 반투명인간
와장창창! 자취맨 와장창창! 자취맨
오직 나의 주인님 오직 나의 주인님
홍차리브레 홍차리브레
열대어 열대어
찬란하지 않아도 괜찮아 찬란하지 않아도 괜찮아
여신강림 여신강림
노블레스 노블레스
하이브3 하이브3
랜덤채팅의 그녀! 랜덤채팅의 그녀!
마음의소리 마음의소리
원주민 공포만화 원주민 공포만화
덴마 덴마
신암행어사 신암행어사
신도림 신도림
빙탕후루 빙탕후루
자판귀 자판귀
신의 언어 신의 언어
놓지마 정신줄 시즌2 놓지마 정신줄 시즌2
노곤하개 노곤하개
창궐 창궐
삼국지톡 삼국지톡
바른연애 길잡이 바른연애 길잡이
윌유메리미 윌유메리미
제로게임 제로게임
에이머 에이머
악마와 계약연애 악마와 계약연애
은주의 방 2~3부 은주의 방 2~3부
문래빗 문래빗
열정호구 열정호구
불괴 불괴
참새는 새!신부 참새는 새!신부
위장불륜 (僞裝不倫) 위장불륜 (僞裝不倫)
패밀리 사이즈 패밀리 사이즈
간질간질 간질간질
반듯한 이용으로 당신을 응원합니다! 반듯한 이용으로 당신을 응원합니다!
유미의 세포들 유미의 세포들
복학왕 복학왕
고수 고수
연놈 연놈
세상은 돈과 권력 세상은 돈과 권력
헬퍼 2 : 킬베로스 헬퍼 2 : 킬베로스
이츠마인 이츠마인
신석기녀 신석기녀
조선왕조실톡 조선왕조실톡
레사 시즌2~3

In [None]:
class A:
    def __init__(self, value):
        self.value = value

In [None]:
def get_html(self, response):
    """
    전체 웹툰 목록의 HTML을 리턴한다
    만약에 파일로 저장되어 있다면, 해당 내용을 읽어온다.
    파일로 저장되어 있지 않다면, requests를 사용해 웹에서 받아와 리턴해준다.
        파일위치는 ./saved_data/weekday.html를 사용
        경로 작성에는 os.path모듈을 사용

    -> 다 작성한 후에는 show_webtoon_list에서 이 메서드를 사용하도록 함
    :return:
    """

    if os.path.exists(response):
        html = response.text
        soup = BeautifulSoup(html, 'lxml')
        return soup
    else:
        response = requests.get('https://comic.naver.com/webtoon/weekday.nhn')
        open('weekday.html', 'wt').write(response.text)


In [84]:
import os.path

In [82]:
response = requests.get('https://comic.naver.com/webtoon/weekday.nhn')


In [85]:
if os.path.exist(response):
    html = response.text
    soup = BeautifulSoup(html, 'lxml')
    

AttributeError: module 'posixpath' has no attribute 'exist'

# Episode

In [145]:
import requests
from bs4 import BeautifulSoup
import re

In [146]:
url_episode_list = 'https://comic.naver.com/webtoon/list.nhn?titleId=651673'

In [147]:
response = requests.get(url_episode_list)

In [148]:
html = response.text
soup = BeautifulSoup(html, 'lxml')

In [162]:
table = soup.select_one('table.viewList')
tr_list = table.select('tr')[1:]
for tr in tr_list:
    td_list = tr.select('td')
    href = td_list[0].select_one('a')['href']
    no = re.search(r'no=(\d+)', href).group(1)
    url_thumbnail = td_list[0].select_one('img')['src']
    title = td_list[1].select_one('a').get_text(strip=True)
    rating = td_list[2].select_one('strong').get_text()
    created_date = td_list[3].get_text(strip=True)
    
    print(no, title, rating, created_date, url_thumbnail)

345 342화 남자친구는 못 옵니다 9.96 2018.10.02 https://shared-comic.pstatic.net/thumb/webtoon/651673/345/thumbnail_202x120_bdd51112-fd71-42e1-bf16-ead6deb9d81e.jpg
344 341화 명탐정 세포들 9.97 2018.09.28 https://shared-comic.pstatic.net/thumb/webtoon/651673/344/thumbnail_202x120_71ee0ba0-5cd2-44fe-822a-33857c818241.jpg
343 340화 약한 부분 9.87 2018.09.25 https://shared-comic.pstatic.net/thumb/webtoon/651673/343/thumbnail_202x120_e0a62b04-1189-4a18-8cc8-68fa8e1d547f.jpg
342 339화 내가 너무 예민한 거야 9.95 2018.09.21 https://shared-comic.pstatic.net/thumb/webtoon/651673/342/thumbnail_202x120_63f24adb-4056-47cc-a042-12826be4dda8.jpg
341 338화 남자친구가 해준 떡볶이 9.97 2018.09.18 https://shared-comic.pstatic.net/thumb/webtoon/651673/341/thumbnail_202x120_f2f96bca-1da3-481e-8682-40e1efcc2c15.jpg
340 337화 그 도넛 먹지마 9.97 2018.09.14 https://shared-comic.pstatic.net/thumb/webtoon/651673/340/thumbnail_202x120_ab85faf9-3c93-4131-a1aa-3816b9dae4a0.jpg
339 336화 다정함에 관하여 9.97 2018.09.11 https://shared-comic.pstatic.net/thumb/webtoon/651673

# 신의탑

In [166]:
url_episode_list = 'https://comic.naver.com/webtoon/list.nhn?titleId=183559'
response = requests.get(url_episode_list)
html = response.text
soup = BeautifulSoup(html, 'lxml')

In [167]:
table = soup.select_one('table.viewList')
tr_list = table.select('tr')[1:]
for tr in tr_list:
    try:
        td_list = tr.select('td')
        href = td_list[0].select_one('a')['href']
        no = re.search(r'no=(\d+)', href).group(1)
        url_thumbnail = td_list[0].select_one('img')['src']
        title = td_list[1].select_one('a').get_text(strip=True)
        rating = td_list[2].select_one('strong').get_text()
        created_date = td_list[3].get_text(strip=True)

        print(no, title, rating, created_date, url_thumbnail)
    except:
        pass

403 2부 321화 9.93 2018.09.30 https://shared-comic.pstatic.net/thumb/webtoon/183559/403/thumbnail_202x120_ee970c1f-eea6-4517-aef6-797057fa3584.jpg
402 2부 320화 9.97 2018.09.23 https://shared-comic.pstatic.net/thumb/webtoon/183559/402/thumbnail_202x120_b1426349-ae94-4eaf-bd63-9b2af4bdef2c.jpg
401 2부 319화 9.98 2018.09.16 https://shared-comic.pstatic.net/thumb/webtoon/183559/401/thumbnail_202x120_f851ac1e-02ab-430c-84df-abf304aafc83.jpg
400 2부 318화 9.96 2018.09.09 https://shared-comic.pstatic.net/thumb/webtoon/183559/400/thumbnail_202x120_7fe1272a-9451-4870-bc16-24f38361ee4b.jpg
399 2부 317화 9.97 2018.09.02 https://shared-comic.pstatic.net/thumb/webtoon/183559/399/thumbnail_202x120_16e00f43-8310-4e29-a638-4c3281275192.jpg
398 2부 316화 9.97 2018.08.26 https://shared-comic.pstatic.net/thumb/webtoon/183559/398/thumbnail_202x120_d3777f52-76c7-4e0c-9fdb-4842893598a0.jpg
397 2부 315화 9.96 2018.08.19 https://shared-comic.pstatic.net/thumb/webtoon/183559/397/thumbnail_202x120_71bbf3a3-1c89-414b-9010-4d

In [2]:
class WebtoonData:
    def __init__(self):
        pass
    def web_title():
        pass
    def web_url_img_thumbnail():
        pass
    def web_author():
        pass
    def web_description():
        pass
    
class EpisodeData:
    def __init__(self):
        pass
    def epi_title():
        pass
    def epi_url_img_thumbnail():
        pass
    def epi_rating():
        pass
    def epi_created_date():
        pass
    

In [3]:
URL_WEEKDAY = 'https://comic.naver.com/webtoon/weekday.nhn'
response = requests.get(URL_WEEKDAY)

In [4]:
with open('URL_WEEKDAY.html', 'wt') as f:
    f.write(response.text)

In [5]:
f = open('URL_WEEKDAY.html', 'rt')
webtoon = f.read()

In [36]:
html_title = []
html = BeautifulSoup(webtoon, 'lxml')
html_thumb = html.select('div.thumb')
for a in html_thumb:
    b = a.img.get('title')
    html_title.append(b)
    
html_title=list(set(html_title))

In [37]:
len(html_title)

192

In [38]:
html = BeautifulSoup(webtoon, 'lxml')
html_thumb_img = html.select('div.thumb')
html_img = []
html_thumb_img
for a in html_thumb_img:
    b = a.img.get('src')
    html_img.append(b)
html_img = list(set(html_img))

In [39]:
len(html_img)

192