**requests 모듈**

- 참고 사이트: http://realpython.com/python-requests/

In [1]:
import requests

In [2]:
response = requests.get('http://google.com')

In [3]:
response.status_code # 응답 코드: 200

200

**응답 받은 페이지가 성공적이지 않을 때**

In [4]:
# option 1 (상태 체크)
response = requests.get('https://search.daum.net/searc?w=tot&q=2021%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR')

if response.status_code == 200:
    print("status OK")
else:
    print("문제가 발생했습니다", response.status_code)

문제가 발생했습니다 404


In [5]:
# option 2 (Exception 발생)
response = requests.get('https://search.daum.net/searc?w=tot&q=2021%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR')
response.raise_for_status()

HTTPError: 404 Client Error: Not Found for url: https://search.daum.net/searc?w=tot&q=2021%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR

In [6]:
response = requests.get('http://google.com')
response.raise_for_status()
with open("mygoogle.html", 'w', encoding = 'utf8') as fd:  # utf8: unicode 인코딩 방식
    fd.write(response.text)

**User Agent**
- URL을 Request하는 Client의 종류를 실어 보냄
- 같은 URL을 Request 하더라도 모바일 디바이스와 PC가 받는 데이터가 다른 이유임
- Crawler 같은 자동화 프로그램이 서버에 접근하면 여러 문제가 생길 수가 있으므로 차단할 필요가 있다.
- 이 부분을 마치 Browser가 요청하듯이 바꿀 수 있는 방법이 User Agent를 조정하는 것임
- Google에서 user agent string으로 검색하면
- https://www.whatismybrowser.com/detect/what-is-my-user-agent/ 사이트에서
- 현재 브라우저의 User Agent를 표시해줌
- Client마다 서버로 보내는 정보가 다르다는 것을 확인할 수 있음

In [7]:
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36"

In [8]:
headers = {"User-Agent": user_agent}
response = requests.get("http://google.com", headers)
response.raise_for_status()
with open("mygoogle2.html", 'w', encoding = 'utf8') as fd:  # utf8: unicode 인코딩 방식
    fd.write(response.text)

# Workshop 1

**네이버 웹툰**
- http://comic.naver.com/webtoon/weekday

In [9]:
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36"

headers = {"User-Agent": user_agent}
response = requests.get("http://comic.naver.com/webtoon/weekday", headers)
response.raise_for_status()


In [10]:
from bs4 import BeautifulSoup

In [11]:
soup = BeautifulSoup(response.text, 'lxml')

**lxml**
- 구문분석기
- 형식을 정확히 지키지 않은 HTML 코드를 분석할 때 html.parser보다 나음
- 닫히지 않은 태그, 계층 구조가 잘못된 태그, <head>나 <body> 태그가 없는 등의 문제에서 일일이 멈추지 않고 문제를 수정
- 속도 빠름

In [12]:
print(soup.prettify())

<!DOCTYPE html>
<html lang="ko">
 <head>
  <meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
  <title>
   네이버 웹툰 &gt; 요일별  웹툰 &gt; 전체웹툰
  </title>
  <meta content="네이버 웹툰" property="og:title"/>
  <meta content="https://ssl.pstatic.net/static/comic/images/og_tag_v2.png" property="og:image"/>
  <meta content="매일매일 새로운 재미, 네이버 웹툰." property="og:description"/>
  <meta content="https://comic.naver.com/webtoon/weekday?User-Agent=Mozilla%2F5.0+%28Windows+NT+10.0%3B+Win64%3B+x64%29+AppleWebKit%2F537.36+%28KHTML%2C+like+Gecko%29+Chrome%2F106.0.0.0+Safari%2F537.36" property="og:url"/>
  <meta content="article" property="og:type"/>
  <meta content="네이버 웹툰" property="og:article:author"/>
  <meta content="https://comic.naver.com" property="og:article:author:url"/>
  <link href="https://ssl.pstatic.net/static/comic/favicon/webtoon_favicon_32x32.ico" rel="shortcut icon" type="image/x-icon"/>
  <link href="/css/comic/

In [13]:
soup.title

<title>네이버 웹툰 &gt; 요일별  웹툰 &gt; 전체웹툰</title>

In [14]:
soup.title.text

'네이버 웹툰 > 요일별  웹툰 > 전체웹툰'

In [15]:
soup.title.get_text()

'네이버 웹툰 > 요일별  웹툰 > 전체웹툰'

In [16]:
# 이 문서에서 최초로 등장한 a 태그
soup.find('a')

<a href="#menu" onclick="document.getElementById('menu').tabIndex=-1;document.getElementById('menu').focus();return false;"><span>메인 메뉴로 바로가기</span></a>

In [17]:
soup.a.attrs # a 태그의 속성 모두를 알려줌

{'href': '#menu',
 'onclick': "document.getElementById('menu').tabIndex=-1;document.getElementById('menu').focus();return false;"}

In [18]:
# "웹툰 올리기" 버튼에 해당하는 태그를 소스에서 찾기
soup.find('a', {'class':'Nbtn_upload'})  # a 태그의 href 속성의 '값'을 출력

<a class="Nbtn_upload" href="/mypage/myActivity" onclick="nclk_v2(event,'olk.upload');">웹툰 올리기</a>

In [19]:
soup.select_one('a.Nbtn_upload')

<a class="Nbtn_upload" href="/mypage/myActivity" onclick="nclk_v2(event,'olk.upload');">웹툰 올리기</a>

**요일별 전체 웹툰에서 제목만 모두 가져오기**

In [20]:
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36"

headers = {"User-Agent": user_agent}
response = requests.get("http://comic.naver.com/webtoon/weekday", headers)
response.raise_for_status()

In [21]:
soup = BeautifulSoup(response.text, 'lxml')

In [22]:
soup.find_all('a', {'class':'title'})

[<a class="title" href="/webtoon/list?titleId=758037&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','1')" title="참교육">참교육</a>,
 <a class="title" href="/webtoon/list?titleId=648419&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','2')" title="뷰티풀 군바리">뷰티풀 군바리</a>,
 <a class="title" href="/webtoon/list?titleId=783052&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','3')" title="퀘스트지상주의">퀘스트지상주의</a>,
 <a class="title" href="/webtoon/list?titleId=728750&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','4')" title="장씨세가 호위무사">장씨세가 호위무사</a>,
 <a class="title" href="/webtoon/list?titleId=602910&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','5')" title="윈드브레이커">윈드브레이커</a>,
 <a class="title" href="/webtoon/list?titleId=774863&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','6')" title="팔이피플">팔이피플</a>,
 <a class="title" href="/webtoon/list?titleId=801035&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','7')" title="퍼니게임">퍼니게임</a>,
 <a class="title"

In [23]:
titles = soup.find_all('a', {'class':'title'})

In [24]:
titles

[<a class="title" href="/webtoon/list?titleId=758037&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','1')" title="참교육">참교육</a>,
 <a class="title" href="/webtoon/list?titleId=648419&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','2')" title="뷰티풀 군바리">뷰티풀 군바리</a>,
 <a class="title" href="/webtoon/list?titleId=783052&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','3')" title="퀘스트지상주의">퀘스트지상주의</a>,
 <a class="title" href="/webtoon/list?titleId=728750&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','4')" title="장씨세가 호위무사">장씨세가 호위무사</a>,
 <a class="title" href="/webtoon/list?titleId=602910&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','5')" title="윈드브레이커">윈드브레이커</a>,
 <a class="title" href="/webtoon/list?titleId=774863&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','6')" title="팔이피플">팔이피플</a>,
 <a class="title" href="/webtoon/list?titleId=801035&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','7')" title="퍼니게임">퍼니게임</a>,
 <a class="title"

In [25]:
titles = soup.find_all('a', {'class':'title'})
for title in titles:
    print(title.text)

참교육
뷰티풀 군바리
퀘스트지상주의
장씨세가 호위무사
윈드브레이커
팔이피플
퍼니게임
신화급 귀속 아이템을 손에 넣었다
소녀의 세계
버림받은 왕녀의 은밀한 침실
앵무살수
호랑신랑뎐
백수세끼
잔불의 기사
사이다걸
똑 닮은 딸
절대검감
꼬리잡기
히어로메이커
리턴 투 플레이어
북부 공작님을 유혹하겠습니다
물어보는 사이
도깨비 부른다
순정말고 순종
헬크래프트
더블클릭
결혼생활 그림일기
아, 쫌 참으세요 영주님!
또다시, 계약 부부
황제와의 하룻밤
기사님을 지켜줘
오빠집이 비어서
제왕: 빛과 그림자
불청객
꿈의 기업
파운더
이제야 연애
퇴근 후에 만나요
미니어처 생활백서
신군
아슈타르테
우산 없는 애
하루의 하루
레지나레나 - 용서받지 못한 그대에게
원작은 완결난 지 한참 됐습니다만
다시쓰는 연애사
굿바이 유교보이
그림자 신부
메리의 불타는 행복회로
오늘의 비너스
입술이 예쁜 남자
아마도
행운을 부탁해!
버그이터
최후의 금빛아이
백호랑
파견체
달로 만든 아이
루크 비셸 따라잡기
모스크바의 여명
나만의 고막남친
세번째 로망스
매지컬 급식:암살법사
경비실에서 안내방송 드립니다
지옥연애환담
악녀 18세 공략기
역주행!
모노마니아
슈퍼스타 천대리
사막에 핀 달
흔들리는 세계로부터
남주서치
결혼공략
디나운스
별을 쫓는 소년들
오로지 오로라
김부장
대학원 탈출일지
내가 키운 S급들
여신강림
마루는 강쥐
1을 줄게
멸망 이후의 세계
하루만 네가 되고 싶어
중증외상센터 : 골든 아워
용사가 돌아왔다
삼국지톡
헬58
악몽의 형상
천마는 평범하게 살 수 없다
집이 없어
랜덤채팅의 그녀!
하북팽가 막내아들
시체기사 군터
호랑이 들어와요
초인의 게임
웅크
사표내고 이계에서 힐링합니다
올가미
원주민 공포만화
윌유메리미
100
덴큐
나타나주세요!
애옹식당
용왕님의 셰프가 되었습니다
늑대처럼 홀로
헥토파스칼
왕게임
견우와 선녀
택배 왔습니다
로잘린 보가트
에이머
빅맨
은주의 방 2~3부
빌런투킬
사공은주
플레이, 플리
아이즈
또 다른 사랑
내남친 킹카만들기
나의 플랏메이트
제로게임
벽간소음
여우자

In [26]:
titles = soup.select('a.title')
for title in titles:
    print(title.text)

참교육
뷰티풀 군바리
퀘스트지상주의
장씨세가 호위무사
윈드브레이커
팔이피플
퍼니게임
신화급 귀속 아이템을 손에 넣었다
소녀의 세계
버림받은 왕녀의 은밀한 침실
앵무살수
호랑신랑뎐
백수세끼
잔불의 기사
사이다걸
똑 닮은 딸
절대검감
꼬리잡기
히어로메이커
리턴 투 플레이어
북부 공작님을 유혹하겠습니다
물어보는 사이
도깨비 부른다
순정말고 순종
헬크래프트
더블클릭
결혼생활 그림일기
아, 쫌 참으세요 영주님!
또다시, 계약 부부
황제와의 하룻밤
기사님을 지켜줘
오빠집이 비어서
제왕: 빛과 그림자
불청객
꿈의 기업
파운더
이제야 연애
퇴근 후에 만나요
미니어처 생활백서
신군
아슈타르테
우산 없는 애
하루의 하루
레지나레나 - 용서받지 못한 그대에게
원작은 완결난 지 한참 됐습니다만
다시쓰는 연애사
굿바이 유교보이
그림자 신부
메리의 불타는 행복회로
오늘의 비너스
입술이 예쁜 남자
아마도
행운을 부탁해!
버그이터
최후의 금빛아이
백호랑
파견체
달로 만든 아이
루크 비셸 따라잡기
모스크바의 여명
나만의 고막남친
세번째 로망스
매지컬 급식:암살법사
경비실에서 안내방송 드립니다
지옥연애환담
악녀 18세 공략기
역주행!
모노마니아
슈퍼스타 천대리
사막에 핀 달
흔들리는 세계로부터
남주서치
결혼공략
디나운스
별을 쫓는 소년들
오로지 오로라
김부장
대학원 탈출일지
내가 키운 S급들
여신강림
마루는 강쥐
1을 줄게
멸망 이후의 세계
하루만 네가 되고 싶어
중증외상센터 : 골든 아워
용사가 돌아왔다
삼국지톡
헬58
악몽의 형상
천마는 평범하게 살 수 없다
집이 없어
랜덤채팅의 그녀!
하북팽가 막내아들
시체기사 군터
호랑이 들어와요
초인의 게임
웅크
사표내고 이계에서 힐링합니다
올가미
원주민 공포만화
윌유메리미
100
덴큐
나타나주세요!
애옹식당
용왕님의 셰프가 되었습니다
늑대처럼 홀로
헥토파스칼
왕게임
견우와 선녀
택배 왔습니다
로잘린 보가트
에이머
빅맨
은주의 방 2~3부
빌런투킬
사공은주
플레이, 플리
아이즈
또 다른 사랑
내남친 킹카만들기
나의 플랏메이트
제로게임
벽간소음
여우자

In [67]:
soup.select('li.rank01')

[<li class="rank01">
 <a href="/webtoon/detail?titleId=641253&amp;no=415" onclick="nclk_v2(event,'rnk*p.cont','641253','1')" title="외모지상주의-415화 빅딜 잡기 [05]">외모지상주의-415화 빅딜 잡기 [05]</a>
 <span class="rankBox">
 <img alt="변동없음" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_no.gif" title="변동없음" width="7"/> 0
 						
 					
 				</span>
 </li>,
 <li class="rank01">
 <a href="/webtoon/detail?titleId=318995&amp;no=573" onclick="nclk_v2(event,'rnk*u.cont','318995','1')" title="갓 오브 하이스쿨-569화-마지막화">
 					
 					갓 오브 하이스쿨-569화-마지막화
 				</a>
 <span class="timeBox">
 					
 						
 						
 							10시간전
 						
 						
 						
 						
 					
 				</span>
 </li>,
 <li class="rank01" id="recommandLi_0">
 <div class="thumb6">
 <a href="/webtoon/detail?titleId=776601&amp;no=61" id="recommand_link_0" title="광마회귀">
 <img alt="광마회귀" height="33" id="recommand_thumbnail_0" onerror="this.src='https://ssl.pstatic.net/static/comic/images/migration/common/blank.gif'" src="

In [36]:
soup.select('a.title')

[<a class="title" href="/webtoon/list?titleId=758037&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','1')" title="참교육">참교육</a>,
 <a class="title" href="/webtoon/list?titleId=648419&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','2')" title="뷰티풀 군바리">뷰티풀 군바리</a>,
 <a class="title" href="/webtoon/list?titleId=783052&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','3')" title="퀘스트지상주의">퀘스트지상주의</a>,
 <a class="title" href="/webtoon/list?titleId=728750&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','4')" title="장씨세가 호위무사">장씨세가 호위무사</a>,
 <a class="title" href="/webtoon/list?titleId=602910&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','5')" title="윈드브레이커">윈드브레이커</a>,
 <a class="title" href="/webtoon/list?titleId=774863&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','6')" title="팔이피플">팔이피플</a>,
 <a class="title" href="/webtoon/list?titleId=801035&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','7')" title="퍼니게임">퍼니게임</a>,
 <a class="title"

In [63]:
# option 1
for i in range(1,10):
    print(soup.select_one("li.rank0{} a".format(i)).text)

외모지상주의-415화 빅딜 잡기 [05]
나 혼자 만렙 뉴비-66화. 각자의 일상
광마회귀-61화
갓 오브 하이스쿨-569화-마지막화
어쩌다보니 천생연분-38화 개미와 베짱이
역대급 영지 설계사-65화
개를 낳았다-시즌2 120화
1초-177화 도화선
대학원 탈출일지-69화-임시 사수(2)


In [83]:
# option 2
ol = soup.find('ol', {'id':'realTimeRankUpdate'})
lis = ol.find_all('li')
for li in lis:
    a = li.find('a')
    print(a.text)


					
					갓 오브 하이스쿨-569화-마지막화
				

					
					플레이어-128화
				

					
					네버엔딩달링-68화
				

					
					달이 없는 나라-56화
				

					
					삼국지톡-입촉_37.유비는 잠 못 이루고
				

					
					몽홀-시즌2 제 36화 최후 통첩 - 2
				

					
					후덜덜덜 남극전자-168화 내 소중한 걸 가질래?
				

					
					데드퀸-111화
				

					
					대학원 탈출일지-69화-임시 사수(2)
				

					
					말년용사-59화
				


In [99]:
# option 3
ranks = soup.select('ol#realTimeRankFavorite li a')
for rank in ranks:
    print(rank.text)

외모지상주의-415화 빅딜 잡기 [05]
나 혼자 만렙 뉴비-66화. 각자의 일상
갓 오브 하이스쿨-569화-마지막화
광마회귀-61화
어쩌다보니 천생연분-38화 개미와 베짱이
역대급 영지 설계사-65화
개를 낳았다-시즌2 120화
1초-177화 도화선
대학원 탈출일지-69화-임시 사수(2)
데드퀸-111화


**만화 '독립일기'의 제목, 링크, 평점 가져오기**

In [117]:
# 한 페이지만 파싱

headers = {"User-Agent": user_agent}
response = requests.get("https://comic.naver.com/webtoon/list?titleId=748105&weekday=thu", headers)
response.raise_for_status()

In [118]:
soup = BeautifulSoup(response.text, 'lxml')

In [130]:
titles = soup.select('td.title')
for title in titles:
    print(title.text)


시즌2 후기


시즌2 100화 이사


시즌2 99화 3년 차 가장


시즌2 98화 가을의 길목


시즌2 97화 혼밥의 달인


시즌2 96화 내일은 조립왕


시즌2 95화 책 읽기 대작전


시즌2 94화 영상통화


시즌2 93화 한강공원 운동법


시즌2 92화 유기견 보호소 봉사활동



In [164]:
tt = soup.find('td', {'class':'title'})
for href in tta:
    a = href.find('a')
    print(a['href'])

TypeError: 'NoneType' object is not subscriptable

In [138]:
tt = soup.find('td', {'class':'title'})

In [140]:
tta

[<a href="/webtoon/detail?titleId=748105&amp;no=204&amp;weekday=thu" onclick="nclk_v2(event,'lst.title','748105','204')">시즌2 후기</a>]

In [147]:
tt.a['href']

'/webtoon/detail?titleId=748105&no=204&weekday=thu'

---

In [178]:
# find문 사용

tds = soup.find_all('td', {'class':'title'})
for td in tds:
    a = td.find('a')
    print(a.get_text())
    print('http://comic.naver.com/' + a['href'])

total_rate = 0

divs = soup.find_all('div', {'class':'rating_type'})
for div in divs:
    strong = div.find('strong')
    rate = float(strong.text)

    total_rate = total_rate + rate
print(total_rate/len(divs))

시즌2 후기
http://comic.naver.com//webtoon/detail?titleId=748105&no=204&weekday=thu
시즌2 100화 이사
http://comic.naver.com//webtoon/detail?titleId=748105&no=203&weekday=thu
시즌2 99화 3년 차 가장
http://comic.naver.com//webtoon/detail?titleId=748105&no=202&weekday=thu
시즌2 98화 가을의 길목
http://comic.naver.com//webtoon/detail?titleId=748105&no=201&weekday=thu
시즌2 97화 혼밥의 달인
http://comic.naver.com//webtoon/detail?titleId=748105&no=200&weekday=thu
시즌2 96화 내일은 조립왕
http://comic.naver.com//webtoon/detail?titleId=748105&no=199&weekday=thu
시즌2 95화 책 읽기 대작전
http://comic.naver.com//webtoon/detail?titleId=748105&no=198&weekday=thu
시즌2 94화 영상통화
http://comic.naver.com//webtoon/detail?titleId=748105&no=197&weekday=thu
시즌2 93화 한강공원 운동법
http://comic.naver.com//webtoon/detail?titleId=748105&no=196&weekday=thu
시즌2 92화 유기견 보호소 봉사활동
http://comic.naver.com//webtoon/detail?titleId=748105&no=195&weekday=thu
9.975


In [194]:
# select 사용

titles = soup.select('td.title a')
for title in titles:
    print(title.text)
    print('http://comic.nvaver.com' + title['href'])

total_s = 0

divis = soup.select('div.rating_type strong')
for divv in divis:
    total_s += float(divv.text)
print(total_s / len(divis))

시즌2 후기
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=204&weekday=thu
시즌2 100화 이사
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=203&weekday=thu
시즌2 99화 3년 차 가장
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=202&weekday=thu
시즌2 98화 가을의 길목
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=201&weekday=thu
시즌2 97화 혼밥의 달인
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=200&weekday=thu
시즌2 96화 내일은 조립왕
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=199&weekday=thu
시즌2 95화 책 읽기 대작전
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=198&weekday=thu
시즌2 94화 영상통화
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=197&weekday=thu
시즌2 93화 한강공원 운동법
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=196&weekday=thu
시즌2 92화 유기견 보호소 봉사활동
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=195&weekday=thu
9.975


In [201]:
# select 사용

titles = soup.select('td.title a')
total_s = 0

divis = soup.select('div.rating_type strong')
for title, divv in zip(titles, divis):
    print(title.text)
    print('http://comic.nvaver.com' + title['href'])
    total_s += float(divv.text)
print(total_s / len(divis))


3화 이사 첫날
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=4&weekday=thu
2화 부동산 대모험
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=3&weekday=thu
1화 나도 혼자 산다
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=2&weekday=thu
예고편
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=1&weekday=thu
9.96


In [200]:
# 여러 페이지 데이터 파싱
for page in range(1, 22):
    url = "https://comic.naver.com/webtoon/list?titleId=748105&weekday=thu&page={}".format(page)

    headers = {"User-Agent": user_agent}
    response = requests.get(url, headers)
    response.raise_for_status()
    
    soup = BeautifulSoup(response.text, 'lxml')
    
    titles = soup.select('td.title a')
    
    for title in titles:
        print(title.text)
        print('http://comic.nvaver.com' + title['href'])

    total_s = 0

    divis = soup.select('div.rating_type strong')
    for divv in divis:
        total_s += float(divv.text)
    print(total_s / len(divis))
    
    print("{} page".format(page))
    print("평균 평점: ", total_s/len(divis))
    print()
    print('*'*100)
    
    

시즌2 후기
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=204&weekday=thu
시즌2 100화 이사
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=203&weekday=thu
시즌2 99화 3년 차 가장
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=202&weekday=thu
시즌2 98화 가을의 길목
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=201&weekday=thu
시즌2 97화 혼밥의 달인
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=200&weekday=thu
시즌2 96화 내일은 조립왕
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=199&weekday=thu
시즌2 95화 책 읽기 대작전
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=198&weekday=thu
시즌2 94화 영상통화
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=197&weekday=thu
시즌2 93화 한강공원 운동법
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=196&weekday=thu
시즌2 92화 유기견 보호소 봉사활동
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=195&weekday=thu
9.975
1 page
평균 평점:  9.975

*********************************************************************************************

시즌2 11화 잔여백신 접종 이후
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=114&weekday=thu
시즌2 10화 얼떨결에 잔여백신
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=113&weekday=thu
시즌2 9화 복근 만들기
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=112&weekday=thu
시즌2 8화 반려견 운동장
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=111&weekday=thu
시즌2 7화 물물교환
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=110&weekday=thu
시즌2 6화 수목원
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=109&weekday=thu
시즌2 5화 한강 자전거
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=108&weekday=thu
시즌2 4화 감자캐기
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=107&weekday=thu
시즌2 3화 PT (2)
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=106&weekday=thu
시즌2 2화 PT (1)
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=105&weekday=thu
9.975000000000001
10 page
평균 평점:  9.975000000000001

**************************************************************************

23화 엄마의 전화
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=24&weekday=thu
22화 고양이가 있는 집
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=23&weekday=thu
21화 음식물 쓰레기
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=22&weekday=thu
20화 가구 채우기
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=21&weekday=thu
19화 손빨래
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=20&weekday=thu
18화 엄마의 방문
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=19&weekday=thu
17화 브라이덜 샤워
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=18&weekday=thu
16화 점잖개
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=17&weekday=thu
15화 빨래
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=16&weekday=thu
14화 그래도 우리 집이 최고
http://comic.nvaver.com/webtoon/detail?titleId=748105&no=15&weekday=thu
9.974000000000002
19 page
평균 평점:  9.974000000000002

****************************************************************************************************
13화 집밥이 그리우면
ht

In [221]:
imgs = soup.select('div.wrap_thumb > a > img')
for img in imgs:
    print(img['src'])

https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Febd9587dcdcc56548b5a476bf109f87d5a6098a5
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F78b1640091eab12a09b8c2e881120e26993aecb1
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Ff2d3ee4afbc78b44e34534037e17f7f382e1b65c
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Ff39274b0acd76f7c66f0a5fb9e5b7222ed37b373
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Faa6aaf313fb192e6f77f5bd4490d5e127d707240
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F446090579974d44551356ce961743e57eaa41bd6
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fe2733bbc22a93d16bace5658738322df204bbf01
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=

# Workshop 2

**다음(daum.net)에서 2021년 영화순위 검색**
- https://search.daum.net/search?w=tot&q=2021%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR
- 1. 2021년도의 이미지 링크를 출력
- 2. 2021 ~ 2010 이미지 링크 출력
- 3. 해당 링크 이미지를 요청해서 파일로 저장(response.content: 이진 데이터)

In [232]:
# 1번
url = "https://search.daum.net/search?w=tot&q=2021%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR"

headers = {"User-Agent": user_agent}
response = requests.get(url, headers)
response.raise_for_status()
    
soup = BeautifulSoup(response.text, 'lxml')

cl = soup.find('ol', {'class':'type_plural list_exact movie_list'})

imgs = cl.select('div.wrap_thumb > a > img')
for img in imgs:
    print(img['src'])

https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Febd9587dcdcc56548b5a476bf109f87d5a6098a5
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F78b1640091eab12a09b8c2e881120e26993aecb1
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Ff2d3ee4afbc78b44e34534037e17f7f382e1b65c
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Ff39274b0acd76f7c66f0a5fb9e5b7222ed37b373
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Faa6aaf313fb192e6f77f5bd4490d5e127d707240
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F446090579974d44551356ce961743e57eaa41bd6
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fe2733bbc22a93d16bace5658738322df204bbf01
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=

In [255]:
url = "https://search.daum.net/search?w=tot&q=2020%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR"

headers = {"User-Agent": user_agent}
response = requests.get(url, headers)
response.raise_for_status()
    
soup = BeautifulSoup(response.text, 'lxml')

cl = soup.find('ol', {'class':'type_plural list_exact movie_list'})

imgs = cl.select('div.wrap_thumb img')
for img in imgs:
    print(img['src'])

https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F2b07e0c665de4482b9a0094f66bc11761578025532290
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fc15a793c35cd41c32c27188faba84211a9185fa0
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F389d6e403d8ee48c419c7b16908919103e2c2670
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F23837d99576d43ba8e594f91497fea981579656331276
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F45ee167dd5a1fbbadc03af21dcba065324132c27
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F0695528a5d4f1daa2523e174d4566bbb50a880c2
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Ff6d6494aa78ac7ffde282c0e67b431beede65b91
https://search1.kakaocdn.net/thumb/R232x328.q85

In [258]:
# 2번

for year in range(2021, 2010, -1):
    url = "https://search.daum.net/search?w=tot&q={}%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR".format(year)
    
    headers = {"User-Agent": user_agent}
    response = requests.get(url, headers)
    response.raise_for_status()

    soup = BeautifulSoup(response.text, 'lxml')
    
    cl = soup.find('ol', {'class':'type_plural list_exact movie_list'})
   
    imgs = cl.select('div.wrap_thumb > a > img')
    for img in imgs:
        print(img['src'])

https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Febd9587dcdcc56548b5a476bf109f87d5a6098a5
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F78b1640091eab12a09b8c2e881120e26993aecb1
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Ff2d3ee4afbc78b44e34534037e17f7f382e1b65c
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Ff39274b0acd76f7c66f0a5fb9e5b7222ed37b373
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Faa6aaf313fb192e6f77f5bd4490d5e127d707240
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F446090579974d44551356ce961743e57eaa41bd6
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fe2733bbc22a93d16bace5658738322df204bbf01
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=

https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F49d2e3870f67e47645b13976a176056ed71af64c
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fdd84b905224c91225aa2a15203aba3a354197c1d
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fce3cd6a875284e8b96414ef3696756a11544772388211
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F3ed58c2c1114935c4cc95f09949acb49b5996fa9
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fae457b72c9a9ec2c8d2f44a893098ec060f0e598
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fd9b4fd04ea18b4db74f3ddfc9ebc3c22e8a0cd1b
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Ff60e1438ee6ca99476e393258c41e11bf6e28138
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=

https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F097f7decd11d4a0ae39cb48eade62af63e43724d
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F77746e188b1ca46a1de84b09bf78e67c5c22ce64
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F790095765b452495aef3caf3172a4960ba07e095
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fcfile%2F2502AF49546B09E61F
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fbbb263931222d148943c3c2bf3606709d2ee2017
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Ff8356ef973b026e937354c6b67fc840afe967ad1
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fcfile%2F2478DE4B54DABBF023
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F5a29a1414bff1

https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fcfile%2F192F9A4850062F8230
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fcfile%2F14333450503DA7502B
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fcfile%2F165A8D494F67349C19
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fcfile%2F1528E64F507B6A5205
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F8c0a86743211bc9995af9ed04dc4563ade31977f
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fcfile%2F2061D8485017324912
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fcfile%2F183B06504FD844CB26
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.net%2Fcfile%2F1907FC4A4EE8585711
https://search1.kakaocdn.net/thumb/R232x328.q85/?fname=http%3A%2F%2Ft1.daumcdn.ne

In [273]:
# 3번
for year in range(2021, 2010, -1):
    url = "https://search.daum.net/search?w=tot&q={}%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR".format(year)
    
    headers = {"User-Agent": user_agent}
    response = requests.get(url, headers)
    response.raise_for_status()

    soup = BeautifulSoup(response.text, 'lxml')
    
    cl = soup.find('ol', {'class':'type_plural list_exact movie_list'})
   
    imgs = cl.select('div.wrap_thumb > a > img')
    for i, img in enumerate(imgs):  # 30장의 이미지
        image_url = img['src']
        image_res = requests.get(image_url, headers)
        response.raise_for_status()
        
        with open('./image/{}movie_rank_{}.jpg'.format(year, i + 1), 'wb') as fd:
            fd.write(image_res.content)