**requests 모듈**

- 참고 사이트: http://realpython.com/python-requests/

In [1]:
import requests

In [2]:
response = requests.get('http://google.com')

In [3]:
response.status_code # 응답 코드: 200

200

**응답 받은 페이지가 성공적이지 않을 때**

In [6]:
# option 1 (상태 체크)
response = requests.get('https://search.daum.net/searc?w=tot&q=2021%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR')

if response.status_code == 200:
    print("status OK")
else:
    print("문제가 발생했습니다", response.status_code)

문제가 발생했습니다 404


In [7]:
# option 2 (Exception 발생)
response = requests.get('https://search.daum.net/searc?w=tot&q=2021%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR')
response.raise_for_status()

HTTPError: 404 Client Error: Not Found for url: https://search.daum.net/searc?w=tot&q=2021%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR

In [9]:
response = requests.get('http://google.com')
response.raise_for_status()
with open("mygoogle.html", 'w', encoding = 'utf8') as fd:  # utf8: unicode 인코딩 방식
    fd.write(response.text)

**User Agent**
- URL을 Request하는 Client의 종류를 실어 보냄
- 같은 URL을 Request 하더라도 모바일 디바이스와 PC가 받는 데이터가 다른 이유임
- Crawler 같은 자동화 프로그램이 서버에 접근하면 여러 문제가 생길 수가 있으므로 차단할 필요가 있다.
- 이 부분을 마치 Browser가 요청하듯이 바꿀 수 있는 방법이 User Agent를 조정하는 것임
- Google에서 user agent string으로 검색하면
- https://www.whatismybrowser.com/detect/what-is-my-user-agent/ 사이트에서
- 현재 브라우저의 User Agent를 표시해줌
- Client마다 서버로 보내는 정보가 다르다는 것을 확인할 수 있음

In [11]:
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36"

In [13]:
headers = {"User-Agent": user_agent}
response = requests.get("http://google.com", headers)
response.raise_for_status()
with open("mygoogle2.html", 'w', encoding = 'utf8') as fd:  # utf8: unicode 인코딩 방식
    fd.write(response.text)

# Workshop 1

**네이버 웹툰**
- http://comic.naver.com/webtoon/weekday

In [14]:
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36"

headers = {"User-Agent": user_agent}
response = requests.get("http://comic.naver.com/webtoon/weekday", headers)
response.raise_for_status()


In [15]:
from bs4 import BeautifulSoup

In [16]:
soup = BeautifulSoup(response.text, 'lxml')

**lxml**
- 구문분석기
- 형식을 정확히 지키지 않은 HTML 코드를 분석할 때 html.parser보다 나음
- 닫히지 않은 태그, 계층 구조가 잘못된 태그, <head>나 <body> 태그가 없는 등의 문제에서 일일이 멈추지 않고 문제를 수정
- 속도 빠름

In [17]:
print(soup.prettify())

<!DOCTYPE html>
<html lang="ko">
 <head>
  <meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
  <title>
   네이버 웹툰 &gt; 요일별  웹툰 &gt; 전체웹툰
  </title>
  <meta content="네이버 웹툰" property="og:title"/>
  <meta content="https://ssl.pstatic.net/static/comic/images/og_tag_v2.png" property="og:image"/>
  <meta content="매일매일 새로운 재미, 네이버 웹툰." property="og:description"/>
  <meta content="https://comic.naver.com/webtoon/weekday?User-Agent=Mozilla%2F5.0+%28Windows+NT+10.0%3B+Win64%3B+x64%29+AppleWebKit%2F537.36+%28KHTML%2C+like+Gecko%29+Chrome%2F106.0.0.0+Safari%2F537.36" property="og:url"/>
  <meta content="article" property="og:type"/>
  <meta content="네이버 웹툰" property="og:article:author"/>
  <meta content="https://comic.naver.com" property="og:article:author:url"/>
  <link href="https://ssl.pstatic.net/static/comic/favicon/webtoon_favicon_32x32.ico" rel="shortcut icon" type="image/x-icon"/>
  <link href="/css/comic/

In [18]:
soup.title

<title>네이버 웹툰 &gt; 요일별  웹툰 &gt; 전체웹툰</title>

In [19]:
soup.title.text

'네이버 웹툰 > 요일별  웹툰 > 전체웹툰'

In [21]:
soup.title.get_text()

'네이버 웹툰 > 요일별  웹툰 > 전체웹툰'

In [24]:
# 이 문서에서 최초로 등장한 a 태그
soup.find('a')

<a href="#menu" onclick="document.getElementById('menu').tabIndex=-1;document.getElementById('menu').focus();return false;"><span>메인 메뉴로 바로가기</span></a>

In [25]:
soup.a.attrs # a 태그의 속성 모두를 알려줌

{'href': '#menu',
 'onclick': "document.getElementById('menu').tabIndex=-1;document.getElementById('menu').focus();return false;"}

In [31]:
# "웹툰 올리기" 버튼에 해당하는 태그를 소스에서 찾기
soup.find('a', {'class':'Nbtn_upload'})  # a 태그의 href 속성의 '값'을 출력

<a class="Nbtn_upload" href="/mypage/myActivity" onclick="nclk_v2(event,'olk.upload');">웹툰 올리기</a>

In [32]:
soup.select_one('a.Nbtn_upload')

<a class="Nbtn_upload" href="/mypage/myActivity" onclick="nclk_v2(event,'olk.upload');">웹툰 올리기</a>

**요일별 전체 웹툰에서 제목만 모두 가져오기**

In [53]:
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36"

headers = {"User-Agent": user_agent}
response = requests.get("http://comic.naver.com/webtoon/weekday", headers)
response.raise_for_status()

In [54]:
soup = BeautifulSoup(response.text, 'lxml')

In [58]:
soup.find_all('a', {'class':'title'})

[<a class="title" href="/webtoon/list?titleId=758037&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','1')" title="참교육">참교육</a>,
 <a class="title" href="/webtoon/list?titleId=648419&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','2')" title="뷰티풀 군바리">뷰티풀 군바리</a>,
 <a class="title" href="/webtoon/list?titleId=783052&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','3')" title="퀘스트지상주의">퀘스트지상주의</a>,
 <a class="title" href="/webtoon/list?titleId=728750&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','4')" title="장씨세가 호위무사">장씨세가 호위무사</a>,
 <a class="title" href="/webtoon/list?titleId=602910&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','5')" title="윈드브레이커">윈드브레이커</a>,
 <a class="title" href="/webtoon/list?titleId=774863&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','6')" title="팔이피플">팔이피플</a>,
 <a class="title" href="/webtoon/list?titleId=801035&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','7')" title="퍼니게임">퍼니게임</a>,
 <a class="title"

In [62]:
titles = soup.find_all('a', {'class':'title'})

In [63]:
titles

[<a class="title" href="/webtoon/list?titleId=758037&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','1')" title="참교육">참교육</a>,
 <a class="title" href="/webtoon/list?titleId=648419&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','2')" title="뷰티풀 군바리">뷰티풀 군바리</a>,
 <a class="title" href="/webtoon/list?titleId=783052&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','3')" title="퀘스트지상주의">퀘스트지상주의</a>,
 <a class="title" href="/webtoon/list?titleId=728750&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','4')" title="장씨세가 호위무사">장씨세가 호위무사</a>,
 <a class="title" href="/webtoon/list?titleId=602910&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','5')" title="윈드브레이커">윈드브레이커</a>,
 <a class="title" href="/webtoon/list?titleId=774863&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','6')" title="팔이피플">팔이피플</a>,
 <a class="title" href="/webtoon/list?titleId=801035&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','7')" title="퍼니게임">퍼니게임</a>,
 <a class="title"

In [64]:
titles = soup.find_all('a', {'class':'title'})
for title in titles:
    print(title.text)

참교육
뷰티풀 군바리
퀘스트지상주의
장씨세가 호위무사
윈드브레이커
팔이피플
퍼니게임
신화급 귀속 아이템을 손에 넣었다
소녀의 세계
버림받은 왕녀의 은밀한 침실
호랑신랑뎐
앵무살수
백수세끼
잔불의 기사
사이다걸
똑 닮은 딸
절대검감
꼬리잡기
히어로메이커
리턴 투 플레이어
북부 공작님을 유혹하겠습니다
물어보는 사이
도깨비 부른다
순정말고 순종
헬크래프트
더블클릭
결혼생활 그림일기
아, 쫌 참으세요 영주님!
또다시, 계약 부부
황제와의 하룻밤
기사님을 지켜줘
오빠집이 비어서
제왕: 빛과 그림자
불청객
꿈의 기업
파운더
이제야 연애
미니어처 생활백서
퇴근 후에 만나요
신군
아슈타르테
우산 없는 애
하루의 하루
레지나레나 - 용서받지 못한 그대에게
원작은 완결난 지 한참 됐습니다만
다시쓰는 연애사
굿바이 유교보이
그림자 신부
메리의 불타는 행복회로
오늘의 비너스
입술이 예쁜 남자
행운을 부탁해!
아마도
버그이터
최후의 금빛아이
백호랑
파견체
달로 만든 아이
루크 비셸 따라잡기
모스크바의 여명
나만의 고막남친
세번째 로망스
매지컬 급식:암살법사
경비실에서 안내방송 드립니다
지옥연애환담
악녀 18세 공략기
역주행!
모노마니아
사막에 핀 달
슈퍼스타 천대리
흔들리는 세계로부터
남주서치
결혼공략
디나운스
별을 쫓는 소년들
오로지 오로라
김부장
대학원 탈출일지
내가 키운 S급들
여신강림
마루는 강쥐
1을 줄게
멸망 이후의 세계
하루만 네가 되고 싶어
중증외상센터 : 골든 아워
용사가 돌아왔다
삼국지톡
헬58
악몽의 형상
천마는 평범하게 살 수 없다
집이 없어
랜덤채팅의 그녀!
하북팽가 막내아들
시체기사 군터
호랑이 들어와요
웅크
초인의 게임
사표내고 이계에서 힐링합니다
올가미
원주민 공포만화
윌유메리미
100
덴큐
나타나주세요!
애옹식당
헥토파스칼
용왕님의 셰프가 되었습니다
늑대처럼 홀로
왕게임
견우와 선녀
택배 왔습니다
로잘린 보가트
에이머
빅맨
은주의 방 2~3부
빌런투킬
사공은주
플레이, 플리
아이즈
또 다른 사랑
내남친 킹카만들기
나의 플랏메이트
제로게임
벽간소음
여우자

In [66]:
titles = soup.select('a.title')
for title in titles:
    print(title.text)

참교육
뷰티풀 군바리
퀘스트지상주의
장씨세가 호위무사
윈드브레이커
팔이피플
퍼니게임
신화급 귀속 아이템을 손에 넣었다
소녀의 세계
버림받은 왕녀의 은밀한 침실
호랑신랑뎐
앵무살수
백수세끼
잔불의 기사
사이다걸
똑 닮은 딸
절대검감
꼬리잡기
히어로메이커
리턴 투 플레이어
북부 공작님을 유혹하겠습니다
물어보는 사이
도깨비 부른다
순정말고 순종
헬크래프트
더블클릭
결혼생활 그림일기
아, 쫌 참으세요 영주님!
또다시, 계약 부부
황제와의 하룻밤
기사님을 지켜줘
오빠집이 비어서
제왕: 빛과 그림자
불청객
꿈의 기업
파운더
이제야 연애
미니어처 생활백서
퇴근 후에 만나요
신군
아슈타르테
우산 없는 애
하루의 하루
레지나레나 - 용서받지 못한 그대에게
원작은 완결난 지 한참 됐습니다만
다시쓰는 연애사
굿바이 유교보이
그림자 신부
메리의 불타는 행복회로
오늘의 비너스
입술이 예쁜 남자
행운을 부탁해!
아마도
버그이터
최후의 금빛아이
백호랑
파견체
달로 만든 아이
루크 비셸 따라잡기
모스크바의 여명
나만의 고막남친
세번째 로망스
매지컬 급식:암살법사
경비실에서 안내방송 드립니다
지옥연애환담
악녀 18세 공략기
역주행!
모노마니아
사막에 핀 달
슈퍼스타 천대리
흔들리는 세계로부터
남주서치
결혼공략
디나운스
별을 쫓는 소년들
오로지 오로라
김부장
대학원 탈출일지
내가 키운 S급들
여신강림
마루는 강쥐
1을 줄게
멸망 이후의 세계
하루만 네가 되고 싶어
중증외상센터 : 골든 아워
용사가 돌아왔다
삼국지톡
헬58
악몽의 형상
천마는 평범하게 살 수 없다
집이 없어
랜덤채팅의 그녀!
하북팽가 막내아들
시체기사 군터
호랑이 들어와요
웅크
초인의 게임
사표내고 이계에서 힐링합니다
올가미
원주민 공포만화
윌유메리미
100
덴큐
나타나주세요!
애옹식당
헥토파스칼
용왕님의 셰프가 되었습니다
늑대처럼 홀로
왕게임
견우와 선녀
택배 왔습니다
로잘린 보가트
에이머
빅맨
은주의 방 2~3부
빌런투킬
사공은주
플레이, 플리
아이즈
또 다른 사랑
내남친 킹카만들기
나의 플랏메이트
제로게임
벽간소음
여우자