# Request

In [1]:
import requests

In [2]:
res = requests.get("http://naver.com")

In [3]:
print("응답코드 :", res.status_code) # 200이면 정상

응답코드 : 200


### 정상적으로 작동할 경우

In [4]:
res = requests.get("http://google.com")
res.raise_for_status()
print("웹 스크래핑을 진행합니다.")

웹 스크래핑을 진행합니다.


응답코드가 200이 아니면 접근이 진행되지 않음

In [5]:
print(len(res.text))

15611


In [6]:
print(res.text)

<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="noFuQvzcyiw1SOTg+gkvXQ==">(function(){window.google={kEI:'0og3Ye60FYmF-AazvorgAg',kEXPI:'0,772215,1,530320,56873,954,5104,207,2414,2390,2316,383,246,5,1354,5251,1122515,1197766,516,328985,51223,16112,28687,17572,1325,3533,1362,9291,3026,17582,4020,978,13228,3847,4192,6430,19045,2777,919,2370,2711,1593,1279,2213,529,149,1103,840,6305,4112,2023,1777,520,14670,3227,2845,7,5599,6755,5096,16320,908,2,941,2614,13142,3,346,230,6460,148,13975,4,1528,2304,1236,5227,576,4684,2011,18378,2658,6701,656,30,3877,9751,2305,638,1494,5586,3772,7428,651,5167,2539,4094,20,3118,6,614,294,3,3541,1,14262,448,1814,283,912,5992,15336,2,1390,1715,2,3035,22,10965,1999,1464,2379,1678,744,5852,2050,574,3,7836,544,2,614,1269,4921,2,216,

In [7]:
with open("mygoogle.html", 'w', encoding='utf-8') as f:
    f.write(res.text)

# 정규식

### match()

In [8]:
import re

In [9]:
# . [ca.e]: 하나의 문자를 의미 > care, cafe, case
# ^ [^de]: 문자열의 시작 > desk, destination  
# $ [se$]: 문자열의 끝 > case, base

In [10]:
# ca?e

p = re.compile("ca.e")  

m = p.match("case")
print(m.group())  # 매치되지 않으면 에러 발생

case


In [11]:
m = p.match("caffe")
print(m.group())  

AttributeError: 'NoneType' object has no attribute 'group'

In [12]:
if m:
    print(m.group())
else:
    print("매칭되지 않음")

매칭되지 않음


In [13]:
# 함수화

def print_match(m):
    if m:
        print(m.group())
    else:
        print("매칭되지 않음")
        
m = p.match("care")
print_match(m)

care


In [14]:
m = p.match("careless")  # 주어진 문자열의 처음부터 일치하는지 확인
print_match(m)

care


### search()
주어진 문자열 중에 일치하는게 있는지 확인

In [15]:
def print_match(m):
    if m:
        print("m.group():", m.group()) # 일치하는 문자열 반환
        print("m.string:", m.string) # 입력받은 문자열
        print("m.start():", m.start()) # 일치하는 문자열의 시작 index
        print("m.end():", m.end()) # 일치하는 문자열의 끝 index
        print("m.span():", m.span()) # 일치하는 문자열의 시작 / 끝 index
    else:
        print("매칭되지 않음")

In [16]:
m = p.search("good care")
print_match(m)

m.group(): care
m.string: good care
m.start(): 5
m.end(): 9
m.span(): (5, 9)


### findall()

일치하는 모든 것을 리스트 형태로 반환

In [17]:
lst = p.findall('careless')
print(lst)

['care']


In [18]:
lst = p.findall('good care')
print(lst)

['care']


In [19]:
lst = p.findall('good care cafe')
print(lst)

['care', 'cafe']


1. p = re.compile("원하는 형태")<br/>
2. m = p.match("비교할 문자열") : 주어진 문자열의 처음부터 일치하는지 확인 <br/>
3. m = p.search("비교할 문자열") : 주어진 문자열 중 일치하는게 있는지 확인 <br/>
4. lst = p.findall("비교할 문자열") : 일치하는 모든 것을 '리스트 '형태로 반환
    

# User Agent

In [20]:
import requests
url = "http://nadocoding.tistory.com"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36"}

res = requests.get(url, headers=headers)
res.raise_for_status()
with open("nadocoding.html", "w", encoding='utf-8') as f:
    f.write(res.text)

# BeaurifulSuop4_네이버 웹툰

In [21]:
pip install lxml

Note: you may need to restart the kernel to use updated packages.


In [22]:
import requests
from bs4 import BeautifulSoup

url = "https://comic.naver.com/webtoon/weekday"
res = requests.get(url)
res.raise_for_status()

soup = BeautifulSoup(res.text, "lxml")  # 가져온 text를 lxml parser로 나눈다.

print(soup.title)

<title>네이버 만화 &gt; 요일별  웹툰 &gt; 전체웹툰</title>


In [23]:
print(soup.title.get_text())

네이버 만화 > 요일별  웹툰 > 전체웹툰


In [24]:
print(soup.a)  # 첫번째로 발견된 a element

<a href="#menu" onclick="document.getElementById('menu').tabIndex=-1;document.getElementById('menu').focus();return false;"><span>메인 메뉴로 바로가기</span></a>


In [25]:
print(soup.a.attrs)

{'href': '#menu', 'onclick': "document.getElementById('menu').tabIndex=-1;document.getElementById('menu').focus();return false;"}


In [26]:
print(soup.a["href"])

#menu


* print(soup.a) > soup 객체에서 처음 발견되는 a element 반환<br/>
* print(soup.a.attrs) > a element의 속성 정보 출력
* print(soup.a["href"]) > a element의 href 속성 '값' 정보 출력

### soup.find

class = "Nbtn_upload"인 a element를 찾아줘

In [27]:
print(soup.find("a", attrs={"class":"Nbtn_upload"}))

<a class="Nbtn_upload" href="/mypage/myActivity" onclick="nclk_v2(event,'olk.upload');">웹툰 올리기</a>


class = "Nbtn_upload"인 어떤 element를 찾아줘

In [28]:
print(soup.find(attrs={'class':"Nbtn_upload"}))

<a class="Nbtn_upload" href="/mypage/myActivity" onclick="nclk_v2(event,'olk.upload');">웹툰 올리기</a>


In [29]:
print(soup.find("li", attrs={"class":"rank01"}))

<li class="rank01">
<a href="/webtoon/detail?titleId=774862&amp;no=16" onclick="nclk_v2(event,'rnk*p.cont','774862','1')" title="조조코믹스-킹스앱스 7화">조조코믹스-킹스앱스 7화</a>
<span class="rankBox">
<img alt="변동없음" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_no.gif" title="변동없음" width="7"/> 0
						
					
				</span>
</li>


In [30]:
rank1 = soup.find("li", attrs={"class":"rank01"})
print(rank1.a)

<a href="/webtoon/detail?titleId=774862&amp;no=16" onclick="nclk_v2(event,'rnk*p.cont','774862','1')" title="조조코믹스-킹스앱스 7화">조조코믹스-킹스앱스 7화</a>


In [31]:
print(rank1.a.get_text())

조조코믹스-킹스앱스 7화


In [32]:
# 다음 tag로 넘어가기
print(rank1.next_sibling)





In [33]:
rank2 = rank1.next_sibling.next_sibling

In [34]:
rank3 = rank2.next_sibling.next_sibling
print(rank3.a.get_text())

급식아빠-34화 영등포 피 가위 사건


In [35]:
rank2 = rank3.previous_sibling.previous_sibling
print(rank2.a.get_text())

전지적 독자 시점-067. Ep.15 왕이 없는 세계 (3)


In [36]:
print(rank1.parent)

<ol class="asideBoxRank" id="realTimeRankFavorite">
<li class="rank01">
<a href="/webtoon/detail?titleId=774862&amp;no=16" onclick="nclk_v2(event,'rnk*p.cont','774862','1')" title="조조코믹스-킹스앱스 7화">조조코믹스-킹스앱스 7화</a>
<span class="rankBox">
<img alt="변동없음" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_no.gif" title="변동없음" width="7"/> 0
						
					
				</span>
</li>
<li class="rank02">
<a href="/webtoon/detail?titleId=747269&amp;no=68" onclick="nclk_v2(event,'rnk*p.cont','747269','2')" title="전지적 독자 시점-067. Ep.15 왕이 없는 세계 (3)">전지적 독자 시점-067. Ep.15 왕이 없는 세계 (3)</a>
<span class="rankBox">
<img alt="변동없음" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_no.gif" title="변동없음" width="7"/> 0
						
					
				</span>
</li>
<li class="rank03">
<a href="/webtoon/detail?titleId=758662&amp;no=34" onclick="nclk_v2(event,'rnk*p.cont','758662','3')" title="급식아빠-34화 영등포 피 가위 사건">급식아빠-34화 영등포 피 가위 사건</a>
<span class="rankBox">
<img al

In [37]:
rank2 = rank1.find_next_sibling("li")
print(rank2.a.get_text())

전지적 독자 시점-067. Ep.15 왕이 없는 세계 (3)


중간에 개행이 있건 없건 상관없이 수월하게 찾을 수 있다

In [38]:
rank3 = rank2.find_next_sibling("li")
print(rank3.a.get_text())

급식아빠-34화 영등포 피 가위 사건


In [39]:
rank2 = rank3.find_previous_sibling("li")
print(rank2.a.get_text())

전지적 독자 시점-067. Ep.15 왕이 없는 세계 (3)


In [40]:
print(rank1.find_next_siblings("li"))

[<li class="rank02">
<a href="/webtoon/detail?titleId=747269&amp;no=68" onclick="nclk_v2(event,'rnk*p.cont','747269','2')" title="전지적 독자 시점-067. Ep.15 왕이 없는 세계 (3)">전지적 독자 시점-067. Ep.15 왕이 없는 세계 (3)</a>
<span class="rankBox">
<img alt="변동없음" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_no.gif" title="변동없음" width="7"/> 0
						
					
				</span>
</li>, <li class="rank03">
<a href="/webtoon/detail?titleId=758662&amp;no=34" onclick="nclk_v2(event,'rnk*p.cont','758662','3')" title="급식아빠-34화 영등포 피 가위 사건">급식아빠-34화 영등포 피 가위 사건</a>
<span class="rankBox">
<img alt="변동없음" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_no.gif" title="변동없음" width="7"/> 0
						
					
				</span>
</li>, <li class="rank04">
<a href="/webtoon/detail?titleId=749639&amp;no=60" onclick="nclk_v2(event,'rnk*p.cont','749639','4')" title="남주의 첫날밤을 가져버렸다-60화">남주의 첫날밤을 가져버렸다-60화</a>
<span class="rankBox">
<img alt="변동없음" height="10" src="https://ssl.p

In [41]:
<a 
onclick="nclk_v2(event,'rnk*p.cont','747269','1')"
href="/webtoon/detail?titleId=747269&amp;no=68" 
title="전지적 독자 시점-067. Ep.15 왕이 없는 세계 (3)">전지적 독자 시점-067. Ep.15 왕이 없는 세계 (3)</a>

SyntaxError: invalid syntax (<ipython-input-41-542a9f6ffb86>, line 1)

In [42]:
webtoon = soup.find("a", text="전지적 독자 시점-067. Ep.15 왕이 없는 세계 (3)")
print(webtoon)

<a href="/webtoon/detail?titleId=747269&amp;no=68" onclick="nclk_v2(event,'rnk*p.cont','747269','2')" title="전지적 독자 시점-067. Ep.15 왕이 없는 세계 (3)">전지적 독자 시점-067. Ep.15 왕이 없는 세계 (3)</a>


# Webtoon_네이버 웹툰 전체 목록 

In [43]:
import requests
from bs4 import BeautifulSoup

url = "https://comic.naver.com/webtoon/weekday"
res = requests.get(url)
res.raise_for_status()

soup = BeautifulSoup(res.text, 'lxml')

cartoons = soup.find_all("a", attrs={'class':'title'}) # class 속성이 title인 모든 a element를 반환
for cartoon in cartoons:
    print(cartoon.get_text())

참교육
신의 탑
뷰티풀 군바리
윈드브레이커
팔이피플
소녀의 세계
장씨세가 호위무사
백수세끼
파이게임
앵무살수
만렙돌파
삼매경
더블클릭
잔불의 기사
요리GO
약초마을 연쇄살초사건
유일무이 로맨스
바퀴
홍천기
히어로메이커
칼가는 소녀
결혼생활 그림일기
똑 닮은 딸
물어보는 사이
오늘의 순정망화
ㅋㄷㅋㄷ만화
꼬리잡기
영앤리치가 아니야!
평범한 8반
아는 여자애
아, 쫌 참으세요 영주님!
수영만화일기
황제와의 하룻밤
장난감
꿈의 기업
리턴 투 플레이어
순정말고 순종
말박왕
최후의 금빛아이
하루의 하루
와이키키 뱀파이어
야생천사 보호구역
모스크바의 여명
사랑의 헌옷수거함
착한건 돈이된다
선배, 그 립스틱 바르지 마요
왕따협상
백호랑
원하는 건 너 하나
또다시, 계약 부부
이중첩자
라서드
마지막 지수
드로잉 레시피
사막에 핀 달
살아간다
이탄국의 자청비
중독연구소
그림자 신부
모락모락 왕세자님
바로 보지 않는
개밥 먹는 남자
트리거
헬로맨스
보살님이 캐리해!
기사님을 지켜줘
오로지 오로라
여신강림
덴큐
용사가 돌아왔다
한림체육관
엽총소년
하루만 네가 되고 싶어
사신소년
중증외상센터 : 골든 아워
랜덤채팅의 그녀!
신도림
니나의 마법서랍
달콤살벌한 부부
헬58
호랑이 들어와요
집이 없어
오피스 누나 이야기
원주민 공포만화
천마는 평범하게 살 수 없다
몬스터
윌유메리미
블랙 위도우
위아더좀비
아이레
하우스키퍼
빌런투킬
오늘의 순정망화
삼국지톡
견우와 선녀
이상형은 아닙니다
플레이, 플리
용왕님의 셰프가 되었습니다
교환학생
아이즈
제로게임
3cm 헌터
정년이
올가미
성인초딩
기계증식증
은주의 방 2~3부
빅맨
나타나주세요!
악인
연우의 순정
열녀박씨 계약결혼뎐
나는 어디에나 있다
나의 플랏메이트
숲속의 담
오파츠
태시트
조선홍보대행사 조대박
그녀석 정복기
다꾸남
안식의 밤
자판귀
대신 심부름을 해다오
급식러너
완벽한 가족
연애는 전쟁!
언메이크
풋내기들
고등매직
프린스 메이커
지원이들
NG불가
피로만땅
하나in세인
찐:종합게임동아리
인문학적 감수성
기밀입니다
무서운게 딱좋아!

### 모죠의 일지

In [44]:
url = "https://comic.naver.com/webtoon/list?titleId=728015"
res = requests.get(url)
res.raise_for_status()

soup = BeautifulSoup(res.text, 'lxml')

cartoons = soup.find_all("td", attrs={'class':'title'})
title = cartoons[0].a.get_text()
print(title)

246화. 스마트폰 연대기


In [45]:
link = cartoons[0].a["href"]
print("https://comic.naver.com" + link)

https://comic.naver.com/webtoon/detail?titleId=728015&no=246&weekday=wed


In [46]:
for cartoon in cartoons:
    title = cartoon.a.get_text()
    link = "https://comic.naver.com" + cartoon.a["href"]
    print(title , link)

246화. 스마트폰 연대기 https://comic.naver.com/webtoon/detail?titleId=728015&no=246&weekday=wed
245화. 독립의 꿈 https://comic.naver.com/webtoon/detail?titleId=728015&no=245&weekday=wed
244화. 수영 배우는 만화 https://comic.naver.com/webtoon/detail?titleId=728015&no=244&weekday=wed
243화. 뉴스레터 읽는 만화 https://comic.naver.com/webtoon/detail?titleId=728015&no=243&weekday=wed
242화. 매미 https://comic.naver.com/webtoon/detail?titleId=728015&no=242&weekday=wed
241화. VR게임하는 만화 (2) https://comic.naver.com/webtoon/detail?titleId=728015&no=241&weekday=wed
240화. VR게임하는 만화 (1) https://comic.naver.com/webtoon/detail?titleId=728015&no=240&weekday=wed
239화. 식단 하는 만화 https://comic.naver.com/webtoon/detail?titleId=728015&no=239&weekday=wed
238화. 어금니 박살 https://comic.naver.com/webtoon/detail?titleId=728015&no=238&weekday=wed
237화. 힐링 모임 https://comic.naver.com/webtoon/detail?titleId=728015&no=237&weekday=wed


##### 평점 계산

In [47]:
total_rates = 0

cartoons = soup.find_all("div", attrs={'class':'rating_type'})
for cartoon in cartoons:
    rate = cartoon.find("strong").get_text()
    print(rate)
    total_rates += float(rate)

print("전체점수:", total_rates)
print("평균점수:", total_rates/len(cartoons))

9.96
9.98
9.98
9.98
9.98
9.99
9.99
9.98
9.97
9.98
전체점수: 99.79000000000002
평균점수: 9.979000000000003
