# BeautifulSoup Baisc

In [31]:
import requests # HTTP, HTTPS 웹 사이트에 요청하기 위해 사용되는 모듈
from bs4 import BeautifulSoup

url = "https://comic.naver.com/webtoon/weekday"
res = requests.get(url)
res.raise_for_status() # 혹여나 문제 발생시 오류를 보여주고 프로그램 종료

In [32]:
# 응답 코드 확인 (정보를 잘 받아 왔는지 또는 접근 권한, 서버 문제 등을 확인하기 위함) - User Agent 참고
# 200 이면 정상, 403이면 접근 권한이 없음. (웹 스크래핑 어려움)
if res.status_code == requests.codes.ok:
  print("정상. [응답코드 ", res.status_code, "]")
else:
  print("문제 발생. [에러코드 ", res.status_code, "]")

정상. [응답코드  200 ]


In [33]:
# 가져온 html문서를 lxml parser를 통해서 BeautifulSoup 객체로 만듬
soup = BeautifulSoup(res.text, "lxml")

# print(soup.title.get_text())
# print(soup.a) # soup 객체에서 처음 발견되는 a element 출력
print(soup.a.attrs)  # a element의 속성
print()
print(soup.a["href"]) # a element의 href 속성 '값' 정보 출력

{'href': '#menu', 'onclick': "document.getElementById('menu').tabIndex=-1;document.getElementById('menu').focus();return false;"}

#menu


## find(), next_sibling, previous.sibling, parent

In [34]:
print(soup.find("a", attrs={"class":"Nbtn_upload"})) # class="Nbtn_upload"인 a element를 찾음
print(soup.find(attrs={"class":"Nbtn_upload"})) # class="Nbtn_upload"인 어떤 element를 찾음

<a class="Nbtn_upload" href="/mypage/myActivity" onclick="nclk_v2(event,'olk.upload');">웹툰 올리기</a>
<a class="Nbtn_upload" href="/mypage/myActivity" onclick="nclk_v2(event,'olk.upload');">웹툰 올리기</a>


In [35]:
rank1 = soup.find("li", attrs={"class":"rank01"})
print(rank1.a.get_text())

99강화나무몽둥이-27화. 루나 (2)


In [36]:
# print(rank1.next_sibling) # 다음 element로 이동 (만일 출력이 안뜨면 줄바꿈을 한 것이다)
print(rank1.next_sibling.next_sibling) # 이렇게 해결하면 된다
rank2 = rank1.next_sibling.next_sibling
rank3 = rank2.next_sibling.next_sibling
print(rank3.a.get_text())

<li class="rank02">
<a href="/webtoon/detail?titleId=727188&amp;no=179" onclick="nclk_v2(event,'rnk*p.cont','727188','2')" title="취사병 전설이 되다-179화 : 성재의 음료수">취사병 전설이 되다-179화 : 성재의 음료수</a>
<span class="rankBox">
<img alt="변동없음" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_no.gif" title="변동없음" width="7"/> 0
						
					
				</span>
</li>
프리드로우-제457화 킹 안드레 (2)


In [37]:
rank2 = rank3.previous_sibling.previous_sibling # next_sibling의 반대이다
print(rank2.a.get_text())

취사병 전설이 되다-179화 : 성재의 음료수


In [38]:
print(rank1.parent) # 부모 정보를 가져옴

<ol class="asideBoxRank" id="realTimeRankFavorite">
<li class="rank01">
<a href="/webtoon/detail?titleId=792651&amp;no=27" onclick="nclk_v2(event,'rnk*p.cont','792651','1')" title="99강화나무몽둥이-27화. 루나 (2)">99강화나무몽둥이-27화. 루나 (2)</a>
<span class="rankBox">
<img alt="변동없음" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_no.gif" title="변동없음" width="7"/> 0
						
					
				</span>
</li>
<li class="rank02">
<a href="/webtoon/detail?titleId=727188&amp;no=179" onclick="nclk_v2(event,'rnk*p.cont','727188','2')" title="취사병 전설이 되다-179화 : 성재의 음료수">취사병 전설이 되다-179화 : 성재의 음료수</a>
<span class="rankBox">
<img alt="변동없음" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_no.gif" title="변동없음" width="7"/> 0
						
					
				</span>
</li>
<li class="rank03">
<a href="/webtoon/detail?titleId=597447&amp;no=460" onclick="nclk_v2(event,'rnk*p.cont','597447','3')" title="프리드로우-제457화 킹 안드레 (2)">프리드로우-제457화 킹 안드레 (2)</a>
<span class="rankBox">
<im

In [39]:
rank2 = rank1.find_next_sibling("li")
print(rank2.a.get_text())

rank3 = rank2.find_next_sibling("li")
print(rank3.a.get_text())

rank3 = rank3.find_previous_sibling("li")
print(rank2.a.get_text())

취사병 전설이 되다-179화 : 성재의 음료수
프리드로우-제457화 킹 안드레 (2)
취사병 전설이 되다-179화 : 성재의 음료수


In [40]:
print(rank1.find_next_siblings("li")) # sibling에 s를 붙임 (형제들을 모두 가져옴)

[<li class="rank02">
<a href="/webtoon/detail?titleId=727188&amp;no=179" onclick="nclk_v2(event,'rnk*p.cont','727188','2')" title="취사병 전설이 되다-179화 : 성재의 음료수">취사병 전설이 되다-179화 : 성재의 음료수</a>
<span class="rankBox">
<img alt="변동없음" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_no.gif" title="변동없음" width="7"/> 0
						
					
				</span>
</li>, <li class="rank03">
<a href="/webtoon/detail?titleId=597447&amp;no=460" onclick="nclk_v2(event,'rnk*p.cont','597447','3')" title="프리드로우-제457화 킹 안드레 (2)">프리드로우-제457화 킹 안드레 (2)</a>
<span class="rankBox">
<img alt="변동없음" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_no.gif" title="변동없음" width="7"/> 0
						
					
				</span>
</li>, <li class="rank04">
<a href="/webtoon/detail?titleId=774862&amp;no=96" onclick="nclk_v2(event,'rnk*p.cont','774862','4')" title="조조코믹스-어른들의 세계 5화 : 놓칠 수 없는 기회">조조코믹스-어른들의 세계 5화 : 놓칠 수 없는 기회</a>
<span class="rankBox">
<img alt="변동없음" height="10" src="htt

In [41]:
webtoon = soup.find("a", text="스터디그룹-시즌2 54화")
print(webtoon)

<a href="/webtoon/detail?titleId=721948&amp;no=173" onclick="nclk_v2(event,'rnk*p.cont','721948','6')" title="스터디그룹-시즌2 54화">스터디그룹-시즌2 54화</a>
