In [1]:
# 스크래핑에 필요한 패키지 설치
pip install beautifulsoup4

Note: you may need to restart the kernel to use updated packages.


In [2]:
# 구문을 분석하기 위한 패키지 설치
pip install lxml

Note: you may need to restart the kernel to use updated packages.


In [9]:
import requests
from bs4 import BeautifulSoup

url = "https://comic.naver.com/webtoon/weekday"
res = requests.get(url)
res.raise_for_status()  # 문제가 발생한다면 프로그램 종료

# BeautifulSoup(html 문서값, "lxml")
#   html문서를 "lxml" 파서를 통해서 BeautifulSoup 객체로 만든 것 
# soup은 우리가 가져온 html의 모든 정보를 가지고 있다.
soup = BeautifulSoup(res.text, "lxml")

# 타이틀 정보를 받아옴
# soup 객체를 통해서 soup 객체 밑에 있는 html 정보에 접근이 가능
# soup.태그명 -> "해당 태그에 대한 정보를 뿌려줘"
print(f'soup.title: {soup.title}')   
print()
# title에 있는 글자만 추출
print(f'soup.title.get_text(): {soup.title.get_text()}')
print()
# soup 객체에서 처음 발견되는 a element 출력
print(f'soup.a: {soup.a}')
print()
# soup.태그명.어트리뷰트명
# a element의 속성 정보 출력
print(f'soup.a.attrs: {soup.a.attrs}')
print()
# soup.태그명["특정 어트리뷰트명"]
# a element의 href 속성 '값' 정보를 추출
print(f'soup.a["href"]: {soup.a["href"]}')

soup.title: <title>네이버 만화 &gt; 요일별  웹툰 &gt; 전체웹툰</title>

soup.title.get_text(): 네이버 만화 > 요일별  웹툰 > 전체웹툰

soup.a: <a href="#menu" onclick="document.getElementById('menu').tabIndex=-1;document.getElementById('menu').focus();return false;"><span>메인 메뉴로 바로가기</span></a>

soup.a.attrs: {'href': '#menu', 'onclick': "document.getElementById('menu').tabIndex=-1;document.getElementById('menu').focus();return false;"}

soup.a["href"]: #menu


In [12]:
# soup 객체에서 find 함수를 이용한다면, 함수안에서 해당하는 값중에 처음으로 발견되는 엘리먼트를 가져올 수 있다.
# html 전체 > a 태그 > class > "Nbtn_upload"

# class="Nbtn_upload"인 a element를 찾아줘
print(soup.find("a", attrs={"class":"Nbtn_upload"}))
print()
# class="Nbtn_upload"인 어떤 element를 찾아줘
print(soup.find(attrs={"class":"Nbtn_upload"}))

<a class="Nbtn_upload" href="/mypage/myActivity" onclick="nclk_v2(event,'olk.upload');">웹툰 올리기</a>

<a class="Nbtn_upload" href="/mypage/myActivity" onclick="nclk_v2(event,'olk.upload');">웹툰 올리기</a>


In [27]:
print(soup.find("li", attrs={"class":"rank01"}))

<li class="rank01">
<a href="/webtoon/detail?titleId=597447&amp;no=429" onclick="nclk_v2(event,'rnk*p.cont','597447','1')" title="프리드로우-제426화 임재익 근황 (1) ">프리드로우-제426화 임재익 근황 (1)</a>
<span class="rankBox">
<img alt="변동없음" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_no.gif" title="변동없음" width="7"/> 0
						
					
				</span>
</li>


In [26]:
rank1 = soup.find("li", attrs={"class":"rank01"})
print(rank1.a)

<a href="/webtoon/detail?titleId=597447&amp;no=429" onclick="nclk_v2(event,'rnk*p.cont','597447','1')" title="프리드로우-제426화 임재익 근황 (1) ">프리드로우-제426화 임재익 근황 (1)</a>
