# BeautifulSoup

- HTML parsing을 위한 모듈
- parsing : html 문서내에서 원하는 값만 추출하는 것
- BeautifulSoup의 메인 패키지인 bs패키지에서 BeautifulSoup import
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/   
- 서버에서 가져온 html을 xml구조로 변환하여 읽으면 트리 형태로 스크래핑 가능 -> 파서(parser) 필요
- 파서 : lxml(주로 이용되는 패키지),html.parser,lxml-xml, html5lib

In [1]:
from bs4 import BeautifulSoup

In [3]:
html = '''
<html>
  <head>
    <title>BeautifulSoup test</title>
  </head>
  <body>
    <div id='upper' class='test' custom='good'>
      <h3 title='Good Content Title'>Contents Title</h3>
      <p>Test contents</p>
    </div>
    <div id='lower' class='test' custom='nice'>
      <p>Test Test Test 1</p>
      <p>Test Test Test 2</p>
      <p>Test Test Test 3</p>
    </div>
  </body>
</html>'''

## 1. BeautifulSoup 모듈 기본 사용법
### 1.1 객체생성
- BeautifulSoup(파싱할 HTML문서, 파싱에 사용할 파서(구문분석기))
- HTML 문서에 대한 파싱이 끝나면 트리구조 형식의 DOM객체 생성
- 객체의 태그 접근 방법 : 태그명을 .연산자와 함께 사용

In [7]:
soup = BeautifulSoup(html, "lxml")
print(soup.body.div)
print()
print(soup.div)

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>


### 1.2 태그의 정보 추출

In [12]:
print(soup.div.name)
print(soup.div.attrs)
print(soup.div['id'])
print(soup.div.get_text())
print(soup.p.get_text())

div
{'id': 'upper', 'class': ['test'], 'custom': 'good'}
upper

Contents Title
Test contents

Test contents


### 1.3 태그로부터 다른 태그로 이동
- bs.태그명.parent

In [13]:
soup.div.parent

<body>
<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>
<div class="test" custom="nice" id="lower">
<p>Test Test Test 1</p>
<p>Test Test Test 2</p>
<p>Test Test Test 3</p>
</div>
</body>

- bs.태그명.children

In [16]:
print(list(soup.div.children))

['\n', <h3 title="Good Content Title">Contents Title</h3>, '\n', <p>Test contents</p>, '\n']


- bs.태그명.next_sibling : 다음 형제태그로 이동
- bs.태그명.previous_sibling : 앞 형제태그로 이동

In [21]:
tag2 = soup.div.next_sibling.next_sibling
print(tag2)
print()
print(tag2.previous_sibling.previous_sibling)

<div class="test" custom="nice" id="lower">
<p>Test Test Test 1</p>
<p>Test Test Test 2</p>
<p>Test Test Test 3</p>
</div>

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>


## 2. find()
 - 특정 html tag를 검색
 - 검색 조건을 명시하여 찾고자하는 tag를 검색

In [23]:
print(soup.find('h3'))
print(soup.h3)

<h3 title="Good Content Title">Contents Title</h3>
<h3 title="Good Content Title">Contents Title</h3>


In [24]:
soup.find('p')

<p>Test contents</p>

In [25]:
soup.find('div')

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

- div의 lower를 찾고 싶다면..

In [26]:
soup.find("div", custom='nice')

<div class="test" custom="nice" id="lower">
<p>Test Test Test 1</p>
<p>Test Test Test 2</p>
<p>Test Test Test 3</p>
</div>

In [27]:
soup.find('div', id='lower')

<div class="test" custom="nice" id="lower">
<p>Test Test Test 1</p>
<p>Test Test Test 2</p>
<p>Test Test Test 3</p>
</div>

- class는 키워드라서 사용할 수 없다. class_로 해야한다.

In [29]:
soup.find('div', class_='test')

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

In [30]:
attrs = {"id":"upper","class":"test"}
soup.find("div", attrs=attrs)

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

In [32]:
attrs = {"id":"upper","class":"test"}
soup.find("div", attrs=attrs)
soup.find("div", attrs={"id":"upper"})


<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

## 3. find_all()
 - find가 조건에 만족하는 하나의 tag만 검색한다면, find_all은 조건에 맞는 모든 tag를 리스트로 반환

In [33]:
soup.find_all('p')

[<p>Test contents</p>,
 <p>Test Test Test 1</p>,
 <p>Test Test Test 2</p>,
 <p>Test Test Test 3</p>]

In [34]:
soup.find_all('div',class_='test')

[<div class="test" custom="good" id="upper">
 <h3 title="Good Content Title">Contents Title</h3>
 <p>Test contents</p>
 </div>,
 <div class="test" custom="nice" id="lower">
 <p>Test Test Test 1</p>
 <p>Test Test Test 2</p>
 <p>Test Test Test 3</p>
 </div>]

## 4. get_text()  ******************거의 사용하는거
 - tag안의 value를 추출
 - 우리가 얻고자 하는 대부분의 정보는 value에 존재
 - 부모tag의 경우, 모든 자식 tag의 value를 추출

In [35]:
tag = soup.find('h3')
print(tag)
print(tag.get_text())

<h3 title="Good Content Title">Contents Title</h3>
Contents Title


In [36]:
tag = soup.find('p')
print(tag)
print(tag.get_text())

<p>Test contents</p>
Test contents


In [38]:
tag = soup.find('div', id="lower")
print(tag)
print(tag.get_text())

<div class="test" custom="nice" id="lower">
<p>Test Test Test 1</p>
<p>Test Test Test 2</p>
<p>Test Test Test 3</p>
</div>

Test Test Test 1
Test Test Test 2
Test Test Test 3



## 5. attribute 값 추출하기
 - 경우에 따라 추출하고자 하는 값이 attribute에도 존재함
 - 이 경우에는 검색한 tag에 attribute 이름을 [ ]연산을 통해 추출가능
 - 예) div.find('h3')['title']

In [39]:
tag = soup.find('h3')
print(tag)
tag['title']   # 링크 가져올때 많이 씀

<h3 title="Good Content Title">Contents Title</h3>


'Good Content Title'

## 6. id, class 속성으로 tag 찾기

In [40]:
import requests
from bs4 import BeautifulSoup

**다음 뉴스 데이터 추출**
- 뉴스기사에서 제목, 작성자, 작성일 추출
- tag를 추출할때는 가장 그 tag를 쉽게 특정할 수 있는 속성을 사용
- id의 경우 원칙적으로 한 html 문서 내에서 유일
  

In [111]:
url = 'https://news.v.daum.net/v/20210829114520406'
res = requests.get(url)
res.raise_for_status()
soup = BeautifulSoup(res.text, "lxml")

### 6.1. class 속성으로 tag 찾기
 - 타이틀
 - 작성자, 작성일

In [44]:
title = soup.find('h3', class_='tit_view')
title.get_text()

'미군 등 철수시한 임박 카불공항..탈레반 "넘겨받을 준비"'

In [48]:
# 방법1 : 전체 문서에서 찾는 법
print(soup.find_all('span',class_="txt_info")[0])
print(soup.find_all('span',class_="txt_info")[1])

<span class="txt_info">성혜미</span>
<span class="txt_info">입력 <span class="num_date">2021. 08. 29. 11:45</span></span>


In [115]:
# 방법2 : 부모클래스를 찾고 info_view 내에서 다시 찾는다.
# 범위를 줄여가면서 찾는 방법

info = soup.find('span', class_='info_view')
#print(info)

print(info.find('span', class_='txt_info').get_text())
print(info.find('span',class_='num_date').get_text()[:13])

성혜미
2021. 08. 29.


### 6.2 id 속성으로 tag 찾기

In [67]:
contents = soup.find('div', id = "harmonyContainer")
#contents.find_all('p')
for p in contents.find_all('p'):
    print(p.get_text().strip())


(자카르타=연합뉴스) 성혜미 특파원 = 미군 등 외국군과 조력자의 아프가니스탄 철수시한이 이틀 앞으로 다가온 29일 탈레반은 수도 카불공항 주변을 거의 봉쇄하고 넘겨받을 준비를 하고 있다.
영국군을 태운 마지막 수송기가 카불공항에서 이륙하는 등 대다수 국가가 아프간 대피 작전을 속속 마무리했다.

영국 국방부는 전날 "영국군을 태운 마지막 수송기가 카불을 떠났다"며 사진과 함께 트윗을 올렸다.
독일, 이탈리아, 스위스, 스웨덴, 핀란드 등 유럽국가들은 27∼28일 대부분 대피 작전 종료를 선언했다.
이들 국가는 아프간에 남은 자국민과 조력자에 대해 "모두 데려오지 못해 유감"이라며 대피 작전 종료 이후에도 육로를 통한 탈출 지원 등 노력을 계속하겠다는 입장이다.
특히 에마뉘엘 마크롱 프랑스 대통령은 카불에 유엔이 통제하는 '안전지대'(safe zone)를 조성하자며, 30일 예정된 유엔안보리 긴급회의에 영국과 함께 이 방안을 제안할 계획이라고 밝혔다.
마크롱 대통령은 "카불에 안전지대를 만들면 인도주의적 활동을 지속할 수 있다. 안전지대는 유엔이 비상시에 움직일 수 있는 틀을 마련해 줄 것"이라고 말했다.

카불공항은 지난 26일 발생한 이슬람국가(IS)의 자살폭탄테러 사건 이후 현지인들의 접근이 거의 차단된 상황이다.
이전에는 수송기 탑승 명단에 오른 현지인 조력자뿐만 아니라, 수많은 현지인이 공항 담벼락 주변에 장사진을 치고 "우리도 태워달라"며 실낱같은 희망을 품고 기다렸다.
하지만, 26일 카불공항 외곽에서 대형 테러가 발생해 170명 이상이 숨지고, 1천300명 이상이 다치자 탈레반은 공항 경계를 강화한다며 장갑차 등을 동원해 주변 접근을 차단했다.
공항 가는 길목에 검문소를 늘리고, 탈레반 대원들을 추가로 투입했다.

더구나, 카불공항 추가 테러 경고가 나온 상태다.
카불 주재 미 대사관은 이날 "구체적이고 신뢰할만한 (테러) 위협이 있다"면서 "카불 공항 인근에 있는 모든 미국 시민은 즉시 공항을 떠나야 한다"고 경보령을 내렸다.
대사관은 특히 

**연습문제1) 네이버 뉴스에서 제목, 기자, 날짜, 기사내용 크롤링 하기**
- 참고 : 네이버 뉴스는 헤더정보 넣어서 요청해야함.
- res = requests.get(url, headers=headers)

In [92]:
url = 'http://biz.khan.co.kr/khan_art_view.html?artid=202108301450001&code=920100&nv=stand&utm_source=naver&utm_medium=newsstand&utm_campaign=sub_thumb3&utm_content=202108301450001&C='
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36"}
res = requests.get(url, headers=headers)
res.raise_for_status()
soup = BeautifulSoup(res.text, "lxml")

#제목
title = soup.find('h1', class_='headline')
print('제목 :',title.get_text())

#기자
print('기자 :',soup.find('span',class_="name").get_text()[:3])


#날짜
print('날짜 :',soup.find('div',class_="byline").get_text()[6:16])

#기사내용
contents = soup.find('div', class_= "art_cont")
for p in contents.find_all('p',class_='content_text'):
    print(p.get_text().strip())


제목 : 결국 법정싸움으로 간 남양유업 매각
기자 : 정유미
날짜 : 2021.08.30
남양유업 매수인인 한앤컴퍼니(한앤코·사모펀드 운영사)는 지난 23일 서울중앙지법에 홍원식 남양유업 회장 등 매도인들을 상대로 거래종결 의무의 조속한 이행을 요구하는 소송을 제기했다고 30일 밝혔다.
한앤컴퍼니는 “이번 소송은 매도인 측의 이유 없는 이행 지연, 무리한 요구, 계약해제 가능성 시사로 소송이 불가피하다는 판단에 따른 것”이라고 설명했다.
이어 “인수·합병(M&A) 시장에서 생명과도 같은 계약과 약속을 경시하는 선례가 생길 것에 대한 우려가 크다”며 “남양유업의 잠재력에 대한 확신과 당사의 인수 의지에는 변함이 없어 매도인이 언제든 계약 이행을 결심하면 거래가 종결되고 소송도 자동으로 종료된다”고 말했다.
한앤컴퍼니는 지난 5월27일 3107억원 규모의 남양유업 주식매매계약이 체결된 이후 공정거래위원회 승인을 거쳐 거래 종결일을 지난달 30일 오전 10시로 확정했다.
이에 따라 홍 회장 측은 지난달 15일 이사회를 열어 회사 매각을 위한 임시주총을 지난달 30일 오전 9시에 열기로 했다. 임원 선임·사임 등기와 상호 증권계좌 확인 등 각종 제반 절차도 거래 종결일을 기준으로 준비됐다.
한앤컴퍼니는 “거래종결일이 임박한 시기에 매도인 측에서 별도의 법무법인을 조용히 선임했다는 사실을 우연히 접하고 계획에 차질은 없는지 확인차 문의했다”며 “그제야 매도인은 하루전인 7월29일 오후 10시쯤 ‘거래종결일이 7월30일이라는 통지를 받아본 적이 없다’는 이해할 수 없는 주장의 공문을 보내왔다”고 주장했다. .
홍 회장 측은 지난달 30일 준비가 더 필요하다는 이유로 주주총회를 오는 9월14일로 6주 연기하고 거래 종결 장소에 나타나지 않았다.
한앤컴퍼니는 “매도인 측은 계속된 문의와 설득에도 2주 이상 묵묵부답으로 일관하다 무리한 사항들을 선결 조건으로 내세워 협상을 제안해왔다”며 “8월31일까지 협상이 타결되지 않을시 주식매매계약 해제 가능성까지 시사했다”고 주장했다.

In [119]:
# 다시

url = 'http://news.kmib.co.kr/article/view.asp?arcid=0016216715&code=61121111&sid1=soc&cp=nv2'
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36"}
res = requests.get(url, headers=headers)
res.raise_for_status()
soup = BeautifulSoup(res.text, "lxml")

#제목
ti = soup.find('div', class_='nwsti_inner')
title = ti.find('div', class_='nwsti')
title.find('h3')




<h3>¹é½Å ¸Â°í ¹éÇ÷º´ ÆÇÁ¤ ÀÕµû¶ó¡¦ÀÌ¹ø¿£ ÅÂ±Çµµ °üÀå</h3>

In [125]:
url = 'http://biz.khan.co.kr/khan_art_view.html?artid=202108301215011&code=930201'
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36"}
res = requests.get(url, headers=headers)
res.raise_for_status()

soup = BeautifulSoup(res.text, "lxml")

# 타이틀 가져오기
title = soup.find('h1', class_='headline')
print(title.get_text())

# 기자이름/날짜
name = soup.find('a', class_='name')
date = soup.find('div', class_='byline')
print(name.get_text().strip(), '/', date.get_text().strip)

"코로나 지원금 얼마 받을까" 네이버·카카오·토스로 확인하세요


AttributeError: 'NoneType' object has no attribute 'get_text'

## 7. 실전연습(네이버 웹툰)

In [1]:
#html문서를 lxml파서를 통해서 beautiful 객체로 만들기. soup는 모든걸 가지고 있다.
import requests
from bs4 import BeautifulSoup

url = "https://comic.naver.com/webtoon/weekday"
res = requests.get(url)
res.raise_for_status()
soup = BeautifulSoup(res.text, "lxml")

print(soup.title)
print(soup.title.get_text())

print(soup.a)
print()
print(soup.a.attrs)
print()
print(soup.a['href'])


<title>네이버 만화 &gt; 요일별  웹툰 &gt; 전체웹툰</title>
네이버 만화 > 요일별  웹툰 > 전체웹툰
<a href="#menu" onclick="document.getElementById('menu').tabIndex=-1;document.getElementById('menu').focus();return false;"><span>메인 메뉴로 바로가기</span></a>

{'href': '#menu', 'onclick': "document.getElementById('menu').tabIndex=-1;document.getElementById('menu').focus();return false;"}

#menu


### 7.1. 웹툰올리기 tag 가져오기

In [137]:
print(soup.find('a', attrs={'class':'Nbtn_upload'}))
print(soup.find(attrs={'class':'Nbtn_upload'}))    # 버튼속성이 하나일 것으로 예상되기 때문에 이 방법도 가능

<a class="Nbtn_upload" href="/mypage/myActivity" onclick="nclk_v2(event,'olk.upload');">웹툰 올리기</a>
<a class="Nbtn_upload" href="/mypage/myActivity" onclick="nclk_v2(event,'olk.upload');">웹툰 올리기</a>


### 7.2. 인기 급상승 만화 tag 가져오기

- 인기 급상승 만화 정보 가져오기

In [2]:
rank1 = soup.find("li", attrs={'class':'rank01'})
print(rank1)
print('*'*50)

print(rank1.a)
print('*'*50)
print(rank1.a.get_text())
print('*'*50)
print("https://comic.naver.com"+rank1.a['href'])

<li class="rank01">
<a href="/webtoon/detail?titleId=703846&amp;no=177" onclick="nclk_v2(event,'rnk*p.cont','703846','1')" title="여신강림-172화">여신강림-172화</a>
<span class="rankBox">
<img alt="변동없음" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_no.gif" title="변동없음" width="7"/> 0
						
					
				</span>
</li>
**************************************************
<a href="/webtoon/detail?titleId=703846&amp;no=177" onclick="nclk_v2(event,'rnk*p.cont','703846','1')" title="여신강림-172화">여신강림-172화</a>
**************************************************
여신강림-172화
**************************************************
https://comic.naver.com/webtoon/detail?titleId=703846&no=177


In [10]:
rank1 = soup.find("li", attrs={'class':'rank01'})
print(rank1.a.get_text())

rank2 = rank1.next_sibling.next_sibling
print(rank2.a.get_text())

rank3 = rank2.next_sibling.next_sibling
print(rank3.a.get_text())

rank2 = rank3.previous_sibling.previous_sibling
print(rank2.a.get_text())

# 부모태그
print(rank1.parent())

여신강림-172화
한림체육관-66화
사신소년-112화 ㅆ발
한림체육관-66화
[<li class="rank01">
<a href="/webtoon/detail?titleId=703846&amp;no=177" onclick="nclk_v2(event,'rnk*p.cont','703846','1')" title="여신강림-172화">여신강림-172화</a>
<span class="rankBox">
<img alt="변동없음" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_no.gif" title="변동없음" width="7"/> 0
						
					
				</span>
</li>, <a href="/webtoon/detail?titleId=703846&amp;no=177" onclick="nclk_v2(event,'rnk*p.cont','703846','1')" title="여신강림-172화">여신강림-172화</a>, <span class="rankBox">
<img alt="변동없음" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_no.gif" title="변동없음" width="7"/> 0
						
					
				</span>, <img alt="변동없음" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_no.gif" title="변동없음" width="7"/>, <li class="rank02">
<a href="/webtoon/detail?titleId=743139&amp;no=66" onclick="nclk_v2(event,'rnk*p.cont','743139','2')" title="한림체육관-66화">한림체육관-66화</a>
<sp

- find_next_sibling()

In [13]:
rank2 = rank1.find_next_sibling('li')
print(rank2.a.get_text())

rank3 = rank2.find_next_sibling('li')
print(rank3.a.get_text())

한림체육관-66화
사신소년-112화 ㅆ발


- find_next_siblings()

In [19]:
rank1 = soup.find("li", attrs={'class':'rank01'})
print(rank1.a.get_text())

ranks = rank1.find_next_siblings('li')

for rank in ranks:
    print(rank.a.get_text())

여신강림-172화
한림체육관-66화
사신소년-112화 ㅆ발
중증외상센터 : 골든 아워-2부 15화 : 알릴 건 알려야지
랜덤채팅의 그녀!-197. 내로남불
하루만 네가 되고 싶어-88. 삼자대면(2)
달콤살벌한 부부-52화
엽총소년-27화
용사가 돌아왔다-13화 용사들(1)
신도림-시즌2 93. 그릇


In [23]:
#참고만_ 각 사이트별로 맞는 방법 택해서 사용
ranks = soup.find("li", attrs={'class':'asideBoxRank', 'id':'realTimeRankFavorite'})

In [None]:
<a 
onclick="nclk_v2(event,'rnk*p.cont','703846','1')" 
href="/webtoon/detail?titleId=703846&amp;no=177" 
title="여신강림-172화">여신강림-172화
</a>

In [24]:
webtoon = soup.find('a', text='여신강림-172화')
print(webtoon)

<a href="/webtoon/detail?titleId=703846&amp;no=177" onclick="nclk_v2(event,'rnk*p.cont','703846','1')" title="여신강림-172화">여신강림-172화</a>


### 7.3. 네이버 웹툰 전체 목록 가져오기

In [36]:
# 네이버 웹툰 전체 목록 가져오기
import requests
from bs4 import BeautifulSoup

url ="https://comic.naver.com/webtoon/weekday"
res = requests.get(url)
res.raise_for_status()
soup = BeautifulSoup(res.text, "lxml")

cartoons = soup.find_all('a', class_='title')
for cartoon in cartoons:
    print(cartoon.get_text())

참교육
신의 탑
뷰티풀 군바리
윈드브레이커
팔이피플
소녀의 세계
장씨세가 호위무사
백수세끼
파이게임
앵무살수
만렙돌파
삼매경
잔불의 기사
요리GO
더블클릭
약초마을 연쇄살초사건
유일무이 로맨스
칼가는 소녀
바퀴
히어로메이커
결혼생활 그림일기
물어보는 사이
꼬리잡기
영앤리치가 아니야!
오늘의 순정망화
ㅋㄷㅋㄷ만화
리턴 투 플레이어
평범한 8반
아, 쫌 참으세요 영주님!
아는 여자애
수영만화일기
황제와의 하룻밤
장난감
홍천기
꿈의 기업
순정말고 순종
똑 닮은 딸
최후의 금빛아이
하루의 하루
와이키키 뱀파이어
야생천사 보호구역
모스크바의 여명
착한건 돈이된다
사랑의 헌옷수거함
선배, 그 립스틱 바르지 마요
왕따협상
이중첩자
원하는 건 너 하나
또다시, 계약 부부
백호랑
라서드
마지막 지수
사막에 핀 달
드로잉 레시피
중독연구소
살아간다
이탄국의 자청비
모락모락 왕세자님
그림자 신부
바로 보지 않는
개밥 먹는 남자
헬로맨스
보살님이 캐리해!
오로지 오로라
트리거
기사님을 지켜줘
여신강림
용사가 돌아왔다
덴큐
한림체육관
엽총소년
하루만 네가 되고 싶어
사신소년
중증외상센터 : 골든 아워
랜덤채팅의 그녀!
신도림
니나의 마법서랍
헬58
달콤살벌한 부부
호랑이 들어와요
천마는 평범하게 살 수 없다
집이 없어
오피스 누나 이야기
원주민 공포만화
몬스터
블랙 위도우
윌유메리미
삼국지톡
아이레
위아더좀비
하우스키퍼
빌런투킬
이상형은 아닙니다
견우와 선녀
오늘의 순정망화
플레이, 플리
용왕님의 셰프가 되었습니다
기계증식증
교환학생
아이즈
3cm 헌터
제로게임
정년이
성인초딩
올가미
빅맨
은주의 방 2~3부
악인
나타나주세요!
연우의 순정
나는 어디에나 있다
열녀박씨 계약결혼뎐
다꾸남
숲속의 담
나의 플랏메이트
오파츠
태시트
조선홍보대행사 조대박
그녀석 정복기
안식의 밤
대신 심부름을 해다오
자판귀
급식러너
연애는 전쟁!
완벽한 가족
언메이크
고등매직
프린스 메이커
지원이들
풋내기들
NG불가
하나in세인
피로만땅
인문학적 감수성
찐:종합게임동아리
헬퍼 2 : 킬베로스
전지적 독자 

## 7.4. 특정 웹툰정보 가져오기 

In [45]:
import requests
from bs4 import BeautifulSoup

# 기본 웹크롤링
url = 'https://comic.naver.com/webtoon/list?titleId=703846&weekday=tue'
res = requests.get(url)
res.raise_for_status()
soup = BeautifulSoup(res.text, "lxml")

cartoons = soup.find_all("td", attrs = {'class':'title'})
title = cartoons[0].a.get_text()
link = "https://comic.naver.com"+cartoons[0].a["href"]

print(title)
print(link)
#cartoons[0]

172화
https://comic.naver.com/webtoon/detail?titleId=703846&no=177&weekday=tue


In [46]:
cartoons = soup.find_all("td", attrs = {'class':'title'})
for cartoon in cartoons :
    print(cartoon.a.get_text())
    print("https://comic.naver.com"+cartoon.a["href"])

172화
https://comic.naver.com/webtoon/detail?titleId=703846&no=177&weekday=tue
171화
https://comic.naver.com/webtoon/detail?titleId=703846&no=176&weekday=tue
170화
https://comic.naver.com/webtoon/detail?titleId=703846&no=175&weekday=tue
169화
https://comic.naver.com/webtoon/detail?titleId=703846&no=174&weekday=tue
168화
https://comic.naver.com/webtoon/detail?titleId=703846&no=173&weekday=tue
167화
https://comic.naver.com/webtoon/detail?titleId=703846&no=172&weekday=tue
166화
https://comic.naver.com/webtoon/detail?titleId=703846&no=171&weekday=tue
165화
https://comic.naver.com/webtoon/detail?titleId=703846&no=170&weekday=tue
164화
https://comic.naver.com/webtoon/detail?titleId=703846&no=169&weekday=tue
163화
https://comic.naver.com/webtoon/detail?titleId=703846&no=168&weekday=tue


In [56]:
# 공통적으로 가지는 부모태그나 클래스를 먼저 찾아주기
points = soup.find_all('div', attrs={'class':'rating_type'})

total_points=0
for point in points :
    rate1 = point.find("strong").get_text()
    rate2 = point.strong.get_text()
    print(rate1,rate2)
    total_points += float(rate1)
    
print("전체별점 :",total_points)
print("평균별점 :",total_points/len(points))

9.20 9.20
8.17 8.17
7.65 7.65
6.39 6.39
8.17 8.17
8.47 8.47
8.34 8.34
9.45 9.45
9.55 9.55
8.78 8.78
전체별점 : 84.17
평균별점 : 8.417


**연습문제2) 네이버 웹툰 중에서 좋아하는 웹툰 정보(회차/링크/별점) 가지고 오기**

In [96]:
import requests
from bs4 import BeautifulSoup

url = 'https://comic.naver.com/webtoon/list?titleId=724815&weekday=sat'
res = requests.get(url)
res.raise_for_status()
soup = BeautifulSoup(res.text, "lxml")

cartoons = soup.find_all("td", attrs={"class":"title"})
points = soup.find_all("div", attrs={"class":"rating_type"})
cartoon_title = soup.find("div", attrs={"class":"detail"})
print(cartoon_title.h2.get_text()[12:19], cartoon_title.span.next_sibling.get_text().strip())

for i in range(10):
    title = cartoons[i].a.get_text()
    link = "https://comic.naver.com/"+cartoons[i].a["href"]
    point = points[i].strong.get_text()
    print(title, link, point)


아홉수 우리들 수박양
특별편2 https://comic.naver.com//webtoon/detail?titleId=724815&no=122&weekday=sat 9.98
120. 일년의 반 https://comic.naver.com//webtoon/detail?titleId=724815&no=121&weekday=sat 9.98
119. 모르겠어 https://comic.naver.com//webtoon/detail?titleId=724815&no=120&weekday=sat 9.99
118. Don't call me https://comic.naver.com//webtoon/detail?titleId=724815&no=119&weekday=sat 9.98
117. 오늘부터 1일♡ https://comic.naver.com//webtoon/detail?titleId=724815&no=118&weekday=sat 9.98
116. strawberries & cigarettes https://comic.naver.com//webtoon/detail?titleId=724815&no=117&weekday=sat 9.98
115. 산의 연애 https://comic.naver.com//webtoon/detail?titleId=724815&no=116&weekday=sat 9.98
114. JUNE https://comic.naver.com//webtoon/detail?titleId=724815&no=115&weekday=sat 9.98
113. 아무렇지도 https://comic.naver.com//webtoon/detail?titleId=724815&no=114&weekday=sat 9.98
112. 그냥 그렇게 下 https://comic.naver.com//webtoon/detail?titleId=724815&no=113&weekday=sat 9.98


In [93]:
# 교수님 답
import requests
from bs4 import BeautifulSoup

# 기본 웹크롤링
url = 'https://comic.naver.com/webtoon/list?titleId=724815&weekday=sat'
res = requests.get(url)
res.raise_for_status()
soup = BeautifulSoup(res.text, "lxml")

# 제목 구하기
title =  soup.find("div", class_="detail")
print(title.h2.get_text().strip()[:7], title.h2.span.next_sibling.get_text().strip())

# 별점 구하기
cartoons = soup.find_all("div", class_="rating_type")
point = []
for cartoon in cartoons:
    point.append(cartoon.find("strong").get_text())
    
# 회차/링크 구하기
cartoons = soup.find_all("td", class_="title")

for idx, cartoon in enumerate(cartoons) :
    cartoons = soup.find_all("td", class_="title")
    title = cartoon.a.get_text()
    link = "https://comic.naver.com"+cartoon.a["href"]
    print(title, link, point[idx])

아홉수 우리들 수박양
특별편2 https://comic.naver.com/webtoon/detail?titleId=724815&no=122&weekday=sat 9.98
120. 일년의 반 https://comic.naver.com/webtoon/detail?titleId=724815&no=121&weekday=sat 9.98
119. 모르겠어 https://comic.naver.com/webtoon/detail?titleId=724815&no=120&weekday=sat 9.99
118. Don't call me https://comic.naver.com/webtoon/detail?titleId=724815&no=119&weekday=sat 9.98
117. 오늘부터 1일♡ https://comic.naver.com/webtoon/detail?titleId=724815&no=118&weekday=sat 9.98
116. strawberries & cigarettes https://comic.naver.com/webtoon/detail?titleId=724815&no=117&weekday=sat 9.98
115. 산의 연애 https://comic.naver.com/webtoon/detail?titleId=724815&no=116&weekday=sat 9.98
114. JUNE https://comic.naver.com/webtoon/detail?titleId=724815&no=115&weekday=sat 9.98
113. 아무렇지도 https://comic.naver.com/webtoon/detail?titleId=724815&no=114&weekday=sat 9.98
112. 그냥 그렇게 下 https://comic.naver.com/webtoon/detail?titleId=724815&no=113&weekday=sat 9.98
