# BeautifulSoup

- HTML parsing을 위한 모듈
- parsing : html 문서내에서 원하는 값만 추출하는 것
- BeautifulSoup의 메인 패키지인 bs패키지에서 BeautifulSoup import
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/   
- 서버에서 가져온 html을 xml구조로 변환하여 읽으면 트리 형태로 스크래핑 가능 -> 파서(parser) 필요
- 파서 : lxml(주로 이용되는 패키지),html.parser,lxml-xml, html5lib

In [1]:
from bs4 import BeautifulSoup

In [2]:
html = '''
<html>
  <head>
    <title>BeautifulSoup test</title>
  </head>
  <body>
    <div id='upper' class='test' custom='good'>
      <h3 title='Good Content Title'>Contents Title</h3>
      <p>Test contents</p>
    </div>
    <div id='lower' class='test' custom='nice'>
      <p>Test Test Test 1</p>
      <p>Test Test Test 2</p>
      <p>Test Test Test 3</p>
    </div>
  </body>
</html>'''

## 1. BeautifulSoup 모듈 기본 사용법
### 1.1 객체생성
- BeautifulSoup(파싱할 HTML문서, 파싱에 사용할 파서(구문분석기))
- HTML 문서에 대한 파싱이 끝나면 트리구조 형식의 DOM객체 생성
- 객체의 태그 접근 방법 : 태그명을 .연산자와 함께 사용

In [8]:
soup = BeautifulSoup(html,'lxml')
print(soup.body.div)
print()
print(soup.div)

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>


### 1.2 태그의 정보 추출

In [16]:
print(soup.div.name)
print(soup.div.attrs)
print(soup.div['id'])
print(soup.div.get_text())
print(soup.p.get_text())

div
{'id': 'upper', 'class': ['test'], 'custom': 'good'}
upper

Contents Title
Test contents

Test contents


### 1.3 태그로부터 다른 태그로 이동
- bs.태그명.parent

In [17]:
soup.div.parent

<body>
<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>
<div class="test" custom="nice" id="lower">
<p>Test Test Test 1</p>
<p>Test Test Test 2</p>
<p>Test Test Test 3</p>
</div>
</body>

- bs.태그명.children

In [22]:
list(soup.div.children)

['\n',
 <h3 title="Good Content Title">Contents Title</h3>,
 '\n',
 <p>Test contents</p>,
 '\n']

- bs.태그명.next_sibling : 다음 형제태그로 이동
- bs.태그명.previous_sibling : 앞 형제태그로 이동

In [33]:
tag2 = soup.div.next_sibling.next_sibling
print(tag2)
print(tag2.previous_sibling.previous_sibling)

<div class="test" custom="nice" id="lower">
<p>Test Test Test 1</p>
<p>Test Test Test 2</p>
<p>Test Test Test 3</p>
</div>
<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>


## 2. find()
 - 특정 html tag를 검색
 - 검색 조건을 명시하여 찾고자하는 tag를 검색

In [36]:
print(soup.find('h3'))
print(soup.h3)

<h3 title="Good Content Title">Contents Title</h3>
<h3 title="Good Content Title">Contents Title</h3>


In [37]:
soup.find('p')

<p>Test contents</p>

In [38]:
soup.find('div')

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

- div의 lower를 찾고 싶다면..

In [39]:
soup.find('div', custom='nice')

<div class="test" custom="nice" id="lower">
<p>Test Test Test 1</p>
<p>Test Test Test 2</p>
<p>Test Test Test 3</p>
</div>

In [40]:
soup.find('div', id='lower')


<div class="test" custom="nice" id="lower">
<p>Test Test Test 1</p>
<p>Test Test Test 2</p>
<p>Test Test Test 3</p>
</div>

- class는 키워드라서 사용할 수 없다. class_로 해야한다.

In [42]:
soup.find('div', class='test')

SyntaxError: invalid syntax (<ipython-input-42-29800156a644>, line 1)

In [43]:
soup.find('div', class_='test')

<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

In [51]:
attrs = {'id':'upper', 'class': 'test'}
print(soup.find('div', attrs=attrs))
soup.find('div', attrs={'id':'upper'})


<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>


<div class="test" custom="good" id="upper">
<h3 title="Good Content Title">Contents Title</h3>
<p>Test contents</p>
</div>

## 3. find_all()
 - find가 조건에 만족하는 하나의 tag만 검색한다면, find_all은 조건에 맞는 모든 tag를 리스트로 반환

In [54]:
soup.find_all('div')

[<div class="test" custom="good" id="upper">
 <h3 title="Good Content Title">Contents Title</h3>
 <p>Test contents</p>
 </div>,
 <div class="test" custom="nice" id="lower">
 <p>Test Test Test 1</p>
 <p>Test Test Test 2</p>
 <p>Test Test Test 3</p>
 </div>]

In [55]:
soup.find_all('p')

[<p>Test contents</p>,
 <p>Test Test Test 1</p>,
 <p>Test Test Test 2</p>,
 <p>Test Test Test 3</p>]

In [56]:
soup.find_all('div', class_='test')

[<div class="test" custom="good" id="upper">
 <h3 title="Good Content Title">Contents Title</h3>
 <p>Test contents</p>
 </div>,
 <div class="test" custom="nice" id="lower">
 <p>Test Test Test 1</p>
 <p>Test Test Test 2</p>
 <p>Test Test Test 3</p>
 </div>]

## 4. get_text()
 - tag안의 value를 추출
 - 우리가 얻고자 하는 대부분의 정보는 value에 존재
 - 부모tag의 경우, 모든 자식 tag의 value를 추출

In [57]:
tag = soup.find('h3')
print(tag)
print(tag.get_text())

<h3 title="Good Content Title">Contents Title</h3>
Contents Title


In [58]:
tag = soup.find('p')
print(tag)
print(tag.get_text())

<p>Test contents</p>
Test contents


In [60]:
tag = soup.find('div', id='lower')
print(tag)
print(tag.get_text())

<div class="test" custom="nice" id="lower">
<p>Test Test Test 1</p>
<p>Test Test Test 2</p>
<p>Test Test Test 3</p>
</div>

Test Test Test 1
Test Test Test 2
Test Test Test 3



## 5. attribute 값 추출하기
 - 경우에 따라 추출하고자 하는 값이 attribute에도 존재함
 - 이 경우에는 검색한 tag에 attribute 이름을 [ ]연산을 통해 추출가능
 - 예) div.find('h3')['title']

In [61]:
tag = soup.find('h3')
print(tag)
tag['title']

<h3 title="Good Content Title">Contents Title</h3>


'Good Content Title'

## 6. id, class 속성으로 tag 찾기

In [62]:
import requests
from bs4 import BeautifulSoup

**다음 뉴스 데이터 추출**
- 뉴스기사에서 제목, 작성자, 작성일 추출
- tag를 추출할때는 가장 그 tag를 쉽게 특정할 수 있는 속성을 사용
- id의 경우 원칙적으로 한 html 문서 내에서 유일
  

In [67]:
url = 'https://news.v.daum.net/v/20210829114520406'
res = requests.get(url)

soup = BeautifulSoup(res.text, 'lxml')

### 6.1. class 속성으로 tag 찾기
 - 타이틀
 - 작성자, 작성일

In [71]:
title = soup.find('h3', class_='tit_view')
title.get_text()

'미군 등 철수시한 임박 카불공항..탈레반 "넘겨받을 준비"'

In [84]:
# 방법1 : 전체 문서에서 찾는 법
print(soup.find_all('span', class_="txt_info")[0])
print(soup.find_all('span', class_="txt_info")[1])

<span class="txt_info">성혜미</span>
<span class="txt_info">입력 <span class="num_date">2021. 08. 29. 11:45</span></span>


In [97]:
# 방법2 : 부모클래스를 찾고 info_view내에서 찾는다.
# 범위를 줄여가면서 찾는 방법

info = soup.find('span', class_="info_view")

print(info.find('span', class_='txt_info').get_text())
print(info.find('span', class_='num_date').get_text()[:12])

성혜미
2021. 08. 29


### 6.2 id 속성으로 tag 찾기

In [109]:
contents = soup.find('div', id='harmonyContainer')

for p in contents.find_all('p'):
    print(p.get_text().strip())


(자카르타=연합뉴스) 성혜미 특파원 = 미군 등 외국군과 조력자의 아프가니스탄 철수시한이 이틀 앞으로 다가온 29일 탈레반은 수도 카불공항 주변을 거의 봉쇄하고 넘겨받을 준비를 하고 있다.
영국군을 태운 마지막 수송기가 카불공항에서 이륙하는 등 대다수 국가가 아프간 대피 작전을 속속 마무리했다.

영국 국방부는 전날 "영국군을 태운 마지막 수송기가 카불을 떠났다"며 사진과 함께 트윗을 올렸다.
독일, 이탈리아, 스위스, 스웨덴, 핀란드 등 유럽국가들은 27∼28일 대부분 대피 작전 종료를 선언했다.
이들 국가는 아프간에 남은 자국민과 조력자에 대해 "모두 데려오지 못해 유감"이라며 대피 작전 종료 이후에도 육로를 통한 탈출 지원 등 노력을 계속하겠다는 입장이다.
특히 에마뉘엘 마크롱 프랑스 대통령은 카불에 유엔이 통제하는 '안전지대'(safe zone)를 조성하자며, 30일 예정된 유엔안보리 긴급회의에 영국과 함께 이 방안을 제안할 계획이라고 밝혔다.
마크롱 대통령은 "카불에 안전지대를 만들면 인도주의적 활동을 지속할 수 있다. 안전지대는 유엔이 비상시에 움직일 수 있는 틀을 마련해 줄 것"이라고 말했다.

카불공항은 지난 26일 발생한 이슬람국가(IS)의 자살폭탄테러 사건 이후 현지인들의 접근이 거의 차단된 상황이다.
이전에는 수송기 탑승 명단에 오른 현지인 조력자뿐만 아니라, 수많은 현지인이 공항 담벼락 주변에 장사진을 치고 "우리도 태워달라"며 실낱같은 희망을 품고 기다렸다.
하지만, 26일 카불공항 외곽에서 대형 테러가 발생해 170명 이상이 숨지고, 1천300명 이상이 다치자 탈레반은 공항 경계를 강화한다며 장갑차 등을 동원해 주변 접근을 차단했다.
공항 가는 길목에 검문소를 늘리고, 탈레반 대원들을 추가로 투입했다.

더구나, 카불공항 추가 테러 경고가 나온 상태다.
카불 주재 미 대사관은 이날 "구체적이고 신뢰할만한 (테러) 위협이 있다"면서 "카불 공항 인근에 있는 모든 미국 시민은 즉시 공항을 떠나야 한다"고 경보령을 내렸다.
대사관은 특히 

**연습문제1) 네이버 뉴스에서 제목, 기자, 날짜, 기사내용 크롤링 하기**
- 참고 : 네이버 뉴스는 헤더정보 넣어서 요청해야함.
- res = requests.get(url, headers=headers)

In [198]:
url = 'https://sports.news.naver.com/news?oid=056&aid=0011110649'
res = requests.get(url)

soup = BeautifulSoup(res.text, 'lxml')

title = soup.find('h4', class_="title")
print(title.get_text())

arthor = soup.find('p', class_="byline")
print(arthor.get_text())

date = soup.find('div', class_="info")

for day in date.find_all('span'):
    print(day.get_text()[5:])
    
articles = soup.find('div', id="newsEndContents")
print(articles.get_text().split('\n')[1])

우리가 알던 ‘맨유’가 돌아왔다!
박선우 (bergkamp@kbs.co.kr)
2021.08.30. 오후 02:26
2021.08.30. 오후 02:26

솔샤르 맨체스터 유나이티드 감독은 이미 알고 있었다. 솔샤르 감독은 지난 27일 맨유의 캐링턴 훈련장에서 열린 기자회견에서 호날두의 맨체스터 시티 이적 관련 질문에 호날두는 맨유의 전설이라며 상황을 지켜보자고 했다. 영국의 BBC에 따르면 솔샤르는 포커페이스를 유지했지만, 호날두가 12년 만에 올드 트래퍼드로 돌아온다는 걸 알고 기자회견에 들어갔다고 한다.그날 아침 호날두가 '보스'라고 부르는 알렉스 퍼거슨 전 맨유 감독과 퍼디낸드, 에브라 등 옛 동료, 그리고 대표팀 동료이자 맨유에서 뛰는 브루누 페르난데스 등의 설득이 호날두의 마음을 돌리는데 결정적이었다고 전해진다. 맨유에서 호날두를 슈퍼스타로 조련한 퍼거슨 감독은 '유로 2016' 결승전도 호날두의 우승을 축하해 주기 위해 경기장을 찾을 정도로 막역한 사이다.호날두의 복귀를 전하는 맨유 구단의 트윗은 불과 한 시간 만에 '좋아요.' 100만 개를 넘겼다. 인스타그램에서도 역대 스포츠 구단 게시물 가운데 최다인 126만 명이 '좋아요'를 눌렀다. 맨유 공식 홈페이지는 접속이 안 될 정도였고, 구단 주가는 8%나 올라갔다.■'호날두 효과' 맨유, 단숨에 우승 후보!유럽 여름 이적 시장이 이렇게 뜨거운 적이 있었나? 메시가 파리 생제르맹 유니폼을 입고 오늘(30일) 데뷔전을 치렀다. 메시에 이어 호날두의 맨유 복귀전도 보름 안에 열릴 가능성이 크다. 호날두는 포르투갈의 월드컵 예선에 출전한 뒤 오는 11일 '꿈의 구장' 올드 트래퍼드에서 열릴 뉴캐슬전에 나설 전망이다. 공교롭게도 호날두는 맨유 시절 뉴캐슬과의 마지막 대결에서 해트트릭을 작성하며 6대 0 대승을 이끈 기분 좋은 기억도 있다.ESPN은 호날두의 가세로 맨유 스쿼드의 깊이가 엄청나졌다고 평가했다. 이적 시장 마감일까지 지켜봐야겠지만, 최전방에는 호날두와 카바니, 개막 후 3경기 연속 골 맛을 본

In [193]:
url = 'http://news.kmib.co.kr/article/view.asp?arcid=0016216715&code=61121111&sid1=soc&cp=nv2'
res = requests.get(url)

soup = BeautifulSoup(res.content.decode('euc-kr', 'replace'), 'lxml')

title = soup.find('div', class_="nwsti")
print(title.find('h3').get_text())

articles = soup.find('div', id="articleBody")
articles.get_text().split('\n')[2].split('\r')[0]

백신 맞고 백혈병 판정 잇따라…이번엔 태권도 관장


'뉴시스코로나19 백신을 접종받은 뒤 백혈병 진단을 받았다는 내용의 국민청원이 잇따르고 있다.27일 청와대 국민청원 게시판에는 ‘건강한 30대 중반 태권도 관장 저희 형이 얀센 백신 접종 후 급성 골수성 백혈병 진단을 받았습니다’라는 제목의 청원이 게재됐다.청원인 A씨는 “감기 한번 크게 걸린 적 없는 형이 얀센 백신을 맞고 급성 골수성 백혈병 진단을 받았다”고 글을 시작했다.청원에 따르면 A씨의 형인 B씨는 대전에서 태권도 도장을 운영하고 있다. 아이들을 가르치던 B씨는 ‘예비군에게 얀센 백신을 접종한다’는 말에 서둘러 접종을 마쳤다. 하지만 접종 후 몸 상태가 좋지 않아 보건소에 이의 신청을 했다. 동네 병원에서는 피검사 결과가 좋지 않다며 대학병원에서 정밀검사를 받으라고 진단했다.청와대 국민청원 캡처A씨는 “대학병원에서 골수검사를 받은 결과 급성 골수성 백혈병이라는 진단을 받았다”며 “TV로만 보던 (백신) 부작용이 우리 가족에게, 내 형한테 일어날 줄은 상상도 못했다”고 토로했다.이어 “평생 운동하고 건강하던 형이 이렇게 된 현실을 인정할 수 없다”며 “지금은 조카 얼굴을 보는 것조차 힘들어할 정도로 체력이 많이 떨어진 상태”라고 전했다.A씨는 “형이 잘못한 건 100% 인정되지 않은 백신을 생업과 가족을 위해 너무 급하게 맞은 걸까요”라고 물었다. 또 “우리 말고도 많은 분들이 백신으로 인해 급성 백혈병 진단 등 부작용을 겪고 있다. 하지만 이런 일들이 묻히고 있다”고 말했다.그러면서 “정부가 백신과 관련된 부작용과 피해자 가족에 대해 적합한 보상을 해달라”고 호소했다.이 청원은 사전 동의 기준인 100명을 넘어 관리자가 공개 여부를 검토 중이다. 30일 오전 9시 기준 5600명 이상의 동의를 받았다.코로나19 백신 접종 후 급성 골수성 백혈병 진단을 받았다는 사례는 이번이 처음이 아니다.최근 대구에 체육교사로 근무 중이던 30대 예비신랑이 화이자 백신 1차 접종 후 백혈병 판정을 받았다는 청원글이 올라왔다. 청원인은 “평소 술, 담배를 하지 않고 

## 7. 실전연습(네이버 웹툰)

In [1]:
#html문서를 lxml파서를 통해서 beautiful 객체로 만들기. soup는 모든걸 가지고 있다.
import requests
from bs4 import BeautifulSoup

url = "https://comic.naver.com/webtoon/weekday.nhn"
res = requests.get(url)

soup = BeautifulSoup(res.text, 'lxml')

print(soup.title)
print(soup.title.get_text())
print(soup.a)
print(soup.a.attrs)
print(soup.a['href'])

<title>네이버 만화 &gt; 요일별  웹툰 &gt; 전체웹툰</title>
네이버 만화 > 요일별  웹툰 > 전체웹툰
<a href="#menu" onclick="document.getElementById('menu').tabIndex=-1;document.getElementById('menu').focus();return false;"><span>메인 메뉴로 바로가기</span></a>
{'href': '#menu', 'onclick': "document.getElementById('menu').tabIndex=-1;document.getElementById('menu').focus();return false;"}
#menu


### 7.1. 웹툰올리기 tag 가져오기

In [2]:
print(soup.find('a', attrs={'class':'Nbtn_upload'}))
print(soup.find(attrs={'class':'Nbtn_upload'}))

<a class="Nbtn_upload" href="/mypage/myActivity" onclick="nclk_v2(event,'olk.upload');">웹툰 올리기</a>
<a class="Nbtn_upload" href="/mypage/myActivity" onclick="nclk_v2(event,'olk.upload');">웹툰 올리기</a>


### 7.2. 인기 급상승 만화 tag 가져오기

In [5]:
rank1 = soup.find('li', class_="rank01")
print(rank1)
print()
print(rank1.a)
print()
print(rank1.a.get_text())
print()
print('https://comic.naver.com'+rank1.a['href'])

<li class="rank01">
<a href="/webtoon/detail?titleId=703846&amp;no=177" onclick="nclk_v2(event,'rnk*p.cont','703846','1')" title="여신강림-172화">여신강림-172화</a>
<span class="rankBox">
<img alt="변동없음" height="10" src="https://ssl.pstatic.net/static/comic/images/migration/common/arrow_no.gif" title="변동없음" width="7"/> 0
						
					
				</span>
</li>

<a href="/webtoon/detail?titleId=703846&amp;no=177" onclick="nclk_v2(event,'rnk*p.cont','703846','1')" title="여신강림-172화">여신강림-172화</a>

여신강림-172화

https://comic.naver.com/webtoon/detail?titleId=703846&no=177


- 인기 급상승 만화 정보 가져오기

In [21]:
rank1 = soup.find('li', attrs={'class':"rank01"})
print(rank1.a.get_text())

rank2 = rank1.next_sibling.next_sibling
print(rank2.a.get_text())

rank3 = rank2.next_sibling.next_sibling
print(rank3.a.get_text())

rank2 = rank3.previous_sibling.previous_sibling
print(rank2.a.get_text())

여신강림-172화
한림체육관-66화
사신소년-112화 ㅆ발
한림체육관-66화


- find_next_sibling()

In [28]:
rank2 = rank1.find_next_sibling('li')
print(rank2.a.get_text())

rank3 = rank2.find_next_sibling('li')
print(rank3.a.get_text())

한림체육관-66화
사신소년-112화 ㅆ발


- find_next_siblings()

In [31]:
# iterable
rank1 = soup.find('li', attrs={'class':"rank01"})
print(rank1.a.get_text())

ranks = rank1.find_next_siblings('li')
for rank in ranks:
    print(rank.a.get_text())

여신강림-172화
한림체육관-66화
사신소년-112화 ㅆ발
중증외상센터 : 골든 아워-2부 15화 : 알릴 건 알려야지
하루만 네가 되고 싶어-88. 삼자대면(2)
랜덤채팅의 그녀!-197. 내로남불
달콤살벌한 부부-52화
엽총소년-27화
용사가 돌아왔다-13화 용사들(1)
신도림-시즌2 93. 그릇


In [34]:
ranks = soup.find('ol', attrs={'class':'asideBoxRank', 'id':"realTimeRankFavorite"})

In [32]:
# 태그 가져오는 법
webtoon = soup.find('a', text='여신강림-172화')
print(webtoon)

<a href="/webtoon/detail?titleId=703846&amp;no=177" onclick="nclk_v2(event,'rnk*p.cont','703846','1')" title="여신강림-172화">여신강림-172화</a>


### 7.3. 네이버 웹툰 전체 목록 가져오기

In [45]:
# 네이버 웹툰 전체 목록 가져오기
import requests
from bs4 import BeautifulSoup

url ="https://comic.naver.com/webtoon/weekday.nhn"
res = requests.get(url)
res.raise_for_status()
soup = BeautifulSoup(res.text, "lxml")

cartoons = soup.find_all('a', class_='title')

for cartoon in cartoons:
    print(cartoon.get_text())


참교육
신의 탑
뷰티풀 군바리
윈드브레이커
팔이피플
소녀의 세계
장씨세가 호위무사
백수세끼
파이게임
앵무살수
만렙돌파
삼매경
잔불의 기사
요리GO
더블클릭
약초마을 연쇄살초사건
유일무이 로맨스
칼가는 소녀
바퀴
히어로메이커
결혼생활 그림일기
물어보는 사이
꼬리잡기
영앤리치가 아니야!
오늘의 순정망화
ㅋㄷㅋㄷ만화
리턴 투 플레이어
평범한 8반
아, 쫌 참으세요 영주님!
아는 여자애
수영만화일기
황제와의 하룻밤
장난감
홍천기
꿈의 기업
순정말고 순종
똑 닮은 딸
최후의 금빛아이
하루의 하루
와이키키 뱀파이어
야생천사 보호구역
모스크바의 여명
착한건 돈이된다
사랑의 헌옷수거함
선배, 그 립스틱 바르지 마요
왕따협상
이중첩자
원하는 건 너 하나
또다시, 계약 부부
백호랑
라서드
마지막 지수
사막에 핀 달
드로잉 레시피
중독연구소
살아간다
이탄국의 자청비
모락모락 왕세자님
그림자 신부
바로 보지 않는
개밥 먹는 남자
헬로맨스
보살님이 캐리해!
오로지 오로라
트리거
기사님을 지켜줘
여신강림
용사가 돌아왔다
덴큐
한림체육관
엽총소년
하루만 네가 되고 싶어
사신소년
중증외상센터 : 골든 아워
랜덤채팅의 그녀!
신도림
니나의 마법서랍
헬58
달콤살벌한 부부
호랑이 들어와요
천마는 평범하게 살 수 없다
집이 없어
오피스 누나 이야기
원주민 공포만화
몬스터
블랙 위도우
윌유메리미
삼국지톡
아이레
위아더좀비
하우스키퍼
빌런투킬
이상형은 아닙니다
견우와 선녀
오늘의 순정망화
플레이, 플리
용왕님의 셰프가 되었습니다
기계증식증
교환학생
아이즈
3cm 헌터
제로게임
정년이
성인초딩
올가미
빅맨
은주의 방 2~3부
악인
나타나주세요!
연우의 순정
나는 어디에나 있다
열녀박씨 계약결혼뎐
다꾸남
숲속의 담
나의 플랏메이트
오파츠
태시트
조선홍보대행사 조대박
그녀석 정복기
안식의 밤
대신 심부름을 해다오
자판귀
급식러너
연애는 전쟁!
완벽한 가족
언메이크
고등매직
프린스 메이커
지원이들
풋내기들
NG불가
하나in세인
피로만땅
인문학적 감수성
찐:종합게임동아리
헬퍼 2 : 킬베로스
전지적 독자 

## 7.4. 특정 웹툰정보 가져오기 

In [120]:
import requests
from bs4 import BeautifulSoup

# 기본 웹크롤링
url = 'https://comic.naver.com/webtoon/list?titleId=703846&weekday=tue'
res = requests.get(url)
soup = BeautifulSoup(res.text, 'lxml')

cartoons = soup.find_all('td', attrs={'class':"title"})
# rink = 'https://comic.naver.com'+cartoons[0].a['href']
# print(rink)
# print(cartoons[0])
rink = 'https://comic.naver.com'

for cartoon in cartoons:
    print(cartoon.a.get_text(), rink+cartoon.a['href'])

172화 https://comic.naver.com/webtoon/detail?titleId=703846&no=177&weekday=tue
171화 https://comic.naver.com/webtoon/detail?titleId=703846&no=176&weekday=tue
170화 https://comic.naver.com/webtoon/detail?titleId=703846&no=175&weekday=tue
169화 https://comic.naver.com/webtoon/detail?titleId=703846&no=174&weekday=tue
168화 https://comic.naver.com/webtoon/detail?titleId=703846&no=173&weekday=tue
167화 https://comic.naver.com/webtoon/detail?titleId=703846&no=172&weekday=tue
166화 https://comic.naver.com/webtoon/detail?titleId=703846&no=171&weekday=tue
165화 https://comic.naver.com/webtoon/detail?titleId=703846&no=170&weekday=tue
164화 https://comic.naver.com/webtoon/detail?titleId=703846&no=169&weekday=tue
163화 https://comic.naver.com/webtoon/detail?titleId=703846&no=168&weekday=tue


In [96]:
points = soup.find_all('div', class_='rating_type')

total_point = 0
for point in points:
    rate1 = point.find('strong').get_text()
    rate2 = point.strong.get_text()
    print(rate2)
    total_point += float(rate1)
    
print('전체점수:', total_point)
print('전체별점:', total_point/len(points))

9.20
8.17
7.65
6.39
8.17
8.47
8.34
9.45
9.55
8.78
전체점수: 84.17
전체별점: 8.417


**연습문제2) 네이버 웹툰 중에서 좋아하는 웹툰 정보(회차/링크/별점) 가지고 오기**

In [189]:
import requests
from bs4 import BeautifulSoup

url = 'https://comic.naver.com/webtoon/list?titleId=758037&weekday=mon'
res = requests.get(url)
soup = BeautifulSoup(res.text, 'lxml')


In [180]:
cartoons = soup.find_all('div', class_='rating_type')

point = []

for cartoon in cartoons:
    point.append(cartoon.find('strong').get_text())

title = soup.find('div', class_='detail')
print(title.find('h2').get_text().strip()[:7])

cartoons = soup.find_all('td', class_='title')

for idx, cartoon in enumerate(cartoons):
    cartoons = soup.find_all('td', class_='title')
    title = cartoon.a.get_text()
    link = 'https://comic.naver.com'+cartoon.a['href']
    print(title, link, point[idx])

여신강림
		
172화 https://comic.naver.com/webtoon/detail?titleId=703846&no=177&weekday=tue 9.19
171화 https://comic.naver.com/webtoon/detail?titleId=703846&no=176&weekday=tue 8.16
170화 https://comic.naver.com/webtoon/detail?titleId=703846&no=175&weekday=tue 7.65
169화 https://comic.naver.com/webtoon/detail?titleId=703846&no=174&weekday=tue 6.39
168화 https://comic.naver.com/webtoon/detail?titleId=703846&no=173&weekday=tue 8.17
167화 https://comic.naver.com/webtoon/detail?titleId=703846&no=172&weekday=tue 8.47
166화 https://comic.naver.com/webtoon/detail?titleId=703846&no=171&weekday=tue 8.34
165화 https://comic.naver.com/webtoon/detail?titleId=703846&no=170&weekday=tue 9.45
164화 https://comic.naver.com/webtoon/detail?titleId=703846&no=169&weekday=tue 9.55
163화 https://comic.naver.com/webtoon/detail?titleId=703846&no=168&weekday=tue 8.78
