### urllib 패키지 사용한 소스 추출

In [2]:
from urllib.request import urlopen

In [4]:
# 응답 객체에서 소스 코드 가져오기
url = "http://www.tistory.com"
html = urlopen(url)
text = html.read()

In [6]:
text.decode('utf8')

'\n\t<!doctype html>\n\t<html lang="ko">\n\t<head>\n\t\t<meta charset="utf-8">\n\t\t<meta name="google-site-verification" content="Djy29naX64H0z8fGEOEOd-k40Sp65VRnz1sm_thWPhw" />\n<meta property="og:url" content="https://www.tistory.com">\n<meta property="og:site_name" content="Tistory">\n<meta property="og:title" content="Tistory">\n<meta property="og:description" content="좀 아는 블로거들의 유용한 이야기">\n<meta property="og:image" content="//t1.daumcdn.net/tistory_admin/static/images/openGraph/tistoryOpengraph.png">\n\t\t<title>TISTORY</title>\n<link rel="icon" href="https://t1.daumcdn.net/tistory_admin/favicon/tistory_favicon_32x32.ico" sizes="any">\n<link rel="icon" type="image/svg+xml" href="https://t1.daumcdn.net/tistory_admin/top_v2/bi-tistory-favicon.svg" />\n<link rel="apple-touch-icon" href="https://t1.daumcdn.net/tistory_admin/top_v2/tistory-apple-touch-favicon.png">\t\t<link rel="stylesheet" type="text/css" href="//t1.daumcdn.net/tistory_admin/assets/tistory-web-top/1694410865/static/c

### BeautifulSoup 사용법

In [8]:
import bs4

In [17]:
url = "https://www.tistory.com"
html = urlopen(url)

In [18]:
# parsing object 생성 -> 객체의 메소드 사용해서 추출 가능
bs_obj = bs4.BeautifulSoup(html, 'html.parser')

In [23]:
#bs_obj  # tag형식으로 받아옴

In [24]:
# 계층 구조로 표현 : 가독성이 좋음
# print(bs_obj.prettify())

In [42]:
html_str = "<html><div>hello<ul><li>Coffee</li><li>Tea</li><li>Milk</li></ul></div></html>"

In [43]:
# (1)  html code -> parsing object 로 반환
bs_obj = bs4.BeautifulSoup(html_str,'html.parser')
bs_obj

<html><div>hello<ul><li>Coffee</li><li>Tea</li><li>Milk</li></ul></div></html>

In [44]:
# 여러 줄 return 가능 하도록
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [45]:
# (2) find() method 사용해서 tag추출
# find() : 첫 번째 태그만 추출
# find('tag name')
bs_obj.find('div')   # <div>태그 추출
bs_obj.find('div').text   # 텍스트 속성 : 텍스트만(문자열) 반환

<div>hello<ul><li>Coffee</li><li>Tea</li><li>Milk</li></ul></div>

'helloCoffeeTeaMilk'

In [46]:
# (1)Create parsing object
bs_obj = bs4.BeautifulSoup(html_str,'html.parser')
bs_obj

<html><div>hello<ul><li>Coffee</li><li>Tea</li><li>Milk</li></ul></div></html>

In [48]:
# (2) <ul> 추출
ul = bs_obj.find('ul')
ul

<ul><li>Coffee</li><li>Tea</li><li>Milk</li></ul>

In [55]:
# 전부 찾기 : findAll
# return : list
ul.findAll('li')

[<li>Coffee</li>, <li>Tea</li>, <li>Milk</li>]

<li>Coffee</li>

In [63]:
# 모든 li태그의 text 추출 
lis = ul.findAll('li')
for li in lis:
    print(li.text)

Coffee
Tea
Milk


#####################

In [66]:
html_str = """
<html>
    <body>
        <ul class="greet">
            <li>hello</li>
            <li>bye</li>
            <li>welcome</li>
        </ul>
        <ul class="reply">
            <li>ok</li>
            <li>no</li>
            <li>sure</li>
        </ul>
    </body>
</html>
"""

In [67]:
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [68]:
# class 속성값이 greet 인 태그 추출
bs_obj.find('ul', {'class':'greet'})

<ul class="greet">
<li>hello</li>
<li>bye</li>
<li>welcome</li>
</ul>

In [72]:
# class 속성값이 greet 인 ul태그 내 모든 li태그의 텍스트값 출력
ul = bs_obj.find('ul', {'class':'greet'})
lis = ul.findAll('li')
for li in lis:
    print(li.text)

hello
bye
welcome


########################

In [76]:
html_str = """
    <html>
        <body>
            <h1 id='title'>Hello Python</h1>
            <p id="crawling">웹 크롤링</p>
            <p id="parsing">parsing</p>
        </body>
    </html>
"""

In [87]:
# 파싱 객체 구문 분석
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [86]:
# id가 title인 태그와 그 텍스트 추출
title = bs_obj.find('h1',{'id':'title'})
title.text

'Hello Python'

In [88]:
# id가 parsing인 태그와 텍스트
parsing = bs_obj.find('p', {'id':'parsing'})
parsing.text

'parsing'

### 형제 노드 찾기
- next_sibling

In [89]:
html_str = """
    <html>
        <body>
            <h1 id='title'>Hello Python</h1>
            <p id="crawling">웹 크롤링</p>
            <p id="parsing">parsing</p>
        </body>
    </html>
"""

In [91]:
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [93]:
# first p tag
bs_obj.find('p')

<p id="crawling">웹 크롤링</p>

In [98]:
# every p tag
bs_obj.findAll('p')
bs_obj.findAll('p')[1]        # 1 index : second p tag

[<p id="crawling">웹 크롤링</p>, <p id="parsing">parsing</p>]

<p id="parsing">parsing</p>

In [104]:
p1 = bs_obj.find('p')
p1

p1.next_sibling  # 줄바꿈 한 경우 : 형제 태그로 '\n'인식
p1.next_sibling.next_sibling
p1.next_sibling.next_sibling.next_sibling

<p id="crawling">웹 크롤링</p>

'\n'

<p id="parsing">parsing</p>

'\n'

#### 태그 내의 특정 속성의 값 추출
-  < a href="www.abc.com">
- <a> 태그의 href 속성의 속성값: www.abc.com
   

In [109]:

html_str = """
<html>
    <body>
        <ul class="ko">
            <li><a href="https://www.naver.com/">네이버</a></li>
            <li><a href="https://www.daum.net/">다음</a></li>
        </ul>
        <ul class="sns">
            <li><a href="https://www.goole.com/">구글</a></li>
            <li><a href="https://www.facebook.net/">페이스북</a></li>
        </ul>
    </body>
</html>
"""


In [110]:
# Create parsing object
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [111]:
# 첫번째 a태그
bs_obj.findAll('a')[0]

# a tag의 href속성
bs_obj.findAll('a')[0]['href']

<a href="https://www.naver.com/">네이버</a>

'https://www.naver.com/'

In [113]:
# 모든 링크 추출
a_list = bs_obj.findAll('a')
for a in a_list:
    print(a['href'])

https://www.naver.com/
https://www.daum.net/
https://www.goole.com/
https://www.facebook.net/


### Select 메소드


select() 메소드
- list 반환
- select_one() : 1개의 태그 추출
    - text 반환하고 싶으면 .text
- select() : 여러개의 태그 추출 
    - 1개라도 리스트로 반환
    - 텍스트를 추출하고 싶으면 [index].text
- CSS 선택자 그대로 사용 가능 : 아이디 선택자/ 클래스 선택자 / 태그 선택자 

- 클래스명 : 클래스 선택자
  - 같은 클래스 값을 갖는 여러개 있을 수 있음
- #id명 : 유일한 태그 (1개만 추출)
- 띄어쓰기 : 자손 선택
    - div li : div 태그의 모든 자손 li
- . > : 자식 선택
    - div > li : div 태그 내의 바로 밑의 자식 태그 li

In [114]:

html_str = """
<html>
   <body>
    	<div id="wrap">
        	<div id="mainMenuBox">                	
                <ul>  
                    <li><a href="#" id='fashion'>패션잡화</a></li>    
                    <li><a href="#">주방용품</a></li>                     	          
                    <li><a href="#">생활건강</a></li>
                    <li><a href="#">DIY가구</a></li>
                </ul>
            </div>
        	<div>
            	<table>
                	<tr><td><img src="shoes1.jpg"></td>
                    	  <td><img src="shoes2.jpg"></td>
                    	  <td><img src="shoes3.jpg"></td></tr>
                    <tr id="prdName"><td>솔로이스트<br>걸리쉬 리본단화</td>
                    	  <td>맥컬린<br>그레이가보시스트랩 펌프스</td>
                          <td>맥컬린<br>섹슈얼인사이드펌프스</td></tr>
                    <tr id="price"><td>100,000원</td><td>200,000원</td><td>120,000원</td></tr>
                </table>
            </div>
            <div id="out_box">
            	<div class="box">
                	<h4>공지사항</h4>
                    <hr>
                    <a href="#">[배송] : 무표배송 변경 안내 23.08.20</a><br>
                    <a href="#">[전시] : DIY 가구 전시 안내 23.08.31</a><br>
                    <a href="#">[판매] : 11월 특가 상품 안내 23.09.05</a><br>
                    <div>공지사항 확인 필수</div>
                </div>
                <div class="box">
                	<h4>커뮤니티</h4>
                    <hr>
                    <a href="#">[레시피] : 살 안찌는 야식 만들기</a><br>
                    <a href="#">[가구] : 헌집 새집 베스트 가구</a><br>
                    <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a><br>
                    <div>커뮤니티 확인 요청</div>
                 </div>
            </div>            
        </div>
    </body>
</html>"""

In [115]:
# 파싱 객체 생성
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [117]:
# a tag 선택자
a_list = bs_obj.select('a')

for a in a_list:
    print(a.text)

패션잡화
주방용품
생활건강
DIY가구
[배송] : 무표배송 변경 안내 23.08.20
[전시] : DIY 가구 전시 안내 23.08.31
[판매] : 11월 특가 상품 안내 23.09.05
[레시피] : 살 안찌는 야식 만들기
[가구] : 헌집 새집 베스트 가구
[후기] : 배송이 잘못 됐어요 ㅠㅠ


In [118]:
# id 선택자
# id="mainMenuBox" 인 div태그 추출
bs_obj.select('#mainMenuBox')

[<div id="mainMenuBox">
 <ul>
 <li><a href="#" id="fashion">패션잡화</a></li>
 <li><a href="#">주방용품</a></li>
 <li><a href="#">생활건강</a></li>
 <li><a href="#">DIY가구</a></li>
 </ul>
 </div>]

In [132]:
# id = "mainMenuBox" 인 div 태그 내 모든 li 태그 추출
li = bs_obj.select('#mainMenuBox li')


In [134]:
# class가 box인 태그 내에 들어있는 모든 a 태그 추출
bs_obj.select('.box a')

[<a href="#">[배송] : 무표배송 변경 안내 23.08.20</a>,
 <a href="#">[전시] : DIY 가구 전시 안내 23.08.31</a>,
 <a href="#">[판매] : 11월 특가 상품 안내 23.09.05</a>,
 <a href="#">[레시피] : 살 안찌는 야식 만들기</a>,
 <a href="#">[가구] : 헌집 새집 베스트 가구</a>,
 <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a>]

In [147]:
# '패션잡화'추출 id 
bs_obj.select('#fashion')[0].text
bs_obj.select_one('#fashion').text



'패션잡화'

'패션잡화'

In [150]:
# '공지사항 확인 필수' 추출
bs_obj.select('.box div')[0].text

'공지사항 확인 필수'