## 파이썬을 이용한 웹 데이터 수집(크롤링) 
1. 서버에게 문서(정보)요청 후 응답되는 정보를 변수에 저장(문자열로 저장)
    - 관련 패키지 : urllib, requests
        1. 접속 후 응답 : urllib.urlopen(서버주소), requests.get(서버주소)
        2. 1번 결과 데이터에서 read()로 코드 읽어오기(html)
            - text 속성을 이용해 읽을 수도 있음
<hr>       
2. 저장된 변수(문서)에서 원하는 내용을 추출하기(파싱)
    - 파싱 : 문자열에서 패턴을 찾아 원하는 정보를 추출하는 과정
    - BeautifulSoup 패키지 사용
        - find() 관련 함수 사용
        - 패턴을 사용 => html의 예약어를 활용



### urllib 패키지 
- url을 넘겨주면 데이터를 텍스트 형태로 반환(기본 내장 패키지)
- urllib2, urllib3 다른 버전 사용
- requests 패키지를 사용할 수도 있음


In [1]:
import requests
# 파이썬 기본 패키지 : http 요청을 보내는 라이브러리
# 브라우저처럼 작동

In [2]:
url = 'http://www.tistory.com'
response = requests.get(url)  # 에러가 없으면 서버는 무조건 반응했다는 뜻(뭔가를 전달함)

In [3]:
# 전달된 data가 모두 정상적인 코드가 아닐 수도 있음
# 정상 응답을 했는지 확인
response.status_code  # 서버의 응답에 대한 상태코드

200

### status_code
- 200번대 : 정상응답 
- 400번대 : 클라이언트의 요청이 잘못되었다의 의미(url 주소가 틀렸거나 권한이 없는 페이지를 요청했거나 등)
- 500번대 : 클라이언트는 문법에 맞게 요청을 했는데, 서버측에서 인증이 안되었거나, 서버가 망가졌거나의 상태

In [4]:
response.text

'\n\t<!doctype html>\n\t<html lang="ko">\n\t<head>\n\t\t<meta charset="utf-8">\n\t\t<meta name="google-site-verification" content="Djy29naX64H0z8fGEOEOd-k40Sp65VRnz1sm_thWPhw" />\n<meta property="og:url" content="https://www.tistory.com">\n<meta property="og:site_name" content="Tistory">\n<meta property="og:title" content="Tistory">\n<meta property="og:description" content="좀 아는 블로거들의 유용한 이야기">\n<meta property="og:image" content="//t1.daumcdn.net/tistory_admin/static/images/openGraph/tistoryOpengraph.png">\n\t\t<title>TISTORY</title>\n<link rel="icon" href="https://t1.daumcdn.net/tistory_admin/favicon/tistory_favicon_32x32.ico" sizes="any">\n<link rel="icon" type="image/svg+xml" href="https://t1.daumcdn.net/tistory_admin/top_v2/bi-tistory-favicon.svg" />\n<link rel="apple-touch-icon" href="https://t1.daumcdn.net/tistory_admin/top_v2/tistory-apple-touch-favicon.png">\t\t<link rel="stylesheet" type="text/css" href="//t1.daumcdn.net/tistory_admin/assets/tistory-web-top/1689657048/static/c

In [5]:
type(response.text)  # 문자열이다. 문자열에서 내가 원하는거 추출하는 것 => 파싱

str

In [7]:
import bs4
# bs4 객체 생성 : bs4.BeautifulSoup(파싱할 문자열, '파서기') 
# 'html.parser', 'xml.parser', 'XML' 등으로 text의 종류에 맞게 작성하면 됨
# html이나 xml이나 형식이 거의 비슷함 : 어떤걸 선택해도 무방할 정도로 파싱이 가능하다.
bs_obj = bs4.BeautifulSoup(response.text, 'html.parser')
print(bs_obj.prettify()) # 대상 문자열을 정리해서 출력해주는 함수

<!DOCTYPE html>
<html lang="ko">
 <head>
  <meta charset="utf-8"/>
  <meta content="Djy29naX64H0z8fGEOEOd-k40Sp65VRnz1sm_thWPhw" name="google-site-verification">
   <meta content="https://www.tistory.com" property="og:url"/>
   <meta content="Tistory" property="og:site_name"/>
   <meta content="Tistory" property="og:title"/>
   <meta content="좀 아는 블로거들의 유용한 이야기" property="og:description"/>
   <meta content="//t1.daumcdn.net/tistory_admin/static/images/openGraph/tistoryOpengraph.png" property="og:image"/>
   <title>
    TISTORY
   </title>
   <link href="https://t1.daumcdn.net/tistory_admin/favicon/tistory_favicon_32x32.ico" rel="icon" sizes="any"/>
   <link href="https://t1.daumcdn.net/tistory_admin/top_v2/bi-tistory-favicon.svg" rel="icon" type="image/svg+xml">
    <link href="https://t1.daumcdn.net/tistory_admin/top_v2/tistory-apple-touch-favicon.png" rel="apple-touch-icon"/>
    <link href="//t1.daumcdn.net/tistory_admin/assets/tistory-web-top/1689657048/static/css/ext/swiper.min.cs

In [8]:
bs_obj.find_all('a')  # 페이지에서 나타나는 모든 a태그를 찾아달라
# <a href='주소'>텍스트</a>

[<a href="#kakaoBody">본문 바로가기</a>,
 <a href="#kakaoLnb">메뉴 바로가기</a>,
 <a class="#logo img_common_tistory tit_tistory" href="/" id="kakaoServiceLogo">티스토리</a>,
 <a class="link_gnb" href="/feed">피드</a>,
 <a class="link_gnb" href="/category">스토리</a>,
 <a class="link_gnb" href="/skin">스킨</a>,
 <a class="link_gnb" href="/community">포럼</a>,
 <a class="link_log_info" href="/auth/login?redirectUrl=http%3A%2F%2Fwww.tistory.com%2F">로그인하기</a>,
 <a class="btn_tistory btn_log_info" href="/member/join">가입하기</a>,
 <a class="btn_tistory btn_tistory_type5" href="https://notice.tistory.com/2637">자세히보기</a>,
 <a class="btn_tistory btn_tistory_type5" href="https://notice.tistory.com/2635">자세히보기</a>,
 <a class="btn_tistory" href="https://notice.tistory.com/2572">자세히 보기</a>,
 <a class="btn_tistory" href="https://notice.tistory.com/2553">자세히 보기</a>,
 <a class="btn_tistory" href="https://notice.tistory.com/2523">자세히 보기</a>,
 <a class="site_exam" href="http://so-oh.tistory.com/category" target="_blank">
 <div c

In [10]:
type(bs_obj.find_all('a'))
# bs4.element.ResultSet 은 접근은 list처럼 사용하면 된다.
# - 이 객체를 이용해서 하위태그 파싱 가능

bs4.element.ResultSet

In [12]:
# 접근
bs_obj.find_all('a')[0].text

'본문 바로가기'

In [15]:
# 하위 태그 추출 - resultset(find_all 사용 불가)
# bs_obj.find_all('a').find_all()  # 시도했지만 불가능

In [16]:
# 태그 파라미터 추출
bs_obj.find_all('a')[5]['href']

'/skin'

#### BeautifulSoup 패키지의 파싱 함수
- find(태그,[{속성명:속성값}])
    - 지정한 태그 중 첫번째 만나는 태그만 추출 또는 지정한 태그 중 해당 속성과 속상값을 갖고있는 태그의 첫번째 태그
- findAll(태그,[{속성명:속성값}])
    - 지정한 태그 모두 찾아서 추출
    - 첫번째 이외의 태그를 추출할 때 사용
    - list 형태로 반환
- find_all(태그,[{속성명:속성값}])
    - findAll 함수와 동일

In [25]:
# test html
html_str = '<html><head></head><body>바디부분<div>실제 화면에 출력할 코드</div></body></html>'

bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')
type(bs_obj)  # bs4.BeautifulSoup 객체 => 관련함수 사용 가능
print(bs_obj)

<html><head></head><body>바디부분<div>실제 화면에 출력할 코드</div></body></html>


In [26]:
bs_obj.find('body') # 여는 body태그와 닫는 body 태그 사이 모두 출력
bs_obj.find('body').text # body 태그 내부 텍스트 출력(화면에 표시되는 문자)
# body 태그 사이에 div 태그가 있지만 text는 태그 사이에 있는 다른 태그들은 무시하고 text만 가지고 온다.

'바디부분실제 화면에 출력할 코드'

In [27]:
html_str = """
<html>
    <body>
        <ul>
            <li>hello</li>
            <li>bye</li>
            <li>welcome</li>
        </ul>
    </body>
</html>
"""
# ul : 목록태그 li : 목록안의 item 태그  => 메뉴구성시 많이 사용

In [28]:
# bs4 객체 생성
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [30]:
ul_t = bs_obj.find('ul') # 처음 ul 태그 1개를 추출
ul_t
type(ul_t)  # bs4.element.Tag

bs4.element.Tag

In [33]:
ul_t.find('li')  # ul_t 객체 안에서 첫번째 만나는 li태그를 반환

<li>hello</li>

In [42]:
uls = ul_t.find_all('li')  # ul_t 객체 안의 모든 li 태그를 list 형태로 반환
type(uls)  # bs4.element.ResultSet
uls 

[<li>hello</li>, <li>bye</li>, <li>welcome</li>]

In [43]:
type(uls[0])  # tag객체
uls[0].text

'hello'

In [44]:
for li in uls:
    print(li.text)

hello
bye
welcome


In [46]:
ul_t.text
# ul_t 태그 내부에 있는 모든 text를 문자열로 묶어서 반환

'\nhello\nbye\nwelcome\n'

In [47]:
ul_t.text.split('\n')

['', 'hello', 'bye', 'welcome', '']

### 속성이 추가된 태그의 파싱

In [48]:
html_str = """
<html>
    <body>
        <ul class="greet">
            <li>hello</li>
            <li>bye</li>
            <li>welcome</li>
        </ul>
        <ul class="reply">
            <li>ok</li>
            <li>no</li>
            <li>sure</li>
        </ul>
    </body>
</html>
"""

In [49]:
# bs4 객체 생성
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [50]:
# ul 태그를 추출
bs_obj.find('ul')
# 첫번째 ul 태그 추출

<ul class="greet">
<li>hello</li>
<li>bye</li>
<li>welcome</li>
</ul>

In [52]:
# 두번째 ul 태그 추출
bs_obj.findAll('ul')[1]

<ul class="reply">
<li>ok</li>
<li>no</li>
<li>sure</li>
</ul>

In [53]:
# 두번째 ul 태그 추출 - 속성을 이용해 추출
# 확인결과 class 속성값이 reply로 설정되어 있음
bs_obj.find('ul', {'class':'reply'})

<ul class="reply">
<li>ok</li>
<li>no</li>
<li>sure</li>
</ul>

In [55]:
# 두번째 ul 태그 추출 - 속성을 이용해 추출
# 확인결과 class 속성값이 reply로 설정되어 있음
# findAll을 사용하면 추출한 태그가 하나라도 list 형태로 반환 => 접근시 index 사용해야함
bs_obj.findAll('ul', {'class':'reply'})[0]

<ul class="reply">
<li>ok</li>
<li>no</li>
<li>sure</li>
</ul>

- html 태그의 class 속성의 값은 중복될 수 있음
    - ex) \<li class='a'>1</li>
    -     <li class='a'>2</li>
    - bs_obj.find('li',{'class':'a'}) 실행하면 첫번째 li가 나옴
    - 클래스 속성값이 같은 태그는 같은 css, 같은 의미의 내용이 있는 경우가 대부분

In [59]:
# class 속성값이 greet인 ul태그내의 모든 li태그를 추출
# class 속성값이 greet인 ul태그는 첫번째 ul
bs_obj.find('ul').find_all('li')
# 모든 ul을 찾아서 첫번째 ul 태그 추출
bs_obj.find_all('ul')[0].find_all('li')
# 클래스 속성값 이용
bs_obj.find('ul',{'class':'greet'}).find_all('li')
bs_obj.findAll('ul',{'class':'greet'})[0].find_all('li')

[<li>hello</li>, <li>bye</li>, <li>welcome</li>]

### 태그 속성 id
- id 속성 : 태그를 구별하고 명시적으로 지칭하기 위해 사용(css에 적용하기 위해)
    - id 속성값은 유일함(특정 태그를 추출할 때)

In [60]:
html_str = """
<html>
    <body>
        <h1 id='title'>Hello Python</h1>
        <p id="crawling">웹 크롤링</p>
        <p id="parsing">파싱</p>
    </body>
</html>"""

In [61]:
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [62]:
# id 속성을 이용해서 추출할 때는 find만 써도 됨
bs_obj.find('h1',{'id':'title'})

<h1 id="title">Hello Python</h1>

In [63]:
# p 태그 중 id 속성값이 parsing인 태그 추출
bs_obj.find('p',{'id':'parsing'})

<p id="parsing">파싱</p>

### bs4 형제 노드 찾기


In [64]:
html_str = """
<html>
    <body>
        <h1>파이썬 프로그래밍</h1>
        <p>웹 페이지 분석</p><p>크롤링</p><p>파싱</p>        
    </body>
</html>
"""

In [65]:
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [70]:
p1 = bs_obj.find('p') # 첫번째 p태그 추출한 객체를 변수에 저장

In [71]:
p1.next_sibling # 첫번째 다음 p태그(두번째 p태그 추출)

<p>크롤링</p>

In [72]:
p1.next_sibling.next_sibling # 첫번째 다음 다음 p태그(세번째 p태그 추출)

<p>파싱</p>

### 논리적인 형제 태그와, find()함수계열에서 보는 형제태그의 의미가 살짝 다르다

In [73]:
# 형제노드 : 어떤 노드(태그)와 계층이 동일한 노드는 형제노드(포함관계로 같은)
"""
<html>                             => 최상위 태그
    <body>                          => html 태그의 자식/자손 태그
        <h1>파이썬 프로그래밍</h1>   => html 태그의 자손 태그
        <p>웹 페이지 분석</p>        => h1 태그를 기준으로 형제태그
        <p>크롤링</p>                => h1 태그를 기준으로 형제태그
        <p>파싱</p>                  => h1 태그를 기준으로 형제태그        
    </body>
</html>
"""

"""
find()계열함수 에서 적용되는 형제 태그의 의미

<html>                             => 최상위 태그
    <body>                          => html 태그의 자식/자손 태그
        <h1>파이썬 프로그래밍</h1>   => html 태그의 자손 태그, h1 태그의 형제태그는 없음, h1 태그는 한번밖에 없기 때문에
        <p>웹 페이지 분석</p>        => 첫번째 p태그
        <p>크롤링</p>                => 첫번째 p태그 기준으로 다음 형제태그
        <p>파싱</p>                  => 첫번째 p태그 기준으로 다음 다음 형제태그        
    </body>
</html>
"""

'\n<html>                             => 최상위 태그\n    <body>                          => html 태그의 자식/자손 태그\n        <h1>파이썬 프로그래밍</h1>   => html 태그의 자손 태그\n        <p>웹 페이지 분석</p>        => h1 태그를 기준으로 형제태그\n        <p>크롤링</p>                => h1 태그를 기준으로 형제태그\n        <p>파싱</p>                  => h1 태그를 기준으로 형제태그        \n    </body>\n</html>\n'

In [76]:
h1_t = bs_obj.find('h1')
h1_t.next_sibling
# h1_t에 속한 h1 태그는 문서 전체에서 한번 나타남
# \n 이라고 더이상 없다는 의미의 값이 출력됨

'\n'

### 속성값 추출하기
- a 태그의 href 속성 추출(href는 링크 주소를 갖고 있음)


In [77]:
html_str = """
<html>
    <body>
        <ul class="ko">
            <li><a href="https://www.naver.com/">네이버</a></li>
            <li><a href="https://www.daum.net/">다음</a></li>
        </ul>
        <ul class="sns">
            <li><a href="https://www.goole.com/">구글</a></li>
            <li><a href="https://www.facebook.net/">페이스북</a></li>
        </ul>
    </body>
</html>
"""

In [78]:
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [80]:
a = bs_obj.find_all('a') # href 속성이 a 태그 속성임
a

[<a href="https://www.naver.com/">네이버</a>,
 <a href="https://www.daum.net/">다음</a>,
 <a href="https://www.goole.com/">구글</a>,
 <a href="https://www.facebook.net/">페이스북</a>]

In [81]:
a[0]['href']

'https://www.naver.com/'

In [82]:
hrefs = []
name = []
for h in a :
    name.append(h.text)
    hrefs.append(h['href'])

In [84]:
hrefs
name

['네이버', '다음', '구글', '페이스북']

In [86]:
import pandas as pd
pd.DataFrame({'site명': name,
             'siteURL': hrefs})

Unnamed: 0,site명,siteURL
0,네이버,https://www.naver.com/
1,다음,https://www.daum.net/
2,구글,https://www.goole.com/
3,페이스북,https://www.facebook.net/


In [87]:
import bs4

html_str = """
<html>
   <body>
    	<div id="wrap">
        	<div id="mainMenuBox">                	
                <ul>  
                    <li><a href="#">패션잡화</a></li>    
                    <li><a href="#">주방용품</a></li>                     	          
                    <li><a href="#">생활건강</a></li>
                    <li><a href="#">DIY가구</a></li>
                </ul>
            </div>
        	<div>
            	<table>
                	<tr><td><img src="shoes1.jpg"></td>
                    	  <td><img src="shoes2.jpg"></td>
                    	  <td><img src="shoes3.jpg"></td></tr>
                    <tr id="prdName"><td>솔로이스트<br>걸리쉬 리본단화</td>
                    	  <td>맥컬린<br>그레이가보시스트랩 펌프스</td>
                          <td>맥컬린<br>섹슈얼인사이드펌프스</td></tr>
                    <tr id="price"><td>100,000원</td><td>200,000원</td><td>120,000원</td></tr>
                </table>
            </div>
            <div id="out_box">
            	<div class="box">
                	<h4>공지사항</h4>
                    <hr>
                    <a href="#">[배송] : 무표배송 변경 안내 18.10.20</a><br>
                    <a href="#">[전시] : DIY 가구 전시 안내 18.10.31</a><br>
                    <a href="#">[판매] : 11월 특가 상품 안내 18.11.05</a>                               
                </div>
                <div class="box">
                	<h4>커뮤니티</h4>
                    <hr>
                    <a href="#">[레시피] : 살 안찌는 야식 만들기</a><br>
                    <a href="#">[가구] : 헌집 새집 베스트 가구</a><br>
                    <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a><br>
                 </div>
            </div>            
        </div>
    </body>
</html>"""

In [88]:
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [89]:
# 모든 a 태그
bs_obj.find_all('a')

[<a href="#">패션잡화</a>,
 <a href="#">주방용품</a>,
 <a href="#">생활건강</a>,
 <a href="#">DIY가구</a>,
 <a href="#">[배송] : 무표배송 변경 안내 18.10.20</a>,
 <a href="#">[전시] : DIY 가구 전시 안내 18.10.31</a>,
 <a href="#">[판매] : 11월 특가 상품 안내 18.11.05</a>,
 <a href="#">[레시피] : 살 안찌는 야식 만들기</a>,
 <a href="#">[가구] : 헌집 새집 베스트 가구</a>,
 <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a>]

### bs4.select(태그의 selector)
- 태그나 속성을 이용해서 지칭하는 selector 기능을 사용해서 추출하는 함수
    - 속성의 기호 : class(.), id(#), 자식태그(>), 자손태그(한칸띄어쓰기)    

In [90]:
# 모든 a 태그를 selector로 추출
# 태그명 : 태그선택자
bs_obj.select('a')

[<a href="#">패션잡화</a>,
 <a href="#">주방용품</a>,
 <a href="#">생활건강</a>,
 <a href="#">DIY가구</a>,
 <a href="#">[배송] : 무표배송 변경 안내 18.10.20</a>,
 <a href="#">[전시] : DIY 가구 전시 안내 18.10.31</a>,
 <a href="#">[판매] : 11월 특가 상품 안내 18.11.05</a>,
 <a href="#">[레시피] : 살 안찌는 야식 만들기</a>,
 <a href="#">[가구] : 헌집 새집 베스트 가구</a>,
 <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a>]

In [92]:
# 모든 a 태그를 selector로 추출
# 태그명 : 태그선택자
bs_obj.select('div')  # 계층을 모두 순회하면서 div를 찾는다

[<div id="wrap">
 <div id="mainMenuBox">
 <ul>
 <li><a href="#">패션잡화</a></li>
 <li><a href="#">주방용품</a></li>
 <li><a href="#">생활건강</a></li>
 <li><a href="#">DIY가구</a></li>
 </ul>
 </div>
 <div>
 <table>
 <tr><td><img src="shoes1.jpg"/></td>
 <td><img src="shoes2.jpg"/></td>
 <td><img src="shoes3.jpg"/></td></tr>
 <tr id="prdName"><td>솔로이스트<br/>걸리쉬 리본단화</td>
 <td>맥컬린<br/>그레이가보시스트랩 펌프스</td>
 <td>맥컬린<br/>섹슈얼인사이드펌프스</td></tr>
 <tr id="price"><td>100,000원</td><td>200,000원</td><td>120,000원</td></tr>
 </table>
 </div>
 <div id="out_box">
 <div class="box">
 <h4>공지사항</h4>
 <hr/>
 <a href="#">[배송] : 무표배송 변경 안내 18.10.20</a><br/>
 <a href="#">[전시] : DIY 가구 전시 안내 18.10.31</a><br/>
 <a href="#">[판매] : 11월 특가 상품 안내 18.11.05</a>
 </div>
 <div class="box">
 <h4>커뮤니티</h4>
 <hr/>
 <a href="#">[레시피] : 살 안찌는 야식 만들기</a><br/>
 <a href="#">[가구] : 헌집 새집 베스트 가구</a><br/>
 <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a><br/>
 </div>
 </div>
 </div>,
 <div id="mainMenuBox">
 <ul>
 <li><a href="#">패션잡화</a></li>
 <li><a href=

In [94]:
len(bs_obj.select('div'))  # 추출한 div 코드가 중복될 수 있음

6

In [96]:
# id 선택자 활용 : # <= id 선택자 기호
bs_obj.select('div #mainMenuBox')  # 한칸 띄어쓰기는 자손이라는 의미 그중 # id가 mainMenuBox 를 찾아라 => 리스트로 반환

[<div id="mainMenuBox">
 <ul>
 <li><a href="#">패션잡화</a></li>
 <li><a href="#">주방용품</a></li>
 <li><a href="#">생활건강</a></li>
 <li><a href="#">DIY가구</a></li>
 </ul>
 </div>]

In [97]:
bs_obj.select('#mainMenuBox') # id는 유일  => id가 mainMenuBox 인것을 찾아라

[<div id="mainMenuBox">
 <ul>
 <li><a href="#">패션잡화</a></li>
 <li><a href="#">주방용품</a></li>
 <li><a href="#">생활건강</a></li>
 <li><a href="#">DIY가구</a></li>
 </ul>
 </div>]

In [99]:
bs_obj.select('#mainMenuBox ul') # mainMenuBox 의 자손(띄어쓰기) ul 를 찾아라

[<ul>
 <li><a href="#">패션잡화</a></li>
 <li><a href="#">주방용품</a></li>
 <li><a href="#">생활건강</a></li>
 <li><a href="#">DIY가구</a></li>
 </ul>]

In [100]:
bs_obj.select('#mainMenuBox > ul') # mainMenuBox 의 자식(>) ul 를 찾아라

[<ul>
 <li><a href="#">패션잡화</a></li>
 <li><a href="#">주방용품</a></li>
 <li><a href="#">생활건강</a></li>
 <li><a href="#">DIY가구</a></li>
 </ul>]

In [102]:
bs_obj.select('#mainMenuBox > li') # mainMenuBox 의 자식 li 를 찾아라 => 자식 li는 없음

[]

In [103]:
bs_obj.select('#mainMenuBox  li') # mainMenuBox 의 자손(띄어쓰기) li 를 찾아라

[<li><a href="#">패션잡화</a></li>,
 <li><a href="#">주방용품</a></li>,
 <li><a href="#">생활건강</a></li>,
 <li><a href="#">DIY가구</a></li>]

In [106]:
# id가 wrap인 태그의 모든 자식 div
bs_obj.select('#wrap > div')
len(bs_obj.select('#wrap > div'))  # 3개의 div가 있다

3

In [108]:
# id가 wrap인 태그의 모든 자손 div
bs_obj.select('#wrap div')
len(bs_obj.select('#wrap div')) # 5개의 div가 있다

5

In [109]:
# 클래스 선택자 . 을 이용해서 추출
# class 속성값이 box인 태그를 모두 추출
bs_obj.select('.box')

[<div class="box">
 <h4>공지사항</h4>
 <hr/>
 <a href="#">[배송] : 무표배송 변경 안내 18.10.20</a><br/>
 <a href="#">[전시] : DIY 가구 전시 안내 18.10.31</a><br/>
 <a href="#">[판매] : 11월 특가 상품 안내 18.11.05</a>
 </div>,
 <div class="box">
 <h4>커뮤니티</h4>
 <hr/>
 <a href="#">[레시피] : 살 안찌는 야식 만들기</a><br/>
 <a href="#">[가구] : 헌집 새집 베스트 가구</a><br/>
 <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a><br/>
 </div>]

In [111]:
bs_obj.select('.box')[1].select('a')

[<a href="#">[레시피] : 살 안찌는 야식 만들기</a>,
 <a href="#">[가구] : 헌집 새집 베스트 가구</a>,
 <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a>]

### 웹 크롤링 시 주의 사항
- 웹 사이트는 언제든지 변경될 수 있다. 지금은 실행되는 코드가 나중에는 의도한대로 동작하지 않을 수 있다.
    - 정적사이트가 동적사이트로 변경되기도 하고, 태그 속성값이 변화되기도 함