# 웹 크롤링

웹 크롤링(web crawling)

파싱(parsing)

# urllib 패키지를 사용한 소스 추출

In [1]:
from urllib.request import urlopen

In [2]:
# 소스코드 가져오기
url = "https://www.tistory.com"
html = urlopen(url)
# text = html.read()

In [3]:
# text.decode()

############## BeautifulSoup() 사용 #################

In [4]:
import bs4

In [5]:
# bs4 파싱 객체
bs_obj = bs4.BeautifulSoup(html, 'html.parser')
print(bs_obj.prettify())

<!DOCTYPE html>
<html lang="ko">
 <head>
  <meta charset="utf-8"/>
  <meta content="Djy29naX64H0z8fGEOEOd-k40Sp65VRnz1sm_thWPhw" name="google-site-verification">
   <meta content="https://www.tistory.com" property="og:url"/>
   <meta content="Tistory" property="og:site_name"/>
   <meta content="Tistory" property="og:title"/>
   <meta content="좀 아는 블로거들의 유용한 이야기" property="og:description"/>
   <meta content="//t1.daumcdn.net/tistory_admin/static/images/openGraph/tistoryOpengraph.png" property="og:image"/>
   <title>
    TISTORY
   </title>
   <link href="https://t1.daumcdn.net/tistory_admin/favicon/tistory_favicon_32x32.ico" rel="icon" sizes="any"/>
   <link href="https://t1.daumcdn.net/tistory_admin/top_v2/bi-tistory-favicon.svg" rel="icon" type="image/svg+xml">
    <link href="https://t1.daumcdn.net/tistory_admin/top_v2/tistory-apple-touch-favicon.png" rel="apple-touch-icon"/>
    <link href="//t1.daumcdn.net/tistory_admin/assets/tistory-web-top/1694410865/static/css/ext/swiper.min.cs

# 태그 추출하기

In [6]:
html_str = "<html><div>hello</div></html>"

In [7]:
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')
bs_obj

<html><div>hello</div></html>

In [8]:
# 한 셀에서 여러 결과 출력
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [9]:
bs_obj.find('div') # 태그 추출
bs_obj.find('div').text # 텍스트 속성

<div>hello</div>

'hello'

In [10]:
html_str = """
<html>
    <body>
        <ul>
            <li>hello</li>
            <li>bye</li>
            <li>welcome</li>
        </ul>
    </body>
</html>
"""

In [11]:
# 파싱 객체
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')
bs_obj


<html>
<body>
<ul>
<li>hello</li>
<li>bye</li>
<li>welcome</li>
</ul>
</body>
</html>

In [12]:
ul = bs_obj.find('ul')
ul.find('li')
ul.findAll('li')

<li>hello</li>

[<li>hello</li>, <li>bye</li>, <li>welcome</li>]

In [13]:
for lis in ul.findAll('li'):
    print(lis.text)

hello
bye
welcome


#############################

In [14]:
html_str = """
<html>
    <body>
        <ul class="greet">
            <li>hello</li>
            <li>bye</li>
            <li>welcome</li>
        </ul>
        <ul class="reply">
            <li>ok</li>
            <li>no</li>
            <li>sure</li>
        </ul>
    </body>
</html>
"""

In [15]:
# 파싱 객체
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [16]:
# 클래스가 greet인 태그 추출
bs_obj.find('ul', {'class':'greet'})

<ul class="greet">
<li>hello</li>
<li>bye</li>
<li>welcome</li>
</ul>

In [17]:
ul = bs_obj.find('ul', {'class':'reply'})
for lis in ul.findAll('li'):
    print(lis.text)

ok
no
sure


#############################

In [18]:
html_str = '''
<html>
    <body>
        <h1 id='title'>Hello Python</h1>
        <p id="crawling">웹 크롤링</p>
        <p id="parsing">파싱</p>
    </body>
</html>'''

In [19]:
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [20]:
# id가 crawling
c = bs_obj.find('h1', {'id':'title'})
print(c)
print(c.text)

# id가 parsing
p = bs_obj.find('p', {'id':'parsing'})
print(p)
print(p.text)


<h1 id="title">Hello Python</h1>
Hello Python
<p id="parsing">파싱</p>
파싱


In [21]:
html_str = """
<html>
    <body>
        <h1>파이썬 프로그래밍</h1>
        <p>웹 페이지 분석</p>
        <p>크롤링</p><p>파싱</p>        
    </body>
</html>
"""

In [22]:
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [23]:
# 첫 p 태그
print(bs_obj.find('p'))
# 모든 p 태그
print(bs_obj.findAll('p'))
# 두 번째 p 태그
print(bs_obj.findAll('p')[1])

<p>웹 페이지 분석</p>
[<p>웹 페이지 분석</p>, <p>크롤링</p>, <p>파싱</p>]
<p>크롤링</p>


In [24]:
p1 = bs_obj.find('p')

p1.next_sibling # 줄바꿈도 인식한다
p1.next_sibling.next_sibling

'\n'

<p>크롤링</p>

# 속성 추출하기

In [25]:
html_str = """
<html>
    <body>
        <ul class="ko">
            <li><a href="https://www.naver.com/">네이버</a></li>
            <li><a href="https://www.daum.net/">다음</a></li>
        </ul>
        <ul class="sns">
            <li><a href="https://www.goole.com/">구글</a></li>
            <li><a href="https://www.facebook.net/">페이스북</a></li>
        </ul>
    </body>
</html>
"""

In [26]:
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [27]:
# 첫 a 태그에 있는 href 값
print(bs_obj.find('a')['href'])

https://www.naver.com/


In [28]:
for tag in bs_obj.findAll('a'):
    print(tag['href'])

https://www.naver.com/
https://www.daum.net/
https://www.goole.com/
https://www.facebook.net/


# select() 메소드

In [29]:
# CSS 선택자 방식 사용

In [30]:
html_str = """
<html>
   <body>
    	<div id="wrap">
        	<div id="mainMenuBox">                	
                <ul>  
                    <li><a href="#" id='fashion'>패션잡화</a></li>    
                    <li><a href="#">주방용품</a></li>                     	          
                    <li><a href="#">생활건강</a></li>
                    <li><a href="#">DIY가구</a></li>
                </ul>
            </div>
        	<div>
            	<table>
                	<tr><td><img src="shoes1.jpg"></td>
                    	  <td><img src="shoes2.jpg"></td>
                    	  <td><img src="shoes3.jpg"></td></tr>
                    <tr id="prdName"><td>솔로이스트<br>걸리쉬 리본단화</td>
                    	  <td>맥컬린<br>그레이가보시스트랩 펌프스</td>
                          <td>맥컬린<br>섹슈얼인사이드펌프스</td></tr>
                    <tr id="price"><td>100,000원</td><td>200,000원</td><td>120,000원</td></tr>
                </table>
            </div>
            <div id="out_box">
            	<div class="box">
                	<h4>공지사항</h4>
                    <hr>
                    <a href="#">[배송] : 무표배송 변경 안내 23.08.20</a><br>
                    <a href="#">[전시] : DIY 가구 전시 안내 23.08.31</a><br>
                    <a href="#">[판매] : 11월 특가 상품 안내 23.09.05</a><br>
                    <div>공지사항 확인 필수</div>
                </div>
                <div class="box">
                	<h4>커뮤니티</h4>
                    <hr>
                    <a href="#">[레시피] : 살 안찌는 야식 만들기</a><br>
                    <a href="#">[가구] : 헌집 새집 베스트 가구</a><br>
                    <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a><br>
                    <div>커뮤니티 확인 요청</div>
                 </div>
            </div>            
        </div>
    </body>
</html>"""

In [31]:
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')
for a in bs_obj.findAll('a'):
    print(a.text)

패션잡화
주방용품
생활건강
DIY가구
[배송] : 무표배송 변경 안내 23.08.20
[전시] : DIY 가구 전시 안내 23.08.31
[판매] : 11월 특가 상품 안내 23.09.05
[레시피] : 살 안찌는 야식 만들기
[가구] : 헌집 새집 베스트 가구
[후기] : 배송이 잘못 됐어요 ㅠㅠ


In [32]:
# id가 mainMenuBox
print(bs_obj.select('#mainMenuBox'))

[<div id="mainMenuBox">
<ul>
<li><a href="#" id="fashion">패션잡화</a></li>
<li><a href="#">주방용품</a></li>
<li><a href="#">생활건강</a></li>
<li><a href="#">DIY가구</a></li>
</ul>
</div>]


In [33]:
print(bs_obj.select('#mainMenuBox li'))

[<li><a href="#" id="fashion">패션잡화</a></li>, <li><a href="#">주방용품</a></li>, <li><a href="#">생활건강</a></li>, <li><a href="#">DIY가구</a></li>]


In [34]:
# class가 box
print(bs_obj.select('.box a'))

[<a href="#">[배송] : 무표배송 변경 안내 23.08.20</a>, <a href="#">[전시] : DIY 가구 전시 안내 23.08.31</a>, <a href="#">[판매] : 11월 특가 상품 안내 23.09.05</a>, <a href="#">[레시피] : 살 안찌는 야식 만들기</a>, <a href="#">[가구] : 헌집 새집 베스트 가구</a>, <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a>]


In [35]:
print(bs_obj.select('#fashion')[0].text)

패션잡화


In [36]:
print(bs_obj.select('div.box:first-child div')[0].text)

공지사항 확인 필수
