파싱
- html 문서에서 원하는 내용 추출
   - 필요한 내용만 추출
   - BeautifulSoup 라이브러리 사용
      - 데이터를 추출하는데 필요한 기능이 들어있는 라이브러리 (피싱 라이브러리)
      - find() / findall()

In [35]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [1]:
from urllib.request import urlopen

In [3]:
# 셀 실행
# ctrl + enter
# shift + enter (다음 셀로 이동)

In [4]:
# 응답 객체에서 소스 코드 가져오기
url = 'https://www.tistory.com'
html = urlopen(url)
text = html.read()

In [6]:
# text.decode('utf8') # 인코딩
# 문서 전체 내용을 텍스트로 받아서 출력

In [7]:
######################################################

In [8]:
### BeautifulSoup 사용법

In [37]:
import bs4
# 오류 있으면 패키지 설치
# !pip install bs4

In [22]:
url = 'https://www.tistory.com'
html = urlopen(url)

In [23]:
# bs4 파싱 객체 반환
bs_obj = bs4.BeautifulSoup(html, 'html.parser')
# 파싱 객체가 생성되면, 객체의 메소드 사용해서 추출 가능

In [30]:
# bs_obj

In [27]:
# 계층구조 표현 : 가독성이 좋음
# print(bs_obj.prettify())

In [31]:
html_str = '<html><div>hello</div><html>'

In [32]:
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')
bs_obj

<html><div>hello</div><html></html></html>

In [36]:
# (2) find() 메소드 사용해서 태그 추출
# find() : 첫 번째 태그만 추출
# find('태그명')
bs_obj.find('div') 
bs_obj.find('div').text

<div>hello</div>

'hello'

In [39]:
html_str = """
<html>
    <body>
        <ul>
            <li>hello</li>
            <li>bye</li>
            <li>welcome</li>
        </ul>
    </body>
</html>
"""

In [40]:
# 파싱 객체 생성
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')
bs_obj


<html>
<body>
<ul>
<li>hello</li>
<li>bye</li>
<li>welcome</li>
</ul>
</body>
</html>

In [41]:
# <ul> 태그 추출
ul = bs_obj.find('ul')
ul

<ul>
<li>hello</li>
<li>bye</li>
<li>welcome</li>
</ul>

In [43]:
# <ul> 태그 중에서 첫 번째 <li> 태그만 추출
ul.find('li')

ul.findAll('li')

<li>hello</li>

[<li>hello</li>, <li>bye</li>, <li>welcome</li>]

In [54]:
# 모든 <li> 태그 내 text 추출 : 반복문 사용
for i in ul.findAll('li'):
    print(i.text)

hello
bye
welcome


In [55]:
#################################################

In [56]:
# 태그 중에 특정 속성을 갖고 있는 태그 추출
# find('태그명', {'속성명':'속성값'})
# ('ul', {'class':'greet'})

In [57]:
html_str = """
<html>
    <body>
        <ul class="greet">
            <li>hello</li>
            <li>bye</li>
            <li>welcome</li>
        </ul>
        <ul class="reply">
            <li>ok</li>
            <li>no</li>
            <li>sure</li>
        </ul>
    </body>
</html>
"""

In [59]:
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')
# bs_obj

In [77]:
# class 속성값이 greet인 ul 태그 내 모든 li 태그의 텍스트 값 추출
# bs_obj.findAll('ul',{'class':'greet'}).findAll('li') -> 리스트로 반환된다
for i in bs_obj.find('ul',{'class':'greet'}).findAll('li'):
    print(i.text)

hello
bye
welcome


In [78]:
html_str = '''
<html>
    <body>
        <h1 id='title'>Hello Python</h1>
        <p id="crawling">웹 크롤링</p>
        <p id="parsing">파싱</p>
    </body>
</html>'''

In [79]:
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [84]:
# id가 title인 태그와 텍스트 추출
bs_obj.find('h1',{'id':'title'})
bs_obj.find('h1',{'id':'title'}).text

<h1 id="title">Hello Python</h1>

'Hello Python'

In [85]:
# id가 parsing인 태그와 택스트 추출
bs_obj.find('p',{'id':'parsing'})
bs_obj.find('p',{'id':'parsing'}).text

<p id="parsing">파싱</p>

'파싱'

In [None]:
# 형제 노드 찾기

In [86]:
html_str = """
<html>
    <body>
        <h1>파이썬 프로그래밍</h1>
        <p>웹 페이지 분석</p>
        <p>크롤링</p><p>파싱</p>        
    </body>
</html>
"""

In [87]:
# 파싱 객체 생성
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [88]:
# 첫 번째 p 태그
bs_obj.find('p')

<p>웹 페이지 분석</p>

In [90]:
# 모든 p 태그
bs_obj.findAll('p')
bs_obj.findAll('p')[1] # 인덱스1 번째 (두 번째) p 태그

[<p>웹 페이지 분석</p>, <p>크롤링</p>, <p>파싱</p>]

<p>크롤링</p>

In [92]:
p1 = bs_obj.find('p')
p1

p1.next_sibling # 줄바꿈한 경우 현제 태그로 '\n'을 인식
p1.next_sibling.next_sibling # <p>크롤링</p>
p1.next_sibling.next_sibling.next_sibling # 줄바꿈 안했으므로, 옆의 p 태그 <p>파싱</p>

<p>웹 페이지 분석</p>

'\n'

<p>크롤링</p>

<p>파싱</p>

#### 태그 내의 특정 속성의 값 추출
- <a href='www.abc.com'>
- <a> 태그의 href 속성의 속성값 : www.abc.com

In [93]:
html_str = """
<html>
    <body>
        <ul class="ko">
            <li><a href="https://www.naver.com/">네이버</a></li>
            <li><a href="https://www.daum.net/">다음</a></li>
        </ul>
        <ul class="sns">
            <li><a href="https://www.goole.com/">구글</a></li>
            <li><a href="https://www.facebook.net/">페이스북</a></li>
        </ul>
    </body>
</html>
"""

In [94]:
# 파싱 객체 생성
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [97]:
# 첫 번째 a 태그
bs_obj.findAll('a')[0]

# a 태그의 href 속성
bs_obj.findAll('a')[0]['href']
print(bs_obj.findAll('a')[0]['href'])

<a href="https://www.naver.com/">네이버</a>

'https://www.naver.com/'

https://www.naver.com/


In [106]:
# 모든 링크 추출
for i in bs_obj.findAll('a'):
    print(i['href'])
print()
# 두번째 방법
a_list = bs_obj.findAll('a')

for a in a_list:
    print(a['href'])

https://www.naver.com/
https://www.daum.net/
https://www.goole.com/
https://www.facebook.net/

https://www.naver.com/
https://www.daum.net/
https://www.goole.com/
https://www.facebook.net/


In [107]:
################################## select() 메소드 사용 ###################################

select() 메소드
- select_one() : 1개의 태그 추출
- select() : 여러 개의 태그 추출
- CSS 선택자 그대로 사용 가능 : 아이디 선택자 / 클래스 선택자 / 태그 선택자

- .클래스명 : 클래스 선택자
  - 같은 클래스 값을 갖는 여러 개가 있을 수 있음
- #id명 : 유일한 태그 (1개만 추출)
- 띄어 쓰기 : 자손 선택
  - div li : div 태그 내의 모든 자손 li
- > : 자식 선택
  - div > li : div 태그 내의 바로 밑의 자식 태그 li

In [108]:
html_str = """
<html>
   <body>
    	<div id="wrap">
        	<div id="mainMenuBox">                	
                <ul>  
                    <li><a href="#" id='fashion'>패션잡화</a></li>    
                    <li><a href="#">주방용품</a></li>                     	          
                    <li><a href="#">생활건강</a></li>
                    <li><a href="#">DIY가구</a></li>
                </ul>
            </div>
        	<div>
            	<table>
                	<tr><td><img src="shoes1.jpg"></td>
                    	  <td><img src="shoes2.jpg"></td>
                    	  <td><img src="shoes3.jpg"></td></tr>
                    <tr id="prdName"><td>솔로이스트<br>걸리쉬 리본단화</td>
                    	  <td>맥컬린<br>그레이가보시스트랩 펌프스</td>
                          <td>맥컬린<br>섹슈얼인사이드펌프스</td></tr>
                    <tr id="price"><td>100,000원</td><td>200,000원</td><td>120,000원</td></tr>
                </table>
            </div>
            <div id="out_box">
            	<div class="box">
                	<h4>공지사항</h4>
                    <hr>
                    <a href="#">[배송] : 무표배송 변경 안내 23.08.20</a><br>
                    <a href="#">[전시] : DIY 가구 전시 안내 23.08.31</a><br>
                    <a href="#">[판매] : 11월 특가 상품 안내 23.09.05</a><br>
                    <div>공지사항 확인 필수</div>
                </div>
                <div class="box">
                	<h4>커뮤니티</h4>
                    <hr>
                    <a href="#">[레시피] : 살 안찌는 야식 만들기</a><br>
                    <a href="#">[가구] : 헌집 새집 베스트 가구</a><br>
                    <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a><br>
                    <div>커뮤니티 확인 요청</div>
                 </div>
            </div>            
        </div>
    </body>
</html>"""

In [109]:
# 파싱 객체 생성
bs_obj = bs4.BeautifulSoup(html_str, 'html.parser')

In [110]:
# 모든 a 태그 추출
a_list = bs_obj.select('a')

# a 태그의 텍스트 추출
for a in a_list:
    print(a.text)

패션잡화
주방용품
생활건강
DIY가구
[배송] : 무표배송 변경 안내 23.08.20
[전시] : DIY 가구 전시 안내 23.08.31
[판매] : 11월 특가 상품 안내 23.09.05
[레시피] : 살 안찌는 야식 만들기
[가구] : 헌집 새집 베스트 가구
[후기] : 배송이 잘못 됐어요 ㅠㅠ


In [111]:
# id 선택자 사용
# id='mainMenuBox' 인 div 태그 추출
bs_obj.select('#mainMenuBox')

[<div id="mainMenuBox">
 <ul>
 <li><a href="#" id="fashion">패션잡화</a></li>
 <li><a href="#">주방용품</a></li>
 <li><a href="#">생활건강</a></li>
 <li><a href="#">DIY가구</a></li>
 </ul>
 </div>]

In [115]:
# id='mainMenuBox'인 div 태그 내 모든 li 태그 추출
bs_obj.select('#mainMenuBox li')

[<li><a href="#" id="fashion">패션잡화</a></li>,
 <li><a href="#">주방용품</a></li>,
 <li><a href="#">생활건강</a></li>,
 <li><a href="#">DIY가구</a></li>]

In [116]:
# class가 box인 div 태그 내 모든 a 태그 추출
bs_obj.select('.box a')

[<a href="#">[배송] : 무표배송 변경 안내 23.08.20</a>,
 <a href="#">[전시] : DIY 가구 전시 안내 23.08.31</a>,
 <a href="#">[판매] : 11월 특가 상품 안내 23.09.05</a>,
 <a href="#">[레시피] : 살 안찌는 야식 만들기</a>,
 <a href="#">[가구] : 헌집 새집 베스트 가구</a>,
 <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a>]

In [123]:
# '패션 잡화' 추출
bs_obj.select('#mainMenuBox li')[0].text
bs_obj.select('#fashion')[0].text

'패션잡화'

'패션잡화'

In [124]:
# '공지사항 확인 필수' 추출
bs_obj.select('.box div')[0].text

'공지사항 확인 필수'