### [ 웹 스크래핑 - 정보 추출 ]
- 수집된 웹 데이터에서 필요한 정보 추출하는 작업 : 스크래핑
- 스크래핑을 편리하게 진행하기 위한 패키지 : BeautifulSoup4
- binary/str 타입의 웹 데이터 ==> 객체화 (DOM)해서 프로그램 쉽게 사용할 수 있도록 함

[1] 모듈 로딩 <hr>

In [None]:
from urllib.request import urlopen  ## web에서 URL 기반으로 다운로드
from bs4 import BeautifulSoup       ## web데이터 객체화 및 정보 추출용 모듈

[2] Markup 문자열에서 정보 추출<hr>
- CSS 선택자를 활용해서 Tag 탐색 및 추출
    * select_one() 메서드
        - 조건에 맞는 첫 번째 Tag 반환
        - find()메서드와 검색 결과 동일
    * select() 메서드
        - 조건에 맞는 모든 Tag List로 반환
        - find_all()메서드와 검색 결과 동일
- CSS 선택자
    * Tag의 id 속성 : #id명
    * Tag의 class 속성 : .class명
    * 자식 태그 : 부모태그 > 자식태그
    * 자손 태그 : 상위/부모태그 &nbsp; &nbsp; 하위/자손태그

In [None]:
## HTML파일에서 일부분만 선택 str로 저장
html_str ="""
<html>
<body>

<div id="meigen">
    <h1>위키북스 도서</h1>
    <ul class="items">
        <li>유니티 게임 이펙트 입문</li>
        <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
        <li>모던 웹사이트 디자인의 정석</li>
    </ul>
</div>

</body>
</html>
"""

In [None]:
mbs = BeautifulSoup(html_str, 'html.parser')

In [None]:
## =====================================================================
# [1] select_one() 메소드 활용 : BS객체변수명.select_one(css_selector_str)
#                              필요한 부분을 CSS 쿼리로 추출
## =====================================================================
# 1개만 추출 : 타이틀 부분
h1 = mbs.select_one("div#meigen > h1").string
print("h1 = ", h1)

# 모두 추출 : 목록 부분
li_list = mbs.select("div#meigen > ul.items > li")
for li in li_list:
    print("li =", li.string)


h1 =  위키북스 도서
li = 유니티 게임 이펙트 입문
li = 스위프트로 시작하는 아이폰 앱 개발 교과서
li = 모던 웹사이트 디자인의 정석


[ 실습 ] chap02.himl 파일에서 CSS Select로 추출 <hr>

In [None]:
## html 파일 => BS 객체 변환 저장
HTML_FILE = '../DATA/chap02.html'

with open(HTML_FILE, encoding='utf-8') as f:
    BS = BeautifulSoup(f.read(), 'html.parser')



In [None]:
## [1] id가 footer인 h1 태그 추출
BS.select_one('h1#footer') ## #은 id를 뜻함

<h1 id="footer">Footer</h1>

In [None]:
## [2] class가 footer인 h1 태그 추출
BS.select_one('a.internal_link') ## .은 클래스를 뜻함 

<a class="internal_link" href="/pages/page1.html">Page1</a>

In [None]:
## [3] 부모Tag>자식Tag로 a 태그 추출
BS.select_one('#link>.external_link')
BS.select_one('#link>.external_link2')
BS.select_one('#link>.external_link.external_link2')


<a class="external_link external_link2" href="www.google.com">google</a>

In [None]:
## [4] 상위/조상Tag   하위/자손Tag 추출
BS.select_one('div#class1 #second')

<p id="second">class1's second paragraph</p>

In [None]:
## [5] 부모/자식, 조상/자손 관계 X, 여러개 추출
BS.select_one('div#class1 #second')

[3] Naver 페이지에서 데이터 추출 <hr>

In [None]:
## (1) 웹 페이지 가져오기
from urllib.request import urlopen

N_URL = 'https://search.naver.com/search.naver?where=nexearch&sm=tab_etc&qvt=0&query=박스오피스'

data = urlopen(N_URL)
htmlBS = BeautifulSoup(data, 'html.parser')



UnicodeEncodeError: 'ascii' codec can't encode characters in position 56-60: ordinal not in range(128)

In [None]:
## (2) Pay 아이콘의 텍스트와 링크 추출
htmlBS.select('#topPayArea > a > span')

[]