## 데이터 수집

### 웹 크롤링

#### 웹 크롤링 (web crawling)
- 자동화 봇(bot)인 웹 크롤러가 정해진 규칙에 따라 복수 개의 웹 페이지를 브라우징 하는 행위
- 크롤러 : 조직적, 자동화된 방법으로 월드와이드 웹을 탐색하는 컴퓨터 프로그램이다.(출처: 위키백과)

#### 웹 스크래핑(웹 스크레이핑)(web scraping)
- 웹 사이트 상에서 원하는 부분에 위치한 정보를 컴퓨터로 하여금 자동으로 추출하여 수집하는 기술
  
#### 파싱 (parsing)
- 받아온 데이터에서 필요로 하는 내용을 추출하 는 것



### 웹 크롤링
(1) html 문서 내용 읽어오기
- url에 접속
  - urllib 패키지의 urlopen() 함수 사용
  - urllib 패키지 : url(인터넷 주소)을 넣고 실행하면 데이터를 텍스트로 형태로 반환
- html 문서  전체 내용 읽어오기
   -  read() 함수 사용

### 파싱
- html 문서에서 원하는 내용 추출
  - 필요한 내용만 추출
  - BeautifulSoup 라이브러리 사용
    - 데이터를  추출하는데 필요한 기능이 들어 있는라이브러리 (파싱 라이브러리)
    - find() / findAll() / find_all() 함수 : 태그 / 속성
    - select() / select_one() : 선택자

### 데이터 수집 방법
- BeautifulSoup 라이브러리 사용
- Selenium 라이브러리 사용 : 동적 크롤링
- Open API 사용

In [2]:
# 한 셀에서 여러 개의 결과값 출력
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

### BeautifulSoup 사용법

In [3]:
import bs4
# 또는
from bs4 import BeautifulSoup

In [4]:
# import bs4 실행해서 오류 있으면 패키지 설치
# !pip install bs4 

In [5]:
# test 용 html 문서 내용
html_str = "<html><div>hello</div></html>"

In [6]:
# BeautifulSoup(소스코드, "파서기명") => bs4 객체가 반환
BeautifulSoup(html_str,"html.parser")

<html><div>hello</div></html>

########################## 태그명으로 추출 ##############

In [7]:
bs_obj = BeautifulSoup(html_str,"html.parser")
bs_obj

<html><div>hello</div></html>

In [9]:
# {2} bs4함수중에 한개 data만 추출하는 함수 활용해서 추출 -> 태그 기준으로 찾으라 명령
# bs4_obj.find("태그명") : 해당 태그 찾아서 반환,동일 태그 여러개면 첫번째 태그만 반환
bs_obj.find("div")

# data를 포함하는 최종태그면 .text라는 속성을 이용해서 내부 문자열 추출 (.연산자 이용해서 사용)
bs_obj.find("div").text

<div>hello</div>

'hello'

In [10]:
# bs4_obj 객체의 text 속성
# 어떤 계층이던지 해당 계층내에 있는 모든 text를 반환
# text : 특수문자, 일반문자

In [13]:
html_str = """
<html>
    <body>
        <ul>
            <li>hello</li>
            <li>bye</li>
            <li>welcome</li>
        </ul>
    </body>
</html>
"""

In [48]:
# text 속성 확인
bs_obj = BeautifulSoup(html_str, "html.parser")
bs_obj.find("ul").find("li").text # 이러면 처음 만난 대상만 뱉어냄
bs_ul = bs_obj.find("ul")
bs_ul
bs_ul.find_all("li")
# bs_ul[0]

'hello'

<ul>
<li>hello</li>
<li>bye</li>
<li>welcome</li>
</ul>

[<li>hello</li>, <li>bye</li>, <li>welcome</li>]

hello
bye
welcome
hello
bye
welcome


### 여러 객체 값 찾기
- 반환 타입이 list이므로 반복문을 이용해 접근하는게 보편적

In [49]:
for li in bs_ul.find_all("li"):
    print(li.text.strip())

text_list = [li.text for li in bs_ul.find_all("li")]
result = "\n".join(text_list)
print(result)

hello
bye
welcome
hello
bye
welcome


## class 속성으로 추출
- 태그 중에 특정 속성을 갖고 있는 태그 추출
- find('태그명', {'속성명':'속성값'})
- ('ul', {'class':'greet'})

In [51]:
html_str = """
<html>
    <body>
        <ul class="greet">
            <li>hello</li>
            <li>bye</li>
            <li>welcome</li>
        </ul>
        <ul class="reply">
            <li>ok</li>
            <li>no</li>
            <li>sure</li>
        </ul>
    </body>
</html>
"""

In [58]:
bs_obj=BeautifulSoup(html_str, "html.parser")
bs_obj.find("ul")
bs_obj.find_all("ul")
bs_obj.find("ul", {"class":"reply"})
bs_obj.find_all("ul", {"class":"reply"})

<ul class="greet">
<li>hello</li>
<li>bye</li>
<li>welcome</li>
</ul>

[<ul class="greet">
 <li>hello</li>
 <li>bye</li>
 <li>welcome</li>
 </ul>,
 <ul class="reply">
 <li>ok</li>
 <li>no</li>
 <li>sure</li>
 </ul>]

<ul class="reply">
<li>ok</li>
<li>no</li>
<li>sure</li>
</ul>

[<ul class="reply">
 <li>ok</li>
 <li>no</li>
 <li>sure</li>
 </ul>]

In [62]:
bs_obj.find("ul", {"class":"reply"}).text

bs_ul = bs_obj.find("ul", {"class":"reply"})
bs_ul
for li in bs_ul.find_all("li"):
    li

'\nok\nno\nsure\n'

<ul class="reply">
<li>ok</li>
<li>no</li>
<li>sure</li>
</ul>

<li>ok</li>

<li>no</li>

<li>sure</li>

## id 속성으로 추출 
- 태그 내에 id 속성이 포함되어 있어야함

In [68]:
html_str = '''
<html>
    <body>
        <h1 id='title'>Hello Python</h1>
        <p id="crawling">웹 크롤링</p>
        <p id="parsing">파싱</p>
    </body>
</html>'''


In [69]:
bs_obj= BeautifulSoup(html_str, "html.parser")

In [72]:
# id의 속성값은 현재 소스내에서 유일해야함 - find를 이용해서 측정지어 찾으면 됨
bs_obj.find("h1") # 태그를 활용한 추출은 동일 태그가 여러번 반복되기 때문에 거의 사용 안함
bs_obj.find(id="crawling").text
bs_obj.find("h1", {"id":"title"})

<h1 id="title">Hello Python</h1>

'웹 크롤링'

<h1 id="title">Hello Python</h1>

In [73]:
bs_obj.find("p", {"id":"parsing"})
bs_obj.find("p", {"id":"parsing"}).text

<p id="parsing">파싱</p>

'파싱'

## 형제 노드 찾기
- next_sibling

In [74]:
html_str = """
<html>
    <body>
        <h1>파이썬 프로그래밍</h1>
        <p>웹 페이지 분석</p>
        <p>크롤링</p><p>파싱</p>        
    </body>
</html>
"""

In [75]:
bs_obj=BeautifulSoup(html_str,"html.parser")
bs_obj


<html>
<body>
<h1>파이썬 프로그래밍</h1>
<p>웹 페이지 분석</p>
<p>크롤링</p><p>파싱</p>
</body>
</html>

In [83]:
bs_obj.find("p") # 첫 p태그
bs_obj.find("p").next_sibling # 첫 p태그를 찾고, 그 후에 처음 나오는 같은 depth에 있는 바로 다음 요소를 추출
bs_obj.find("h1").next_sibling.next_sibling # 첫 p태그를 찾고, 그 후에 처음 나오는 같은 depth에 있는 바로 다음 요소를 추출 

bs_obj.find("p").next_sibling.next_sibling # 첫 h1 태그 이후에 같은 body태그 내의 형제인 p태그를 뱉어냄

bs_obj.find_all("p")

<p>웹 페이지 분석</p>

'\n'

<p>웹 페이지 분석</p>

<p>크롤링</p>

[<p>웹 페이지 분석</p>, <p>크롤링</p>, <p>파싱</p>]

## 태그 내의 특정 속성의 값 추출
- \<a href="www.abc.com">
- <a> 태그의 href 속성의 속성값 : www.abc.com   

    - a 태그 href 속성을 이용하면 객체가 링크하고 있는 주소 수집이 가능해짐
    - img 등 미디어 태그인 경우 src속성을 활용하면 미디어 파일이나 이미지파일을 다운받을 수 있음
    - input 태그/select option 등의 value 속성을 활용하면 연결문자등의 구성이 쉬워진다.

In [84]:

html_str = """
<html>
    <body>
        <ul class="ko">
            <li><a href="https://www.naver.com/">네이버</a></li>
            <li><a href="https://www.daum.net/">다음</a></li>
        </ul>
        <ul class="sns">
            <li><a href="https://www.google.com/">구글</a></li>
            <li><a href="https://www.facebook.com/">페이스북</a></li>
        </ul>
    </body>
</html>
"""

In [93]:
bs_obj=BeautifulSoup(html_str, "html.parser")
# bs_obj.find_all("a") # 이렇게 태그 객체를 찾는 것이 아니고, 찾아온 태그 객체 내 속성 값을 찾아야함
bs_obj.find_all("a")[0]["href"]

# 소스 내 모든 태그 요소를 가져오는 반복문을 구성해서 씀
for a_href in bs_obj.find_all("a"):
    a_href["href"]
    a_href.text
    # 동일한 기능으로는 a_href.get_text()가 있다.

'https://www.naver.com/'

'https://www.naver.com/'

'네이버'

'https://www.daum.net/'

'다음'

'https://www.google.com/'

'구글'

'https://www.facebook.com/'

'페이스북'

## select() 메소드 사용

select() 메소드
- select_one() : 1개의 태그 추출
- select() : 여러 개의 태그 추출 (리스트 반환(1개라도 리스트로 반환))
- CSS 선택자 그대로 사용 가능 : 아이디 선택자 / 클래스 선택자 / 태그 선택자

- .클래스명 : 클래스 선택자
  - 같은 클래스 값을 갖는 여러 개 있을 수 있음
- #id명 : 유일한 태그 (1개만 추출)
- 띄어 쓰기 : **자손** 선택
  - div li : div 태그 내의 모든 자손 li
- \> : 자식 선택
  - div > li : div 태그 내의 바로 밑의 자식 태그 li

In [94]:
html_str = """
<html>
   <body>
    	<div id="wrap">
        	<div id="mainMenuBox">                	
                <ul>  
                    <li><a href="#" id='fashion'>패션잡화</a></li>    
                    <li><a href="#">주방용품</a></li>                     	          
                    <li><a href="#">생활건강</a></li>
                    <li><a href="#">DIY가구</a></li>
                </ul>
            </div>
        	<div>
            	<table>
                	<tr><td><img src="shoes1.jpg"></td>
                    	  <td><img src="shoes2.jpg"></td>
                    	  <td><img src="shoes3.jpg"></td></tr>
                    <tr id="prdName"><td>솔로이스트<br>걸리쉬 리본단화</td>
                    	  <td>맥컬린<br>그레이가보시스트랩 펌프스</td>
                          <td>맥컬린<br>섹슈얼인사이드펌프스</td></tr>
                    <tr id="price"><td>100,000원</td><td>200,000원</td><td>120,000원</td></tr>
                </table>
            </div>
            <div id="out_box">
            	<div class="box">
                	<h4>공지사항</h4>
                    <hr>
                    <a href="#">[배송] : 무표배송 변경 안내 24.08.20</a><br>
                    <a href="#">[전시] : DIY 가구 전시 안내 24.08.31</a><br>
                    <a href="#">[판매] : 11월 특가 상품 안내 24.09.05</a><br>
                    <div>공지사항 확인 필수</div>
                </div>
                <div class="box">
                	<h4>커뮤니티</h4>
                    <hr>
                    <a href="#">[레시피] : 살 안찌는 야식 만들기</a><br>
                    <a href="#">[가구] : 헌집 새집 베스트 가구</a><br>
                    <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a><br>
                    <div>커뮤니티 확인 요청</div>
                 </div>
            </div>            
        </div>
    </body>
</html>"""

In [95]:
bs_obj=BeautifulSoup(html_str,"html.parser")

In [103]:
bs_obj.select("a") # 소스 안의 모든 a 태그를 한번에 가져옴, type=list
bs_obj.select_one("a")

[<a href="#" id="fashion">패션잡화</a>,
 <a href="#">주방용품</a>,
 <a href="#">생활건강</a>,
 <a href="#">DIY가구</a>,
 <a href="#">[배송] : 무표배송 변경 안내 24.08.20</a>,
 <a href="#">[전시] : DIY 가구 전시 안내 24.08.31</a>,
 <a href="#">[판매] : 11월 특가 상품 안내 24.09.05</a>,
 <a href="#">[레시피] : 살 안찌는 야식 만들기</a>,
 <a href="#">[가구] : 헌집 새집 베스트 가구</a>,
 <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a>]

<a href="#" id="fashion">패션잡화</a>

In [109]:
bs_obj.select("#mainMenuBox") # 어떤 태그로 작성된지 모르고, id만 알고 있는 경우 앞에 #을 붙여서 찾아오기 가능
len(bs_obj.select("#mainMenuBox")) # id기준으로 div 태그를 찾았고, div 하나니까 길이가 1로 잡힘
bs_obj.select_one("#mainMenuBox") # 그래서 selec_one과 똑같다

[<div id="mainMenuBox">
 <ul>
 <li><a href="#" id="fashion">패션잡화</a></li>
 <li><a href="#">주방용품</a></li>
 <li><a href="#">생활건강</a></li>
 <li><a href="#">DIY가구</a></li>
 </ul>
 </div>]

1

<div id="mainMenuBox">
<ul>
<li><a href="#" id="fashion">패션잡화</a></li>
<li><a href="#">주방용품</a></li>
<li><a href="#">생활건강</a></li>
<li><a href="#">DIY가구</a></li>
</ul>
</div>

In [110]:
# id값이 mainMenuBox인 div객체 추출
bs_obj.select_one("div#mainMenuBox") # 앞에 태그명 붙이면 코드 가독성이 좋음

<div id="mainMenuBox">
<ul>
<li><a href="#" id="fashion">패션잡화</a></li>
<li><a href="#">주방용품</a></li>
<li><a href="#">생활건강</a></li>
<li><a href="#">DIY가구</a></li>
</ul>
</div>

In [119]:
# id값이 mainMenuBox인 객체 내 모든 li태그 추출, 계층 상관없이 추출:자손선택자 사용
bs_obj.select("#mainMenuBox > li") # 이렇게 li를 자식객체로 찾으면 안나옴, 한 depth 아래만 탐색
bs_obj.select("#mainMenuBox li") # 이렇게 자손 전체로 찾게되면 나옴

[]

[<li><a href="#" id="fashion">패션잡화</a></li>,
 <li><a href="#">주방용품</a></li>,
 <li><a href="#">생활건강</a></li>,
 <li><a href="#">DIY가구</a></li>]

In [125]:
# class 선택자를 사용(.) : 클래스 값이 box인 객체 추출
# bs_obj.select(".box")
# len(bs_obj.select(".box"))

bs_obj.select_one(".box")
len(bs_obj.select_one(".box"))

<div class="box">
<h4>공지사항</h4>
<hr/>
<a href="#">[배송] : 무표배송 변경 안내 24.08.20</a><br/>
<a href="#">[전시] : DIY 가구 전시 안내 24.08.31</a><br/>
<a href="#">[판매] : 11월 특가 상품 안내 24.09.05</a><br/>
<div>공지사항 확인 필수</div>
</div>

16

In [133]:
# 클래스 값이 box인 객체의 특정 태그 추출
bs_obj.select(".box a") # 

[<a href="#">[배송] : 무표배송 변경 안내 24.08.20</a>,
 <a href="#">[전시] : DIY 가구 전시 안내 24.08.31</a>,
 <a href="#">[판매] : 11월 특가 상품 안내 24.09.05</a>,
 <a href="#">[레시피] : 살 안찌는 야식 만들기</a>,
 <a href="#">[가구] : 헌집 새집 베스트 가구</a>,
 <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a>]

<div>공지사항 확인 필수</div>

'공지사항 확인 필수'

In [134]:
# 클래스 값이 box인 객체의 특정 div태그를 추출
bs_obj.select(".box > div")[0] # 특정 div .box 객체의 자식이면서 자손 태그그
bs_obj.select(".box  div")[0].text #

<div>공지사항 확인 필수</div>

'공지사항 확인 필수'

In [136]:
# 클래스 값이 box인 객체의 모든 a 태그를 추출
# a태그는 .box객체의 자식이면서 자손인 태그
bs_obj.select(".box  a")
bs_obj.select(".box > a")

[<a href="#">[배송] : 무표배송 변경 안내 24.08.20</a>,
 <a href="#">[전시] : DIY 가구 전시 안내 24.08.31</a>,
 <a href="#">[판매] : 11월 특가 상품 안내 24.09.05</a>,
 <a href="#">[레시피] : 살 안찌는 야식 만들기</a>,
 <a href="#">[가구] : 헌집 새집 베스트 가구</a>,
 <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a>]

[<a href="#">[배송] : 무표배송 변경 안내 24.08.20</a>,
 <a href="#">[전시] : DIY 가구 전시 안내 24.08.31</a>,
 <a href="#">[판매] : 11월 특가 상품 안내 24.09.05</a>,
 <a href="#">[레시피] : 살 안찌는 야식 만들기</a>,
 <a href="#">[가구] : 헌집 새집 베스트 가구</a>,
 <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a>]

In [137]:
bs_obj.select("ul > li")
bs_obj.select("ul li")

[<li><a href="#" id="fashion">패션잡화</a></li>,
 <li><a href="#">주방용품</a></li>,
 <li><a href="#">생활건강</a></li>,
 <li><a href="#">DIY가구</a></li>]

[<li><a href="#" id="fashion">패션잡화</a></li>,
 <li><a href="#">주방용품</a></li>,
 <li><a href="#">생활건강</a></li>,
 <li><a href="#">DIY가구</a></li>]

In [138]:
# 선택자 중 * 선택자 : all
bs_obj.select("ul")
bs_obj.select("ul *") # 모든 태그 내부를 순회하면서 태그를 모두 찾아온다.

[<ul>
 <li><a href="#" id="fashion">패션잡화</a></li>
 <li><a href="#">주방용품</a></li>
 <li><a href="#">생활건강</a></li>
 <li><a href="#">DIY가구</a></li>
 </ul>]

[<li><a href="#" id="fashion">패션잡화</a></li>,
 <a href="#" id="fashion">패션잡화</a>,
 <li><a href="#">주방용품</a></li>,
 <a href="#">주방용품</a>,
 <li><a href="#">생활건강</a></li>,
 <a href="#">생활건강</a>,
 <li><a href="#">DIY가구</a></li>,
 <a href="#">DIY가구</a>]

## 함수 정리
- find()
- find함수의 선택자 적용 : {"속성명":"value"} 형태 // 특정 속성을 제한하지는 않는다.
- find_all() = findAll() : 동일 기능

- select_one() = find() : 동일 기능, 단, 태그 선택자 이용시
- css 선택자를 동일하게 사용 : select()/select_one() 사용