# BEGIN

In [1]:
# Jupyter Notebook 설정 : 모든 결과 출력
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

## HTML의 기본 구조

### HTML 생성

In [20]:
import os
# 폴더 생성
folder = "C:/Myexam"
os.makedirs(folder, exist_ok=True)

In [21]:
%%writefile C:/Myexam/HTML_example.html
<!doctype html>
<html>
<head>
<meta charset="utf-8">
<title>이것은 HTML 예제</title>
</head>
<body>
<h1>출간된 책 정보</h1>
<p id="book_title">이해가 쏙쏙 되는 파이썬</p>
<p id="author">홍길동</p>
<p id="publisher">위키북스 출판사</p>
<p id="year">2018</p>
</body>
</html>

Writing C:/Myexam/HTML_example.html


### requests.get(url) : 웹 페이지의 HTML 소스 갖고 오기

In [None]:
import requests
res = requests.get("https://www.google.co.kr")
res.status_code # 200 : 정상
res.text[:100]

200

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content'

## BeautifulSoup

### 데이터 찾고 추출하기 : find(), find_all()

In [2]:
from bs4 import BeautifulSoup

# 테스트용 html 코드
html = """<html><body><div><span>\
<a href=http://www.naver.com>naver</a>\
<a href=https://www.google.com>google</a>\
<a href=http://www.daum.net/>daum</a>\
</span></div></body></html>"""

# BeautifulSoup를 이용해 HTML 소스를 파싱
soup = BeautifulSoup(html, 'lxml')

# 파싱 결과를 좀 더 보기 편하게 HTML 구조의 형태로 확인
temp = soup.prettify()
print(type(temp), "\n", temp)

<class 'str'> 
 <html>
 <body>
  <div>
   <span>
    <a href="http://www.naver.com">
     naver
    </a>
    <a href="https://www.google.com">
     google
    </a>
    <a href="http://www.daum.net/">
     daum
    </a>
   </span>
  </div>
 </body>
</html>



#### find(tag, attrs_dict) : 지정한 첫번째 tag를 찾아서 반환

In [4]:
# HTML 소스코드에서 'a' 태그가 있는 첫 번째 요소를 찾아서 반환
tag = soup.find("a")
print(type(tag))
print(tag, ":", tag.get_text())

<class 'bs4.element.Tag'>
<a href="http://www.naver.com">naver</a> : naver


#### find_all(tag, attrs_dict) : 지정한 모든 tag를 찾아서 반환

In [53]:
# HTML 소스코드에서 'a' 태그가 있는 모든 요소를 찾아서 반환
tags = soup.find_all("a")
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <a href="http://www.naver.com">naver</a>
<class 'bs4.element.Tag'> : <a href="https://www.google.com">google</a>
<class 'bs4.element.Tag'> : <a href="http://www.daum.net/">daum</a>


#### findAll(tag, attrs_dict) : 지정한 모든 tag를 찾아서 반환

In [None]:
# HTML 소스코드에서 'a' 태그가 있는 모든 요소를 찾아서 list로 반환
tags = soup.findAll("a")
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <a href="http://www.naver.com">naver</a>
<class 'bs4.element.Tag'> : <a href="https://www.google.com">google</a>
<class 'bs4.element.Tag'> : <a href="http://www.daum.net/">daum</a>


bs4.element.Tag

#### 태그와 속성을 이용하여 원하는 데이터 찾기

In [None]:
from bs4 import BeautifulSoup

# 테스트용 HTML 코드
html2 = """
<html>
<head>
<title>작품과 작가 모음</title>
</head>
<body>
<h1>책 정보</h1>
<p id="book_title" class="one">토지</p>
<p id="author" class="one">박경리</p>
<p id="book_title" class="two">태백산맥</p>
<p id="author" class="two">조정래</p>
<p id="book_title" class="three">감옥으로부터의 사색</p>
<p id="author" class="three">신영복</p>
</body>
</html>
"""
soup2 = BeautifulSoup(html2, "html.parser")
#soup2 = BeautifulSoup(html2, "lxml")
print(type(soup2.title), ":", soup2.title)
print(type(soup2.body))
print(soup2.body)
print(soup2.body.h1)
print(soup2.body.p) # soup.find("p")

print("\n# soup2.find('p', {'id':'author'})")
tag = soup2.find('p', {'id':'author'})
print(type(tag), " : ", tag)

print("\n# soup2.find_all('p', {'id':'book_title'})")
tags = soup2.find_all('p', {'id':'book_title'})
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

print("\n# soup2.findAll('p', {'id':'book_title'})")
tags = soup2.findAll('p', {'id':'book_title'})
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

<class 'bs4.element.Tag'> : <title>작품과 작가 모음</title>
<class 'bs4.element.Tag'>
<body>
<h1>책 정보</h1>
<p class="one" id="book_title">토지</p>
<p class="one" id="author">박경리</p>
<p class="two" id="book_title">태백산맥</p>
<p class="two" id="author">조정래</p>
<p class="three" id="book_title">감옥으로부터의 사색</p>
<p class="three" id="author">신영복</p>
</body>
<h1>책 정보</h1>
<p class="one" id="book_title">토지</p>

# soup2.find('p', {'id':'author'})
<class 'bs4.element.Tag'>  :  <p class="one" id="author">박경리</p>

# soup2.find_all('p', {'id':'book_title'})
<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <p class="one" id="book_title">토지</p>

# soup2.findAll('p', {'id':'book_title'})
<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <p class="one" id="book_title">토지</p>
<class 'bs4.element.Tag'> : <p class="two" id="book_title">태백산맥</p>
<class 'bs4.element.Tag'> : <p class="three" id="book_title">감옥으로부터의 사색</p>
<class 'dict'>


In [12]:
print("\n# soup2.find_all('p', {'id':'book_title', 'class':'two'})")
tags = soup2.find_all('p', {'id':'book_title', 'class':'two'})
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

print("\n# soup2.findAll('p', {'id':'book_title', 'class':'two'})")
tags = soup2.findAll('p', {'id':'book_title', 'class':'two'})
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)


# soup2.find_all('p', {'id':'book_title', 'class':'two'})
<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <p class="two" id="book_title">태백산맥</p>

# soup2.findAll('p', {'id':'book_title', 'class':'two'})
<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <p class="two" id="book_title">태백산맥</p>


### CSS 선택자(selector)를 이용 : select(...)

In [19]:
tags = soup2.select('body h1')
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <h1>책 정보</h1>


In [20]:
tags = soup2.select('body p')
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <p id="book_title">토지</p>
<class 'bs4.element.Tag'> : <p id="author">박경리</p>
<class 'bs4.element.Tag'> : <p id="book_title">태백산맥</p>
<class 'bs4.element.Tag'> : <p id="author">조정래</p>
<class 'bs4.element.Tag'> : <p id="book_title">감옥으로부터의 사색</p>
<class 'bs4.element.Tag'> : <p id="author">신영복</p>


#### id 사용하여 데이터를 추출

In [21]:
tags = soup2.select('p#book_title')
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <p id="book_title">토지</p>
<class 'bs4.element.Tag'> : <p id="book_title">태백산맥</p>
<class 'bs4.element.Tag'> : <p id="book_title">감옥으로부터의 사색</p>


In [22]:
tags = soup2.select('p#author')
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <p id="author">박경리</p>
<class 'bs4.element.Tag'> : <p id="author">조정래</p>
<class 'bs4.element.Tag'> : <p id="author">신영복</p>


#### class 사용하여 데이터를 추출

In [10]:
tags = soup2.select('p.one')
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <p class="one" id="book_title">토지</p>
<class 'bs4.element.Tag'> : <p class="one" id="author">박경리</p>


### example

In [22]:
from bs4 import BeautifulSoup

html_str = """
<html>
<body>
<div id="wrap">
<div id="mainMenuBox">
<ul>
<li><a href="#">패션잡화</a></li>
<li><a href="#">주방용품</a></li>
<li><a href="#">생활건강</a></li>
<li><a href="#">DIY가구</a></li>
</ul>
</div>
<div>
<table>
<tr><td><img src="shoes1.jpg"></td>
<td><img src="shoes2.jpg"></td>
<td><img src="shoes3.jpg"></td></tr>
<tr id="prdName"><td>솔로이스트<br>걸리쉬 리본단화</td>
<td>맥컬린<br>그레이가보시스트랩 펌프스</td>
<td>맥컬린<br>섹슈얼인사이드펌프스</td></tr>
<tr id="price"><td>100,000원</td><td>200,000원</td><td>120,000원</td></tr>
</table>
</div>
<div id="out_box">
<div class="box">
<h4>공지사항</h4>
<hr>
<a href="#">[배송] : 무표배송 변경 안내 18.10.20</a><br>
<a href="#">[전시] : DIY 가구 전시 안내 18.10.31</a><br>
<a href="#">[판매] : 11월 특가 상품 안내 18.11.05</a>
</div>
<div class="box">
<h4>커뮤니티</h4>
<hr>
<a href="#">[레시피] : 살 안찌는 야식 만들기</a><br>
<a href="#">[가구] : 헌집 새집 베스트 가구</a><br>
<a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a><br>
</div>
</div>
</div>
</body>
</html>"""
bs = BeautifulSoup(html_str,'html.parser')
print(bs.prettify())

<html>
 <body>
  <div id="wrap">
   <div id="mainMenuBox">
    <ul>
     <li>
      <a href="#">
       패션잡화
      </a>
     </li>
     <li>
      <a href="#">
       주방용품
      </a>
     </li>
     <li>
      <a href="#">
       생활건강
      </a>
     </li>
     <li>
      <a href="#">
       DIY가구
      </a>
     </li>
    </ul>
   </div>
   <div>
    <table>
     <tr>
      <td>
       <img src="shoes1.jpg"/>
      </td>
      <td>
       <img src="shoes2.jpg"/>
      </td>
      <td>
       <img src="shoes3.jpg"/>
      </td>
     </tr>
     <tr id="prdName">
      <td>
       솔로이스트
       <br/>
       걸리쉬 리본단화
      </td>
      <td>
       맥컬린
       <br/>
       그레이가보시스트랩 펌프스
      </td>
      <td>
       맥컬린
       <br/>
       섹슈얼인사이드펌프스
      </td>
     </tr>
     <tr id="price">
      <td>
       100,000원
      </td>
      <td>
       200,000원
      </td>
      <td>
       120,000원
      </td>
     </tr>
    </table>
   </div>
   <div id="out_box">
    <div class="box">
     <h

In [None]:
tags =bs.select("div")
print(type(tags), len(tags))

<class 'bs4.element.ResultSet'> 6


In [68]:
bs.select("div #mainMenuBox")

[<div id="mainMenuBox">
 <ul>
 <li><a href="#">패션잡화</a></li>
 <li><a href="#">주방용품</a></li>
 <li><a href="#">생활건강</a></li>
 <li><a href="#">DIY가구</a></li>
 </ul>
 </div>]

In [57]:
bs.select("#wrap > div")

[<div id="mainMenuBox">
 <ul>
 <li><a href="#">패션잡화</a></li>
 <li><a href="#">주방용품</a></li>
 <li><a href="#">생활건강</a></li>
 <li><a href="#">DIY가구</a></li>
 </ul>
 </div>,
 <div>
 <table>
 <tr><td><img src="shoes1.jpg"/></td>
 <td><img src="shoes2.jpg"/></td>
 <td><img src="shoes3.jpg"/></td></tr>
 <tr id="prdName"><td>솔로이스트<br/>걸리쉬 리본단화</td>
 <td>맥컬린<br/>그레이가보시스트랩 펌프스</td>
 <td>맥컬린<br/>섹슈얼인사이드펌프스</td></tr>
 <tr id="price"><td>100,000원</td><td>200,000원</td><td>120,000원</td></tr>
 </table>
 </div>,
 <div id="out_box">
 <div class="box">
 <h4>공지사항</h4>
 <hr/>
 <a href="#">[배송] : 무표배송 변경 안내 18.10.20</a><br/>
 <a href="#">[전시] : DIY 가구 전시 안내 18.10.31</a><br/>
 <a href="#">[판매] : 11월 특가 상품 안내 18.11.05</a>
 </div>
 <div class="box">
 <h4>커뮤니티</h4>
 <hr/>
 <a href="#">[레시피] : 살 안찌는 야식 만들기</a><br/>
 <a href="#">[가구] : 헌집 새집 베스트 가구</a><br/>
 <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a><br/>
 </div>
 </div>]

In [None]:
bs.select(".box")

[<div class="box">
 <h4>공지사항</h4>
 <hr/>
 <a href="#">[배송] : 무표배송 변경 안내 18.10.20</a><br/>
 <a href="#">[전시] : DIY 가구 전시 안내 18.10.31</a><br/>
 <a href="#">[판매] : 11월 특가 상품 안내 18.11.05</a>
 </div>,
 <div class="box">
 <h4>커뮤니티</h4>
 <hr/>
 <a href="#">[레시피] : 살 안찌는 야식 만들기</a><br/>
 <a href="#">[가구] : 헌집 새집 베스트 가구</a><br/>
 <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a><br/>
 </div>]

In [35]:
bs.select(".box")[1].select("a")

[<a href="#">[레시피] : 살 안찌는 야식 만들기</a>,
 <a href="#">[가구] : 헌집 새집 베스트 가구</a>,
 <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a>]

In [49]:
temp = bs.select(".box")[1].select("a")[1]
print(type(temp), ":", temp)

<class 'bs4.element.Tag'> : <a href="#">[가구] : 헌집 새집 베스트 가구</a>


In [40]:
temp = bs.select(".box")[1].select("a")[1].text
print(type(temp), ":", temp)

<class 'str'> : [가구] : 헌집 새집 베스트 가구


In [39]:
temp = bs.select(".box")[1].select("a")[1]["href"]
print(type(temp), ":", temp)

<class 'str'> : #


# END