## **정적 웹 페이지 크롤링**

API가 없는 웹 페이지에서 크롤링을 하려면 웹 페이지의 HTML 구조를 분석한 뒤 필요한 데이터를 
직접 크롤링해야 한다. 웹 페이지의 HTML 구조를 분석하는 작업을 HTML 파싱(Parsing)이라고 하는데, 파이썬에서는 
HTML 파싱을 위해 BeautifulSoup 라이브러리를 사용한다.

### **1. 정적 웹 페이지 크롤링 준비**

1. **BeautifulSoup 연습하기1**

크롤링 작업을 하기 전에 다음 과정을 따라 하여 사용법을 익히도록 한다.
* 우선 다음 명령어로 패키지를 설치하도록 한다.

```
>>> pip install beautifoulsoup4
```

* 설치가 끝나면 Python Shell에서 해당 패키지를 임포트하여 사용한다.

```
>>> from bs4 import BeautifulSoup
```

* 연습용 html을 작성한다.

```
>>> html = '<h1 id="title">한빛출반네트워크</h1><div class="top"><ul
class="menu"><li><a href="http://www.hanbit.co.kr/member/login.html"
class="login">로그인</a></li></ul><ul class="brand"><li><a href="http://www.
hanbit.co.kr/media/">한빛미디어</a></li><li><a href="http://www.hanbit.co.kr/
academy/">한빛아카데미</a></li></ul></div>'
```

이때 태그와 태그 사이에 띄어쓰기를 넣지 않도록 주의한다.
태그와 태그 사이에 띄어쓰기가 있으면 string 명령이 잘못 처리되어 NONE으로 출력되기 때문이다.

* BeautifulSoup 객체를 생성한다.

```
>>> soup = BeautifulSoup(html, 'html.parser')
```

* 객체에 저장된 html 내용을 확인한다.

```
>>> print(soup.prettify())
```


In [1]:
from bs4 import BeautifulSoup

html = '<h1 id="title">한빛출판네트워크</h1><div class="top"><ul class="menu"><li><a href="http://www.hanbit.co.kr/member/login.html" class="login">로그인</a></li></ul><ul class="brand"><li><a href="http://www.hanbit.co.kr/media/">한빛미디어</a></li><li><a href="http://www.hanbit.co.kr/academy/">한빛아카데미</a></li></ul></div>'

# html.parser -> HTML 구조를 분석할 분석기
soup = BeautifulSoup(html, 'html.parser')

print(soup.prettify())

<h1 id="title">
 한빛출판네트워크
</h1>
<div class="top">
 <ul class="menu">
  <li>
   <a class="login" href="http://www.hanbit.co.kr/member/login.html">
    로그인
   </a>
  </li>
 </ul>
 <ul class="brand">
  <li>
   <a href="http://www.hanbit.co.kr/media/">
    한빛미디어
   </a>
  </li>
  <li>
   <a href="http://www.hanbit.co.kr/academy/">
    한빛아카데미
   </a>
  </li>
 </ul>
</div>



2. **BeautifulSoup 연습하기2**

이번에는 BeautifulSoup을 이용하여 HTML 태그를 다루는 연습을 해보자.

* 태그 파싱하기: 지정된 한 개의 태그만 파싱한다.

```
soup.h1

tag_h1 = soup.h1
tag_h1

tag_div = soup.div
tag_div

tag_ul = soup.ul
tag_ul

tag_li = soup.li
tag_li

tag_a = soup.a
tag_a
```

* 지정된 태그를 모두 파싱하여 리스트를 구성한다.

```
tag_ul_all = soup.find_all("ul")
tag_ul_all

tag_li_all = soup.find_all("li")
tag_li_all

tag_a_all = soup.find_all("a")
tag_a_all
```

* 다음과 같은 속성을 이용하여 파싱할 수도 있다.

```
attrs: 속성 이름과 속성값으로 딕셔너리를 구성
find(): 속성을 이용하여 특정 태그 파싱
select(): 지정한 태그를 모두 파싱하여 리스트 구성
```

```

```

In [3]:
print(soup.h1)

tag_h1 = soup.h1
print(tag_h1)

tag_div = soup.div
print(tag_div)

tag_ul = soup.ul
print(tag_ul)

tag_li = soup.li
print(tag_li)

tag_a = soup.a
print(tag_a)

<h1 id="title">한빛출판네트워크</h1>
<h1 id="title">한빛출판네트워크</h1>
<div class="top"><ul class="menu"><li><a class="login" href="http://www.hanbit.co.kr/member/login.html">로그인</a></li></ul><ul class="brand"><li><a href="http://www.hanbit.co.kr/media/">한빛미디어</a></li><li><a href="http://www.hanbit.co.kr/academy/">한빛아카데미</a></li></ul></div>
<ul class="menu"><li><a class="login" href="http://www.hanbit.co.kr/member/login.html">로그인</a></li></ul>
<li><a class="login" href="http://www.hanbit.co.kr/member/login.html">로그인</a></li>
<a class="login" href="http://www.hanbit.co.kr/member/login.html">로그인</a>


In [4]:
tag_ul_all = soup.find_all("ul")
print(tag_ul_all)

tag_li_all = soup.find_all("li")
print(tag_li_all)

tag_a_all = soup.find_all("a")
print(tag_a_all)

[<ul class="menu"><li><a class="login" href="http://www.hanbit.co.kr/member/login.html">로그인</a></li></ul>, <ul class="brand"><li><a href="http://www.hanbit.co.kr/media/">한빛미디어</a></li><li><a href="http://www.hanbit.co.kr/academy/">한빛아카데미</a></li></ul>]
[<li><a class="login" href="http://www.hanbit.co.kr/member/login.html">로그인</a></li>, <li><a href="http://www.hanbit.co.kr/media/">한빛미디어</a></li>, <li><a href="http://www.hanbit.co.kr/academy/">한빛아카데미</a></li>]
[<a class="login" href="http://www.hanbit.co.kr/member/login.html">로그인</a>, <a href="http://www.hanbit.co.kr/media/">한빛미디어</a>, <a href="http://www.hanbit.co.kr/academy/">한빛아카데미</a>]


In [5]:
print(tag_a.attrs)

print(tag_a['href'])

print(tag_a['class'])

{'href': 'http://www.hanbit.co.kr/member/login.html', 'class': ['login']}
http://www.hanbit.co.kr/member/login.html
['login']


In [6]:
tag_ul_2 = soup.find('ul', attrs={'class':'brand'})
print(tag_ul_2)

title = soup.find(id="title")
print(title)
print(title.string)

li_list = soup.select("div>ul.brand>li")
print(li_list)

for li in li_list:
    print(li.string)

<ul class="brand"><li><a href="http://www.hanbit.co.kr/media/">한빛미디어</a></li><li><a href="http://www.hanbit.co.kr/academy/">한빛아카데미</a></li></ul>
<h1 id="title">한빛출판네트워크</h1>
한빛출판네트워크
[<li><a href="http://www.hanbit.co.kr/media/">한빛미디어</a></li>, <li><a href="http://www.hanbit.co.kr/academy/">한빛아카데미</a></li>]
한빛미디어
한빛아카데미
