## **정적 웹 페이지 크롤링**

API가 없는 웹 페이지에서 크롤링을 하려면 웹 페이지의 HTML 구조를 분석한 뒤 필요한 데이터를 
직접 크롤링해야 한다. 웹 페이지의 HTML 구조를 분석하는 작업을 HTML 파싱(Parsing)이라고 하는데, 파이썬에서는 
HTML 파싱을 위해 BeautifulSoup 라이브러리를 사용한다.

### **1. 정적 웹 페이지 크롤링 준비**

1. **BeautifulSoup 연습하기1**

크롤링 작업을 하기 전에 다음 과정을 따라 하여 사용법을 익히도록 한다.
* 우선 다음 명령어로 패키지를 설치하도록 한다.

```
>>> pip install beautifoulsoup4
```

* 설치가 끝나면 Python Shell에서 해당 패키지를 임포트하여 사용한다.

```
>>> from bs4 import BeautifulSoup
```

* 연습용 html을 작성한다.

```
>>> html = '<h1 id="title">한빛출반네트워크</h1><div class="top"><ul
class="menu"><li><a href="http://www.hanbit.co.kr/member/login.html"
class="login">로그인</a></li></ul><ul class="brand"><li><a href="http://www.
hanbit.co.kr/media/">한빛미디어</a></li><li><a href="http://www.hanbit.co.kr/
academy/">한빛아카데미</a></li></ul></div>'
```

이때 태그와 태그 사이에 띄어쓰기를 넣지 않도록 주의한다.
태그와 태그 사이에 띄어쓰기가 있으면 string 명령이 잘못 처리되어 NONE으로 출력되기 때문이다.

* BeautifulSoup 객체를 생성한다.

```
>>> soup = BeautifulSoup(html, 'html.parser')
```

* 객체에 저장된 html 내용을 확인한다.

```
>>> print(soup.prettify())
```


In [1]:
from bs4 import BeautifulSoup

html = '<h1 id="title">한빛출판네트워크</h1><div class="top"><ul class="menu"><li><a href="http://www.hanbit.co.kr/member/login.html" class="login">로그인</a></li></ul><ul class="brand"><li><a href="http://www.hanbit.co.kr/media/">한빛미디어</a></li><li><a href="http://www.hanbit.co.kr/academy/">한빛아카데미</a></li></ul></div>'

# html.parser -> HTML 구조를 분석할 분석기
soup = BeautifulSoup(html, 'html.parser')

print(soup.prettify())

<h1 id="title">
 한빛출판네트워크
</h1>
<div class="top">
 <ul class="menu">
  <li>
   <a class="login" href="http://www.hanbit.co.kr/member/login.html">
    로그인
   </a>
  </li>
 </ul>
 <ul class="brand">
  <li>
   <a href="http://www.hanbit.co.kr/media/">
    한빛미디어
   </a>
  </li>
  <li>
   <a href="http://www.hanbit.co.kr/academy/">
    한빛아카데미
   </a>
  </li>
 </ul>
</div>



2. **BeautifulSoup 연습하기2**

이번에는 BeautifulSoup을 이용하여 HTML 태그를 다루는 연습을 해보자.

* 태그 파싱하기: 지정된 한 개의 태그만 파싱한다.

```
soup.h1

tag_h1 = soup.h1
tag_h1

tag_div = soup.div
tag_div

tag_ul = soup.ul
tag_ul

tag_li = soup.li
tag_li

tag_a = soup.a
tag_a
```

* 지정된 태그를 모두 파싱하여 리스트를 구성한다.

```
tag_ul_all = soup.find_all("ul")
tag_ul_all

tag_li_all = soup.find_all("li")
tag_li_all

tag_a_all = soup.find_all("a")
tag_a_all
```

* 다음과 같은 속성을 이용하여 파싱할 수도 있다.

```
attrs: 속성 이름과 속성값으로 딕셔너리를 구성
find(): 속성을 이용하여 특정 태그 파싱
select(): 지정한 태그를 모두 파싱하여 리스트 구성
```

```

```

In [3]:
print(soup.h1)

tag_h1 = soup.h1
print(tag_h1)

tag_div = soup.div
print(tag_div)

tag_ul = soup.ul
print(tag_ul)

tag_li = soup.li
print(tag_li)

tag_a = soup.a
print(tag_a)

<h1 id="title">한빛출판네트워크</h1>
<h1 id="title">한빛출판네트워크</h1>
<div class="top"><ul class="menu"><li><a class="login" href="http://www.hanbit.co.kr/member/login.html">로그인</a></li></ul><ul class="brand"><li><a href="http://www.hanbit.co.kr/media/">한빛미디어</a></li><li><a href="http://www.hanbit.co.kr/academy/">한빛아카데미</a></li></ul></div>
<ul class="menu"><li><a class="login" href="http://www.hanbit.co.kr/member/login.html">로그인</a></li></ul>
<li><a class="login" href="http://www.hanbit.co.kr/member/login.html">로그인</a></li>
<a class="login" href="http://www.hanbit.co.kr/member/login.html">로그인</a>


In [4]:
tag_ul_all = soup.find_all("ul")
print(tag_ul_all)

tag_li_all = soup.find_all("li")
print(tag_li_all)

tag_a_all = soup.find_all("a")
print(tag_a_all)

[<ul class="menu"><li><a class="login" href="http://www.hanbit.co.kr/member/login.html">로그인</a></li></ul>, <ul class="brand"><li><a href="http://www.hanbit.co.kr/media/">한빛미디어</a></li><li><a href="http://www.hanbit.co.kr/academy/">한빛아카데미</a></li></ul>]
[<li><a class="login" href="http://www.hanbit.co.kr/member/login.html">로그인</a></li>, <li><a href="http://www.hanbit.co.kr/media/">한빛미디어</a></li>, <li><a href="http://www.hanbit.co.kr/academy/">한빛아카데미</a></li>]
[<a class="login" href="http://www.hanbit.co.kr/member/login.html">로그인</a>, <a href="http://www.hanbit.co.kr/media/">한빛미디어</a>, <a href="http://www.hanbit.co.kr/academy/">한빛아카데미</a>]


In [5]:
print(tag_a.attrs)

print(tag_a['href'])

print(tag_a['class'])

{'href': 'http://www.hanbit.co.kr/member/login.html', 'class': ['login']}
http://www.hanbit.co.kr/member/login.html
['login']


In [6]:
tag_ul_2 = soup.find('ul', attrs={'class':'brand'})
print(tag_ul_2)

title = soup.find(id="title")
print(title)
print(title.string)

li_list = soup.select("div>ul.brand>li")
print(li_list)

for li in li_list:
    print(li.string)

<ul class="brand"><li><a href="http://www.hanbit.co.kr/media/">한빛미디어</a></li><li><a href="http://www.hanbit.co.kr/academy/">한빛아카데미</a></li></ul>
<h1 id="title">한빛출판네트워크</h1>
한빛출판네트워크
[<li><a href="http://www.hanbit.co.kr/media/">한빛미디어</a></li>, <li><a href="http://www.hanbit.co.kr/academy/">한빛아카데미</a></li>]
한빛미디어
한빛아카데미


In [3]:
from bs4 import BeautifulSoup
import urllib.request

result = []

for page in range(1, 59):
    Hollys_url = 'https://www.hollys.co.kr/store/korea/korStore.do?pageNo=%d&sido=&gugun=&store=' % page
    print(Hollys_url)

    html = urllib.request.urlopen(Hollys_url)
    soupHollys = BeautifulSoup(html, 'html.parser')

    tag_tbody = soupHollys.find('tbody')
    for store in tag_tbody.find_all('tr'):
        if len(store) <= 3:
            break

        store_td = store.find_all('td')
        store_name = store_td[1].string
        store_sido = store_td[0].string
        store_address = store_td[3].string
        store_phone = store_td[5].string
        result.append(
            [store_name] + [store_sido] + [store_address] + [store_phone]
        )

https://www.hollys.co.kr/store/korea/korStore.do?pageNo=1&sido=&gugun=&store=
https://www.hollys.co.kr/store/korea/korStore.do?pageNo=2&sido=&gugun=&store=
https://www.hollys.co.kr/store/korea/korStore.do?pageNo=3&sido=&gugun=&store=
https://www.hollys.co.kr/store/korea/korStore.do?pageNo=4&sido=&gugun=&store=
https://www.hollys.co.kr/store/korea/korStore.do?pageNo=5&sido=&gugun=&store=
https://www.hollys.co.kr/store/korea/korStore.do?pageNo=6&sido=&gugun=&store=
https://www.hollys.co.kr/store/korea/korStore.do?pageNo=7&sido=&gugun=&store=
https://www.hollys.co.kr/store/korea/korStore.do?pageNo=8&sido=&gugun=&store=
https://www.hollys.co.kr/store/korea/korStore.do?pageNo=9&sido=&gugun=&store=
https://www.hollys.co.kr/store/korea/korStore.do?pageNo=10&sido=&gugun=&store=
https://www.hollys.co.kr/store/korea/korStore.do?pageNo=11&sido=&gugun=&store=
https://www.hollys.co.kr/store/korea/korStore.do?pageNo=12&sido=&gugun=&store=
https://www.hollys.co.kr/store/korea/korStore.do?pageNo=13&si

In [5]:
print(len(result))

print(result[0])

# print(result[565])

print(store_td)

print(store_td[1].string)

print(store_td[0].string)

print(store_td[3].string)

print(store_td[5].string)

562
['부천심곡점', '경기 부천시 소사구', '경기도 부천시 장말로 376 심곡동 355-1', '032-612-7258']
[<td class="noline center_t">경기 성남시 수정구</td>, <td class="center_t"><a href="#" onclick="javascript:storeView(11); return false;">성남점</a></td>, <td class="center_t tdp0">영업중</td>, <td class="center_t"><a href="#" onclick="javascript:storeView(11); return false;">경기도 성남시 수정구 수정로 175, 동일빌딩1층</a></td>, <td class="center_t">
<img alt="흡연시설" src="https://www.hollys.co.kr/websrc/images/store/img_store_s04.gif" style="margin-right:1px"/>
</td>, <td class="center_t">031-721-6369</td>]
성남점
경기 성남시 수정구
경기도 성남시 수정구 수정로 175, 동일빌딩1층
031-721-6369


In [8]:
import pandas as pd

hollys_tbl = pd.DataFrame(
    result, columns=('store', 'sido-gu', 'address', 'phone')
)

hollys_tbl.to_csv("./python_crawling.csv", encoding="cp949", mode="w", index=True)

In [None]:
# hollysCrawler.py
from bs4 import BeautifulSoup
import urllib.request
import pandas as pd
import datetime

def hollys_store(result):
    for page in range(1, 59):
        Hollys_url = 'https://www.hollys.co.kr/store/korea/korStore.do?pageNo=%dsido=&gugun=&store=' % page
        print(Hollys_url)

        html = urllib.request.urlopen(Hollys_url)
        soupHollys = BeautifulSoup(html, 'html.parser')

        tag_tbody = soupHollys.find('tbody')
        for store in tag_tbody.find_all('tr'):
            if len(store) <= 3:
                break
            store_td = store.find_all('td')
            store_name = store_td[1].string
            store_sido = store_td[0].string
            store_address = store_td[3].string
            store_phone = store_td[5].string
            result.append(
                [store_name] + [store_sido] + [store_address] + [store_phone]
            )

def main():
    result = []
    print('Hollys store crawling >>>>>>>>>>>>>>>>>>>>>>>>>>>>')
    hollys_store(result)

    hollys_tbl = pd.DataFrame(
        result, columns=('store', 'sido-gu', 'address', 'phone')
    )
    hollys_tbl.to_csv('./python_crawling.csv', encoding='cp949', mode='w', index=True)

    del result[:]


if __name__ == '__main__':
    main()