# **정적 웹 페이지 크롤링**

**정적 웹 페이지**
*  서버에 미리 저장된 파일이 그대로 전달되는 웹 페이지
*  서버는 사용자가 요청에 해당하는 저장된 웹 페이지를 보냄
* 사용자는 서버에 저장된 데이터가 변경되지 않는 한 고정된 웹 페이지를 보게 됨

**동적 웹 페이지**
*  서버에 있는 데이터들을 스크립트에 의해 가공처리한 후 생성되어 전달되는 웹 페이지
*  서버는 사용자의 요청을 해석하여 데이터를 가공한 후 생성되는 웹 페이지를 보냄
*  사용자는 상황, 시간, 요청 등에 따라 달라지는 웹페이지를 보게됨



**정적 웹 페이지 크롤링을 위한 BeautifulSoup :**</p>
 https://www.crummy.com/software/BeautifulSoup/bs4/doc/
 </p>
*   Beautiful Soup은 HTML 및 XML 문서를 구문분석(parsing)하기위한 Python 패키지
*   HTML의 데이터를 구문 분석 후 구문 분석 트리 구축 가능
*  웹 스크래핑(크롤링)에 사용

# **BeautifulSoup Exercise**</p>
**1) BeautifulSoup 시작**
</p>
*   BeutifulSoup() 파싱
*   prettify(): html 문서의 계층 구조를 알기 쉽게 보여줌

In [1]:
from bs4 import BeautifulSoup

html ='<html><head><style>.re{text-align: center;text-decoration: underline; color: blue;}</style></head><body><h1 id="title">연구기관 및 대학</h1><div class ="top"><ul class  = "menu"><li><a class="re" href="https://www.nrf.re.kr">한국연구재단</a></li></ul><ul class  = "univ"><li><a  href="http://www.ssu.ac.kr/">숭실대학교</a></li><li><a  href="http://www.snu.ac.kr/">서울대학교</a></li></ul><table align="left" bgcolor="#00ff00"><tr><td>학교명</td><td>주소</td><td>전화번호</td></tr><tr><td>숭실대점</td><td>서울시 동작구 상도로 369</td><td>02-828-9010</td></tr></table></body></html>'
soup = BeautifulSoup(html, 'html.parser')
print(soup.prettify())

<html>
 <head>
  <style>
   .re{text-align: center;text-decoration: underline; color: blue;}
  </style>
 </head>
 <body>
  <h1 id="title">
   연구기관 및 대학
  </h1>
  <div class="top">
   <ul class="menu">
    <li>
     <a class="re" href="https://www.nrf.re.kr">
      한국연구재단
     </a>
    </li>
   </ul>
   <ul class="univ">
    <li>
     <a href="http://www.ssu.ac.kr/">
      숭실대학교
     </a>
    </li>
    <li>
     <a href="http://www.snu.ac.kr/">
      서울대학교
     </a>
    </li>
   </ul>
   <table align="left" bgcolor="#00ff00">
    <tr>
     <td>
      학교명
     </td>
     <td>
      주소
     </td>
     <td>
      전화번호
     </td>
    </tr>
    <tr>
     <td>
      숭실대점
     </td>
     <td>
      서울시 동작구 상도로 369
     </td>
     <td>
      02-828-9010
     </td>
    </tr>
   </table>
  </div>
 </body>
</html>


**2) 인덱스 분석**
*   find()
*   find_all()
*   select()

In [2]:
soup.h1

<h1 id="title">연구기관 및 대학</h1>

In [3]:
soup.table

<table align="left" bgcolor="#00ff00"><tr><td>학교명</td><td>주소</td><td>전화번호</td></tr><tr><td>숭실대점</td><td>서울시 동작구 상도로 369</td><td>02-828-9010</td></tr></table>

In [4]:
tag_ul = soup.ul
tag_ul.attrs

{'class': ['menu']}

In [5]:
tag_ul = soup.find_all('ul') # find_all 조지면 list 반환
tag_ul

[<ul class="menu"><li><a class="re" href="https://www.nrf.re.kr">한국연구재단</a></li></ul>,
 <ul class="univ"><li><a href="http://www.ssu.ac.kr/">숭실대학교</a></li><li><a href="http://www.snu.ac.kr/">서울대학교</a></li></ul>]

In [7]:
tag_ul_1 = soup.find('ul')
tag_ul_1

<ul class="menu"><li><a class="re" href="https://www.nrf.re.kr">한국연구재단</a></li></ul>

In [8]:
tag_ul_1.string

'한국연구재단'

In [9]:
tag_li = tag_ul[1].find_all('li')
tag_li

[<li><a href="http://www.ssu.ac.kr/">숭실대학교</a></li>,
 <li><a href="http://www.snu.ac.kr/">서울대학교</a></li>]

In [10]:
tag_li[0].string

'숭실대학교'

# **정적 웹 페이지 크롤링: 1단계**</p>
할리스커피 홈페이지(http://www.hollys.co.kr) 전국매장정보

**1) 크롤링 허용 여부 확인**</p>

*   수집정책: 크롤링할 주소/robots.txt
*   http://www.robotstxt.org

**2) HTML 코드 확인**</p>

*   오른쪽 마우스 > 페이지 소스 보기
*   Ctrl + U
*  https://www.hollys.co.kr/store/korea/korStore.do?pageNo=1&sido=&gugun=&store=

**3) 코드 작성**

In [11]:
from bs4 import BeautifulSoup
import urllib.request

In [12]:
Hollys_url = 'https://www.hollys.co.kr/store/korea/korStore.do?pageNo=1&sido=&gugun=&store='
Hollys_url

'https://www.hollys.co.kr/store/korea/korStore.do?pageNo=1&sido=&gugun=&store='

In [13]:
html_response = urllib.request.urlopen(Hollys_url)
html=html_response.read()
html

b'<!DOCTYPE html>\r\n<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="ko" lang="ko">\r\n<head>\r\n\t<title>\xed\x95\xa0\xeb\xa6\xac\xec\x8a\xa4</title>\r\n\t<meta charset="UTF-8">\r\n\r\n\t<meta name="Subject" content="HOLLYS" />\r\n\t<meta name="Title" content="HOLLYS" />\r\n\t<meta name="Keywords" content="HOLLYS,HOLLYS,\xed\x95\xa0\xeb\xa6\xac\xec\x8a\xa4,\xed\x95\xa0\xeb\xa6\xac\xec\x8a\xa4,\xec\xbb\xa4\xed\x94\xbc" />\r\n\t<meta name="Description" content="\xed\x95\xa0\xeb\xa6\xac\xec\x8a\xa4\xeb\x8a\x94 1998\xeb\x85\x84 \xea\xb5\xad\xeb\x82\xb4 \xec\xb2\xab \xec\x97\x90\xec\x8a\xa4\xed\x94\x84\xeb\xa0\x88\xec\x86\x8c \xec\xbb\xa4\xed\x94\xbc\xec\xa0\x84\xeb\xac\xb8\xec\xa0\x90\xec\x9d\x84 \xea\xb0\x9c\xec\xa0\x90\xed\x95\x9c \xec\x88\x9c\xec\x88\x98 \xea\xb5\xad\xeb\x82\xb4\xeb\xb8\x8c\xeb\x9e\x9c\xeb\x93\x9c\xeb\xa1\x9c\xec\x84\x9c \xeb\x8b\xb9\xeb\x8b\xb9\xed\x95\x98\xea\xb2\x8c \xec\x8b\x9c\xec\x9e\xa5 \xec\x84\xa0\xec\xa0\x90\xec\x9d\xb4\xeb\x9d\xbc\xeb\x8a\x94 \xed\x99\x

In [17]:
soup_hollys = BeautifulSoup(html, "html.parser")
soup_hollys.prettify()
soup_hollys

<!DOCTYPE html>

<html lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>할리스</title>
<meta charset="utf-8"/>
<meta content="HOLLYS" name="Subject">
<meta content="HOLLYS" name="Title"/>
<meta content="HOLLYS,HOLLYS,할리스,할리스,커피" name="Keywords"/>
<meta content="할리스는 1998년 국내 첫 에스프레소 커피전문점을 개점한 순수 국내브랜드로서 당당하게 시장 선점이라는 확고한 위치를 확보하고 국내 에스프레소 커피시장을 주도해 나가고 있습니다." name="Description"/>
<meta content="HOLLYS F&amp;B" name="Author"/>
<meta content="HOLLYS F&amp;B" name="Publisher"/>
<meta content="COFFEE,커피,음료,푸드" name="Classification"/>
<meta content="Korea" name="Location"/>
<meta content="2015.04.01" name="Author-Date"/>
<meta content="2022.04.24" name="Date"/>
<meta content="HOLLYS, HOLLYS F&amp;B" name="Distribution"/>
<meta content="HOLLYS" name="Copyright"/>
<meta content="website" property="og:type"/>
<meta content="할리스" property="og:title"/>
<meta content="HOLLYS" property="og:description"/>
<meta content="https://www.hollys.co.kr/" property="og:url">
<link hr

In [18]:
tag_tbody = soup_hollys.find("tbody")
tag_tbody

<tbody>
<tr class="">
<td class="noline center_t">경기 부천시 소사구</td>
<td class="center_t"><a href="#" onclick="javascript:storeView(1080); return false;">부천심곡점</a></td>
<td class="center_t tdp0">영업중</td>
<td class="center_t"><a href="#" onclick="javascript:storeView(1080); return false;">경기도 부천시 장말로 376 심곡동 355-1</a></td>
<td class="center_t">
<img alt="주차" src="https://www.hollys.co.kr/websrc/images/store/img_store_s08.png" style="margin-right:1px"/>
</td>
<td class="center_t">032-612-7258</td>
</tr>
<tr class="">
<td class="noline center_t">경기 성남시 분당구</td>
<td class="center_t"><a href="#" onclick="javascript:storeView(1079); return false;">성남터미널점</a></td>
<td class="center_t tdp0">영업중</td>
<td class="center_t"><a href="#" onclick="javascript:storeView(1079); return false;">경기도 성남시 분당구 성남대로925번길 16, 성남종합버스터미널 1층</a></td>
<td class="center_t">
<img alt="테라스" src="https://www.hollys.co.kr/websrc/images/store/img_store_s02.gif" style="margin-right:1px"/>
<img alt="주차" src="https://www.holly

In [19]:
tag_tr = tag_tbody.find_all("tr")
tag_tr

[<tr class="">
 <td class="noline center_t">경기 부천시 소사구</td>
 <td class="center_t"><a href="#" onclick="javascript:storeView(1080); return false;">부천심곡점</a></td>
 <td class="center_t tdp0">영업중</td>
 <td class="center_t"><a href="#" onclick="javascript:storeView(1080); return false;">경기도 부천시 장말로 376 심곡동 355-1</a></td>
 <td class="center_t">
 <img alt="주차" src="https://www.hollys.co.kr/websrc/images/store/img_store_s08.png" style="margin-right:1px"/>
 </td>
 <td class="center_t">032-612-7258</td>
 </tr>,
 <tr class="">
 <td class="noline center_t">경기 성남시 분당구</td>
 <td class="center_t"><a href="#" onclick="javascript:storeView(1079); return false;">성남터미널점</a></td>
 <td class="center_t tdp0">영업중</td>
 <td class="center_t"><a href="#" onclick="javascript:storeView(1079); return false;">경기도 성남시 분당구 성남대로925번길 16, 성남종합버스터미널 1층</a></td>
 <td class="center_t">
 <img alt="테라스" src="https://www.hollys.co.kr/websrc/images/store/img_store_s02.gif" style="margin-right:1px"/>
 <img alt="주차" src="https:

In [20]:
tag_tr[0]

<tr class="">
<td class="noline center_t">경기 부천시 소사구</td>
<td class="center_t"><a href="#" onclick="javascript:storeView(1080); return false;">부천심곡점</a></td>
<td class="center_t tdp0">영업중</td>
<td class="center_t"><a href="#" onclick="javascript:storeView(1080); return false;">경기도 부천시 장말로 376 심곡동 355-1</a></td>
<td class="center_t">
<img alt="주차" src="https://www.hollys.co.kr/websrc/images/store/img_store_s08.png" style="margin-right:1px"/>
</td>
<td class="center_t">032-612-7258</td>
</tr>

In [21]:
tag_td = tag_tr[0].find_all("td")
tag_td

[<td class="noline center_t">경기 부천시 소사구</td>,
 <td class="center_t"><a href="#" onclick="javascript:storeView(1080); return false;">부천심곡점</a></td>,
 <td class="center_t tdp0">영업중</td>,
 <td class="center_t"><a href="#" onclick="javascript:storeView(1080); return false;">경기도 부천시 장말로 376 심곡동 355-1</a></td>,
 <td class="center_t">
 <img alt="주차" src="https://www.hollys.co.kr/websrc/images/store/img_store_s08.png" style="margin-right:1px"/>
 </td>,
 <td class="center_t">032-612-7258</td>]

In [22]:
store_name = tag_td[1]
store_address = tag_td[3]
store_tel = tag_td[5]

In [23]:
import pandas as pd

Hollys_dic = {
    "매장이름": store_name,
    "주소": store_address,
    "전화번호": store_tel
}

Hollys_store = pd.DataFrame(Hollys_dic, index = [0]) # 위에서 받은 결과가 list가 아니니깐 index = [0] 해줘야 에러 안남 ㅇㅇ
Hollys_store

Unnamed: 0,매장이름,주소,전화번호
0,[부천심곡점],[경기도 부천시 장말로 376 심곡동 355-1],032-612-7258
