# 3장 시카고 샌드위치 맛집 분석

## 3-1 웹 데이터를 가져오는 Beautiful Soup 익히기

* BeautifulSoup이란?
    * 웹에서 웹페이지의 내용을 가져옴.
    * 웹 데이터 크롤링 또는 스크래핑 할 때 사용
        * 웹 크롤링(Web Crawling)
            - 검색엔진에서 사용되며 bot과 같이 자동으로 웹처리됨
            - 다운로드한 사이트를 index하여 사용자가 빠르게 원하는 것을 검색할 수 있도록 해 줌
        * 웹 스크래핑(Web Scraping)
            - 웹 사이트에서 원하는 데이터를 추출함
            - 추출한 데이터를 원하는 형식으로 가공함
            - 웹 크롤링도 웹 스크래핑의 방법 중의 하나
    * HTML과 XML 파일에서 데이터를 읽어내는 파이썬 라이브러리
        * XML(eXtensible Markup Language): 데이터를 저장하고 전달하기 위해 디자인된 언어
        * HTML(Hyper Text Markup Language): 데이터를 웹 상에 표현하기 위한 목적으로 사용되는 언어
    * Parser 트리를 검색, 수정하는 데 간편하고 사용자가 만든 parser와 함께 사용하기 쉽다

In [2]:
# Beautiful Soup 설치 확인

from bs4 import BeautifulSoup

In [13]:
# 03. test_first.html 파일을 읽어오기
page = open("C:/Users/Slim3 15IIL/Desktop/0-2020데청캠/Chicago-Sandwich/03. test_first.html", 'r').read()
soup = BeautifulSoup(page, 'html.parser')

# html.parse : HTML 문법 규칙에 따른 문자열을 해당 문법을 바탕으로 단어의 의미나 구조를 분석하는 것을 의미
# html.parser : HTML Parse를 행하는 프로그램을 말함

# prettify()
# 1. 읽은 html 페이지의 내용을 전체 다 보고 싶을 때 사용하는 함수. 들여쓰기 지원
# 2. BeautifulSoup에서 파싱 처리한 parser tree를 유니코드 형태로 리턴하는 함수

print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Very Simple HTML Code by PinkWink
  </title>
 </head>
 <body>
  <div>
   <p class="inner-text first-item" id="first">
    Happy PinkWink.
    <a href="http://www.pinkwink.kr" id="pw-link">
     PinkWink
    </a>
   </p>
   <p class="inner-text second-item">
    Happy Data Science.
    <a href="https://www.python.org" id="py-link">
     Python
    </a>
   </p>
  </div>
  <p class="outer-text first-item" id="second">
   <b>
    Data Science is funny.
   </b>
  </p>
  <p class="outer-text">
   <b>
    All I need is Love.
   </b>
  </p>
 </body>
</html>



In [15]:
# soup은 문서 전체를 저장한 변수. 그 안에서 html 태그에 접속하려면 children이라는 속성을 사용
# children: 한 단계 아래에 있는 태그를 보기 위한 함수

list(soup.children)  # soup 안에 있는 html 태그를 보고 싶을 때

['html',
 '\n',
 <html>
 <head>
 <title>Very Simple HTML Code by PinkWink</title>
 </head>
 <body>
 <div>
 <p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>
 </div>
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>
 </body>
 </html>,
 '\n']

In [16]:
# soup의 내용 안에 있는 html 태그에 접속하기 위한 코드
# html=list(soup.children)[0]  --> html
# html=list(soup.children)[1]  --> \n
# html=list(soup.children)[2]  --> html 코드

html = list(soup.children)[2]  # html 코드 출력
html

<html>
<head>
<title>Very Simple HTML Code by PinkWink</title>
</head>
<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>
</html>

In [17]:
# html 태그 밑에 있는 모든 태그들이 html.children에 해당

list(html.children)

['\n',
 <head>
 <title>Very Simple HTML Code by PinkWink</title>
 </head>,
 '\n',
 <body>
 <div>
 <p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>
 </div>
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>
 </body>,
 '\n']

In [None]:
# htmlex = list(html.children)[0]  --> \n
# htmlex = list(html.children)[1]  --> html 코드
# htmlex = list(html.children)[2]  --> \n
# htmlex = list(html.children)[3]  --> html 코드
# htmlex = list(html.children)[4]  --> \n

In [19]:
# 본문이 나오는 body 부분만 추출

body=list(html.children)[3]
body

<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>

In [20]:
# soup.body : 태그를 바로 입력하여 원하는 태그만 추출

soup.body

<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>

In [21]:
# body 태그 아래에 있는 태그를 추출

list(body.children)

['\n',
 <div>
 <p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>
 </div>,
 '\n',
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 '\n',
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>,
 '\n']

In [22]:
# find_all : p 태그를 가진 모든 태그를 찾아낸다.

soup.find_all('p')

[<p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>,
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>,
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

In [23]:
# find : p 태그를 가진 첫 번째 태그를 찾아낸다.

soup.find('p')

<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>

In [24]:
# p 태그들 중에서 class가 'outer-text'인 것만 찾아낸다.

soup.find_all('p', class_='outer-text')

[<p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

In [25]:
# class가 'outer-text'인 것만 찾아낸다.

soup.find_all(class_='outer-text')

[<p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

In [26]:
# id가 'first'인 것만 찾아낸다.

soup.find_all(id='first')

[<p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>]

In [27]:
# 가장 처음 p 태그만 찾아낸다.

soup.find('p')

<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>

In [28]:
list(soup.children)

['html',
 '\n',
 <html>
 <head>
 <title>Very Simple HTML Code by PinkWink</title>
 </head>
 <body>
 <div>
 <p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>
 </div>
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>
 </body>
 </html>,
 '\n']

In [29]:
# head 부분만 추출
soup.head

<head>
<title>Very Simple HTML Code by PinkWink</title>
</head>

In [30]:
# head 바로 옆에 있는 내용을 추출
soup.head.next_sibling

'\n'

In [32]:
# head 옆 옆 부분에 있는 내용 추출(body)  # title은 head에 포함되어 있으므로 X
soup.head.next_sibling.next_sibling

<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>

In [33]:
# find 함수를 쓰지 않아도 body.p라고 입력하여도 같은 output을 보여준다.

body.p

<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>

In [34]:
# p태그의 다음 다음 p태그를 보여준다.(두 번째 p태그)
# body.p.next_sibling을 입력하면 '\n'이 출력된다.

body.p.next_sibling.next_sibling
#body.p.next_sibling

<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>

In [35]:
# 찾아야 할 태그를 알고 있다면 find() 또는 find_all() 함수 사용
# 모든 p태그를 찾아서

for each_tag in soup.find_all('p'):
    print(each_tag.get_text())   # get_text(): p 태그 안에 든 text만 출력


                Happy PinkWink.
                PinkWink


                Happy Data Science.
                Python



                Data Science is funny.
            



                All I need is Love.
            



In [36]:
# body 부분에 있는 text들을 출력해 낸다.
# body.get_text()를 하게 되면 태그가 있던 자리는 줄바꿈(\n)이 표시되고 전체 텍스트를 보여줌.

body.get_text()

'\n\n\n                Happy PinkWink.\n                PinkWink\n\n\n                Happy Data Science.\n                Python\n\n\n\n\n                Data Science is funny.\n            \n\n\n\n                All I need is Love.\n            \n\n'

In [37]:
# 클릭 가능한 링크를 의미하는 a 태그를 전부 찾아낸다.

links = soup.find_all('a')
links

[<a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>,
 <a href="https://www.python.org" id="py-link">Python</a>]

## 3-2 크롬 개발자 도구를 이용해서 원하는 태그 찾기

    * chrome 맞춤 설정 및 제어 -> 클릭 -> 도구 더보기 -> 개발자 도구

In [38]:
# url을 요청하여 오픈하는 패키지
from urllib.request import urlopen

In [39]:
# url을 입력
url = 'https://finance.naver.com/marketindex/'  # 네이버 홈 -> 증권 -> 시장지표

# url 오픈
page = urlopen(url)

# BS를 사용하여 html을 읽어온다.
soup = BeautifulSoup(page, 'html.parser')

# prettify()를 사용하여 html을 보기 좋게 정렬
print(soup.prettify())

<script language="javascript" src="/template/head_js.nhn?referer=info.finance.naver.com&amp;menu=marketindex&amp;submenu=market">
</script>
<script src="/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript">
</script>
<script src="/js/jindo.1.5.3.element-text-patch.js" type="text/javascript">
</script>
<div id="container" style="padding-bottom:0px;">
 <script language="JavaScript" src="/js/flashObject.js?20200615180049">
 </script>
 <div class="market_include">
  <div class="market_data">
   <div class="market1">
    <div class="title">
     <h2 class="h_market1">
      <span>
       환전 고시 환율
      </span>
     </h2>
    </div>
    <!-- data -->
    <div class="data">
     <ul class="data_lst" id="exchangeList">
      <li class="on">
       <a class="head usd" href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
        <h3 class="h_lst">
         <span class="blind">
          미국 USD
         </span>
        </h3>
 

In [40]:
soup.find_all('span', 'value')  # span이라는 태그에 클래스는 value

[<span class="value">1,205.00</span>,
 <span class="value">1,124.80</span>,
 <span class="value">1,377.13</span>,
 <span class="value">172.25</span>,
 <span class="value">107.1200</span>,
 <span class="value">1.1430</span>,
 <span class="value">1.2596</span>,
 <span class="value">96.3100</span>,
 <span class="value">40.75</span>,
 <span class="value">1361.03</span>,
 <span class="value">1798.7</span>,
 <span class="value">69793.91</span>]

In [41]:
soup.find_all('span', 'value')[0]

<span class="value">1,205.00</span>

In [42]:
# 0번째 span 태그에 class = value에 들어있는 text를 추출

soup.find_all('span', 'value')[0].string

'1,205.00'

In [43]:
soup.find_all('span', 'value')[1].string

'1,124.80'

In [44]:
soup.find_all('span', 'value')[2].string

'1,377.13'