## 3장 시카고 샌드위치 맛집 분석
### 3-1 웹 데이터를 가져오는 Beautiful Soup 익히기
- BeautifulSoup이란?
  - 웹에서 웹페이지의 내용을 가져옴
  - 웹 데이터 크롤링 또는 스크래핑 할 때 사용
     - 웹 크롤링(Web Crawling)
        - 검색엔진에서 사용되며 bot과 같이 자동으로 웹처리됨
        - 다운로드한 사이트를 index하여 사용자가 빠르게 원하는 것을 검색할 수 있도록 해줌
     - 웹 스크래핑(Web Scraping)
        - 웹 사이트에서 원하는 데이터를 추출함
        - 추출한 데이터를 원하는 형식으로 가공함
        - 웹 크롤링도 웹 스크래핑의 방법 중의 하나
  - HTML과 XML 파일에서 데이터를 읽어내는 파이썬 라이브러리
     - XML(eXtensable Markup Language) : 데이터를 저장하고 전달하기 위해 디자인된 언어
     - HTML(Hyper Text Markup Language) : 데이터를 웹 상에 표현하기 위한 목적으로 사용되는 언어
  - Parser 트리를 검색,수정하는데 간편하고 사용자가 만든 parser와 함께 사용하기 쉽다.

In [84]:
# Beautiful Soup 설치 확인

from bs4 import BeautifulSoup

In [85]:
# 03.test_first.html 파일을 읽어오기
page = open("../data/03. test_first.html",'r').read() # 웹데이트이기 때문에 open해줘야함
soup = BeautifulSoup(page, 'html.parser')

# html.parse : HTML 문법 규칙에 따른 문자열을 해당 문법을 바탕으로
#               단어의 의미나 구조를 분석하는 것을 의미
# html.parser : HTML Parse를 행하는 프로그램을 말함

# prettify()
# 1. 읽은 html 페이지의 내용을 전체 다 보고 싶을 때 사용하는 함수, 들여쓰기 지원
# 2. BeatifulSoup에서 파싱 처리한 parser tree를 유니코드 형태로 리턴하는 함수

print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Very Simple HTML Code by PinkWink
  </title>
 </head>
 <body>
  <div>
   <p class="inner-text first-item" id="first">
    Happy PinkWink.
    <a href="http://www.pinkwink.kr" id="pw-link">
     PinkWink
    </a>
   </p>
   <p class="inner-text second-item">
    Happy Data Science.
    <a href="https://www.python.org" id="py-link">
     Python
    </a>
   </p>
  </div>
  <p class="outer-text first-item" id="second">
   <b>
    Data Science is funny.
   </b>
  </p>
  <p class="outer-text">
   <b>
    All I need is Love.
   </b>
  </p>
 </body>
</html>


In [86]:
# soup은 문서 전체를 저장한 변수, 그 안에서 html 태그에 접속하려면 children이라는 속성을 사용
# children : 한 단계 아래에 있는 태그를 보기 위한 함수

list(soup.children) # soup 안에 있는 html 태그를 보고싶을 때..아래코드 중 대괄호가 list

# 태그: 꺽쇠괄호안에 태그명이 있는 것으로 시작태그는 <태그명> 형태이고
#        종료태그는 </태그명> 로 슬래쉬 하나 차이입니다.
# 트리 구조(계층형 형태): 하나의 기작 태그를 선언하면 아래 부분엔 종료 태그로 닫는 구조

['html',
 '\n',
 <html>
 <head>
 <title>Very Simple HTML Code by PinkWink</title>
 </head>
 <body>
 <div>
 <p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>
 </div>
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>
 </body>
 </html>]

In [87]:
# soup의 내용 안에 있는 html태그에 접근하기 위한 코드
# html=list(soup.children)[0]  --> html (리스트 0번째 방에 있는 것)
# html=list(soup.children)[1]  --> \n
# html-list(soup.children)[2]  --> html코드

html = list(soup.children)[2]   # html 코드 출력
html

<html>
<head>
<title>Very Simple HTML Code by PinkWink</title>
</head>
<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>
</html>

In [88]:
# html 태그 밑에 있는 모든 태그들이 html.children에 해당

list(html.children)  # 위코드에서 html시작태그와 종료태그를 제외한 코드가 나옴

['\n',
 <head>
 <title>Very Simple HTML Code by PinkWink</title>
 </head>,
 '\n',
 <body>
 <div>
 <p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>
 </div>
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>
 </body>,
 '\n']

In [89]:
# htmlex = list(html.children)[0]  --> \n
# htmlex = list(html.children)[1]  --> head 코드
# htmlex = list(html.children)[2]  --> \n
# htmlex = list(html.children)[3]  --> body 코드
# htmlex = list(html.children)[4]  --> \n

htmlex = list(html.children)[3]
htmlex

<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>

In [90]:
body = list(html.children)[3]
body

<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>

In [91]:
# soup.body : 태그를 바로 입력하여 원하는 태그만 추출
# 위같은 경우는 계속 한 단계 아래 코드를 children속성을 이용해 리스트에 널고
# 이 리스트를 이용해 원하는 태그를 출력하는 형식이였으나 이렇게 바로 태그만 추출할 수도 있다.

soup.body

<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>

In [92]:
# body태그 아래에 있는 태그를 추출

list(body.children)

['\n',
 <div>
 <p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>
 </div>,
 '\n',
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 '\n',
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>,
 '\n']

In [93]:
# find_all : p 태그를 가진 모든 태그를 찾아낸다.

soup.find_all('p')

[<p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>,
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>,
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

In [94]:
# find : p 태그를 가진 태그를 찾아낸다. (맨 처음거만 찾아낸다.)

soup.find('p')

<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>

In [95]:
# p 태그들 중에서 class가 'outer-text'인 것만 찾아낸다.

soup.find_all('p', class_ ='outer-text')

[<p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

In [96]:
# class가 'outer-text'인 것만 찾아낸다.

soup.find_all(class_ ='outer-text')

[<p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

In [97]:
# id가 'first'인 것만 찾아낸다.

soup.find_all(id='first')

[<p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>]

In [98]:
list(soup.children)

['html',
 '\n',
 <html>
 <head>
 <title>Very Simple HTML Code by PinkWink</title>
 </head>
 <body>
 <div>
 <p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>
 </div>
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>
 </body>
 </html>]

In [99]:
# head부분만 추출
soup.head

<head>
<title>Very Simple HTML Code by PinkWink</title>
</head>

In [100]:
# head 바로 옆에 있는 내용을 추출
soup.head.next_sibling

'\n'

In [101]:
# head 옆 옆에 있는 내용을 추출 (title은 head에 포함된것)
soup.head.next_sibling.next_sibling

<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>

In [102]:
# find함수를 쓰지 않아도 body.p라고 입력하여도 같은 output을 보여준다
body.p  # soup.p를 해도 똑같은 결과가 나온다.

<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>

In [103]:
# p태그와 다음 다음 p태그를 보여준다
# body.p.next_sibling 을 입력하면 '\n'이 출력된다.

body.p.next_sibling.next_sibling

<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>

In [104]:
# 찾아야 할 태그를 알고 있다면, find() 또는 find_all() 함수 사용
# 모든 p태그를 찾아서

for each_tag in soup.find_all('p'):
    print(each_tag.get_text())


                Happy PinkWink.
                PinkWink


                Happy Data Science.
                Python



                Data Science is funny.
            



                All I need is Love.
            



In [105]:
# body부분에 있는 text들을 출력해낸다.
# body.get_text()를 하게 되면 태그가 있던 자리는 줄바꿈이 표시되고 전체 text를 보여준다

body.get_text()

'\n\n\n                Happy PinkWink.\n                PinkWink\n\n\n                Happy Data Science.\n                Python\n\n\n\n\n                Data Science is funny.\n            \n\n\n\n                All I need is Love.\n            \n\n'

In [106]:
# 클릭 가능한 링크를 의미하는 a 태그를 전부 찾아낸다.

links = soup.find_all('a')
links

[<a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>,
 <a href="https://www.python.org" id="py-link">Python</a>]

### 크롬 개발자 도구를 이용해서 원하는 태그 찾기
- chrome 맞춤 설정 및 제어 -> 클릭 -> 도구 더보기 -> 개발자 도구 (웹크롤링)

In [107]:
# url을 요청하여 오픈하는 패키지
from urllib.request import urlopen

In [108]:
# url 입력
url = 'https://finance.naver.com/marketindex/'
# 네이퍼 홈피 -> 증권 -> 시장지표

# url 오픈
page = urlopen(url)

# BS를 사용하여 html을 읽어온다.
soup = BeautifulSoup(page, 'html.parser')

# prettify()를 사용하여 html을 보기 좋게 정렬
print(soup.prettify())

<script language="javascript" src="/template/head_js.nhn?referer=info.finance.naver.com&amp;menu=marketindex&amp;submenu=market">
</script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20210115182045/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript">
</script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20210115182045/js/jindo.1.5.3.element-text-patch.js" type="text/javascript">
</script>
<div id="container" style="padding-bottom:0px;">
 <div class="market_include">
  <div class="market_data">
   <div class="market1">
    <div class="title">
     <h2 class="h_market1">
      <span>
       환전 고시 환율
      </span>
     </h2>
    </div>
    <!-- data -->
    <div class="data">
     <ul class="data_lst" id="exchangeList">
      <li class="on">
       <a class="head usd" href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
        <h3 class="h_lst">
         <span class="blind">
          미국 USD
 

In [109]:
soup.find_all('span','value')

[<span class="value">1,101.50</span>,
 <span class="value">1,061.12</span>,
 <span class="value">1,335.13</span>,
 <span class="value">170.26</span>,
 <span class="value">103.9800</span>,
 <span class="value">1.2125</span>,
 <span class="value">1.3616</span>,
 <span class="value">90.4700</span>,
 <span class="value">52.98</span>,
 <span class="value">1447.99</span>,
 <span class="value">1839.5</span>,
 <span class="value">65700.62</span>]

In [110]:
soup.find_all('span','value')[0]

<span class="value">1,101.50</span>

In [111]:
# 0번째 span 태그에 class=value에 들어있는 text 추출

soup.find_all('span','value')[0].string  # 미국

'1,101.50'

In [112]:
soup.find_all('span','value')[1].string  # 일본

'1,061.12'

In [113]:
soup.find_all('span','value')[2].string  # 유럽

'1,335.13'

### 3-3 실전: 시카고 샌드위치 맛집 소개 사이트에 접근하기
- 웹스크래핑 목표 : 가게 이름, 가게 메인 메뉴, 각 가게 소개페이지를 정리하는 것

In [114]:
from bs4 import BeautifulSoup
#from urllib.request import urlopen

'''
# 기본이 되는 url 설정
url= 'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/'

# 원하는 페이지에 가기 위한 나머지 주소
#url_sub = '/chicago-magazine/november-2012/best-sandwiches-chicago/'
# 두 url을 합쳐준다.
#url = url_base + url_sub

# url 오픈
html = urlopen(url)
'''


from urllib.request import Request, urlopen

url_base='https://www.chicagomag.com'
url_sub='/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/'

req = Request('https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/', headers={'User-Agent': 'Mozilla/5.0'})
webpage = urlopen(req).read()
# BS을 이용하여 html을 읽어온다.
soup = BeautifulSoup(webpage,"html.parser")
soup

<!DOCTYPE html>

<html lang="en-US">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible">
<link href="https://gmpg.org/xfn/11" rel="profile"/>
<title>The 50 Best Sandwiches in Chicago – Chicago Magazine</title>
<style type="text/css">			.heateorSssInstagramBackground{background:radial-gradient(circle at 30% 107%,#fdf497 0,#fdf497 5%,#fd5949 45%,#d6249f 60%,#285aeb 90%)}
						div.heateor_sss_horizontal_sharing i.heateorSssInstagramBackground{background:#000!important;}div.heateor_sss_standard_follow_icons_container i.heateorSssInstagramBackground{background:#000;}
										.heateor_sss_horizontal_sharing .heateorSssSharing,.heateor_sss_standard_follow_icons_container .heateorSssSharing{
							background-color: #000;
							color: #fff;
						border-width: 0px;
			border-style: solid;
			border-color: transparent;
		}
				.heateor_sss_horizontal_sharing .heateorSssTCBackground{
			color:#666;
		}
				.heateor_sss_horizontal_sharing .heateorSssSharing:ho

In [115]:
print(soup)

<!DOCTYPE html>

<html lang="en-US">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible">
<link href="https://gmpg.org/xfn/11" rel="profile"/>
<title>The 50 Best Sandwiches in Chicago – Chicago Magazine</title>
<style type="text/css">			.heateorSssInstagramBackground{background:radial-gradient(circle at 30% 107%,#fdf497 0,#fdf497 5%,#fd5949 45%,#d6249f 60%,#285aeb 90%)}
						div.heateor_sss_horizontal_sharing i.heateorSssInstagramBackground{background:#000!important;}div.heateor_sss_standard_follow_icons_container i.heateorSssInstagramBackground{background:#000;}
										.heateor_sss_horizontal_sharing .heateorSssSharing,.heateor_sss_standard_follow_icons_container .heateorSssSharing{
							background-color: #000;
							color: #fff;
						border-width: 0px;
			border-style: solid;
			border-color: transparent;
		}
				.heateor_sss_horizontal_sharing .heateorSssTCBackground{
			color:#666;
		}
				.heateor_sss_horizontal_sharing .heateorSssSharing:ho

In [116]:
# 지금 이 웹사이트가 스크래핑을 허용하지 않음..ㅠㅠ 그래서 코드만 쓰고 
# 결과는 github로 찾아보자

In [117]:
# div 태그 중 class이름이 sammy인 것을 모두 찾는다.
print(soup.find_all('div','sammy'))

[<div class="sammy" style="position: relative;">
<div class="sammyRank">1</div>
<div class="sammyListing"><a href="/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Old-Oak-Tap-BLT/"><b>BLT</b><br/>
Old Oak Tap<br/>
<em>Read more</em> </a></div>
</div>, <div class="sammy" style="position: relative;">
<div class="sammyRank">2</div>
<div class="sammyListing"><a href="/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Au-Cheval-Fried-Bologna/"><b>Fried Bologna</b><br/>
Au Cheval<br/>
<em>Read more</em> </a></div>
</div>, <div class="sammy" style="position: relative;">
<div class="sammyRank">3</div>
<div class="sammyListing"><a href="/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Xoco-Woodland-Mushroom/"><b>Woodland Mushroom</b><br/>
Xoco<br/>
<em>Read more</em> </a></div>
</div>, <div class="sammy" style="position: relative;">
<div class="sammyRank">4</div>
<div class="sammyListing"><a href="/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Als-Deli-R

In [118]:
# 결과
#<div class="sammy" style="position: relative;">
#<div class="sammyRank">1</div>
#<div class="sammyListing"><a href="/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Old-Oak-Tap-BLT/"><b>BLT</b><br>
#Old Oak Tap<br>
#<em>Read more</em> </br></br></a></div>
#</div>

In [119]:
len(soup.find_all('div','sammy'))
# 결과: 50 (top50이니까)

50

In [120]:
print(soup.find_all('div','sammy')[0])

<div class="sammy" style="position: relative;">
<div class="sammyRank">1</div>
<div class="sammyListing"><a href="/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Old-Oak-Tap-BLT/"><b>BLT</b><br/>
Old Oak Tap<br/>
<em>Read more</em> </a></div>
</div>


### 3-4 접근한 웹 페이지에서 원하는 데이터 추출하고 정리하기

In [121]:
# 0번째 div태그의 class = sammy를 찾아낸다.
tmp_one = soup.find_all('div','sammy')[0]

# tmp_one의 타입을 확인
type(tmp_one)

# 결과: bs4.element.Tag --> 그 변수에서 다시 태그로 찾는 find, find_all을 사용할 수 있다.

bs4.element.Tag

In [122]:
# tmp_one에 있는 태그들 중에 class='sammyRank'라는 것을 찾는다.

tmp_one.find(class_='sammyRank')
# 결과: <div class="sammyRank">1</div>

<div class="sammyRank">1</div>

In [123]:
# tmp_one에 있는 태그들 중에 class='sammyRank'의 text를 추출한다.
tmp_one.find(class_='sammyRank').get_text()
# 결과: 1

'1'

In [124]:
# tmp_one에 있는 태그들 중에서 class='sammyListing'의 text를 추출한다.
# sammyListing을 얻으면 메뉴 이름과 가게 이름이 같이 나온다.

tmp_one.find(class_='sammyListing').get_text()
# 결과: 'BLT\r\nOld Oak Tap\nRead more'

'BLT\nOld Oak Tap\nRead more '

In [125]:
# tmp_one에 있는 태그들 중에 a 태그의 href를 추출한다. (a태그: 하이퍼링크)
tmp_one.find('a')['href']

# 결과: "/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Old-Oak-Tap-BLT/"

'/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Old-Oak-Tap-BLT/'

1등 메뉴 이름과 가게 이름

In [126]:
# 정규식을 위해서 re를 import
# 파이썬에서 정규표현식을 사용하기 위해 Regex(Regular Expression)을 위한 모듈 re를 사용
# 정규표현식이란? https://hamait.tistory.com/342

import re

# tmp_one에 있는 태그들 중에 class='sammyListing'의 text를 추출한다.
tmp_string = tmp_one.find(class_='sammyListing').get_text()

# '\n'이나 '\r'이 있으면 그것들을 기준으로 나눈다.
re.split(('\n|\r\n'),tmp_string)     # \n : 줄바꿈, \r : 그 줄의 맨 앞으로 가라.

#위에서 나눈 것을 0,1번째를 출력 (이미 위에서 나눠놓았고 이건 출력해서 확인하는 거)
print(re.split(('\n|\r\n'),tmp_string)[0])
print(re.split(('\n|\r\n'),tmp_string)[1])

# 결과: BLT
#       Old Oak Tap
# 결과가 두개가 나오게 되는데 그 이유는 readmore는 em태그에 있기 때문이다.

BLT
Old Oak Tap


In [127]:
from urllib.parse import urljoin

# 데이터를 담을 list를 만든다.
rank = []
main_menu = []
cafe_name = []
url_add = []

# div태그의 class='sammy'를 가진 것을 전부 찾아낸다.
list_soup = soup.find_all('div','sammy')  # 총 50개

# 전부 찾아낸 div태그들을 for문의 범위에 넣고
for item in list_soup:                        # 50번 반복
    # class='sammyRank'에 있는 text를 추출하고 rank 리스트에 추가
    rank.append(item.find(class_='sammyRank').get_text())
    
    # class='sammyListing'에 있는 text를 추출
    tmp_string = item.find(class_='sammyListing').get_text()
    
    # '\n'이나 '\r'을 기준으로 text를 나누고 0번째는 main_menu에 추가하고
    # 1번째는 cafe_name에 추가한다.
    main_menu.append(re.split(('\n|\r\n'),tmp_string)[0])
    cafe_name.append(re.split(('\n|\r\n'),tmp_string)[1])
    
    # 맨 처음 기본이 되는 url에 a태그에 있는 href를 추가해준다.
    url_add.append(urljoin(url_base, item.find('a')['href']))

In [128]:
rank[:5]

# 결과: ['1','2','3','4','5']
# 0번째 방에는 1이 1번째 방에는 2가 들어있다.(1 = 1등, 2 = 2등)

['1', '2', '3', '4', '5']

In [129]:
main_menu[0:5]

['BLT', 'Fried Bologna', 'Woodland Mushroom', 'Roast Beef', 'PB&L']

In [130]:
cafe_name[0:5]

['Old Oak Tap', 'Au Cheval', 'Xoco', 'Al’s Deli', 'Publican Quality Meats']

In [131]:
url_add[:5] # 시카고 매거진에서 각 cafe 소개글의 주소 (자료에 실려있는 링크주소)

['https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Old-Oak-Tap-BLT/',
 'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Au-Cheval-Fried-Bologna/',
 'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Xoco-Woodland-Mushroom/',
 'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Als-Deli-Roast-Beef/',
 'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Publican-Quality-Meats-PB-L/']

In [132]:
len(rank), len(main_menu), len(cafe_name), len(url_add)

# 결과: (50, 50, 50, 50)

(50, 50, 50, 50)

In [134]:
import pandas as pd

# 데이터 프레임의 각 컬럼의 이름을 'Rank', 'Menu', 'Cafe', 'URL'로 지정하고,
# value는 위에서 찾은 내용들을 넣어준다.

data = {'Rank':rank, 'Menu':main_menu, 'Cafe':cafe_name, 'URL':url_add}
df = pd.DataFrame(data)
df

#결과: 테이블형식으로 50개가 나온다.

Unnamed: 0,Rank,Menu,Cafe,URL
0,1,BLT,Old Oak Tap,https://www.chicagomag.com/Chicago-Magazine/No...
1,2,Fried Bologna,Au Cheval,https://www.chicagomag.com/Chicago-Magazine/No...
2,3,Woodland Mushroom,Xoco,https://www.chicagomag.com/Chicago-Magazine/No...
3,4,Roast Beef,Al’s Deli,https://www.chicagomag.com/Chicago-Magazine/No...
4,5,PB&L,Publican Quality Meats,https://www.chicagomag.com/Chicago-Magazine/No...
5,6,Belgian Chicken Curry Salad,Hendrickx Belgian Bread Crafter,http://www.chicagomag.com/Chicago-Magazine/Nov...
6,7,Lobster Roll,Acadia,https://www.chicagomag.com/Chicago-Magazine/No...
7,8,Smoked Salmon Salad,Birchwood Kitchen,https://www.chicagomag.com/Chicago-Magazine/No...
8,9,Atomica Cemitas,Cemitas Puebla,https://www.chicagomag.com/Chicago-Magazine/No...
9,10,Grilled Laughing Bird Shrimp and Fried Po’ Boy,Nana,https://www.chicagomag.com/Chicago-Magazine/No...


In [135]:
# 컬럼의 순서를 변경해준다. (cafe명 먼저 나오게)
df = pd.DataFrame(data, columns=['Cafe','Menu','Rank','URL'])
df

Unnamed: 0,Cafe,Menu,Rank,URL
0,Old Oak Tap,BLT,1,https://www.chicagomag.com/Chicago-Magazine/No...
1,Au Cheval,Fried Bologna,2,https://www.chicagomag.com/Chicago-Magazine/No...
2,Xoco,Woodland Mushroom,3,https://www.chicagomag.com/Chicago-Magazine/No...
3,Al’s Deli,Roast Beef,4,https://www.chicagomag.com/Chicago-Magazine/No...
4,Publican Quality Meats,PB&L,5,https://www.chicagomag.com/Chicago-Magazine/No...
5,Hendrickx Belgian Bread Crafter,Belgian Chicken Curry Salad,6,http://www.chicagomag.com/Chicago-Magazine/Nov...
6,Acadia,Lobster Roll,7,https://www.chicagomag.com/Chicago-Magazine/No...
7,Birchwood Kitchen,Smoked Salmon Salad,8,https://www.chicagomag.com/Chicago-Magazine/No...
8,Cemitas Puebla,Atomica Cemitas,9,https://www.chicagomag.com/Chicago-Magazine/No...
9,Nana,Grilled Laughing Bird Shrimp and Fried Po’ Boy,10,https://www.chicagomag.com/Chicago-Magazine/No...


In [136]:
# '03. best_sandwiches_list_chicago.csv'로 저장
df.to_csv('../data/03. best_sandwiches_list_chicago.csv',sep=',',encoding='UTF-8')

### 3-5 다수의 웹 페이지에 자동으로 접근해서 원하는 정보 가져오기

In [137]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

import pandas as pd

In [138]:
# 저장한 csv를 읽어온다.
df = pd.read_csv('../data/03. best_sandwiches_list_chicago.csv',index_col=0)
df.head()

Unnamed: 0,Cafe,Menu,Rank,URL
0,Old Oak Tap,BLT,1,https://www.chicagomag.com/Chicago-Magazine/No...
1,Au Cheval,Fried Bologna,2,https://www.chicagomag.com/Chicago-Magazine/No...
2,Xoco,Woodland Mushroom,3,https://www.chicagomag.com/Chicago-Magazine/No...
3,Al’s Deli,Roast Beef,4,https://www.chicagomag.com/Chicago-Magazine/No...
4,Publican Quality Meats,PB&L,5,https://www.chicagomag.com/Chicago-Magazine/No...


In [139]:
df['URL'].head()
# 5개의 url이 나온다.

0    https://www.chicagomag.com/Chicago-Magazine/No...
1    https://www.chicagomag.com/Chicago-Magazine/No...
2    https://www.chicagomag.com/Chicago-Magazine/No...
3    https://www.chicagomag.com/Chicago-Magazine/No...
4    https://www.chicagomag.com/Chicago-Magazine/No...
Name: URL, dtype: object

In [140]:
# URL 컬럼에 0번째 있는 url을 출력한다.
df['URL'][0]

'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Old-Oak-Tap-BLT/'

In [142]:
# UPL 컬럼에 0번째 있는 url을 오픈

'''
html = urlopen(df['URL'][0])
soup_tmp = BeautifulSoup(html,'html.parser')
soup_tmp
'''

req = Request(df['URL'][0], headers={'User-Agent': 'Mozilla/5.0'})
html = urlopen(req).read()
soup_tmp = BeautifulSoup(html,'html.parser')
soup_tmp
# 여러 태그 안에 코드와 텍스트가 나옴

<!DOCTYPE html>

<html lang="en-US">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible">
<link href="https://gmpg.org/xfn/11" rel="profile"/>
<title>1. Old Oak Tap BLT – Chicago Magazine</title>
<style type="text/css">			.heateorSssInstagramBackground{background:radial-gradient(circle at 30% 107%,#fdf497 0,#fdf497 5%,#fd5949 45%,#d6249f 60%,#285aeb 90%)}
						div.heateor_sss_horizontal_sharing i.heateorSssInstagramBackground{background:#000!important;}div.heateor_sss_standard_follow_icons_container i.heateorSssInstagramBackground{background:#000;}
										.heateor_sss_horizontal_sharing .heateorSssSharing,.heateor_sss_standard_follow_icons_container .heateorSssSharing{
							background-color: #000;
							color: #fff;
						border-width: 0px;
			border-style: solid;
			border-color: transparent;
		}
				.heateor_sss_horizontal_sharing .heateorSssTCBackground{
			color:#666;
		}
				.heateor_sss_horizontal_sharing .heateorSssSharing:hover,.heateor_ss

In [143]:
# 첫번째 p 태그의 class = 'addy'를 찾는다.
print(soup_tmp.find('p','addy'))

<p class="addy">
<em>$10. 2109 W. Chicago Ave., 773-772-0406, <a href="http://www.theoldoaktap.com/">theoldoaktap.com</a></em></p>


In [144]:
# 첫번째 p 태그의 class = 'addy'를 찾고 text를 추출
price_tmp = soup_tmp.find('p','addy').get_text()
price_tmp

'\n$10. 2109 W. Chicago Ave., 773-772-0406, theoldoaktap.com'

In [145]:
# 띄어쓰기를 기준으로 나눈다.
price_tmp.split()

['$10.', '2109', 'W.', 'Chicago', 'Ave.,', '773-772-0406,', 'theoldoaktap.com']

In [146]:
# 0번째 값을 출력
price_tmp.split()[0]

'$10.'

In [148]:
# 0번째 값에서 마지막 글자는 제거
price_tmp.split()[0][:-1] # 뒤에서 첫번째 제거 즉, 마지막 번째 전까지 출력

'$10'

In [150]:
# 1번째부터 뒤에서 2번째 값까지 출력 : 주소를 다시 합침
# 합치고 띄어쓰기로 구분해줌

' '.join(price_tmp.split()[1:-2])

'2109 W. Chicago Ave.,'

In [158]:
# 넣을 데이터의 리스트를 만든다. # 첫번째 것(1등) 뿐 아니라 50등 다 해야하니까 원래는 df.index[:50]
price=[]
address=[]

# 0번째부터 2번째까지 값을 모두 출력한다.
for n in df.index[:3]:
    # url을 0, 1, 2순으로 연다
    req = Request(df['URL'][n], headers={'User-Agent': 'Mozilla/5.0'})
    html = urlopen(req).read()
    # html = urlopen(df['URL'][n])
    soup_tmp = BeautifulSoup(html,'lxml')
    
    # p 태그의 class='addy'에 있는 text를 추출
    gettings = soup_tmp.find('p','addy').get_text()
    
    price.append(gettings.split()[0][:-1])
    address.append(' '.join(gettings.split()[1:-2]))

In [159]:
price

['$10', '$9', '$9.50']

In [160]:
address

['2109 W. Chicago Ave.,', '800 W. Randolph St.,', '445 N. Clark St.,']

### 3-6 주피터 노트북에서 상태 진행바를 쉽게 만들어주는 tqdm모듈
- 아나콘다 네비게이터에서 tqdm 모듈 설치 여부 확인

### 3-7 상태 진행바까지 적용하고 다시 샌드위치 페이지 50개에 접근하기

In [163]:
# 출력화면에 진행상태를 알려주는 패키지
from tqdm import tqdm_notebook

price = []
address = []

# df.index는 50개, 그러므로 for문이 50번 반복
for n in tqdm_notebook(df.index):
    #url도 총 50개가 오픈
    req = Request(df['URL'][n], headers={'User-Agent': 'Mozilla/5.0'})
    html = urlopen(req).read()
    soup_tmp = BeautifulSoup(html,'lxml')
    
    # p태그의 class='addy'에 있는 text를 출력
    gettings = soup_tmp.find('p','addy').get_text()
    
    price.append(gettings.split()[0][:-1])
    address.append(' '.join(gettings.split()[1:-2]))

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for n in tqdm_notebook(df.index):


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=50.0), HTML(value='')))




In [None]:
# 결과: 진행정도(%로) 알려주는 진행바가 생기고 100%가 되면 멈춤 (조금 더 가시적으로 진행상황을 알 수 있음)

### 3-8 50개 웹페이지에 대한 정보 가져오기

In [164]:
price
# 50개의 값이 나옴

['$10',
 '$9',
 '$9.50',
 '$9.40',
 '$10',
 '$7.25',
 '$16',
 '$10',
 '$9',
 '$17',
 '$11',
 '$5.49',
 '$14',
 '$10',
 '$13',
 '$4.50',
 '$11.95',
 '$11.50',
 '$6.25',
 '$15',
 '$5',
 '$6',
 '$8',
 '$5.99',
 '$7.52',
 '$11.95',
 '$7.50',
 '$12.95',
 '$7',
 '$21',
 '$9.79',
 '$9.75',
 '$13',
 '$7.95',
 '$9',
 '$9',
 '$8',
 '$8',
 '$7',
 '$6',
 '$7.25',
 '$11',
 '$6',
 '$9',
 '$5.49',
 '$8',
 '$6.50',
 '$7.50',
 '$8.75',
 '$6.85']

In [165]:
address
# 50개의 값이 나옴

['2109 W. Chicago Ave.,',
 '800 W. Randolph St.,',
 '445 N. Clark St.,',
 '914 Noyes St., Evanston,',
 '825 W. Fulton Mkt.,',
 '100 E. Walton',
 '1639 S. Wabash Ave.,',
 '2211 W. North Ave.,',
 '3619 W. North Ave.,',
 '3267 S. Halsted St.,',
 '2537 N. Kedzie Blvd.,',
 'Multiple',
 '3124 N. Broadway,',
 '3455 N. Southport Ave.,',
 '2657 N. Kedzie Ave.,',
 '1120 W. Grand Ave.,',
 '1141 S. Jefferson St.,',
 '333 E. Benton Pl.,',
 '1411 N. Wells St.,',
 '1747 N. Damen Ave.,',
 '3209 W. Irving Park',
 'Multiple',
 '5347 N. Clark St.,',
 '2954 W. Irving Park Rd.,',
 'Multiple',
 '191 Skokie Valley Rd., Highland Park,',
 'Multiple',
 '1818 W. Wilson Ave.,',
 '2517 W. Division St.,',
 '218 W. Kinzie',
 'Multiple',
 '1547 N. Wells St.,',
 '415 N. Milwaukee Ave.,',
 '1840 N. Damen Ave.,',
 '1220 W. Webster Ave.,',
 '5357 N. Ashland Ave.,',
 '1834 W. Montrose Ave.,',
 '615 N. State St.,',
 'Multiple',
 '241 N. York Rd., Elmhurst,',
 '1323 E. 57th St.,',
 '655 Forest Ave., Lake Forest,',
 'Hotel L

In [166]:
df.head()
# 테이블 형식 데이터 5개 나옴

Unnamed: 0,Cafe,Menu,Rank,URL
0,Old Oak Tap,BLT,1,https://www.chicagomag.com/Chicago-Magazine/No...
1,Au Cheval,Fried Bologna,2,https://www.chicagomag.com/Chicago-Magazine/No...
2,Xoco,Woodland Mushroom,3,https://www.chicagomag.com/Chicago-Magazine/No...
3,Al’s Deli,Roast Beef,4,https://www.chicagomag.com/Chicago-Magazine/No...
4,Publican Quality Meats,PB&L,5,https://www.chicagomag.com/Chicago-Magazine/No...


In [167]:
len(price), len(address), len(df)
# 결과: (50, 50, 50)
# 빅데이터 처리 전에 몇 개 출력되는지 확인하기(나중에 오류 잡을라면 힘드니까)

(50, 50, 50)

In [168]:
# 데이터 프레임에 새로운 칼럼을 추가
df['Price'] = price
df['Address'] = address

# 컬럼 정렬
df = df.loc[:,['Rank','Cafe','Menu','Price','Address']]

# 데이터 프레임의 인덱스를 'Rank'로 변경
df.set_index('Rank', inplace=True)
df.head()

Unnamed: 0_level_0,Cafe,Menu,Price,Address
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Old Oak Tap,BLT,$10,"2109 W. Chicago Ave.,"
2,Au Cheval,Fried Bologna,$9,"800 W. Randolph St.,"
3,Xoco,Woodland Mushroom,$9.50,"445 N. Clark St.,"
4,Al’s Deli,Roast Beef,$9.40,"914 Noyes St., Evanston,"
5,Publican Quality Meats,PB&L,$10,"825 W. Fulton Mkt.,"


In [169]:
# csv로 저장
df.to_csv('../data/03. best_sandwiches_list_chicago2.csv',sep=',', encoding='utf-8')

### 3-9 맛집 위치를 지도에 표기하기

In [171]:
pip install folium 

Note: you may need to restart the kernel to use updated packages.


In [172]:
import folium

In [173]:
import pandas as pd
import googlemaps
import numpy as np

In [174]:
# 저장한 csv를 읽어오기
df = pd.read_csv('../data/03. best_sandwiches_list_chicago2.csv', index_col=0)
df.head()

#index_col=0 --> 첫번째 열에 순번을 기본적으로 나타내는데 이를 생략하고 다음 실
#                데이터부터 보여주는 것이다.

Unnamed: 0_level_0,Cafe,Menu,Price,Address
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Old Oak Tap,BLT,$10,"2109 W. Chicago Ave.,"
2,Au Cheval,Fried Bologna,$9,"800 W. Randolph St.,"
3,Xoco,Woodland Mushroom,$9.50,"445 N. Clark St.,"
4,Al’s Deli,Roast Beef,$9.40,"914 Noyes St., Evanston,"
5,Publican Quality Meats,PB&L,$10,"825 W. Fulton Mkt.,"


In [175]:
gmaps_key = "AIzaSyAGQ68mWTjQg7G1agLIsyG4XLf8PAozfTw"
gmaps = googlemaps.Client(key=gmaps_key)

In [176]:
# 위도, 경도를 저장할 리스트를 만든다.
lat = []
lng = []

# 인덱스가 50개이기 때문에 for이 50번 반복..tqdm이니까 진행바 나온다.
for n in tqdm_notebook(df.index):
    # 주소에 'Multiple'이 있지 않으면, if문을 실행
    if df['Address'][n] != 'Multiple':
        # 주소에 'Chicago'를 추가해서 주소를 완성시킨다.
        target_name = df['Address'][n]+'. '+'Chicago'
        # 구글맵에서 geocode부분에 접근
        gmaps_output = gmaps.geocode(target_name)
        # 'geometry'부분에 위도, 경도가 있으므로 추출
        location_output = gmaps_output[0].get('geometry')
        # 각각의 위도, 경도를 리스트에 추가한다.
        lat.append(location_output['location']['lat'])
        lng.append(location_output['location']['lng'])
        
    # 주소에 'Nultiple'이 있으면
    else:
        # 위도, 경도 리스트에 NaN 추가
        lat.append(np.nan)
        lng.append(np.nan)  

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for n in tqdm_notebook(df.index):


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=50.0), HTML(value='')))




In [177]:
len(lat), len(lng)
# (50,50)

(50, 50)

In [178]:
df['lat'] = lat
df['lng'] = lng
df.head()

# lat과 lng가 포함된 테이블 데이터가 나옴

Unnamed: 0_level_0,Cafe,Menu,Price,Address,lat,lng
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Old Oak Tap,BLT,$10,"2109 W. Chicago Ave.,",41.895605,-87.679961
2,Au Cheval,Fried Bologna,$9,"800 W. Randolph St.,",41.884658,-87.647667
3,Xoco,Woodland Mushroom,$9.50,"445 N. Clark St.,",41.890523,-87.630783
4,Al’s Deli,Roast Beef,$9.40,"914 Noyes St., Evanston,",42.058322,-87.683748
5,Publican Quality Meats,PB&L,$10,"825 W. Fulton Mkt.,",41.886604,-87.648536


In [179]:
mapping = folium.Map(location=[df['lat'].mean(), df['lng'].mean()], zoom_start=11)

folium.Marker([df['lat'].mean(),df['lng'].mean()], popup='center').add_to(mapping)

mapping

# location: location 속성으로 주시하고자 하는 지도의 정중앙의 지표를 먼저 설정한다.(물방울 모양)
# mean: 평균 구하는 함수
# zoom_start: 배율 조절, popup: 클릭시 팝업되는 메시지 설정
# Marker: Marker클래쓰를 이용하면 특정 위치(샌드위치 맛집 위치)를 아이콘으로 강조할 수 있다.
# 지도에서 1위한 가게의 location이 찍히며 나옴

In [180]:
mapping = folium.Map(location=[df['lat'].mean(), df['lng'].mean()], zoom_start=11)

for n in df.index:
    if df['Address'][n] != 'Multiple':
        folium.Marker([df['lat'][n], df['lng'][n]], popup=df['Cafe'][n]).add_to(mapping)

mapping

# 50개의 맛집의 위치가 지도에 찍히며 나옴                  