# 시카고 샌드위치 맛집 분석

### 학습 내용
* BeautifulSoup 라이브러리
* 크롬 개발자 도구 사용
* 구글맵 사용

## 1. BeautifulSoup 라이브러리

BeautifulSoup 라이브러리는 Anaconda를 설치했으면 같이 설치가 되며 그렇지 않다면 다음과 같이 설치할 수 있음
```shell
$ pip install bs4
```

실습을 위한 HTML 코드: 다음 코드를 복사하여 Jupyter Notebook 실습 폴더에 "test.html" 파일로 저장

```html
<!doctype html>
<html>
    <head>
        <title>Very Simple HTML Code</title>
    </head>
    <body>
        <div>
            <p class="inner-text first-item" id="first">
                충북대학교 SW중심대학사업단(
                <a href="https://sw7up.cbnu.ac.kr" id="sw7up-link">
                    홈페이지
                </a>
                )
            </p>
            <p class="inner-text second-item">
                충북대학교(
                <a href="https://cbnu.ac.kr">
                    홈페이지
                </a>
                )
            </p>
        </div>
        <p class="outer-text first-item" id="second">
            <b>BigData with Python</b>
        </p>
        <p class="outer-text">
            <b>And Jupyter notebook</b>
        </p>
    </body>
</html>
```

### 1-1. BeautifulSoup 임포트하고 HTML 파싱하기

In [1]:
from bs4 import BeautifulSoup

HTML 파일을 열어 임포트한 BeautifulSoup을 이용하여 파싱을 수행   
변수 soup에는 HTML이 파싱이 된 객체가 저장

In [2]:
with open('test.html', 'r') as f:
    page = f.read()

soup = BeautifulSoup(page, 'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Very Simple HTML Code
  </title>
 </head>
 <body>
  <div>
   <p class="inner-text first-item" id="first">
    충북대학교 SW중심대학사업단(
    <a href="https://sw7up.cbnu.ac.kr" id="sw7up-link">
     홈페이지
    </a>
    )
   </p>
   <p class="inner-text second-item">
    충북대학교(
    <a href="https://cbnu.ac.kr">
     홈페이지
    </a>
    )
   </p>
  </div>
  <p class="outer-text first-item" id="second">
   <b>
    BigData with Python
   </b>
  </p>
  <p class="outer-text">
   <b>
    And Jupyter notebook
   </b>
  </p>
 </body>
</html>



### 1-2. BeautifulSoup을 이용하여 HTML 요소 접근하기

soup 변수에서 한 단계 아래에 포함된 태그를 알고 싶을 경우 children 속성 사용

In [3]:
list(soup.children)

['html',
 '\n',
 <html>
 <head>
 <title>Very Simple HTML Code</title>
 </head>
 <body>
 <div>
 <p class="inner-text first-item" id="first">
                 충북대학교 SW중심대학사업단(
                 <a href="https://sw7up.cbnu.ac.kr" id="sw7up-link">
                     홈페이지
                 </a>
                 )
             </p>
 <p class="inner-text second-item">
                 충북대학교(
                 <a href="https://cbnu.ac.kr">
                     홈페이지
                 </a>
                 )
             </p>
 </div>
 <p class="outer-text first-item" id="second">
 <b>BigData with Python</b>
 </p>
 <p class="outer-text">
 <b>And Jupyter notebook</b>
 </p>
 </body>
 </html>,
 '\n']

soup은 문서 전체를 저장한 변수이기 때문에 그 안에서 html태그에 접근하고 싶다면 다음과 같이 한다.

In [4]:
html = list(soup.children)[2]
html

<html>
<head>
<title>Very Simple HTML Code</title>
</head>
<body>
<div>
<p class="inner-text first-item" id="first">
                충북대학교 SW중심대학사업단(
                <a href="https://sw7up.cbnu.ac.kr" id="sw7up-link">
                    홈페이지
                </a>
                )
            </p>
<p class="inner-text second-item">
                충북대학교(
                <a href="https://cbnu.ac.kr">
                    홈페이지
                </a>
                )
            </p>
</div>
<p class="outer-text first-item" id="second">
<b>BigData with Python</b>
</p>
<p class="outer-text">
<b>And Jupyter notebook</b>
</p>
</body>
</html>

html 변수에 저장된 객체의 children을 보면, head, body 태그가 포함되어 있음을 알 수 있다.

In [5]:
list(html.children)

['\n',
 <head>
 <title>Very Simple HTML Code</title>
 </head>,
 '\n',
 <body>
 <div>
 <p class="inner-text first-item" id="first">
                 충북대학교 SW중심대학사업단(
                 <a href="https://sw7up.cbnu.ac.kr" id="sw7up-link">
                     홈페이지
                 </a>
                 )
             </p>
 <p class="inner-text second-item">
                 충북대학교(
                 <a href="https://cbnu.ac.kr">
                     홈페이지
                 </a>
                 )
             </p>
 </div>
 <p class="outer-text first-item" id="second">
 <b>BigData with Python</b>
 </p>
 <p class="outer-text">
 <b>And Jupyter notebook</b>
 </p>
 </body>,
 '\n']

body 태그를 가져와서 보려면 다음과 같이 한다.

In [6]:
body = list(html.children)[3]
body

<body>
<div>
<p class="inner-text first-item" id="first">
                충북대학교 SW중심대학사업단(
                <a href="https://sw7up.cbnu.ac.kr" id="sw7up-link">
                    홈페이지
                </a>
                )
            </p>
<p class="inner-text second-item">
                충북대학교(
                <a href="https://cbnu.ac.kr">
                    홈페이지
                </a>
                )
            </p>
</div>
<p class="outer-text first-item" id="second">
<b>BigData with Python</b>
</p>
<p class="outer-text">
<b>And Jupyter notebook</b>
</p>
</body>

children과 parent를 이용하여 원한는 태그에 접근이 가능   
다음은 body의 parent에 접근하는 예

In [7]:
parent = body.parent
parent

<html>
<head>
<title>Very Simple HTML Code</title>
</head>
<body>
<div>
<p class="inner-text first-item" id="first">
                충북대학교 SW중심대학사업단(
                <a href="https://sw7up.cbnu.ac.kr" id="sw7up-link">
                    홈페이지
                </a>
                )
            </p>
<p class="inner-text second-item">
                충북대학교(
                <a href="https://cbnu.ac.kr">
                    홈페이지
                </a>
                )
            </p>
</div>
<p class="outer-text first-item" id="second">
<b>BigData with Python</b>
</p>
<p class="outer-text">
<b>And Jupyter notebook</b>
</p>
</body>
</html>

다음과 같이 하면 전체 파싱이 된 결과가 저장된 soup 변수에 저장된 객체로 바로 body 태그에 접근이 가능

In [8]:
soup.body

<body>
<div>
<p class="inner-text first-item" id="first">
                충북대학교 SW중심대학사업단(
                <a href="https://sw7up.cbnu.ac.kr" id="sw7up-link">
                    홈페이지
                </a>
                )
            </p>
<p class="inner-text second-item">
                충북대학교(
                <a href="https://cbnu.ac.kr">
                    홈페이지
                </a>
                )
            </p>
</div>
<p class="outer-text first-item" id="second">
<b>BigData with Python</b>
</p>
<p class="outer-text">
<b>And Jupyter notebook</b>
</p>
</body>

children 속성을 이용하여 원하는 태그 요소에 접근하는 것은 복잡하고 큰 페이지에서는 쉽지 않음   
만약 접근해야 할 태그를 알고 있다면 find나 find_all 메서드를 많이 사용함  

> 해당하는 태그 요소를 모두 찾고 싶다면 find_all 메서드를 이용

In [9]:
soup.find_all('p')

[<p class="inner-text first-item" id="first">
                 충북대학교 SW중심대학사업단(
                 <a href="https://sw7up.cbnu.ac.kr" id="sw7up-link">
                     홈페이지
                 </a>
                 )
             </p>,
 <p class="inner-text second-item">
                 충북대학교(
                 <a href="https://cbnu.ac.kr">
                     홈페이지
                 </a>
                 )
             </p>,
 <p class="outer-text first-item" id="second">
 <b>BigData with Python</b>
 </p>,
 <p class="outer-text">
 <b>And Jupyter notebook</b>
 </p>]

> 태그 요소를 하나만 찾을 경우는 find 메서드를 사용

In [10]:
soup.find('p')

<p class="inner-text first-item" id="first">
                충북대학교 SW중심대학사업단(
                <a href="https://sw7up.cbnu.ac.kr" id="sw7up-link">
                    홈페이지
                </a>
                )
            </p>

위의 경우는 가장 먼저 나오는 p 태그 요소를 찾음

이제 head 태그의 형제 요소를 찾는 방법을 살펴보도록 함   
> 먼저 head 요소에 접근

In [11]:
soup.head

<head>
<title>Very Simple HTML Code</title>
</head>

> head의 다음 형제 요소에 접근하기

In [12]:
soup.head.next_sibling

'\n'

> head 다음의 형제 요소는 줄바꿈이므로 body는 그 다음 형제 요소에 있다.

In [13]:
soup.head.next_sibling.next_sibling

<body>
<div>
<p class="inner-text first-item" id="first">
                충북대학교 SW중심대학사업단(
                <a href="https://sw7up.cbnu.ac.kr" id="sw7up-link">
                    홈페이지
                </a>
                )
            </p>
<p class="inner-text second-item">
                충북대학교(
                <a href="https://cbnu.ac.kr">
                    홈페이지
                </a>
                )
            </p>
</div>
<p class="outer-text first-item" id="second">
<b>BigData with Python</b>
</p>
<p class="outer-text">
<b>And Jupyter notebook</b>
</p>
</body>

다음 코드들도 이해해 보자.

In [14]:
body.p

<p class="inner-text first-item" id="first">
                충북대학교 SW중심대학사업단(
                <a href="https://sw7up.cbnu.ac.kr" id="sw7up-link">
                    홈페이지
                </a>
                )
            </p>

In [15]:
body.p.next_sibling

'\n'

In [16]:
body.p.next_sibling.next_sibling

<p class="inner-text second-item">
                충북대학교(
                <a href="https://cbnu.ac.kr">
                    홈페이지
                </a>
                )
            </p>

즉, next_sibling을 두 번 수행하면 다음 형제 요소로 접근할 수 있음을 알 수 있음

HTML의 모든 p 태그 요소들의 텍스트 정보 추출하기

In [17]:
for tag in soup.find_all('p'):
    print(tag.get_text())


                충북대학교 SW중심대학사업단(
                
                    홈페이지
                
                )
            

                충북대학교(
                
                    홈페이지
                
                )
            

BigData with Python


And Jupyter notebook



get_text() 메서드는 태그 요소 안의 텍스트만 가져올 수 있음

In [18]:
body.get_text()

'\n\n\n                충북대학교 SW중심대학사업단(\n                \n                    홈페이지\n                \n                )\n            \n\n                충북대학교(\n                \n                    홈페이지\n                \n                )\n            \n\n\nBigData with Python\n\n\nAnd Jupyter notebook\n\n'

링크 주소가 있는 a 태그 요소에 접근

In [19]:
links = soup.find_all('a')
links

[<a href="https://sw7up.cbnu.ac.kr" id="sw7up-link">
                     홈페이지
                 </a>,
 <a href="https://cbnu.ac.kr">
                     홈페이지
                 </a>]

a 태그의 링크 주소 추출하기

In [20]:
for a in links:
    href = a['href']
    text = a.get_text()
    print('{} -> {}'.format(text, href))


                    홈페이지
                 -> https://sw7up.cbnu.ac.kr

                    홈페이지
                 -> https://cbnu.ac.kr


## 2. Chrome 개발자 도구를 이용하여 원하는 태그 찾기

BeautifulSoup만으로는 복잡한 웹 페이지에서 원하는 태그 요소를 찾는 것이 쉽지 않음  
크롬 개발자 도구를 이용하면 웹 페이지에서 원하는 태그 요소를 쉽게 찾아낼 수 있음

### 2-1. 크롬 개발자 도구 실행하기

실습을 위해 [네이버 금융](https://finance.naver.com/)에 접속

크롬 개발자 도구의 사용은 강의를 통해 진행

* 실습

> 네이버 금융에서 USD 환율 정보 추출해보기

In [21]:
from urllib.request import urlopen

url = 'https://finance.naver.com/'
with urlopen(url) as page:
    soup = BeautifulSoup(page, 'html.parser')
print(soup.prettify())

<html lang="ko">
 <head>
  <title>
   네이버 금융
  </title>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="text/javascript" http-equiv="Content-Script-Type"/>
  <meta content="text/css" http-equiv="Content-Style-Type"/>
  <meta content="네이버 금융" property="og:title"/>
  <meta content="https://ssl.pstatic.net/static/m/stock/im/2016/08/og_stock-200.png" property="og:image"/>
  <meta content="https://finance.naver.com" property="og:url"/>
  <meta content="국내 해외 증시 지수, 시장지표, 펀드, 뉴스, 증권사 리서치 등 제공" property="og:description"/>
  <meta content="article" property="og:type"/>
  <meta content="" property="og:article:thumbnailUrl"/>
  <meta content="네이버금융" property="og:article:author"/>
  <meta content="http://FINANCE.NAVER.COM" property="og:article:author:url"/>
  <link href="https://ssl.pstatic.net/imgstock/static.pc/20210507080705/css/finance_header.css" rel="stylesheet" type="text/css"/>
  <link href="https://ssl.pstatic.net/imgstock/static.pc/20210507080705/

In [22]:
article = soup.find('div', 'article2')
print(article.prettify())

<div class="article2">
 <div class="section1">
  <div class="group1">
   <h2 class="h_exchange">
    <span>
     환전 고시 환율
    </span>
   </h2>
   <table class="tbl_home">
    <caption>
     환전 고시 환율
     <span>
      통화명에 대한 현재가,전일대비로 구분되어 있습니다.
     </span>
    </caption>
    <colgroup>
     <col/>
     <col width="50"/>
     <col width="50"/>
    </colgroup>
    <thead>
     <tr>
      <th scope="col">
       구분
      </th>
      <th scope="col">
       현재가
      </th>
      <th scope="col">
       전일대비
      </th>
     </tr>
    </thead>
    <tbody>
     <tr class="up bold">
      <th scope="row">
       <a href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'exr.list', 'FX_USDKRW', '1', event);">
        미국USD
       </a>
      </th>
      <td>
       1,134.00
      </td>
      <td>
       <em class="bu_p bu_pup">
        <span class="blind">
         상승
        </span>
       </em>
       4.50
      </td>
     </tr>
     <tr class="up">
      <th 

In [23]:
table = article.find('table')
print(table.prettify())

<table class="tbl_home">
 <caption>
  환전 고시 환율
  <span>
   통화명에 대한 현재가,전일대비로 구분되어 있습니다.
  </span>
 </caption>
 <colgroup>
  <col/>
  <col width="50"/>
  <col width="50"/>
 </colgroup>
 <thead>
  <tr>
   <th scope="col">
    구분
   </th>
   <th scope="col">
    현재가
   </th>
   <th scope="col">
    전일대비
   </th>
  </tr>
 </thead>
 <tbody>
  <tr class="up bold">
   <th scope="row">
    <a href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'exr.list', 'FX_USDKRW', '1', event);">
     미국USD
    </a>
   </th>
   <td>
    1,134.00
   </td>
   <td>
    <em class="bu_p bu_pup">
     <span class="blind">
      상승
     </span>
    </em>
    4.50
   </td>
  </tr>
  <tr class="up">
   <th scope="row">
    <a href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_JPYKRW" onclick="clickcr(this, 'exr.list', 'FX_JPYKRW', '2', event);">
     일본JPY (100엔)
    </a>
   </th>
   <td>
    1,036.71
   </td>
   <td>
    <em class="bu_p bu_pup">
     <span class="blind">
      

In [24]:
tr = table.tbody.find('tr')
print(tr.prettify())

<tr class="up bold">
 <th scope="row">
  <a href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'exr.list', 'FX_USDKRW', '1', event);">
   미국USD
  </a>
 </th>
 <td>
  1,134.00
 </td>
 <td>
  <em class="bu_p bu_pup">
   <span class="blind">
    상승
   </span>
  </em>
  4.50
 </td>
</tr>



In [25]:
td = tr.find('td')
print('USD 환율:', td.get_text())

USD 환율: 1,134.00


select 메서드(JavaScript의 querySelector와 유사한 기능)를 이용하여 추출하는 방법
> CSS 선택자(selector)를 이용하여 태그 요소를 선택하는 방법으로 자세한 내용은 [CSS 선택자](https://developer.mozilla.org/ko/docs/Web/CSS/CSS_Selectors)를 볼 것

In [26]:
usd = soup.select('.article2 table tbody tr td')[0]
print('USD 환율: ', usd.get_text())

USD 환율:  1,134.00


## 3. 시카고 샌드위치 맛집 소개 사이트 분석

[시카고 샌드위치](https://goo.gl/wAtv1s) 페이지의 하단으로 가면 시카고의 샌드위치 가게 정보가 나열되어 있음

> 크롬 개발자 도구를 이용하여 해당 정보를 추출하기 위한 태그 요소의 형태를 알아보자.

### 3-1. 시카고 샌드위치 사이트 접근

In [27]:
# from bs4 import BeautifulSoup
# from urllib.request import urlopen

# base_url = 'https://www.chicagomag.com'
# url_path = '/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/'
# url = base_url + url_path

# with urlopen(url) as page:
#     soup = BeautifulSoup(page, 'html.parser')

# soup

위와 같이 접속할 경우 403 Forbidden 에러가 발생한다.   
웹 브라우저가 아닌 다른 애플리케이션에서의 접근을 막은 것인데 이런 경우, User-Agent 정보를 변경하여 웹 브라우저에서 접근하는 것처럼 할 수 있음

In [28]:
from bs4 import BeautifulSoup
from urllib.request import urlopen, Request, urljoin

base_url = 'https://www.chicagomag.com'
url_path = '/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/'
url = base_url + url_path

request = Request(
    url, 
    headers={
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36'
    }
)

with urlopen(request) as page:
    soup = BeautifulSoup(page, 'html.parser')

### 3-2. 접근한 웹 페이지에서 원하는 데이이터 추출하고 정리하기

In [29]:
store_list = soup.select('.sammy')
store_list[0]

<div class="sammy" style="position: relative;">
<div class="sammyRank">1</div>
<div class="sammyListing"><a href="/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Old-Oak-Tap-BLT/"><b>BLT</b><br/>
Old Oak Tap<br/>
<em>Read more</em> </a></div>
</div>

In [30]:
import re

ranks = []
main_menus = []
cafe_names = []
urls = []
pattern = re.compile(r'\n|\r\n')

for store in store_list:
    ranks.append(store.find(class_='sammyRank').get_text())
    temp = store.find(class_='sammyListing').get_text()
    chunks = pattern.split(temp)
    main_menus.append(chunks[0])
    cafe_names.append(chunks[1])
    urls.append(urljoin(base_url, store.find('a')['href']))    

데이터가 잘 추출되었는지 체크

In [31]:
ranks[:5]

['1', '2', '3', '4', '5']

In [32]:
main_menus[:5]

['BLT', 'Fried Bologna', 'Woodland Mushroom', 'Roast Beef', 'PB&L']

In [33]:
cafe_names[:5]

['Old Oak Tap', 'Au Cheval', 'Xoco', 'Al’s Deli', 'Publican Quality Meats']

In [34]:
urls[:5]

['https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Old-Oak-Tap-BLT/',
 'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Au-Cheval-Fried-Bologna/',
 'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Xoco-Woodland-Mushroom/',
 'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Als-Deli-Roast-Beef/',
 'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Publican-Quality-Meats-PB-L/']

In [35]:
print(len(ranks), len(main_menus), len(cafe_names), len(urls))

50 50 50 50


pandas 라이브러리를 이용하여 추출한 자료 정리

In [36]:
import pandas as pd

data = {'Rank': ranks, 'Menu': main_menus, 'Cafe': cafe_names, 'URL': urls}
df = pd.DataFrame(data)
df.head()

Unnamed: 0,Rank,Menu,Cafe,URL
0,1,BLT,Old Oak Tap,https://www.chicagomag.com/Chicago-Magazine/No...
1,2,Fried Bologna,Au Cheval,https://www.chicagomag.com/Chicago-Magazine/No...
2,3,Woodland Mushroom,Xoco,https://www.chicagomag.com/Chicago-Magazine/No...
3,4,Roast Beef,Al’s Deli,https://www.chicagomag.com/Chicago-Magazine/No...
4,5,PB&L,Publican Quality Meats,https://www.chicagomag.com/Chicago-Magazine/No...


컬럼의 순서를 보기 좋게 정리하기

In [37]:
df = pd.DataFrame(data, columns=['Rank', 'Cafe', 'Menu', 'URL'])
df.head(5)

Unnamed: 0,Rank,Cafe,Menu,URL
0,1,Old Oak Tap,BLT,https://www.chicagomag.com/Chicago-Magazine/No...
1,2,Au Cheval,Fried Bologna,https://www.chicagomag.com/Chicago-Magazine/No...
2,3,Xoco,Woodland Mushroom,https://www.chicagomag.com/Chicago-Magazine/No...
3,4,Al’s Deli,Roast Beef,https://www.chicagomag.com/Chicago-Magazine/No...
4,5,Publican Quality Meats,PB&L,https://www.chicagomag.com/Chicago-Magazine/No...


csv로 저장

In [38]:
df.to_csv('chicago.csv', sep=',', encoding='utf-8')

### 3-3. 다수의 웹 페이지에 자동으로 접근해서 원하는 정보 가져오기

시카고 매거진에서 시카고의 베스트 샌드위치 가게 50개에 대한 정보를 가져와서 "chicago.csv' 파일로 저장해 두었다.
이제는 각 샌드위치 가게의 기사가 있는 페이지로 이동(앞에서 url을 추출해 둠)하여 원하는 정보를 가져와보자.

> 먼저, 크롬으로 샌드위치 가게 기사 페이지로 이동하여 개발자 도구를 이용하여 원하는 정보를 찾아보자.   
> 여기서는 가게 주소, 대표 샌드위치 가격, 가게 전화번호를 추출해 본다.

In [39]:
from bs4 import BeautifulSoup
from urllib.request import urlopen, Request
import pandas as pd

df = pd.read_csv('chicago.csv', index_col=0)
df.head()

Unnamed: 0,Rank,Cafe,Menu,URL
0,1,Old Oak Tap,BLT,https://www.chicagomag.com/Chicago-Magazine/No...
1,2,Au Cheval,Fried Bologna,https://www.chicagomag.com/Chicago-Magazine/No...
2,3,Xoco,Woodland Mushroom,https://www.chicagomag.com/Chicago-Magazine/No...
3,4,Al’s Deli,Roast Beef,https://www.chicagomag.com/Chicago-Magazine/No...
4,5,Publican Quality Meats,PB&L,https://www.chicagomag.com/Chicago-Magazine/No...


In [40]:
df['URL'][0]

'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Old-Oak-Tap-BLT/'

In [41]:
request = Request(
    df['URL'][0],
    headers={
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36'
    }
)

with urlopen(request) as page:
    soup = BeautifulSoup(page, 'html.parser')

In [42]:
addy = soup.find(class_='addy')
addy

<p class="addy">
<em>$10. 2109 W. Chicago Ave., 773-772-0406, <a href="http://www.theoldoaktap.com/">theoldoaktap.com</a></em></p>

In [43]:
# 링크 정보가 있는 것과 없는 것이 있음
a = addy.find('a')
a

<a href="http://www.theoldoaktap.com/">theoldoaktap.com</a>

In [44]:
# 링크 정보는 불필요하므로 제거
a.decompose()
addy

<p class="addy">
<em>$10. 2109 W. Chicago Ave., 773-772-0406, </em></p>

In [45]:
info_txt = soup.find(class_='addy').get_text()
info_txt

'\n$10. 2109 W. Chicago Ave., 773-772-0406, '

In [46]:
info = info_txt.split()
info

['$10.', '2109', 'W.', 'Chicago', 'Ave.,', '773-772-0406,']

In [47]:
# 가격 정보 추출
price = info[0][:-1]
price

'$10'

In [48]:
# 주소 정보 추출
address = ' '.join(info[1:-1])[:-1]
address

'2109 W. Chicago Ave.'

In [49]:
# 전화번호 추출
tel = info[-1][:-1]
tel

'773-772-0406'

### 3-4. 상태 진행바를 적용하여 50개의 샌드위치 가게에 대한 정보 추출하기

먼저 다음 명령을 이용하여 tqdm을 설치한다.

Anaconda를 사용하는 경우
```shell
$ conda install -c conda-forge tqdm
```

pip로 설치하는 경우
```shell
$ pip install tqdm
```

> tqdm 테스트

In [50]:
from tqdm import notebook
import time

for i in notebook.tqdm(range(100)):
    time.sleep(0.1)

  0%|          | 0/100 [00:00<?, ?it/s]

> 만약 위의 진행바가 동작하지 않는다면, 다음의 명령을 콘솔 창에 실행

```shell
$ jupyter labextension install @jupyter-widgets/jupyterlab-manager
```

> 그리고 jupyter notebook으로 실행을 했다면 서버를 중지하고 jupyter lab으로 실행

```shell
$ jupyter lab
```

> jupyter lab이 설치가 되어 있지 않다면 jupyter lab도 설치한다.
```shell
$ pip install jupyterlab
```

이제, 시카고 샌드위치 가게들의 정보를 추출하여 정리하여 보자.

In [51]:
from tqdm.notebook import tqdm

prices = []
addresses = []
tels = []

for i in tqdm(df.index):
    request = Request(
        df['URL'][i],
        headers={
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36'
        }
    )
    with urlopen(request) as page:
        soup = BeautifulSoup(page, 'html.parser')
        addy = soup.find(class_='addy')
        a = addy.find('a')
        if a:
            a.decompose() # 필요없는 정보 삭제
        info_txt = addy.get_text()
        info = info_txt.split()
        prices.append(info[0][:-1])
        addresses.append(' '.join(info[1:-1])[:-1])
        tels.append(info[-1][:-1])

  0%|          | 0/50 [00:00<?, ?it/s]

원하는 정보가 잘 수집되었는지 확인

In [52]:
prices[:15]

['$10',
 '$9',
 '$9.50',
 '$9.40',
 '$10',
 '$7.25',
 '$16',
 '$10',
 '$9',
 '$17',
 '$11',
 '$5.49',
 '$14',
 '$10',
 '$13']

> 주소 정보에는 'Multipl'이라고 적힌 경우가 있음을 주의

In [53]:
addresses[:15]

['2109 W. Chicago Ave.',
 '800 W. Randolph St.',
 '445 N. Clark St.',
 '914 Noyes St., Evanston',
 '825 W. Fulton Mkt.',
 '100 E. Walton St.',
 '1639 S. Wabash Ave.',
 '2211 W. North Ave.',
 '3619 W. North Ave.',
 '3267 S. Halsted St.',
 '2537 N. Kedzie Blvd.',
 'Multipl',
 '3124 N. Broadway',
 '3455 N. Southport Ave.',
 '2657 N. Kedzie Ave.']

> 전화번호의 경우 'locations'와 같은 정보가 있음에도 주의

In [54]:
tels[:15]

['773-772-0406',
 '312-929-4580',
 '312-334-3688',
 '847-475-9400',
 '312-445-8977',
 '312-649-671',
 '312-360-9500',
 '773-276-2100',
 '773-772-8435',
 '312-929-2486',
 '773-489-9554',
 'locations',
 '773-661-9166',
 '773-883-2525',
 '773-276-7110']

> 각 정보의 길이를 비교하여 정보가 잘 수집되었는지 체크

In [55]:
print(len(prices), len(addresses), len(tels))

50 50 50


pandas로 정리

In [56]:
df['Price'] = prices
df['Address'] = addresses
df['Tel'] = tels

df = df.loc[:, ['Rank', 'Cafe', 'Menu', 'Price', 'Address', 'Tel']]
df.set_index('Rank', inplace=True)
df.head()

Unnamed: 0_level_0,Cafe,Menu,Price,Address,Tel
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,Old Oak Tap,BLT,$10,2109 W. Chicago Ave.,773-772-0406
2,Au Cheval,Fried Bologna,$9,800 W. Randolph St.,312-929-4580
3,Xoco,Woodland Mushroom,$9.50,445 N. Clark St.,312-334-3688
4,Al’s Deli,Roast Beef,$9.40,"914 Noyes St., Evanston",847-475-9400
5,Publican Quality Meats,PB&L,$10,825 W. Fulton Mkt.,312-445-8977


결과를 chicago2.csv 파일로 저장

In [57]:
df.to_csv('chicago2.csv', sep=',', encoding='utf-8')

### 3-5. 맛집 위치 지도에 표시하기

#### Google Maps API 사용하기


In [58]:
import folium
import pandas as pd
import googlemaps
import numpy as np

In [59]:
df = pd.read_csv('chicago2.csv', index_col=0)
df.head()

Unnamed: 0_level_0,Cafe,Menu,Price,Address,Tel
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,Old Oak Tap,BLT,$10,2109 W. Chicago Ave.,773-772-0406
2,Au Cheval,Fried Bologna,$9,800 W. Randolph St.,312-929-4580
3,Xoco,Woodland Mushroom,$9.50,445 N. Clark St.,312-334-3688
4,Al’s Deli,Roast Beef,$9.40,"914 Noyes St., Evanston",847-475-9400
5,Publican Quality Meats,PB&L,$10,825 W. Fulton Mkt.,312-445-8977


> 구글 Geocoding API를 이용하여 각 샌드위치 가게의 좌표값(위도, 경도) 가져오기

In [60]:
gmaps_key = '<발급 받은 API 키 입력>'
gmaps = googlemaps.Client(key=gmaps)

NameError: name 'gmaps' is not defined

In [None]:
lat = []
lng = []

for i in tqdm(df.index):
    if df['Address'][i] != 'Multipl':
        target_name = df['Address'][i] + ', ' + 'Chicago'
        gmaps_output = gmaps.geocode(target_name)
        location_output = gmaps_output[0].get('geometry')
        lat.append(location_output['location']['lat'])
        lng.append(location_output['location']['lng'])
    else:
        lat.append(np.nan)
        lng.append(np.nan)

In [None]:
lat[:15]

In [None]:
lng[:15]

> 좌표값을 pandas로 정리

In [None]:
df['lat'] = lat
df['lng'] = lng
df.head()

> 50개 샌드위치 가게의 위도, 경도의 평균값을 구해 중앙에 마커 표시

In [None]:
mean_lat, mean_lng = df['lat'].mean(), df['lng'].mean()
mapping = folium.Map(location=[mean_lat, mean_lng], zoom_start=11)
marker = folium.Marker([mean_lat, mean_lng], popup='center')
marker.add_to(mapping)
mapping

> 50개의 맛집을 마커로 표시하기

In [None]:
for i in df.index:
    if df['Address'][i] != 'Multipl':
        folium.Marker([df['lat'][i], df['lng'][i]], popup=df['Cafe'][i]).add_to(mapping)
        
mapping

## 4. 네이버 영화 평점 데이터 분석

### 4-1. 네이버 영화 평점 데이터 간단 분석
[네이버 영화 평점](https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=cur&date=20210516)에 접근하여 크롬 개발자 도구로 웹 페이지를 분석

In [None]:
from bs4 import BeautifulSoup
import pandas as pd
from urllib.request import urlopen

base_url = 'https://movie.naver.com/'
url_path = 'movie/sdb/rank/rmovie.nhn?sel=cur&date=20210516'
url = base_url + url_path

with urlopen(url) as page:
    soup = BeautifulSoup(page, 'html.parser')    

원하는 정보 추출해보기

In [None]:
ranking_table = soup.select('table.list_ranking')[0]
rows = ranking_table.select('tbody tr')[1:]
for row in rows:
    a = row.find('a')
    point = row.find('td', 'point')
    if a and point:
        print(a.get_text(), end=' - ')
        print(point.get_text())
    

### 4-2. 날짜별로 영화 랭킹 정보 가져오기

In [None]:
dates = pd.date_range('2021-1-1', periods=130, freq='D')
dates

날짜별 URL 생성하기

In [None]:
from urllib.parse import quote 
from pprint import pprint

url_path_fmt = 'movie/sdb/rank/rmovie.nhn?sel=cur&date={date}'
urls = []
for date in dates:
    url = base_url + url_path_fmt.format(date=quote(date.strftime('%Y%m%d')))
    urls.append(url)
pprint(urls[:5])
pprint(urls[-5:])

In [None]:
from bs4 import BeautifulSoup
import pandas as pd
from urllib.request import urlopen
import numpy as np

movie_dates = []
movie_names = []
movie_points = []

for date in tqdm(dates):
    url = base_url + url_path_fmt.format(date=quote(date.strftime('%Y%m%d')))
    with urlopen(url) as page:
        soup = BeautifulSoup(page, 'html.parser')
    rows = soup.find('table', 'list_ranking').select('tbody tr')[1:]
    for row in rows:
        a = row.find('a')
        point = row.find('td', 'point')
        if a and point:
            movie_dates.append(date)
            movie_names.append(a.get_text())
            movie_points.append(np.float64(point.get_text()))
            
movie_df = pd.DataFrame({'date': movie_dates, 'name': movie_names, 'point': movie_points})

In [None]:
movie_df.head()

pivot_table을 이용한 영화별 점수의 합산으로 데이터 보기

In [None]:
movie_unique = pd.pivot_table(movie_df, index=['name'], aggfunc=np.sum)
movie_best = movie_unique.sort_values(by='point', ascending=False)
movie_best.head()

특정 영화만 추려서 보기

In [None]:
tmp = movie_df.query('name == ["부활: 그 증거"]')
tmp

날짜별 평점 변화 확인하기

In [None]:
from matplotlib import pyplot as plt

plt.figure(figsize=(12, 8))
plt.plot(tmp['date'], tmp['point'])
plt.grid()
plt.show()

### 4-3. 영화별 날짜 변화에 따른 평점 변화 확인

In [None]:
movie_pivot = pd.pivot_table(movie_df, index=['date'], columns=['name'], values=['point'])
movie_pivot.head()

In [None]:
movie_pivot.columns = movie_pivot.columns.droplevel()
movie_pivot.head()

In [None]:
from matplotlib import rc
import platform

plt.rcParams['axes.unicode_minus'] = False
if platform.system() == 'Darwin':     # 현재 실행 환경의 OS가 MacOS인 경우
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':  # 현재 실행 환경의 OS가 Windows인 경우
    rc('font', family='NanumGothic')
else:
    print('Unknown system... sorry~~~~')

In [None]:
movie_pivot.plot(y=['해리가 샐리를 만났을 때', '귀여운 여인', '고질라 VS. 콩', '화양연화', '해리 포터와 불의 잔'], figsize=(12, 6))
plt.grid()
plt.show()