---
#### 학습목표
---
- 웹 데이터를 가져오는 Beautiful Soup 익히기
- 크롬 개발자 도구를 이용해서 원하는 태그 찾기 ***(f12)***
- 시카고 샌드위치 맛집 소개 사이트에 접근하기
- 접근한 웹 페이지에서 원하는 데이터 추출하고 정리하기
- 다수의 웹페이지에서 자동으로 접근해서 원하는 정보 가져오기
- Jupyter notebook 상태 진행바 생성
- 상태 진행바 적용 페이지 접근하기
- 50개 웹페이지 정보 가져오기 ***<a태그>***
- 맞집 위치를 지도에 표시하기 ***(folium)***


In [4]:
# BeautifulSoup lib 사용법
from bs4 import BeautifulSoup # class import

page = open('./data/03. test_first.html', 'r') # file object 생성
page = page.read() # 전체 읽어서 문자열로 반환 **read 관련 함수** readlines...등 확인해볼것
# page = page.read() # 전체 읽어서 문자열로 반환
# print(page) # 아직까지는 문자열일 뿐이다
soup=BeautifulSoup(page, 'html.parser') # dom tree 생성되고 css selector 가능해진다

In [5]:
# 데이터 추출시 자주 사용하는 메소드 
# 1. find() : 주어진 태그와 속성을 가진 첫번째 요소를 검색할 때 사용
# 2. find_all() : 주어진 태그와 속성을 가진 모든 요소를 검색할 때 사용
# 3. select_one() : CSS Selector 사용해서 첫번째 요소를 검색할 때 사용
# 4. select() : CSS selctor 사용해서 모든 요소를 검색할 때 사용

In [6]:
# 이 3번의 과정을 거처야 div태그까지 갈수 있다
# 이를 쉽게 해주는 메소드가 있다
html = list(soup.children)[2]
html

body = list(html.children)[3]
list(body.children)[1]

<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>

In [7]:
# find, find all, select
# p tag 검색
# soup.find('p') # 첫 번째 <p태그> 만 나온다
soup.find_all('p') # 검색 결과 여러개를 리스트 반환

[<p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>,
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>,
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

In [8]:
# <p태그>, class='outer-text' 검색
soup.find_all('p', class_='outer-text')

[<p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

In [9]:
soup.find_all('p', id='first')

[<p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>]

In [10]:
soup.find_all('p')[0].get_text() # get_text() : 문자열 데이터 추출


'\n                Happy PinkWink.\n                PinkWink\n'

In [11]:
links=soup.find_all('a')
link=links[0]
link['href'] # 링크에서 href 속성의 값 추출


'http://www.pinkwink.kr'

In [12]:
for link in links: 
    href= link['href']
    print(href)

http://www.pinkwink.kr
https://www.python.org


In [13]:
# 네이버 증권 사이트에서 환율 정보
from urllib.request import urlopen

url='https://finance.naver.com/marketindex/'
page=urlopen(url)

soup=BeautifulSoup(page, 'html.parser')
print(soup.find_all('span', class_='value')[0].get_text())
print('--'*30)
print(soup.find_all('span', class_='value')[0].string)

1,452.70
------------------------------------------------------------
1,452.70


# pg44 실전 : 시카고 샌드위치 맛집 소개 사이트에 접근하기

---
#### 시카고 샌드위치 맛집 사이트 분석
---


In [14]:
# import
import numpy as np
import pandas as pd

from bs4 import BeautifulSoup
from urllib.request import urlopen



In [15]:
import requests

headers = {
    'user-Agent':'Mozilla/5.0'
}

# full address : 'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/'

url_base='https://www.chicagomag.com'
# 현재는 샌드위치 메인 페이지 URL
url_sub='/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/'

# main page
url = url_base + url_sub

html = requests.get(
    url = url
    , headers=headers
).text

print(html)

<!DOCTYPE html>
<html lang="en-US">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge" />
	<link rel="profile" href="https://gmpg.org/xfn/11">
	
	<script src="https://cmp.osano.com/16A1AnRt2Fn8i1unj/f15ebf08-7008-40fe-9af3-db96dc3e8266/osano.js"></script>
	
	<title>The 50 Best Sandwiches in Chicago &#8211; Chicago Magazine</title>
<meta name='robots' content='max-image-preview:large' />
	<style>img:is([sizes="auto" i], [sizes^="auto," i]) { contain-intrinsic-size: 3000px 1500px }</style>
	
<!-- Google Tag Manager for WordPress by gtm4wp.com -->
<script data-cfasync="false" data-pagespeed-no-defer>
	var gtm4wp_datalayer_name = "dataLayer";
	var dataLayer = dataLayer || [];
</script>
<!-- End Google Tag Manager for WordPress by gtm4wp.com --><meta name="viewport" content="width=device-width, initial-scale=1"><link rel='dns-prefetch' href='//cdnjs.cloudflare.com' />
<link rel="alternate" type="application/rss+xml" title="Chicago Magazine &raquo; Feed" hre

In [16]:
# dom tree 생성 => selector 사용해서 검색 => 데이터 추출
soup = BeautifulSoup(html, 'html.parser')


In [17]:
# 태그 : p, class : sammy element 검색
# find_all : 모두 찾아라 =>
len(soup.find_all('div', class_='sammy'))

50

In [18]:
# 1개만 가져와서 우리가 원하는 데이터를 추출
tmp = soup.find_all('div', class_='sammy')[0]
tmp

<div class="sammy" style="position: relative;">
<div class="sammyRank">1</div>
<div class="sammyListing"><a href="/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Old-Oak-Tap-BLT/"><b>BLT</b><br/>
Old Oak Tap<br/>
<em>Read more</em> </a></div>
</div>

In [19]:
# 
tmp.find(class_='sammyRank').text


'1'

In [20]:
# 
k= tmp.find(class_='sammyListing').text.split('\n')


In [21]:
k[0], k[1]

('BLT', 'Old Oak Tap')

In [22]:
# <a태그 href 추출
tmp.find('a')['href']


'/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Old-Oak-Tap-BLT/'

In [23]:
# 샌드취이 메인 페이지 데이터 추출
from bs4 import BeautifulSoup
from urllib.request import urlopen

import numpy as np
import pandas as pd

# 메인 페이지 URL 
url_base = 'https://www.chicagomag.com'
url_sub = '/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago'

url = url_base + url_sub

#header
headers={
    'User-Agent' : 'Mozilla/5.0'
} 

response = requests.get(
    url = url
    , headers=headers
).text

# 파싱
soup = BeautifulSoup(response,'html.parser')

# 데이터 추출
# 1) 순위, 2) 메인메뉴, 3) 카페명, 4) url필요(세부페이지 이동 url)
ranks = []
main_memus =[]
cafe_names = []
url_address=[]  # 상세로 들어가는 URL 

# 50개 정보가 들어 있는 리스트 
list_soup = soup.find_all('div',class_='sammy')

# 반복 처리해서 데이터를 추출하고 각 리스트에 저장
for item in list_soup: #50번 반복 
    # 순위 추출 해서 저장
    ranks.append(item.find(class_='sammyRank').text)
    #메인메뉴와 카페명 추출해서 저장 -> 문자열로 나옴 
    tmp_str=item.find(class_='sammyListing').text
    main_memus.append(tmp_str.split('\n')[0]) #BLT
    cafe_names.append(tmp_str.split('\n')[1])  # Ola Oak Tap
    
    tmp_url = item.find('a')['href'] # sub의 URL 추출 
    # https://로 시작하거나 /Chicago로 시작할 수 있다.
    if tmp_url.startswith('https://'):
        url_address.append(tmp_url)
    else: #https://로 시작하지 않으면
        url_address.append(url_base + tmp_url)


In [24]:
# dataframe 생성
data_df=pd.DataFrame({
    'Rank' : ranks
    , 'Menu': main_memus
    , 'Cafe': cafe_names
    , 'Url' : url_address
})
data_df.head()


Unnamed: 0,Rank,Menu,Cafe,Url
0,1,BLT,Old Oak Tap,https://www.chicagomag.com/Chicago-Magazine/No...
1,2,Fried Bologna,Au Cheval,https://www.chicagomag.com/Chicago-Magazine/No...
2,3,Woodland Mushroom,Xoco,https://www.chicagomag.com/Chicago-Magazine/No...
3,4,Roast Beef,Al’s Deli,https://www.chicagomag.com/Chicago-Magazine/No...
4,5,PB&L,Publican Quality Meats,https://www.chicagomag.com/Chicago-Magazine/No...


In [25]:
# data_df 파일에 저장
data_df.to_csv(
    './data/03. 시카고 샌드위치 메인 페이지 데이터.csv'
    , encoding='utf-8'
)

In [26]:
# 서브 페이지 이동해서 가격, 주소 추출
# 1등 서브페이지로 이동해서 가격, 주소
url_str = data_df['Url'][0]
url_str

'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Old-Oak-Tap-BLT/'

In [27]:
import requests
from bs4 import BeautifulSoup

url_str=data_df['Url'][0]

headers={
    'User-Agent':'Mozila/5.0'
}

response=requests.get(url=url_str, headers=headers).text

# text => DOM 파싱
tmp_soup=BeautifulSoup(response, 'html.parser')

# 가격, 주소가 있는 영역 추출
# f12 -> crtl+shift+c 로 원하는 정보 텍스트의 <태그> 위치를 확인 후
price_address=tmp_soup.find('p', class_='addy').text
price_address


'\n$10. 2109 W. Chicago Ave., 773-772-0406, theoldoaktap.com'

In [28]:
price_address.split() # 공백으로 분리 => 반환된다

['$10.', '2109', 'W.', 'Chicago', 'Ave.,', '773-772-0406,', 'theoldoaktap.com']

In [29]:
# 가격 추출
price_address.split()[0][:-1]

'$10'

In [30]:
# 주소 추출
# 1등을 예로 들면 ['$10.', '2109', 'W.', 'Chicago', 'Ave.,', '773-772-0406,', 'theoldoaktap.com']
# 1번 인덱스에서 4번 인덱스 까지 이지만
# 2등~50등의 주소가 항상 1~4 인덱스가 아닐 수 있기때문에 패턴을 찾아야 한다
# 앞에 가격 사이부터 ~ 뒤에 전화번호, 사이트주소 라는 패턴
# [1:-2], 1인덱스 시작 : -2 뒤에서 2번째 인덱스인 전화번호 까지
price_address.split()[1:-2]

['2109', 'W.', 'Chicago', 'Ave.,']

In [31]:
# ['2109', 'W.', 'Chicago', 'Ave.,'] 리스트의 값들을 
# 하나의 문자열로 연결하는 함수 : join()
' '.join(price_address.split()[1:-2])


'2109 W. Chicago Ave.,'

In [32]:
# url이 50개다. 50번 반복 처리
# 반복시 반복 상태를 화면에 표시 : tqdm

from tqdm import tqdm

# 가격, 주소 저장
price=[]
address=[]

# tqdm은 for 반복문에 사용되어야 한다

for idx in tqdm(data_df['Url'].index): # [0 ~ 49] index를 가지고 있는 리스트
    url=data_df['Url'][idx] # url 한개씩 추출
    
    headers={
        'User-Agent':'Mozila/5.0'
    }    
    response=requests.get(url=url, headers=headers).text
    soup=BeautifulSoup(response, 'html.parser')
    get_str=soup.find('p', class_='addy').text
    price.append(get_str.split()[0][:-1])
    address.append(' '.join(get_str.split()[1:-2]))
    

100%|██████████| 50/50 [00:41<00:00,  1.20it/s]


In [33]:
price[:5], address[:5]

(['$10', '$9', '$9.50', '$9.40', '$10'],
 ['2109 W. Chicago Ave.,',
  '800 W. Randolph St.,',
  '445 N. Clark St.,',
  '914 Noyes St., Evanston,',
  '825 W. Fulton Mkt.,'])

In [34]:
data_df['Price']=price
data_df['Address']=address

data_df.head()

Unnamed: 0,Rank,Menu,Cafe,Url,Price,Address
0,1,BLT,Old Oak Tap,https://www.chicagomag.com/Chicago-Magazine/No...,$10,"2109 W. Chicago Ave.,"
1,2,Fried Bologna,Au Cheval,https://www.chicagomag.com/Chicago-Magazine/No...,$9,"800 W. Randolph St.,"
2,3,Woodland Mushroom,Xoco,https://www.chicagomag.com/Chicago-Magazine/No...,$9.50,"445 N. Clark St.,"
3,4,Roast Beef,Al’s Deli,https://www.chicagomag.com/Chicago-Magazine/No...,$9.40,"914 Noyes St., Evanston,"
4,5,PB&L,Publican Quality Meats,https://www.chicagomag.com/Chicago-Magazine/No...,$10,"825 W. Fulton Mkt.,"


In [35]:
# column 명
# data_result_df
data_result_df= data_df[['Rank', 'Menu', 'Cafe','Price', 'Address']]
data_result_df.head()

Unnamed: 0,Rank,Menu,Cafe,Price,Address
0,1,BLT,Old Oak Tap,$10,"2109 W. Chicago Ave.,"
1,2,Fried Bologna,Au Cheval,$9,"800 W. Randolph St.,"
2,3,Woodland Mushroom,Xoco,$9.50,"445 N. Clark St.,"
3,4,Roast Beef,Al’s Deli,$9.40,"914 Noyes St., Evanston,"
4,5,PB&L,Publican Quality Meats,$10,"825 W. Fulton Mkt.,"


In [36]:
# rank column => index
data_result_df.set_index(
    'Rank' # 인덱스로 보낼 컬럼들 지정
    , inplace=True # 원본 데이터 프레임에 반영
)
data_result_df.head()

Unnamed: 0_level_0,Menu,Cafe,Price,Address
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,BLT,Old Oak Tap,$10,"2109 W. Chicago Ave.,"
2,Fried Bologna,Au Cheval,$9,"800 W. Randolph St.,"
3,Woodland Mushroom,Xoco,$9.50,"445 N. Clark St.,"
4,Roast Beef,Al’s Deli,$9.40,"914 Noyes St., Evanston,"
5,PB&L,Publican Quality Meats,$10,"825 W. Fulton Mkt.,"


In [37]:
# 파일에 저장
data_result_df.to_csv(
    './data/03. best_sandwiches_list_chicago2.csv'
    , encoding='utf-8'
)


In [38]:
# 맛집 위치를 지도에 표시
import numpy as np
import pandas as pd
import folium
import googlemaps


In [39]:
# 한개 주소만 가져와서 위도, 경도 추출 확인
# 한개 주소
# data_result_df['Address'][0] : 경고 이유, 
# loc[행, 열]   : named index 사용 
# iloc[행, 열]  : integer index 사용
# Rank 는 1부터 시작, integer index는 0부터 시작
# 그러므로 loc를 사용 해야 한다
# data_result_df.loc['1','Address'] => '2109 W. Chicago Ave.,'
gmaps_key='AIzaSyCRxIgstOs32GDCO9t3CzdfaLAnb5tu0fI'

# client 생성 
gmaps=googlemaps.Client(key=gmaps_key)
target_name=data_result_df.loc['1','Address'] + 'chicago' # 시카고가 포함된 주소 
gmaps_output=gmaps.geocode(target_name)[0].get('geometry')
print(gmaps_output['location']['lat'])
print(gmaps_output['location']['lng'])

41.8955886
-87.6799623


In [40]:
# lat , lng 구한다 
# 주소에 Multiple => 주소가 없다 
lat = []
lng = []

for idx in tqdm(data_result_df.index): # 50번 반복 
    if data_result_df['Address'][idx] != 'Multiple':
        # 주소가 있는 경우: 구글로 보내서 lat, lng 구한다
        target_name=data_result_df.loc[idx, 'Address'] + 'chicago'
        gmaps_output=gmaps.geocode(target_name) # 주소가 들어있는 리스트 반환 
        location_output=gmaps_output[0].get('geometry') # 딕셔너리 반환 
        lat.append(location_output['location']['lat'])
        lng.append(location_output['location']['lng'])
    else:
        # 주소가 없는 경우 lat,lng => nan 처리 
        lat.append(np.nan)
        lng.append(np.nan)

100%|██████████| 50/50 [00:05<00:00,  8.41it/s]


In [41]:
len(lat) , len(lng)

(50, 50)

In [42]:
data_result_df['Lat']=lat
data_result_df['Lng']=lng
data_result_df.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_result_df['Lat']=lat


Unnamed: 0_level_0,Menu,Cafe,Price,Address,Lat,Lng
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,BLT,Old Oak Tap,$10,"2109 W. Chicago Ave.,",41.895589,-87.679962
2,Fried Bologna,Au Cheval,$9,"800 W. Randolph St.,",41.884639,-87.64759
3,Woodland Mushroom,Xoco,$9.50,"445 N. Clark St.,",41.890523,-87.630783
4,Roast Beef,Al’s Deli,$9.40,"914 Noyes St., Evanston,",42.058322,-87.683748
5,PB&L,Publican Quality Meats,$10,"825 W. Fulton Mkt.,",41.886604,-87.648536


In [43]:
# 지도 표시 
# 지도 생성 
map=folium.Map(
    location=[ # 지도 중심 설정 
        data_result_df['Lat'].mean()
        , data_result_df['Lng'].mean()
    ]
    , zoom_start=11
)

# 50개 맛집 마커 출력 
for idx in data_result_df.index:
    if data_result_df['Address'][idx] !='Multiple':
        folium.Marker(
            [data_result_df]['Lat'][idx], data_result_df['Lng'][idx]
            , popup=data_result_df['cafe'][idx]
        ).add_to(map)
map

  [data_result_df]['Lat'][idx], data_result_df['Lng'][idx]
  [data_result_df]['Lat'][idx], data_result_df['Lng'][idx]
  [data_result_df]['Lat'][idx], data_result_df['Lng'][idx]
  [data_result_df]['Lat'][idx], data_result_df['Lng'][idx]
  [data_result_df]['Lat'][idx], data_result_df['Lng'][idx]
  [data_result_df]['Lat'][idx], data_result_df['Lng'][idx]
  [data_result_df]['Lat'][idx], data_result_df['Lng'][idx]
  [data_result_df]['Lat'][idx], data_result_df['Lng'][idx]


TypeError: list indices must be integers or slices, not str