In [1]:
from bs4 import BeautifulSoup
from urllib.request import urlopen
from urllib.request import Request # 서버 요청객체를 생성하는 모듈
import pandas as pd

### 크롤링 사이트

- https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/

In [2]:
url_base = 'https://www.chicagomag.com/'
url_sub =  'Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/'
url = url_base + url_sub
url

'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/'

- 서버 요청 객체 : 네트워크 규칙에 맞춰서 서버에게 전달해야하는 정보를 구성할 수 있는 객체
    - header를 포함시킬 수 있음 

In [30]:
req = Request(url,headers={'User-Agent':'Mozilla/5.0'})

In [31]:
res = urlopen(req) # 위 코드에서 header설정을 안하면 HTTP Error 403: Forbidden 에러 발생

In [32]:
# bs4 객체 생성
soup_obj = BeautifulSoup(res, "html.parser")
#soup_obj

In [37]:
## 랭킹되어 있는 샌드위치 가게 목록 찾아오기
## div calss:sammy
len(soup_obj.find_all('div',{"class":"sammy"}))
# soup_obj.find_all('div',"sammy")

50

In [38]:
tmp_all = soup_obj.find_all('div',{"class":"sammy"}) # 모든 샌드위치가게 정보 저장

In [40]:
temp_one = tmp_all[0]

In [51]:
# 샌드위치 순위
temp_one.find(class_="sammyRank").get_text() #class는 예약어 이므로 find 함수 내부적으로 class_를 사용하고 있음

'1'

In [49]:
# 상호명
strn = temp_one.find(class_="sammyListing").get_text()

In [50]:
strn.split('\n')

['BLT', 'Old Oak Tap', 'Read more ']

In [52]:
# 서브페이지 url
temp_one.find("a")['href']

'/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Old-Oak-Tap-BLT/'

#### url 생성
- urljoin() 함수 이용 : url 형식을 체크해줌

In [53]:
from urllib.parse import urljoin

In [54]:
urljoin(url_base,temp_one.find('a')['href'])

'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Old-Oak-Tap-BLT/'

- 50개 레스토랑 정보 추출
    - list에 저장

In [55]:
rank =  []
main_menu = []
cafe_name = []
url_link = []

In [56]:
# url 생성 후 서버 요청 -> 응답 반환받는 코드
url_base = 'https://www.chicagomag.com/'
url_sub =  'Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/'
url = url_base + url_sub

req = Request(url,headers={'User-Agent':'Mozilla/5.0'})
html=urlopen(req)

soup = BeautifulSoup(html,'html.parser')
soup_list = soup.find_all('div','sammy') # 전체 50개 레스토랑 정보 추출 코드

In [57]:
# soup_list안의 레스토랑 가격에 각각에 대한 정보를 추출해서 list에 저장하는 코드
for item in soup_list: # 레스토랑 1개의 정보가 item에 저장
    rank.append(item.find(class_='sammyRank').get_text())
    tmp_listing = item.find(class_='sammyListing').get_text()
    main_menu.append(tmp_listing.split('\n')[0])
    cafe_name.append(tmp_listing.split('\n')[1])
    url_link.append(urljoin(url_base,item.find('a')['href']))

In [60]:
len(rank), len(main_menu), len(cafe_name), len(url_link)

(50, 50, 50, 50)

In [62]:
# 수집한 자료를 df로 만들어서 csv로 저장
data = {'Rank':rank, 'Cafe':cafe_name, 'Menu':main_menu, 'URL':url_link}
df = pd.DataFrame(data)
# df
df.to_csv('../crawl_data/시카고샌드위치가게.csv',sep=',',encoding = 'utf-8')

#### 수집한 데이터를 활용해서 샌드위치 가게 지도 시각화

In [63]:
df = pd.read_csv('../crawl_data/시카고샌드위치가게.csv',index_col = 0)
df.head()
df.tail()

Unnamed: 0,Rank,Cafe,Menu,URL
45,46,Chickpea,Kufta,https://www.chicagomag.com/Chicago-Magazine/No...
46,47,The Goddess and Grocer,Debbie’s Egg Salad,https://www.chicagomag.com/Chicago-Magazine/No...
47,48,Zenwich,Beef Curry,https://www.chicagomag.com/Chicago-Magazine/No...
48,49,Toni Patisserie,Le Végétarien,https://www.chicagomag.com/Chicago-Magazine/No...
49,50,Phoebe’s Bakery,The Gatsby,https://www.chicagomag.com/Chicago-Magazine/No...


In [None]:
# df url을 활용해서 페이지 요청 후 필요 자료(각 cafe의 주소) 추출하는 코드

In [68]:
df['URL'][0]

'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Old-Oak-Tap-BLT/'

In [72]:
req = Request(df['URL'][0],headers={'User-Agent':'Mozilla/5.0'})
res = urlopen(req)
soup_tmp = BeautifulSoup(res,'html.parser')

In [73]:
temp_string = soup_tmp.find('p','addy').get_text()

In [74]:
temp_string

'\n$10. 2109 W. Chicago Ave., 773-772-0406, theoldoaktap.com'

In [80]:
temp_string.split()[1:-2]

['2109', 'W.', 'Chicago', 'Ave.,']

In [77]:
# 추출 data 결합
' '.join(temp_string.split()[1:-2])

'2109 W. Chicago Ave.,'

In [79]:
# 가격 추출
temp_string.split()[0][:-1] # 마지막에 있는 .을 제거

'$10'

- 전체 Data 추출

In [81]:
price=[]
address=[]

In [83]:
for i in df.index[:3]:
    req = Request(df['URL'][i],headers={'User-Agent':'Mozilla/5.0'})
    res = urlopen(req)
    soup_tmp = BeautifulSoup(res,'html.parser') # bs객체 생성
    temp_string = soup_tmp.find('p','addy').get_text() # 주소와 가격이 포함된 정보 추출
    price.append(temp_string.split()[0][:-1]) # 추출한 정보에서 가격을 분리해서 list에 저장
    address.append(' '.join(temp_string.split()[1:-2])) # 추출한 정보에서 주소를 분리해서 list에 저장
    
    

In [84]:
price, address

(['$10', '$9', '$9.50'],
 ['2109 W. Chicago Ave.,', '800 W. Randolph St.,', '445 N. Clark St.,'])

#### 여러번 반복 접근을 해야하므로 상태진행바를 통해 진행상태 확인
- for i in tqdm_notebook(df.index):

In [85]:
from tqdm import tqdm_notebook

price=[]
address=[]

for i in tqdm_notebook(df.index) :
    req = Request(df['URL'][i],headers={'User-Agent':'Mozilla/5.0'})
    res = urlopen(req)
    soup_tmp = BeautifulSoup(res,'html.parser') # bs객체 생성
    temp_string = soup_tmp.find('p','addy').get_text() # 주소와 가격이 포함된 정보 추출
    price.append(temp_string.split()[0][:-1]) # 추출한 정보에서 가격을 분리해서 list에 저장
    address.append(' '.join(temp_string.split()[1:-2])) # 추출한 정보에서 주소를 분리해서 list에 저장

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for i in tqdm_notebook(df.index) :


  0%|          | 0/50 [00:00<?, ?it/s]

In [86]:
### 수집된 각 cafe의 price와 address를 df에 추가
df['price'] = price
df['address'] = address

In [87]:
df.head()

Unnamed: 0,Rank,Cafe,Menu,URL,price,address
0,1,Old Oak Tap,BLT,https://www.chicagomag.com/Chicago-Magazine/No...,$10,"2109 W. Chicago Ave.,"
1,2,Au Cheval,Fried Bologna,https://www.chicagomag.com/Chicago-Magazine/No...,$9,"800 W. Randolph St.,"
2,3,Xoco,Woodland Mushroom,https://www.chicagomag.com/Chicago-Magazine/No...,$9.50,"445 N. Clark St.,"
3,4,Al’s Deli,Roast Beef,https://www.chicagomag.com/Chicago-Magazine/No...,$9.40,"914 Noyes St., Evanston,"
4,5,Publican Quality Meats,PB&L,https://www.chicagomag.com/Chicago-Magazine/No...,$10,"825 W. Fulton Mkt.,"


In [88]:
# Rank 컬럼을 index로 생성 : set_index(inplace=True) - 원본 수정
df.set_index("Rank",inplace=True)

In [89]:
df.tail()

Unnamed: 0_level_0,Cafe,Menu,URL,price,address
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
46,Chickpea,Kufta,https://www.chicagomag.com/Chicago-Magazine/No...,$8,"2018 W. Chicago Ave.,"
47,The Goddess and Grocer,Debbie’s Egg Salad,https://www.chicagomag.com/Chicago-Magazine/No...,$6.50,"25 E. Delaware Pl.,"
48,Zenwich,Beef Curry,https://www.chicagomag.com/Chicago-Magazine/No...,$7.50,"416 N. York St., Elmhurst,"
49,Toni Patisserie,Le Végétarien,https://www.chicagomag.com/Chicago-Magazine/No...,$8.75,"65 E. Washington St.,"
50,Phoebe’s Bakery,The Gatsby,https://www.chicagomag.com/Chicago-Magazine/No...,$6.85,"3351 N. Broadway,"


In [91]:
## 시카고샌드위치_주소.csv
df.to_csv('../crawl_data/시카고샌드위치_주소.csv',sep=',',encoding='utf-8')

#### 수집된 주소를 이용해서 각 상점의 위경도 찾아오고 FOLIUM에 cafe 마커 표시

In [92]:
# 필요패키지 import
import googlemaps #install
import folium
import pandas as pd

In [94]:
## 데이터 읽어오기
df = pd.read_csv('../crawl_data/시카고샌드위치_주소.csv',index_col=0)
df.head()

Unnamed: 0_level_0,Cafe,Menu,URL,price,address
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,Old Oak Tap,BLT,https://www.chicagomag.com/Chicago-Magazine/No...,$10,"2109 W. Chicago Ave.,"
2,Au Cheval,Fried Bologna,https://www.chicagomag.com/Chicago-Magazine/No...,$9,"800 W. Randolph St.,"
3,Xoco,Woodland Mushroom,https://www.chicagomag.com/Chicago-Magazine/No...,$9.50,"445 N. Clark St.,"
4,Al’s Deli,Roast Beef,https://www.chicagomag.com/Chicago-Magazine/No...,$9.40,"914 Noyes St., Evanston,"
5,Publican Quality Meats,PB&L,https://www.chicagomag.com/Chicago-Magazine/No...,$10,"825 W. Fulton Mkt.,"


In [95]:
# 구글 클라이언트 등록기를 이용해서 client 객체 생성
gmapskey = "AIzaSyCWLNfKk7XA8R2VjRl0uxza9dGiE8KcRXA"
gmaps = googlemaps.Client(key=gmapskey)

In [98]:
# 위경도 찾기
# 미국 주 이름앞에는 ,가 와야함(두번 있어도 상관없지만 없으면 못찾음)
target_name = df['address'][1] + "," + 'Chicago'
target_name

'2109 W. Chicago Ave.,,Chicago'

In [102]:
# 위경도 찾기
g_info = gmaps.geocode(target_name)
g_lo = g_info[0].get('geometry')['location']
g_lo['lat'],g_lo['lng']

(41.8956049, -87.67996149999999)

In [103]:
# 50개 위경도 찾아오기
lat = []
lng = []

In [104]:
from tqdm import tqdm_notebook
for n in tqdm_notebook(df.index):
    target_name = df['address'][n] + "," + 'Chicago'
    g_info = gmaps.geocode(target_name)
    g_lo = g_info[0].get('geometry')['location']
    lat.append(g_lo['lat'])
    lng.append(g_lo['lng'])

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for n in tqdm_notebook(df.index):


  0%|          | 0/50 [00:00<?, ?it/s]

In [105]:
len(lat),len(lng)

(50, 50)

In [106]:
df['lat']=lat
df['lng']=lng
df.head()

Unnamed: 0_level_0,Cafe,Menu,URL,price,address,lat,lng
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,Old Oak Tap,BLT,https://www.chicagomag.com/Chicago-Magazine/No...,$10,"2109 W. Chicago Ave.,",41.895605,-87.679961
2,Au Cheval,Fried Bologna,https://www.chicagomag.com/Chicago-Magazine/No...,$9,"800 W. Randolph St.,",41.884639,-87.64759
3,Xoco,Woodland Mushroom,https://www.chicagomag.com/Chicago-Magazine/No...,$9.50,"445 N. Clark St.,",41.890523,-87.630783
4,Al’s Deli,Roast Beef,https://www.chicagomag.com/Chicago-Magazine/No...,$9.40,"914 Noyes St., Evanston,",42.058322,-87.683748
5,Publican Quality Meats,PB&L,https://www.chicagomag.com/Chicago-Magazine/No...,$10,"825 W. Fulton Mkt.,",41.886604,-87.648536


In [107]:
df.to_csv('../crawl_data/시카고샌드위치위경도포함.csv')

#### 지도시각화

In [108]:
lat_c = df['lat'].mean()
lng_c = df['lng'].mean()

In [110]:
map = folium.Map(location=[lat_c,lng_c],zoom_start=11)
folium.Marker([lat_c,lng_c],popup='Center').add_to(map)
map

In [None]:
# 전체 cafe의 위치에 Marker 표시하기

In [111]:
map_fin = folium.Map(location=[lat_c,lng_c],zoom_start=11)

In [112]:
for n in df.index:
    folium.Marker([df['lat'][n],df['lng'][n]],
                  popup=df['Cafe'][n]).add_to(map_fin)

In [113]:
map_fin

In [114]:
## 지도 저장
map_fin.save('../crawl_data/시카고카페.html')