# 시카고 맛집 데이터 분석 - 개요


- https://www.chicagomag.com/chicago-magazine/november-2012/best-sandwiches-chicago/
- chicago magazine the 50 best sandwiches
```
최종목표
총 51개 페이지에서 각 가게의 정보를 가져온다
- 가게이름
- 대표메뉴
- 대표메뉴의 가격
- 가게주소
```

In [1]:
from urllib.request import Request, urlopen
from bs4 import BeautifulSoup

In [3]:
url_base = "https://www.chicagomag.com/"
url_sub = "chicago-magazine/november-2012/best-sandwiches-chicago/"
url = url_base + url_sub

req = Request(url)
html = urlopen(url)

soup = BeautifulSoup(html,"html.parser")

HTTPError: HTTP Error 403: Forbidden

In [None]:
# fack UserAgent 값 받아오기
#ua = UserAgent() # 사용할때 ua.ie


# 개발자도구 -> 네트워크 탭 -> 왼쪽 아래에 접속하려는 홈페이지 클릭 -> headers 맨 아래에 User-Agent 정보 확인.
#req = Request(url, headers={ "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"})
#req = Request(url, headers={"User-Agent": ua.ie}) # fake 방법, 위에가 정석


In [None]:
from urllib.request import Request, urlopen
from fake_useragent import UserAgent ## 임시(가짜?) 인터넷정보 랜덤으로 생성해줌
from bs4 import BeautifulSoup

In [5]:
url_base = "https://www.chicagomag.com/"
url_sub = "chicago-magazine/november-2012/best-sandwiches-chicago/"
url = url_base + url_sub

req = Request(url, headers={"User-Agent":"Chrome"}) # 403 에러를 막기위해 header 추가
html = urlopen(req) # 403 에러 , 서버에서 접속을 막아놓은 상태

soup = BeautifulSoup(html, "html.parser")
print(soup.prettify())

<!DOCTYPE html>
<html lang="en-US">
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible">
   <link href="https://gmpg.org/xfn/11" rel="profile"/>
   <script src="https://cmp.osano.com/16A1AnRt2Fn8i1unj/f15ebf08-7008-40fe-9af3-db96dc3e8266/osano.js">
   </script>
   <title>
    The 50 Best Sandwiches in Chicago – Chicago Magazine
   </title>
   <style type="text/css">
    .heateor_sss_button_instagram span.heateor_sss_svg,a.heateor_sss_instagram span.heateor_sss_svg{background:radial-gradient(circle at 30% 107%,#fdf497 0,#fdf497 5%,#fd5949 45%,#d6249f 60%,#285aeb 90%)}
						div.heateor_sss_horizontal_sharing a.heateor_sss_button_instagram span{background:#000!important;}div.heateor_sss_standard_follow_icons_container a.heateor_sss_button_instagram span{background:#000;}
										.heateor_sss_horizontal_sharing .heateor_sss_svg,.heateor_sss_standard_follow_icons_container .heateor_sss_svg{
							background-color: #000!important;
				background: 

In [42]:
## 1위 정보 파싱하기

tmp_one = soup.select("div.sammy")[0] # == find_all("div", class_="sammy")
print(tmp_one)

<div class="sammy" style="position: relative;">
<div class="sammyRank">1</div>
<div class="sammyListing"><a href="/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Old-Oak-Tap-BLT/"><b>BLT</b><br/>
Old Oak Tap<br/>
<em>Read more</em> </a></div>
</div>


In [43]:
print(tmp_one.select_one(".sammyRank").text)

1


In [44]:
import re # 정규화 모듈을 활용하자.

tmp_string = tmp_one.find("div", {"class":"sammyListing"}).text
re.split("\n|\r\n",tmp_string) # "\n 또는 \r\n로 짤라줘라.

['BLT', 'Old Oak Tap', 'Read more ']

In [45]:
print(tmp_first.select_one(".sammyListing > a")["href"])

/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Old-Oak-Tap-BLT/


In [46]:
from urllib.parse import urljoin

url_base = "https://www.chicagomag.com/"

rank = []
main_menu = []
cafe_name = []
url_add = []

list_soup  = soup.select("div.sammy") # 50개의 샌드위치 정보들

for item in list_soup: # 샌드위치 순서대로 반복
    
    rank.append(item.select_one(".sammyRank").text)
    tmp_string = item.select_one(".sammyListing").get_text() # text와 동일한 기능
    main_menu.append(re.split("\n|\r\n",tmp_string)[0])
    cafe_name.append(re.split("\n|\r\n",tmp_string)[1])
    url_add.append(urljoin(url_base,item.find("a")["href"])) #기본주소가 없으면 알아서 붙여줌

In [47]:
# 데이터 확인 1
len(rank), len(main_menu), len(cafe_name), len(url_add)

(50, 50, 50, 50)

In [48]:
# 데이터 확인 2
url_add[:5]

['https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Old-Oak-Tap-BLT/',
 'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Au-Cheval-Fried-Bologna/',
 'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Xoco-Woodland-Mushroom/',
 'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Als-Deli-Roast-Beef/',
 'https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-in-Chicago-Publican-Quality-Meats-PB-L/']

In [49]:
# 데이터 프레임화 시키기!

import pandas as pd

data = {
    "Rank" : rank,
    "Menu" : main_menu,
    "Cafe" : cafe_name,
    "URL" : url_add,
}

df = pd.DataFrame(data)
df.head()

Unnamed: 0,Rank,Menu,Cafe,URL
0,1,BLT,Old Oak Tap,https://www.chicagomag.com/Chicago-Magazine/No...
1,2,Fried Bologna,Au Cheval,https://www.chicagomag.com/Chicago-Magazine/No...
2,3,Woodland Mushroom,Xoco,https://www.chicagomag.com/Chicago-Magazine/No...
3,4,Roast Beef,Al’s Deli,https://www.chicagomag.com/Chicago-Magazine/No...
4,5,PB&L,Publican Quality Meats,https://www.chicagomag.com/Chicago-Magazine/No...


In [50]:
# 데이터 저장!
df.to_csv(
    "../data/03. best_sandwiches_list_chicago_self_summary.csv",
    sep=",",
    encoding="utf-8-sig" # utf-8 할때 한글 깨지면 뒤에 -sig 붙여라
)

In [51]:
import pandas as pd
import re
from urllib.request import urlopen, Request
from fake_useragent import UserAgent
from bs4 import BeautifulSoup

In [52]:
df = pd.read_csv(
    "../data/03. best_sandwiches_list_chicago_self_summary.csv",
    index_col=0,
    encoding="utf-8"
)
df.head()

Unnamed: 0,Rank,Menu,Cafe,URL
0,1,BLT,Old Oak Tap,https://www.chicagomag.com/Chicago-Magazine/No...
1,2,Fried Bologna,Au Cheval,https://www.chicagomag.com/Chicago-Magazine/No...
2,3,Woodland Mushroom,Xoco,https://www.chicagomag.com/Chicago-Magazine/No...
3,4,Roast Beef,Al’s Deli,https://www.chicagomag.com/Chicago-Magazine/No...
4,5,PB&L,Publican Quality Meats,https://www.chicagomag.com/Chicago-Magazine/No...


In [61]:
# 하위페이지 태그 정보 : <p class="addy">
# 주소 : df["URL"][n]

req = Request(df["URL"][0], headers={"User-Agent" : "ua.ie"}) # 요청

html = urlopen(req) # 응답

soup_tmp = BeautifulSoup(html,"html.parser") # html 문서

print(soup_tmp.find("p", "addy").text)


$10. 2109 W. Chicago Ave., 773-772-0406, theoldoaktap.com


In [62]:
text_tmp = soup_tmp.find("p", "addy").text # 텍스트 임시 그릇

# regular expression
re.split(".,",text_tmp) # (1) ., 기준으로 자르기
text_tmp = re.split(".,",text_tmp)[0] # (2) 가격과 주소만 다시 담기
text_tmp

'\n$10. 2109 W. Chicago Ave'

In [63]:
price = re.search("\$\d+\.(\d+)?", text_tmp).group() 
addr = text_tmp[len(price) + 2:].strip() # 양 끝 공백 제거, 포함되어있을 수도 있다.

price, addr

('$10.', '2109 W. Chicago Ave')

In [64]:
### 50번 반복
from tqdm.notebook import tqdm # 진행상황을 보여주는 모듈

price = []
address = []

for idx, rows in tqdm(df.iterrows()): # tqdm을 사용하면 진행상황을 볼 수 있다.
    req = Request(rows["URL"], headers={"User-Agent" : "ua.ie"})
    html = urlopen(req)
    soup_tmp = BeautifulSoup(html,"html.parser")

    text_tmp = soup_tmp.find("p", "addy").text
    re.split(".,",text_tmp) # (1) ., 기준으로 자르기
    text_tmp = re.split(".,",text_tmp)[0] # (2) 가격과 주소만 다시 담기

    price_str = re.search("\$\d+\.(\d+)?", text_tmp).group()
    price.append(price_str)
    address.append(text_tmp[len(price_str) + 2:].strip())# 양 끝 공백 제거, 포함되어있을 수도 있다.
    print(f"{idx+1}번째 정보 입력 완료 ") 

0it [00:00, ?it/s]

1번째 정보 입력 완료 
2번째 정보 입력 완료 
3번째 정보 입력 완료 
4번째 정보 입력 완료 
5번째 정보 입력 완료 
6번째 정보 입력 완료 
7번째 정보 입력 완료 
8번째 정보 입력 완료 
9번째 정보 입력 완료 
10번째 정보 입력 완료 
11번째 정보 입력 완료 
12번째 정보 입력 완료 
13번째 정보 입력 완료 
14번째 정보 입력 완료 
15번째 정보 입력 완료 
16번째 정보 입력 완료 
17번째 정보 입력 완료 
18번째 정보 입력 완료 
19번째 정보 입력 완료 
20번째 정보 입력 완료 
21번째 정보 입력 완료 
22번째 정보 입력 완료 
23번째 정보 입력 완료 
24번째 정보 입력 완료 
25번째 정보 입력 완료 
26번째 정보 입력 완료 
27번째 정보 입력 완료 
28번째 정보 입력 완료 
29번째 정보 입력 완료 
30번째 정보 입력 완료 
31번째 정보 입력 완료 
32번째 정보 입력 완료 
33번째 정보 입력 완료 
34번째 정보 입력 완료 
35번째 정보 입력 완료 
36번째 정보 입력 완료 
37번째 정보 입력 완료 
38번째 정보 입력 완료 
39번째 정보 입력 완료 
40번째 정보 입력 완료 
41번째 정보 입력 완료 
42번째 정보 입력 완료 
43번째 정보 입력 완료 
44번째 정보 입력 완료 
45번째 정보 입력 완료 
46번째 정보 입력 완료 
47번째 정보 입력 완료 
48번째 정보 입력 완료 
49번째 정보 입력 완료 
50번째 정보 입력 완료 


In [69]:
len(price), len(address) # 잘 들어갔나 확인 1

(50, 50)

In [70]:
print(price[:4]) #  잘 들어갔나 확인 2

['$10.', '$9.', '$9.50', '$9.40']


In [71]:
print(address[:4]) #  잘 들어갔나 확인 3

['2109 W. Chicago Ave', '800 W. Randolph St', '445 N. Clark St', '914 Noyes St']


In [72]:
# 데이터 프레임에 추가하기
df["Price"] = price
df["Address"] = address
df.head()

Unnamed: 0,Rank,Menu,Cafe,URL,Price,Address
0,1,BLT,Old Oak Tap,https://www.chicagomag.com/Chicago-Magazine/No...,$10.,2109 W. Chicago Ave
1,2,Fried Bologna,Au Cheval,https://www.chicagomag.com/Chicago-Magazine/No...,$9.,800 W. Randolph St
2,3,Woodland Mushroom,Xoco,https://www.chicagomag.com/Chicago-Magazine/No...,$9.50,445 N. Clark St
3,4,Roast Beef,Al’s Deli,https://www.chicagomag.com/Chicago-Magazine/No...,$9.40,914 Noyes St
4,5,PB&L,Publican Quality Meats,https://www.chicagomag.com/Chicago-Magazine/No...,$10.,825 W. Fulton Mkt


In [73]:
# URL 컬럼 빼기

df = df.loc[:,["Rank", "Cafe", "Menu", "Price", "Address"]]

#Rank를 인덱스로.
df.set_index("Rank", inplace=True)

df.head()

Unnamed: 0_level_0,Cafe,Menu,Price,Address
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Old Oak Tap,BLT,$10.,2109 W. Chicago Ave
2,Au Cheval,Fried Bologna,$9.,800 W. Randolph St
3,Xoco,Woodland Mushroom,$9.50,445 N. Clark St
4,Al’s Deli,Roast Beef,$9.40,914 Noyes St
5,Publican Quality Meats,PB&L,$10.,825 W. Fulton Mkt


In [74]:
df.to_csv(
    "../data/03. best_sandwiches_list_chicago2_self_summary.csv",
    sep=",",
    encoding="utf-8-sig"
)

In [75]:
# 불러와지는지 확인

dfdf = pd.read_csv(
    "../data/03. best_sandwiches_list_chicago2_self_summary.csv",
    index_col=0
)
dfdf.head()

Unnamed: 0_level_0,Cafe,Menu,Price,Address
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Old Oak Tap,BLT,$10.,2109 W. Chicago Ave
2,Au Cheval,Fried Bologna,$9.,800 W. Randolph St
3,Xoco,Woodland Mushroom,$9.50,445 N. Clark St
4,Al’s Deli,Roast Beef,$9.40,914 Noyes St
5,Publican Quality Meats,PB&L,$10.,825 W. Fulton Mkt


# 시각화

In [76]:
# 기본 셋팅
import folium
import pandas as pd
import numpy as np
import googlemaps
from tqdm.notebook import tqdm

In [77]:
# 데이터 불러오기
df = pd.read_csv(
    "../data/03. best_sandwiches_list_chicago2_self_summary.csv",
    index_col= 0
)
df.head()

Unnamed: 0_level_0,Cafe,Menu,Price,Address
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Old Oak Tap,BLT,$10.,2109 W. Chicago Ave
2,Au Cheval,Fried Bologna,$9.,800 W. Randolph St
3,Xoco,Woodland Mushroom,$9.50,445 N. Clark St
4,Al’s Deli,Roast Beef,$9.40,914 Noyes St
5,Publican Quality Meats,PB&L,$10.,825 W. Fulton Mkt


In [78]:
df["Address"]

Rank
1        2109 W. Chicago Ave
2         800 W. Randolph St
3            445 N. Clark St
4               914 Noyes St
5          825 W. Fulton Mkt
6           100 E. Walton St
7         1639 S. Wabash Ave
8          2211 W. North Ave
9          3619 W. North Ave
10        3267 S. Halsted St
11       2537 N. Kedzie Blvd
12         Multiple location
13           3124 N. Broadwa
14     3455 N. Southport Ave
15        2657 N. Kedzie Ave
16         1120 W. Grand Ave
17      1141 S. Jefferson St
18          333 E. Benton Pl
19          1411 N. Wells St
20         1747 N. Damen Ave
21    3209 W. Irving Park Rd
22         Multiple location
23          5347 N. Clark St
24    2954 W. Irving Park Rd
25         Multiple location
26      191 Skokie Valley Rd
27         Multiple location
28        1818 W. Wilson Ave
29       2517 W. Division St
30          218 W. Kinzie St
31         Multiple location
32          1547 N. Wells St
33      415 N. Milwaukee Ave
34         1840 N. Damen Ave
35       

In [79]:
# 구글 권한 
gmaps_key = "AIzaSyCkh2-SXnE37ekglf74zs4JPK-CwdE1KLo"
gmaps = googlemaps.Client(key=gmaps_key)

In [80]:
lat = []
lng = []

for idx, rows in tqdm(df.iterrows()):            
    # 각 샌드위치 사이트에서 주소를 불러올때 주소가 여러 개인 경우 "Multiple location"을 반환 받았었다.
    add_tmp = rows["Address"].strip() # 주소가져올때 공백이 포함될수도 있으니 제거
    if not add_tmp == "Multiple location": # 만약에 Multiple location이 아닐 경우
        target_name = add_tmp + "," + " Chicago" # 구글 맵스에 검색할때 "주소,chicago" 로 검색함
        #print(f"{idx} : {target_name}")
        gmpas_output = gmaps.geocode(target_name) # 1개의 리스트에 여러개의 딕셔너리 형태
        location_output = gmpas_output[0].get("geometry") # geometry 딕셔너리에 위도, 경도 담겨있음

        lat.append(location_output["location"]["lat"])
        lng.append(location_output["location"]["lng"])
    else:
        # Multiple location 항목은 Nan이 들어감
        lat.append(np.nan)
        lng.append(np.nan)

0it [00:00, ?it/s]

In [83]:
len(lat), len(lng) # 잘 들어갔나 확인

(50, 50)

In [84]:
#  데이터 프레임에 추가하자
df["lat"] = lat
df["lng"] = lng
df.tail()

Unnamed: 0_level_0,Cafe,Menu,Price,Address,lat,lng
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
46,Chickpea,Kufta,$8.,2018 W. Chicago Ave,41.896113,-87.677857
47,The Goddess and Grocer,Debbie’s Egg Salad,$6.50,25 E. Delaware Pl,41.898979,-87.627393
48,Zenwich,Beef Curry,$7.50,416 N. York St,41.910583,-87.940488
49,Toni Patisserie,Le Végétarien,$8.75,65 E. Washington St,41.883106,-87.625438
50,Phoebe’s Bakery,The Gatsby,$6.85,3351 N. Broadwa,41.943163,-87.644507


In [85]:
# 시카고 지역
mapping = folium.Map(location = [41.8781136,-87.6297982], zoom_start=11)

# 가게 매핑 추가
for idx, rows in df.iterrows():

    if np.isnan(rows["lat"]) != True :
        folium.Marker(
            location=[rows["lat"],rows["lng"]],
            popup=rows["Cafe"],
            tooltip=rows["Menu"],
            icon=folium.Icon(
                icon="coffee",
                prefix="fa"
            )
        ).add_to(mapping)

mapping