# 3장 시카고 샌드위치 맛집 분석

## 3-1 웹 데이터를 가져오는 Beautiful Soup 익히기

- Beautiful Soup이란?
    - 웹에서 웹 페이지의 내용을 가져옴.
    - 웹 데이터 크롤링 또는 스크래핑 할 때 사용
        - 웹 크롤링(Web Crawling)
            - 검색엔진에서 사용되는 bot과 같이 자동으로 웹처리됨
            - 다운로드한 사이트를 index하여 사용자가 빠르게 원하는 것을 검색할 수 있도록 해줌 -> ex) 구글
        - 웹 스크래핑(Web Scraping)
            - 웹 사이트에서 원하는 데이터를 추출함
            - 추출한 데이터를 원하는 형식으로 가공함
            - 웹 크롤링도 웹 스크래핑의 방법 중 하나
    - HTML과 XML 파일에서 데이터를 읽어내는 파이썬 라이브러리
        - XML(eXtensible Markup Language) : 데이터를 저장하고 전달하기 위해 디자인된 언어
        - HTML(Hyper Text Markup Language) : 데이터를 웹 상에 표현하기 위한 목적으로 사용되는 언어
    - Parser 트리를 검색, 수정하는데 간편하고 사용자가 만든 parcer와 함께 사용하기 쉽다.

In [1]:
# Beautiful Soup 설치 확인

from bs4 import BeautifulSoup

In [2]:
# 03. test_first.html 파일을 읽어오기
page = open('data/03. test_first.html','r').read()
soup = BeautifulSoup(page, 'html.parser')

# html.parse : HTML 문법 규칙에 따른 문자열을 해당 문법을 바탕으로
#              단어의 의미나 구조를 분석하는 것을 의미
# html.parser : HTML Parse를 행하는 프로그램을 말함

# prettify()
# 1. 읽은 html 페이지의 내용을 전체 다 보고 싶을 때 사용하는 함수, 들여쓰기 지원
# 2. BeautifulSoup에서 파싱 처리한 parser tree를 유니코드 형태로 리턴하는 함수

print(soup.prettify()) # soup 변수 안에 들어있는 모든 내용 출력

<!DOCTYPE html>
<html>
 <head>
  <title>
   Very Simple HTML Code by PinkWink
  </title>
 </head>
 <body>
  <div>
   <p class="inner-text first-item" id="first">
    Happy PinkWink.
    <a href="http://www.pinkwink.kr" id="pw-link">
     PinkWink
    </a>
   </p>
   <p class="inner-text second-item">
    Happy Data Science.
    <a href="https://www.python.org" id="py-link">
     Python
    </a>
   </p>
  </div>
  <p class="outer-text first-item" id="second">
   <b>
    Data Science is funny.
   </b>
  </p>
  <p class="outer-text">
   <b>
    All I need is Love.
   </b>
  </p>
 </body>
</html>



In [3]:
# soup은 문서 전체를 저장한 변수, 그 안에서 html 태그에 접속하려면 children 이라는 속성을 사용
# children : 한 단계 아래에 있는 태그를 보기 위한 함수

list(soup.children) # soup 안에 있는 html 태그를 보고싶을 때

['html',
 '\n',
 <html>
 <head>
 <title>Very Simple HTML Code by PinkWink</title>
 </head>
 <body>
 <div>
 <p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>
 </div>
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>
 </body>
 </html>,
 '\n']

In [4]:
# soup의 내용 안에 있는 html 태그에 접근하기 위한 코드
# html = list(soup.children)[0]    --> html
# html = list(soup.children)[1]    --> \n
# html = list(soup.children)[2]    --> html 코드

html = list(soup.children)[2]  # html 코드 출력
html

<html>
<head>
<title>Very Simple HTML Code by PinkWink</title>
</head>
<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>
</html>

In [5]:
# html 태그 밑에 있는 모든 태그들이 html.children에 해당 

list(html.children)

['\n',
 <head>
 <title>Very Simple HTML Code by PinkWink</title>
 </head>,
 '\n',
 <body>
 <div>
 <p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>
 </div>
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>
 </body>,
 '\n']

In [6]:
# 여러분들이 htmlex = list(html.children)[0]

# 스스로 학습

In [7]:
# 본문이 나오는 body부분만 추출

body = list(html.children)[3]
body

<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>

In [8]:
# soup.body : 태그를 바로 입력하여 원하는 태그만 추출

soup.body

<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>

In [9]:
# body 태그 아래에 있는 태그를 추출

list(body.children)

['\n',
 <div>
 <p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>
 </div>,
 '\n',
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 '\n',
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>,
 '\n']

In [10]:
# find_all : p 태그를 가진 모든 태그를 찾아낸다.

soup.find_all('p')

[<p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>,
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>,
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

In [11]:
# find : p 태그를 가진 태그를 찾아낸다.(맨 처음거만 찾아낸다.)

soup.find('p')

<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>

In [12]:
# p 태그들 중에서 class가 'outer-text'인 것만 찾아낸다.

soup.find_all('p', class_ = 'outer-text')

[<p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

In [13]:
# class가 'outer-text'인 것만 찾아낸다.

soup.find_all(class_='outer-text')

[<p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

In [14]:
# id가 'first'인 것만 찾아낸다.

soup.find_all(id='first')

[<p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>]

In [15]:
# 가장 처음 p 태그만 찾아낸다.

soup.find('p')

<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>

In [16]:
list(soup.children)

['html',
 '\n',
 <html>
 <head>
 <title>Very Simple HTML Code by PinkWink</title>
 </head>
 <body>
 <div>
 <p class="inner-text first-item" id="first">
                 Happy PinkWink.
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>
 <p class="inner-text second-item">
                 Happy Data Science.
                 <a href="https://www.python.org" id="py-link">Python</a>
 </p>
 </div>
 <p class="outer-text first-item" id="second">
 <b>
                 Data Science is funny.
             </b>
 </p>
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>
 </body>
 </html>,
 '\n']

In [17]:
# head 부부만 추출

soup.head

<head>
<title>Very Simple HTML Code by PinkWink</title>
</head>

In [18]:
# head 바로 옆에 있는 내용을 추출
soup.head.next_sibling

'\n'

In [19]:
# head 옆 옆 부분에 있는 내용 추출 (body)
soup.head.next_sibling.next_sibling

<body>
<div>
<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data Science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>

In [20]:
# find함수를 쓰지 않아도 body.p라고 입력하여도 같은 ouput을 보여준다
body.p

<p class="inner-text first-item" id="first">
                Happy PinkWink.
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>

In [21]:
# p태그의 다음 다음 p태그를 보여준다.
# body.p.next_sibling을 입력하면 '\n'이 출력된다.

body.p.next_sibling.next_sibling
# body.p.next_sibling

<p class="inner-text second-item">
                Happy Data Science.
                <a href="https://www.python.org" id="py-link">Python</a>
</p>

In [22]:
# 찾아야 할 태그를 알고 있다면, find() 또는 find_all() 함수 사용
# 모든 p태그를 찾아서 

for each_tag in soup.find_all('p') :
    print(each_tag.get_text())         # get_text() : p 태그 안에 든 text만을 출력함


                Happy PinkWink.
                PinkWink


                Happy Data Science.
                Python



                Data Science is funny.
            



                All I need is Love.
            



In [23]:
# body 부분에 있는 text들을 출력해낸다.
# body.get_text()를 하게 되면 태그가 있던 자리는 줄바꿈(\n)이 표시되고 전체 리스트를 보여줌

body.get_text()

'\n\n\n                Happy PinkWink.\n                PinkWink\n\n\n                Happy Data Science.\n                Python\n\n\n\n\n                Data Science is funny.\n            \n\n\n\n                All I need is Love.\n            \n\n'

In [24]:
# 클릭 가능한 링크를 의미하는 a태그를 전부 찾아낸다.

links = soup.find_all('a')
links

[<a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>,
 <a href="https://www.python.org" id="py-link">Python</a>]

## 3-2 크롬 개발자 도구를 이용해서 원하는 태그 찾기

- chrome 맞춤 설정 및 제어 -> 클릭 -> 도구 더보기 -> 개발자 도구

In [None]:
# url을 요청하여 오픈하는 패키지
from urllib.request import urlopen

In [None]:
# url을 입력
url = 'https://finance.naver.com/marketindex/'
# 네이버 홈페이지 -> 증권 -> 시장지표

# url 오픈
page = urlopen(url)

# BS를 사용하여 html을 읽어온다.
soup = BeautifulSoup(page, 'html.parser')

# prettify()를 사용하여 html을 보기 좋게 정렬
print(soup.prettify())

In [None]:
# soup.find_all('span','value')
soup.find_all('span',class_ = 'value')

In [None]:
soup.find_all('span',class_ = 'value')[0]

In [None]:
# 0번째 span 태그에 class = value에 들어있는 text를 추출

soup.find_all('span','value')[0].string

In [None]:
soup.find_all('span','value')[1].string

In [None]:
soup.find_all('span','value')[2].string

## 3-3 실전 : 시카고 샌드위치 맛집 소개 사이트에 접근하기
- 웹 스크래핑 목표 : 가게 이름, 가게 메인 메뉴, 각 가게 소개페이지를 정리하는 것

In [None]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

# 기본이 되는 url 설정
url_base = 'https://www.chicagomag.com'

# 원하는 페이지에 가기 위한 나머지 주고
url_sub = '/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/'

# 두 url을 합쳐준다
url = url_base + url_sub

# url 오픈
html = urlopen(url)

# BS를 이용하여 html을 읽어온다.
soup = BeautifulSoup(html, 'html.parser')

soup

In [None]:
# div 태그 중 class이름이 sammy인 것을 모두 찾는다.
print(soup.find_all('div','sammy'))

In [None]:
len(soup.find_all('div','sammy')) # 맛집 50개 확인

In [None]:
print(soup.find_all('div','sammy')[0])

## 3-4 접근한 웹 페이지에서 원하는 데이터 추출하고 정리하기

In [None]:
# 0번째 div태그의 class = sammy를 찾아낸다.
tmp_one = soup.find_all('div','sammy')[0]

# tmp_one의 타입을 확인
type(tmp_one)

# bs4.element.Tag  --> 그 변수에서 다시 태그로 찾는 find, find_all을 사용할 수 있다.

In [None]:
# tmp_one에 있는 태그들 중에 class = 'sammyRank'라는 것을 찾는다.

tmp_one.find(class_ = 'sammyRank')

In [None]:
# tmp_one에 있는 태그들 중에 class = 'sammyRank'의 text를 추출한다.

tmp_one.find(class_ = 'sammyRank').get_text()

In [None]:
# tmp_one에 있는 태그들 중에 class = 'sammyListing'의 text를 추출한다.
# sammyListing을 얻으면 메뉴 이름과 가게 이름이 같의 나온다.

tmp_one.find(class_ = 'sammyListing').get_text()

In [None]:
# tmp_one에 있는 태그들 중에 a 태그의 href를 추출한다.

tmp_one.find('a')['href']

In [None]:
# 정규식을 위해서 re를 import
# 파이썬에서 정규표현식을 사용하기 위해 Regex(Regular Expression)를 위한 모듈 re를 사용

import re

# tmp_one에 있는 태그들 중에 class = 'sammyListing'의 text를 추출한다.
tmp_string = tmp_one.find(class_ = 'sammyListing').get_text()

# '\n'이나 '\r'이 있으면 그것들을 기준으로 나눈다.
re.split(('\n|\r\n'), tmp_string)

# 위에서 나눈 것을 0, 1번째를 출력
print(re.split(('\n|\r\n'), tmp_string)[0])
print(re.split(('\n|\r\n'), tmp_string)[1])

In [None]:
from urllib.parse import urljoin

# 데이터를 담을 list를 만든다.
rank = []
main_menu = []
cafe_name = []
url_add = []

# div태그의 class = 'sammy'를 가진 것을 전부 찾아낸다.
list_soup = soup.find_all('div','sammy')

# 전부 찾아낸 div태그들을 for문의 범위에 넣고 
for item in list_soup :
    # class = 'sammyRank'에 있는 text를 추출하고, rank 리스트에 추가
    rank.append(item.find(class_ = 'sammyRank').get_text())
                
    # class = 'sammyListing'에 있는 text를 추출
    tmp_string = item.find(class_ = 'sammyListing').get_text()
    
    # '\n'이나 '\r'을 기준으로 text를 나누고 0번째는 main_menu에 추가하고
    # 1번째는 cafe_name에 추가한다.
    main_menu.append(re.split(('\n|\r\n'), tmp_string)[0])
    cafe_name.append(re.split(('\n|\r\n'), tmp_string)[1])
    
    # 맨 처음 기본이 되는 url에 a 태그에 있는 href를 추가한다.
    url_add.append(urljoin(url_base, item.find('a')['href']))

In [None]:
# 데이터 확인 작업

rank[:5]

In [None]:
main_menu[:5]

In [None]:
cafe_name[:5]

In [None]:
url_add[:5]

In [None]:
len(rank), len(main_menu), len(cafe_name), len(url_add)

In [None]:
import pandas as pd

# 데이터 프레임의 각 컬럼의 이름을 'Rank', 'Menu', 'Cafe', 'URL'로 지정하고
# value는 위에서 찾은 내용들을 넣어준다.

data = {'Rank':rank, 'Menu':main_menu,'Cafe':cafe_name, 'URL':url_add}
df = pd.DataFrame(data)
df.head()

In [None]:
df.tail()

In [None]:
# 컬럼의 순서를 변경해준다.

df = pd.DataFrame(data, columns = ['Cafe', 'Menu', 'Rank', 'URL'])
df.head()

In [None]:
# '03. best_sandwiches_list_chicago.csv'로 저장

df.to_csv('data/03. best_sandwiches_list_chicago.csv', sep=',',encoding='utf-8')

## 3-5 다수의 웹 페이지에 자동으로 접근해서 원하는 정보 가져오기

In [None]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

import pandas as pd

In [None]:
# 저장한 csv를 읽어온다.

df = pd.read_csv('data/03. best_sandwiches_list_chicago.csv', index_col = 0)
df.head()

In [None]:
df['URL'].head()

In [None]:
# URL 컬럼에 0번째 있는 url을 출력한다.
df['URL'][0]

In [None]:
# URL 컬럼에 0번째 있는 url을 오픈

html = urlopen(df['URL'][0])
soup_tmp = BeautifulSoup(html, 'html.parser')
soup_tmp

In [None]:
# 첫번째 p 태그의 class = 'addy'를 찾는다.
print(soup_tmp.find('p','addy'))

In [None]:
# 첫번째 p 태그의 class = 'addy'를 찾고 text를 추출
price_tmp = soup_tmp.find('p','addy').get_text()
price_tmp

In [None]:
# 띄어쓰기를 기준으로 나눈다.
price_tmp.split()

In [None]:
# 0번째 값을 출력
price_tmp.split()[0]

In [None]:
# 0번째 값에서 마지막 글자를 제거
price_tmp.split()[0][:-1]

In [None]:
# 1번째부터 뒤에서 2번째 값까지 출력 : 주소를 다시 합침
' '.join(price_tmp.split()[1:-2])

In [None]:
# 넣을 데이터의 리스트를 만든다.
price = []
address = []

# 0번째부터 2번째까지 값을 모두 출력한다.
for n in df.index[:3] :
    # url을 0, 1, 2순으로 연다
    html = urlopen(df['URL'][n])
    soup_tmp = BeautifulSoup(html,'lxml')
    
    # p 태스의 class = 'addy'에 있는 text를 추출
    gettings = soup_tmp.find('p','addy').get_text()
    
    price.append(gettings.split()[0][:-1])
    address.append(' '.join(gettings.split()[1:-2]))

In [None]:
# 제대로 되는지 확인
price

In [None]:
# 주소 확인
address

## 3-6 주피터 노트북에서 상태 진행바를 쉽게 만들어주는 tqdm 모듈

- 아마콘다 네이게이터에서 tqdm 모듈 설치 여부 확인

## 3-7 상태 진행바까지 적용하고 다시 샌드위치 페이지 50개에 접근하기

In [None]:
# 출력화면에 진행상태를 알려주는 패키지
from tqdm import tqdm_notebook

price = []
address = []

# df.index는 50개, 그러므로 for문이 50번 반복
for n in tqdm_notebook(df.index) :
    # url도 총 50개가 오픈
    html = urlopen(df['URL'][n])
    soup_tmp = BeautifulSoup(html,'lxml')
    
    # p 태스의 class = 'addy'에 있는 text를 추출
    gettings = soup_tmp.find('p','addy').get_text()
    
    price.append(gettings.split()[0][:-1])
    address.append(' '.join(gettings.split()[1:-2]))

## 3-8 50개 웹 페이제에 대한 정보 가져오기

In [None]:
price

In [None]:
address

In [None]:
len(price), len(address), len(df)

In [None]:
df.head()

In [None]:
# 데이터 프레임에 새로운 컬럼을 추가
df['Price'] = price
df['Address'] = address

# 컬럼 정렬
df = df.loc[:,['Rank','Cafe','Menu','Price','Address']]

# 데이터 프레임의 인덱스를 'Rank'로 변경
df.set_index('Rank', inplace = True)
df.head()

In [None]:
# csv로 저장
df.to_csv('data/03. best_sandwiches_list_chicago2.csv', sep=',',encoding='utf-8')

## 3-8 맛집 위치를 지도에 표기하기

In [None]:
import folium
import pandas as pd
import googlemaps
import numpy as np

In [None]:
# 교재 155pd
# 저장한 csv를 읽어오기
df = pd.read_csv('data/03. best_sandwiches_list_chicago2.csv', index_col = 0)
df.head()

In [None]:
gmaps_key = 'AIzaSyAWrqxPHQRtjKhGQQUsc6F_t3qh62GTwgY' # 2장에서 획득한 자신의 key를 사용
gmaps = googlemaps.Client(key=gmaps_key)

In [None]:
# 위도, 경도를 저장할 리스트를 만든다.
lat = []
lng = []

# 인덱스가 50개이기 때문에 for이 50번 반복
for n in tqdm_notebook(df.index) :
    # 주소에 'Multiple'이 있지 않으면, if문을 실행
    if df['Address'][n] != 'Multiple' :
        
        # 주소에 'Chicago'를 추가해서 주소를 완성시킨다.
        target_name = df['Address'][n] + ', ' + 'Chicago'
        
        # 구글맵에서 geocode부분에 접근
        gmaps_output = gmaps.geocode(target_name)
        
        # 'geometry'부분에 위도, 경도가 있으므로 추출
        location_output = gmaps_output[0].get('geometry')
        
        # 각각의 위도, 경도를 리스트에 추가한다.
        lat.append(location_output['location']['lat'])
        lng.append(location_output['location']['lng'])
        
    # 주소에 'Multiple'이 있으면.
    else :
        # 위도, 경도 리스트에 NaN 추가
        lat.append(np.nan)
        lng.append(np.nan)

In [None]:
len(lat), len(lng)

In [None]:
df['lat'] = lat
df['lng'] = lng
df.head()

In [None]:
mapping = folium.Map(location = [df['lat'].mean(), df['lng'].mean()], zoom_start=11)

folium.Marker([df['lat'].mean(), df['lng'].mean()], popup='center').add_to(mapping)

mapping

In [None]:
mapping = folium.Map(location = [df['lat'].mean(), df['lng'].mean()], zoom_start=11)

for n in df.index :
    if df['Address'][n] != 'Multiple' :
        folium.Marker([df['lat'][n], df['lng'][n]], popup=df['Cafe'][n]).add_to(mapping)

mapping