# 스타벅스 음료정보 크롤링

In [1]:
from selenium import webdriver as wb
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup as bs
import time
import pandas as pd
import numpy as np
from tqdm import tqdm_notebook

In [2]:
url = "https://www.starbucks.co.kr/menu/drink_list.do"

driver = wb.Chrome()
driver.get(url)

In [4]:
driver.find_element_by_class_name('a2').click()

In [5]:
soup = bs(driver.page_source, 'lxml')

In [9]:
drink_cols = soup.select("th", limit = 7)
drink_cols

[<th scope="col">메뉴</th>,
 <th scope="col">칼로리(Kcal)</th>,
 <th scope="col">당류(g)</th>,
 <th scope="col">단백질(g)</th>,
 <th scope="col">나트륨(mg)</th>,
 <th scope="col">포화지방(g)</th>,
 <th scope="col">카페인(mg)</th>]

In [10]:
drink_infos = soup.select("td")
drink_infos

[<td>나이트로 바닐라 크림</td>,
 <td>75</td>,
 <td>10</td>,
 <td>1</td>,
 <td>20</td>,
 <td>2</td>,
 <td>245</td>,
 <td>나이트로 쇼콜라 클라우드</td>,
 <td>55</td>,
 <td>7</td>,
 <td>1</td>,
 <td>20</td>,
 <td>2</td>,
 <td>245</td>,
 <td>나이트로 콜드 브루</td>,
 <td>5</td>,
 <td>0</td>,
 <td>0</td>,
 <td>5</td>,
 <td>0</td>,
 <td>245</td>,
 <td>돌체 콜드 브루</td>,
 <td>265</td>,
 <td>29</td>,
 <td>8</td>,
 <td>115</td>,
 <td>9</td>,
 <td>150</td>,
 <td>바닐라 크림 콜드 브루</td>,
 <td>125</td>,
 <td>11</td>,
 <td>3</td>,
 <td>58</td>,
 <td>6</td>,
 <td>150</td>,
 <td>제주 비자림 콜드 브루</td>,
 <td>340</td>,
 <td>44</td>,
 <td>10</td>,
 <td>115</td>,
 <td>8</td>,
 <td>105</td>,
 <td>콜드 브루</td>,
 <td>5</td>,
 <td>0</td>,
 <td>0</td>,
 <td>11</td>,
 <td>0</td>,
 <td>150</td>,
 <td>콜드 브루 몰트</td>,
 <td>510</td>,
 <td>40</td>,
 <td>10</td>,
 <td>147.8</td>,
 <td>20</td>,
 <td>150</td>,
 <td>콜드 브루 플로트</td>,
 <td>230</td>,
 <td>18</td>,
 <td>3</td>,
 <td>69</td>,
 <td>10</td>,
 <td>150</td>,
 <td>아이스 커피</td>,
 <td>5</td>,
 <td>0</td>,
 <td>

In [13]:
col_list = []
for i in drink_cols:
    col_list.append(i.text.strip())
    
col_list

['메뉴', '칼로리(Kcal)', '당류(g)', '단백질(g)', '나트륨(mg)', '포화지방(g)', '카페인(mg)']

In [14]:
info_list = []
for i in drink_infos:
    info_list.append(i.text.strip())
    
info_list

['나이트로 바닐라 크림',
 '75',
 '10',
 '1',
 '20',
 '2',
 '245',
 '나이트로 쇼콜라 클라우드',
 '55',
 '7',
 '1',
 '20',
 '2',
 '245',
 '나이트로 콜드 브루',
 '5',
 '0',
 '0',
 '5',
 '0',
 '245',
 '돌체 콜드 브루',
 '265',
 '29',
 '8',
 '115',
 '9',
 '150',
 '바닐라 크림 콜드 브루',
 '125',
 '11',
 '3',
 '58',
 '6',
 '150',
 '제주 비자림 콜드 브루',
 '340',
 '44',
 '10',
 '115',
 '8',
 '105',
 '콜드 브루',
 '5',
 '0',
 '0',
 '11',
 '0',
 '150',
 '콜드 브루 몰트',
 '510',
 '40',
 '10',
 '147.8',
 '20',
 '150',
 '콜드 브루 플로트',
 '230',
 '18',
 '3',
 '69',
 '10',
 '150',
 '아이스 커피',
 '5',
 '0',
 '0',
 '10',
 '0',
 '140',
 '오늘의 커피',
 '5',
 '0',
 '0',
 '10',
 '0',
 '260',
 '블랙 글레이즈드 라떼',
 '385',
 '37',
 '10',
 '220',
 '14',
 '63',
 '블론드 애플 쿠키 라떼',
 '-',
 '-',
 '-',
 '-',
 '-',
 '-',
 '아이스 블랙 글레이즈드 라떼',
 '305',
 '31',
 '7',
 '160',
 '11',
 '63',
 '아이스 블론드 애플 쿠키 라떼',
 '-',
 '-',
 '-',
 '-',
 '-',
 '-',
 '아이스 애플 쿠키 라떼',
 '290',
 '33',
 '5',
 '95',
 '8',
 '63',
 '애플 쿠키 라떼',
 '375',
 '40',
 '9',
 '160',
 '10',
 '63',
 '에스프레소 콘 파나',
 '30',
 '1',
 '0',
 '0',
 '1

In [21]:
info_array = np.array(info_list).reshape(-1,7)
info_array

array([['나이트로 바닐라 크림', '75', '10', '1', '20', '2', '245'],
       ['나이트로 쇼콜라 클라우드', '55', '7', '1', '20', '2', '245'],
       ['나이트로 콜드 브루', '5', '0', '0', '5', '0', '245'],
       ['돌체 콜드 브루', '265', '29', '8', '115', '9', '150'],
       ['바닐라 크림 콜드 브루', '125', '11', '3', '58', '6', '150'],
       ['제주 비자림 콜드 브루', '340', '44', '10', '115', '8', '105'],
       ['콜드 브루', '5', '0', '0', '11', '0', '150'],
       ['콜드 브루 몰트', '510', '40', '10', '147.8', '20', '150'],
       ['콜드 브루 플로트', '230', '18', '3', '69', '10', '150'],
       ['아이스 커피', '5', '0', '0', '10', '0', '140'],
       ['오늘의 커피', '5', '0', '0', '10', '0', '260'],
       ['블랙 글레이즈드 라떼', '385', '37', '10', '220', '14', '63'],
       ['블론드 애플 쿠키 라떼', '-', '-', '-', '-', '-', '-'],
       ['아이스 블랙 글레이즈드 라떼', '305', '31', '7', '160', '11', '63'],
       ['아이스 블론드 애플 쿠키 라떼', '-', '-', '-', '-', '-', '-'],
       ['아이스 애플 쿠키 라떼', '290', '33', '5', '95', '8', '63'],
       ['애플 쿠키 라떼', '375', '40', '9', '160', '10', '63'],
       ['

In [30]:
df = pd.DataFrame(info_array, columns = col_list)
df.set_index("메뉴")

Unnamed: 0_level_0,칼로리(Kcal),당류(g),단백질(g),나트륨(mg),포화지방(g),카페인(mg)
메뉴,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
나이트로 바닐라 크림,75,10,1,20,2,245
나이트로 쇼콜라 클라우드,55,7,1,20,2,245
나이트로 콜드 브루,5,0,0,5,0,245
돌체 콜드 브루,265,29,8,115,9,150
바닐라 크림 콜드 브루,125,11,3,58,6,150
...,...,...,...,...,...,...
퍼플베리 굿 190ML,100,24,0,15,0,0
한라봉주스 190ML,88,20,1,40,0,0
햇사과 주스 190ML,113,27,0.2,10,0,0
블루베리 요거트 190ML,155,18,5,70,3.6,0


# 방법1. 컬럼명을 직접 작성하는 방법

In [32]:
df[['메뉴', '칼로리(Kcal)', '나트륨(mg)', '단백질(g)']].set_index('메뉴').loc[['나이트로 바닐라 크림', '돌체 콜드 브루']]

Unnamed: 0_level_0,칼로리(Kcal),나트륨(mg),단백질(g)
메뉴,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
나이트로 바닐라 크림,75,20,1
돌체 콜드 브루,265,115,8


# 방법2. 컬럼명 입력, iloc 혼용하는 방법

In [38]:
df[['메뉴', '칼로리(Kcal)', '나트륨(mg)', '단백질(g)']].set_index('메뉴').iloc[0:5]

Unnamed: 0_level_0,칼로리(Kcal),나트륨(mg),단백질(g)
메뉴,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
나이트로 바닐라 크림,75,20,1
나이트로 쇼콜라 클라우드,55,20,1
나이트로 콜드 브루,5,5,0
돌체 콜드 브루,265,115,8
바닐라 크림 콜드 브루,125,58,3


In [2]:
url = 'http://corners.gmarket.co.kr/Bestsellers'

driver = wb.Chrome()
driver.get(url)

In [3]:
name_list = []
price_list = []
large_list = []
nav_list = []

for num in range(1,5, 1):
    
    
    number = 'no'+ str(num)
    link = 'p#' + number + "+div" ##근접 후행 div
    
    menu = driver.find_element_by_css_selector(link)
    
    menu.click()
    time.sleep(1)
    
    # 크롤링 코드 들어감
    name = driver.find_element_by_css_selector('h1.itemtit').text
    price = driver.find_element_by_css_selector('strong.price_real').text
    large = driver.find_element_by_css_selector('li.on > a').text
    
    try : 
        nav = driver.find_element_by_css_selector('p.nav').text
    except :
        nav = "원산지 정보가 없습니다."
    
    name_list.append(name)
    
    price_list.append(price)
    large_list.append(large)
    nav_list.append(nav)
        
    driver.back()
    time.sleep(1)
    
pd.DataFrame({"name" : name_list, "price" : price_list, "large" : large_list, "nav" : nav_list})

Unnamed: 0,name,price,large,nav
0,닥터펩스토리 KF94 마스크 (50매),"39,900원",산업용마스크,원산지 정보가 없습니다.
1,[한국투자증권] (한국투자증권) 온라인 금융상품권 5만원권,"50,000원",온라인/포인트 상품권,원산지-국내
2,아삭달콤 정품 홍로 사과 5kg내외(26-30과내외),"18,900원",사과,원산지-상세설명참고
3,[투투삭스] 가을 신상양말 균일가 패션양말/스니커즈/골지/학생,"6,900원",스니커즈양말,원산지-경기 포천시
4,[안다르] 30%+12% 역대급 안다르위크어택 Vol.1,"21,900원",요가/필라테스복상의,원산지-기타
5,[오뗄] 오뗄 순살 후라이드 치킨 1kg+1kg /냉동식품/,"16,900원",기타튀김,원산지-상세설명참고
6,[포스트] 현미 그래놀라 500g+그래놀라 크랜베리 570g +오틀리1L,"12,900원",시리얼,원산지-상세설명참고
7,eTV 화제의신상품 비비고 잔칫집 모둠잡채644g 4봉,"26,000원",국수면,원산지-상세설명참고
8,국산 630g 르미에 라지자캔들 아로마향초 캔들워머,"9,900원",초/향초,원산지-인천 남동구
9,[르헤브] 손님맞이 최다구성2+2 피톤치드 항균 베개솜/베개커버,"9,900원",베개솜,원산지-국산
