## Selenium
- 웹 페이지 자동화 테스트 도구
- 웹 페이지를 제어(클릭, 스크롤, 입력, ...)하는 도구로 사용

In [2]:
!pip install selenium

Collecting selenium
  Downloading selenium-3.141.0-py2.py3-none-any.whl (904 kB)
Installing collected packages: selenium
Successfully installed selenium-3.141.0


## 웹 크롤링 프로그램을 만들 때 주의할 점
1. 반드시 time.sleep() 으로 일정 시간 텀을 주면서 요청할 수 있도록 작성
2. 서버의 감시를 피하기 위해 hearder(헤더) 설정

In [21]:
import time # 딜레이를 사용하기 위한 라이브러리

from bs4 import BeautifulSoup as bs
from selenium import webdriver
# 키보드를 제어하는 라이브러리
from selenium.webdriver.common.keys import Keys

In [2]:
# chromdriver.exe 파일을 제어하기 위해 driver 변수에 저장
# webdriver.Chrome(크롬드라이버 파일 경로)
# 현재는 코드와 같은 경로에 있기 때문에 적지 않은 것
driver = webdriver.Chrome()

url = 'http://www.naver.com'

# get(url) : 제어할 웹 페이지 띄우는 함수
driver.get(url)

In [5]:
# 띄워진 브라우저 종료
# driver.quit()

In [3]:
# 검색창 요소 접근 --> 보낼 검색어 입력
driver.find_element_by_css_selector('#query').send_keys('펭수\n')

In [4]:
# 검색창 요소 접근 --> 보낼 검색어 입력
driver.find_element_by_css_selector('#query').send_keys('펭수')

# 검색버튼 클릭
driver.find_element_by_css_selector('#search_btn').click()

In [9]:
# 스크롤 제어
# - 아래키, 스페이스바, end키, page down키
driver.find_element_by_css_selector('body').send_keys(Keys.ARROW_DOWN)

In [11]:
driver.find_element_by_css_selector('body').send_keys(Keys.SPACE)

In [12]:
driver.find_element_by_css_selector('body').send_keys(Keys.PAGE_DOWN)

## 횟수를 지정하여 스크롤 제어

In [13]:
for i in range(5):
    driver.find_element_by_css_selector('body').send_keys(Keys.SPACE)
    time.sleep(2)

## 한솥 도시락 메뉴/가격 수집
- 메뉴, 가격을 csv 파일로 저장

In [24]:
driver = webdriver.Chrome()

url = 'https://www.hsd.co.kr/menu/menu_list'

driver.get(url)

In [25]:
# '더보기' 버튼 3번 클릭하기
for i in range(3):
    driver.find_element_by_css_selector('a.c_05').click()
    time.sleep(1)

In [23]:
driver.page_source # res.text와 같이 HTML 소스코드를 문자열로 반환

'<html lang="ko"><head>\n    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">\n    <meta http-equiv="X-UA-Compatible" content="IE=edge">\n    <meta name="viewport" content="width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0,user-scalable=no">\n\n    <!-- SNS LINK -->\n    <meta property="og:type" content="website">\n    <meta property="og:title" content="">\n    <meta property="og:url" content="">\n    <meta property="og:image" content="">\n    <meta property="og:description" content="">\n    <!--// SNS LINK -->\n\n    <meta name="_csrf_parameter" content="_csrf"><meta name="_csrf_header" content="X-CSRF-TOKEN"><meta name="_csrf" content="c012388c-0222-48c5-aa0b-908a30c97c4d"><title>전체메뉴 &gt; 한솥 메뉴</title>\n\n    <link rel="icon" href="/assets/images/common/favicon.ico" type="image/x-icon">\n\n<link rel="stylesheet" type="text/css" href="/assets/css/ui.common.css">\n<link rel="stylesheet" type="text/css" href="/assets/css/swiper.min.css">\n<!--[

In [27]:
html = bs(driver.page_source, 'html.parser')
driver.quit()

In [28]:
# 메뉴, 가격 수집 후 '한솥도시락_메뉴_가격.csv'로 저장
menu = html.select('.h.fz_03')
price = html.select('.item-price > strong')

In [32]:
menu_list = []
price_list = []

for i in range(len(menu)):
    menu_list.append(menu[i].text)
    price_list.append(price[i].text)

len(menu_list), len(price_list)

(100, 100)

In [33]:
import pandas as pd

In [38]:
han_df = pd.DataFrame({'메뉴' : menu_list, '가격' : price_list})
han_df

Unnamed: 0,메뉴,가격
0,"매화(치킨, 연어구이)",10000
1,매화 (순살 고등어 간장구이),10000
2,진달래,7000
3,개나리(순살 고등어 간장구이),8000
4,생선까스도련님고기고기,5500
...,...,...
95,한솥 두부강된장소스,1800
96,한솥 감초볶음고추장소스,500
97,볶음김치,400
98,김치,300


In [39]:
han_df.to_csv('한솥도시락_메뉴_가격.csv', encoding='utf-8-sig', index=None)

## 멜론차트 곡명, 좋아요 수집
- '멜론_음원_정보.csv' 저장

In [53]:
driver = webdriver.Chrome()

url = 'https://www.melon.com/chart/'

driver.get(url)

In [54]:
html = bs(driver.page_source, 'html.parser')
driver.quit()

In [55]:
title = html.select('.ellipsis.rank01')
like = html.select('.button_etc.like > span.cnt')

len(title), len(like)

(100, 100)

In [58]:
title_list = []
like_list = []

for i in range(len(title)):
    title_list.append(title[i].text.strip())
    like_list.append(like[i].text.replace('\n총건수\n', ""))

len(title_list), len(like_list)

(100, 100)

In [59]:
melon_df = pd.DataFrame({'곡명' : title_list, '좋아요' : like_list})
melon_df

Unnamed: 0,곡명,좋아요
0,Celebrity,152706
1,밤하늘의 별을(2020),114173
2,VVS (Feat. JUSTHIS) (Prod. GroovyRoom),162797
3,Dynamite,379155
4,이 밤을 빌려 말해요 (바른연애 길잡이 X 10CM),28050
...,...,...
95,나의 유일한 너에게,13192
96,ON,255325
97,너도 아는,41359
98,"여백의 미 (Feat. Jessi, JUSTHIS) (Prod. GroovyRoom)",24483


In [60]:
melon_df.to_csv('멜론_음원_정보.csv', encoding='utf-8-sig', index=None)

## 스타벅스 음료 영양정보 수집
1. '사진으로보기' -> '영양정보로보기'를 클릭
2. bs로 변환
3. 음료명과 영양정보들을 수집
4. 스타벅스_음료_영양정보.csv로 저장

In [61]:
driver = webdriver.Chrome()

url = 'https://www.starbucks.co.kr/menu/drink_list.do'

driver.get(url)

In [62]:
driver.find_element_by_css_selector('.dt2 > a.a2').click()

In [63]:
html = bs(driver.page_source, 'html.parser')
driver.quit()

In [75]:
table = html.select('tbody > tr')
" ".join(table[0].text.split()[:-6])

'나이트로 바닐라 크림'

In [76]:
menu = []

for item in table:
    menu.append(" ".join(item.text.split()[:-6]))

['나이트로 바닐라 크림',
 '나이트로 콜드 브루',
 '돌체 콜드 브루',
 '바닐라 크림 콜드 브루',
 '제주 비자림 콜드 브루',
 '콜드 브루',
 '콜드 브루 몰트',
 '콜드 브루 플로트',
 '아이스 커피',
 '오늘의 커피',
 '에스프레소 콘 파나',
 '에스프레소 마키아또',
 '아이스 카페 아메리카노',
 '카페 아메리카노',
 '아이스 카라멜 마키아또',
 '카라멜 마키아또',
 '아이스 카푸치노',
 '카푸치노',
 '라벤더 카페 브레베',
 '럼 샷 코르타도',
 '리저브 바닐라 빈 라떼',
 '리저브 아이스 바닐라 빈 라떼',
 '스타벅스 돌체 라떼',
 '아이스 라벤더 카페 브레베',
 '아이스 스타벅스 돌체 라떼',
 '아이스 제주 샤이닝 바나나 라떼',
 '아이스 카페 라떼',
 '제주 샤이닝 바나나 라떼',
 '카페 라떼',
 '아이스 카페 모카',
 '아이스 화이트 초콜릿 모카',
 '카페 모카',
 '화이트 초콜릿 모카',
 '바닐라 플랫 화이트',
 '바닐라 스타벅스 더블 샷',
 '블론드 바닐라 더블 샷 마키아또',
 '아이스 블론드 바닐라 더블 샷 마키아또',
 '에스프레소',
 '커피 스타벅스 더블 샷',
 '클래식 아포가토',
 '헤이즐넛 스타벅스 더블 샷',
 '더블 에스프레소 칩 프라푸치노',
 '모카 프라푸치노',
 '에스프레소 프라푸치노',
 '자바 칩 프라푸치노',
 '카라멜 프라푸치노',
 '화이트 초콜릿 모카 프라푸치노',
 '바닐라 크림 프라푸치노',
 '제주 까망 크림 프라푸치노',
 '제주 샤이닝 바나나 크림 프라푸치노',
 '제주 쑥떡 크림 프라푸치노',
 '제주 유기농 말차로 만든 크림 프라푸치노',
 '초콜릿 크림 칩 프라푸치노',
 '화이트 딸기 크림 프라푸치노',
 '화이트 타이거 프라푸치노',
 '딸기 젤리 블렌디드',
 '망고 패션 후르츠 블렌디드',
 '딸기 요거트 블렌디드',
 '망고 바나나 블렌디드',
 '자몽 셔벗 블렌디드',
 '피치 & 레몬 블렌디드',
 '블랙 티 레모

In [83]:
starbucks_df = pd.DataFrame(columns=['메뉴', '칼로리(Kcal)', '당류(g)', '단백질(g)','나트륨(mg)','포화지방(g)','카페인(mg)'])
starbucks_df

Unnamed: 0,메뉴,칼로리(Kcal),당류(g),단백질(g),나트륨(mg),포화지방(g),카페인(mg)


In [87]:
for i in range(len(menu)):
    starbucks_df.loc[i] = [menu[i], 
                       table[i].text.split()[-6],
                       table[i].text.split()[-5],
                       table[i].text.split()[-4],
                       table[i].text.split()[-3],
                       table[i].text.split()[-2],
                       table[i].text.split()[-1]
                      ]
    
starbucks_df

Unnamed: 0,메뉴,칼로리(Kcal),당류(g),단백질(g),나트륨(mg),포화지방(g),카페인(mg)
0,나이트로 바닐라 크림,75,10,1,20,2,245
1,나이트로 콜드 브루,5,0,0,5,0,245
2,돌체 콜드 브루,265,29,8,115,9,150
3,바닐라 크림 콜드 브루,125,11,3,58,6,150
4,제주 비자림 콜드 브루,340,44,10,115,8,105
...,...,...,...,...,...,...,...
124,퍼플베리 굿 190ML,100,24,0,15,0,0
125,한라봉주스 190ML,78,16,0.5,10,0,0
126,햇사과 주스 190ML,113,27,0.2,10,0,0
127,블루베리 요거트 190ML,155,18,5,70,3.6,0


In [88]:
starbucks_df.to_csv('스타벅스_음료_영양정보.csv', encoding='utf-8-sig', index=None)

In [89]:
# ------------ 예시 --------------------
# 음료정보를 가진 table 요소 접근
drink_info = html.select('table.coffeeInfo.mb60')
drink_info

[<table class="coffeeInfo mb60" summary="콜드 브루 커피 영양정보">
 <caption class="hid">메뉴, 칼로리, 당류, 단백질, 나트륨, 포화지방, 카페인 정보</caption>
 <colgroup>
 <col width="16%"/>
 <col width="14%"/>
 <col width="14%"/>
 <col width="14%"/>
 <col width="14%"/>
 <col width="14%"/>
 <col width="14%"/>
 </colgroup>
 <thead>
 <tr>
 <th scope="col">메뉴</th>
 <th scope="col">칼로리(Kcal)</th>
 <th scope="col">당류(g)</th>
 <th scope="col">단백질(g)</th>
 <th scope="col">나트륨(mg)</th>
 <th scope="col">포화지방(g)</th>
 <th scope="col">카페인(mg)</th>
 </tr>
 </thead>
 <tbody>
 <tr> <td>나이트로 바닐라 크림</td> <td>75</td> <td>10</td> <td>1</td> <td>20</td> <td>2</td> <td>245</td> </tr><tr> <td>나이트로 콜드 브루</td> <td>5</td> <td>0</td> <td>0</td> <td>5</td> <td>0</td> <td>245</td> </tr><tr> <td>돌체 콜드 브루</td> <td>265</td> <td>29</td> <td>8</td> <td>115</td> <td>9</td> <td>150</td> </tr><tr> <td>바닐라 크림 콜드 브루</td> <td>125</td> <td>11</td> <td>3</td> <td>58</td> <td>6</td> <td>150</td> </tr><tr> <td>제주 비자림 콜드 브루</td> <td>340</td> <td>44</td> <td>10<

In [95]:
# 첫번째 테이블 내의 컬럼 정보를 가진 태그만을 가져옴
drink_info[0].select('th')

[<th scope="col">메뉴</th>,
 <th scope="col">칼로리(Kcal)</th>,
 <th scope="col">당류(g)</th>,
 <th scope="col">단백질(g)</th>,
 <th scope="col">나트륨(mg)</th>,
 <th scope="col">포화지방(g)</th>,
 <th scope="col">카페인(mg)</th>]

In [96]:
# 컬럼명 리스트
cols = []

for col in drink_info[0].select('th'):
    cols.append(col.text)
    
cols

['메뉴', '칼로리(Kcal)', '당류(g)', '단백질(g)', '나트륨(mg)', '포화지방(g)', '카페인(mg)']

In [98]:
drink_info[0].select('td')

[<td>나이트로 바닐라 크림</td>,
 <td>75</td>,
 <td>10</td>,
 <td>1</td>,
 <td>20</td>,
 <td>2</td>,
 <td>245</td>,
 <td>나이트로 콜드 브루</td>,
 <td>5</td>,
 <td>0</td>,
 <td>0</td>,
 <td>5</td>,
 <td>0</td>,
 <td>245</td>,
 <td>돌체 콜드 브루</td>,
 <td>265</td>,
 <td>29</td>,
 <td>8</td>,
 <td>115</td>,
 <td>9</td>,
 <td>150</td>,
 <td>바닐라 크림 콜드 브루</td>,
 <td>125</td>,
 <td>11</td>,
 <td>3</td>,
 <td>58</td>,
 <td>6</td>,
 <td>150</td>,
 <td>제주 비자림 콜드 브루</td>,
 <td>340</td>,
 <td>44</td>,
 <td>10</td>,
 <td>115</td>,
 <td>8</td>,
 <td>105</td>,
 <td>콜드 브루</td>,
 <td>5</td>,
 <td>0</td>,
 <td>0</td>,
 <td>11</td>,
 <td>0</td>,
 <td>150</td>,
 <td>콜드 브루 몰트</td>,
 <td>510</td>,
 <td>40</td>,
 <td>10</td>,
 <td>147.8</td>,
 <td>20</td>,
 <td>150</td>,
 <td>콜드 브루 플로트</td>,
 <td>230</td>,
 <td>18</td>,
 <td>3</td>,
 <td>69</td>,
 <td>10</td>,
 <td>150</td>]

In [100]:
# 데이터프레임에 저장할 행 리스트 생성
rows = []

# 모든 테이블에 접근하여 td 요소의 데이터 접근
# drink_info : 9개의 테이블
# info : 하나의 테이블
for info in drink_info:
    for td in info.select('td'):
        rows.append(td.text)
        
rows

['나이트로 바닐라 크림',
 '75',
 '10',
 '1',
 '20',
 '2',
 '245',
 '나이트로 콜드 브루',
 '5',
 '0',
 '0',
 '5',
 '0',
 '245',
 '돌체 콜드 브루',
 '265',
 '29',
 '8',
 '115',
 '9',
 '150',
 '바닐라 크림 콜드 브루',
 '125',
 '11',
 '3',
 '58',
 '6',
 '150',
 '제주 비자림 콜드 브루',
 '340',
 '44',
 '10',
 '115',
 '8',
 '105',
 '콜드 브루',
 '5',
 '0',
 '0',
 '11',
 '0',
 '150',
 '콜드 브루 몰트',
 '510',
 '40',
 '10',
 '147.8',
 '20',
 '150',
 '콜드 브루 플로트',
 '230',
 '18',
 '3',
 '69',
 '10',
 '150',
 '아이스 커피',
 '5',
 '0',
 '0',
 '10',
 '0',
 '140',
 '오늘의 커피',
 '5',
 '0',
 '0',
 '10',
 '0',
 '260',
 '에스프레소 콘 파나',
 '30',
 '1',
 '0',
 '0',
 '1.5',
 '75',
 '에스프레소 마키아또',
 '10',
 '0',
 '1',
 '0',
 '0',
 '75',
 '아이스 카페 아메리카노',
 '10',
 '0',
 '1',
 '5',
 '0',
 '150',
 '카페 아메리카노',
 '10',
 '0',
 '1',
 '5',
 '0',
 '150',
 '아이스 카라멜 마키아또',
 '190',
 '21',
 '6',
 '110',
 '4.6',
 '75',
 '카라멜 마키아또',
 '200',
 '22',
 '8',
 '130',
 '5',
 '75',
 '아이스 카푸치노',
 '115',
 '9',
 '6',
 '90',
 '3.5',
 '75',
 '카푸치노',
 '110',
 '8',
 '6',
 '70',
 '3',
 '75',
 '라벤더 카페 브레베

In [103]:
# cols 리스트를 이용하여 빈 데이터프레임 생성
drink_df = pd.DataFrame(columns=cols)
drink_df

# 데이터프레임에 한 행씩 저장
# for i in range(len(rows)//7):
#     drink_df.loc[i] = rows[i*7:(i*7)+7]

for i in range(0, len(rows), 7):
    drink_df.loc[i] = rows[i:i+7]
    
drink_df

Unnamed: 0,메뉴,칼로리(Kcal),당류(g),단백질(g),나트륨(mg),포화지방(g),카페인(mg)
0,나이트로 바닐라 크림,75,10,1,20,2,245
7,나이트로 콜드 브루,5,0,0,5,0,245
14,돌체 콜드 브루,265,29,8,115,9,150
21,바닐라 크림 콜드 브루,125,11,3,58,6,150
28,제주 비자림 콜드 브루,340,44,10,115,8,105
...,...,...,...,...,...,...,...
868,퍼플베리 굿 190ML,100,24,0,15,0,0
875,한라봉주스 190ML,78,16,0.5,10,0,0
882,햇사과 주스 190ML,113,27,0.2,10,0,0
889,블루베리 요거트 190ML,155,18,5,70,3.6,0
