# 유가 분석

## selenium

### 설치
- **최근 버전의 셀레니움은 크롬드라이버를 다운로드 받으실 필요가 없게 바뀌었습니다! 크롬드라이버는 받지 마시고, 코드 작성시driver = webdriver.Chrome()**
- Beautiful Soup으로만 해결할 수 없는 것
	- 접근할 웹 주소를 알 수 없을 때
	- 자바스크립트를 사용하는 웹페이지
	- 웹 브라우저로 접근하지 않으면 안될 때
- 웹 브라우저를 원격 조작하는 도구
- 자동으로 URL을 열고 클릭 등이 가능
- 스크롤, 문자의 입력, 화면 캡처 등
- Python 모듈 설치, 크롬드라이버 설치
```
from selenium import webdriver

# 더이상 드라이버를 다운받지 않아도 됨
driver = webdriver.Chrome()

# 적은 주소의 새 창 키기
driver.get("https://www.naver.com")

# 꺼짐
driver.quit()
```

### 기초
```
from selenium import webdriver
from selenium import By

# 더이상 드라이버를 다운받지 않아도 됨
driver = webdriver.Chrome()

# 적은 주소의 새 창 키기
driver.get("https://www.pinkwink.kr/")

# 스크롤 가능한 높이 가져오기
last_height = driver.execute_script("return document.body.scrollHeight")
last_height

# 화면 스크롤 하단 이동
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);"))

# Xpath 카피해온 곳 까지 스크롤
from selenium.webdriver import ActionChains

some_tag = driver.find_element(By.XPATH, '//*[@id="paging"]/ul')

action = ActionChains(driver)
action.move_to_element(some_tag).perform()

# id로 찾아 입력 창에 글자 넣기
some_tag = driver.find_element(By.ID, 'gsc-i-idl')
some_tag.send_keys('data science')

# 버튼 클릭하는 코드 실행
xpath = '''//*[@id="___gcse_0"]/div/form/table/tbody/tr/td2/buttion'''
some_tag = driiver.find_element(By.XPATH, xpath).clink()

# 현재 화면 html 코드가져오기
from bs4 import BeutifulSoup

req = driver.page_source
soup = BeautifulSoup(req, 'html.parser')

result = soup.find_all('div', 'gsc-webResult gsc-result')
result[0]
```

#### 기본 동작
- `get()` 함수
	- 접근하고 싶은 주소 지정
- `execute_script('')`
	-  자바스크립트 코드를 실행
- 화면 페이지를 지정히는 지점의 xpath를 찾기
	- Copy > Copy Xpath
- 보이는 화면에 내가 원하는 데이터가 있어야 에러가 안남
	- 한 화면에 많은 정보가 담겨있는 것이 좋음
- 화면 최대 크기 설정
	- `driver.maximize_window()`
- 화면 최소 크기 설정
	- `driver.minimize_window()`
- 화면 크기 설정
	- `driver.set_window_size(600, 600)`
- 새로 고침
	- `driver.refresh()`
- 뒤로가기
	- `driver.back()`
- 앞으로가기
	- `driver.forward()`
- 요소 찾기
	- `from selenium.webdriver.common.by import By`
	- `driver.find_element(by=BY.NAME, value="태그값")`
- 클릭
	- `driver.find_element(BY.CSS_SELECTOR, 'css값 복사해오기')`
- CSS
	- `#`
		- id
	- `>`
		- 하위
	- `.~~~`
		- class 이름
	- `(n)`
		- n번째 요소
- 새로운 탭 생성
	- `driver.execute_script('window.open("주소")')`
		- 공란이면 `about:blank` 창이 뜸
- 탭 이동
	- `driver.switch_to.window(driver.window_handles[1])`
	- n번째 창으로 이동
- 탭 닫기
	- `driver.close()`
		- 드라이버가 가리키고 있는 것이 이미 닫혀있을 경우 에러
- 전체 종료
	- `driver.quit()`

#### 화면 스크롤 & 검색어 입력
- 스크롤 가능한 높이(길이)
	- `driver.execte_script('return document.body.scrollHeight')`
- 화면 스크롤 하단 이동
	- `driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')`
- 현재 보이는 화면 스크린샷 저장
	- `driver.save_screenshot('./파일이름.확장자')`
		- `./`
			- 현재 위치
		- 저장위치/파일이름.확장자
- 화면 스크롤 상단 이동
	- `driver.execute_script('window.scrollTo(0, 0);')`
- 특정 태그 지점까지 스크롤 이동
```
from selenium.webdriver import ActionChains

some_tag = driver.find_element(By.CSS_SELEECTOR, '태그 이름')
action = ActionChans(driver)
action.move_to_element(some_tag).perform()
```

#### 검색어 입력(1)
- XPATH
	- `//`
		- 최상위
	- `*`
		- 자손 태그
		- 내 아래에 있는 모든 자손
	- `/`
		- 자식 태그
		- 내 바로 아래 있는 자식
	- `div[n]`
		- div 태그 중에서 n번째 태그
	- Xpath를 감싸는 것은 작은 따옴표로 하는 것이 내부의 큰 따옴표와 겹치지 않아 에러 방지에 좋다

```
from selenium import webdriver
from selenium.webdriver.common.by import By

# 더이상 드라이버를 다운받지 않아도 됨
driver = webdriver.Chrome()

# 적은 주소의 새 창 키기
driver.get("https://www.naver.com/")

# css_selector
# 검색어 입력
keyword = driver.find_element(By.CSS_SELECTOR, '#query')
keyword.send_keys('파이썬')

# 버튼 클릭
search_btn = driver.find_element(by.CSS_SELECTOR, '#search_btn')
search_btn.click()

# 검색어 지우기
keyword = driver.find_element(By.CSS_SELECTOR, '#query')
keyword.clear()
keyword.send_keys('딥러닝')

# XPATH
# 검색어 입력
keyword = driver.find_element(By.XPATH, '//*[@id="query"]')
keyword.send_keys('파이썬')

# 버튼 클릭
search_btn = driver.find_element(by.XPATH, '//*[@id="search_btn"]')
search_btn.click()

# 검색어 지우기
keyword = driver.find_element(By.XPATH, '//*[@id="query"]')
keyword.clear()
keyword.send_keys('딥러닝')
```

#### 검색어 입력(2)
```
from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.chrome()
driver.get('http://pinkwink.kr')

# 돋보기 버튼 선택
driver.find_element(BY.CSS_SELECTOR, '#header > div.search').click()
# 처음부터 선택이 잘 안되고, 직접 눌러야 search on이라는 이름으로 바뀜

# 아래의 내용으로 진행
from selenium.webdriver import ActionChains

search_tag = driver.find_element(By.CSS_SELECTOR, '.search')
action = ActionChains(driver)
action.click(search_tag)
action.perform()

# 검색어 입력
driver.find_element(BY.CSS_SELECTOR, '#header > div.search > input[type=text]').send_keys('딥러닝')

# 검색 버튼 클릭
driver.find_element(BY.CSS_SELECTOR, '#header > div.search.on > button').click()

```

#### Selenium과 BeautifulSoup 함께 사용하기
```
# 현재 화면 html 코드 가져오기
driver.page_source

from bs4 import Beautifulopti

req = driver.page_source
soup = BeautifulSoup(req, 'html.parser')

soup.select('.post-item')

contents = soup.select('.post-item')
len(contents)
```

## 주유소 가격

### 데이터 얻어오기
- 대한민국 주유 가격을 알아보는 사이트: https://www.opinet.co.kr/user/main/mainView.dos
	- 싼 주유소 찾기 > 지역별
		- https://www.opinet.co.kr/searRgSelect.do
		- 사이트 구조 확인하기
			- 지역 정보를 선택
				- 웹페이지 주소도 안 바뀌고, HTML 소스에서 원하는 정보를 얻기도 쉽지 않다
			- 검색한 내용의 하단에 엑셀 저장이 바로 존재함
		- 목표 데이터
			- 브랜드
			- 가격
			- 셀프 주요 여부
			- 위치

- 문제 발생
	1. 해당 URL로 한 번에 접근이 안 됨
	2. 메인 페이지로 접속이 되고, 팝업창이 하나 나옴
	3. 창 전환 시 에러가 남
		- time.sleep(n) 으로 n초가 쉬어가면 selenium이 잘 따라감
```
from selenium impor webdriver

url = 'http://www.opinet.co.kr/searRgSlect.do'
driver = webdriver.Chrome()
driver.get(url)
time.sleep(3)

# 팝업창 뜸
# 팝업창으로 전환 후 닫아줌
driver.switch_to_window(driver.window_handles[-1])
driver.close()
time.sleep(3)

# 메인 화면 창으로 전환
driver.switch_to_window(driver.window_handles[-1])
driver.get(url)

# 새로 정리하기
import time

def main_get():
from selenium impor webdriver

# 페이지 접근
url = 'http://www.opinet.co.kr/searRgSlect.do'
driver = webdriver.Chrome()
driver.get(url)
time.sleep(3)

# 팝업창으로 전환
driver.switch_to_window(driver.window_handles[-1])
# 팝업창 닫기
driver.close()
time.sleep(3)

# 메인 화면 창으로 전환
driver.switch_to_window(driver.window_handles[-1])
# 접근 URL 다시 요청
driver.get(url)

main_get()
```
- 시도, 구 정보 가져오기
```
# 지역: 시/도
sido_list_raw = driver.find_element(BY.ID, 'SIDO_MNO')
sido_list_raw

sido_list = sido_list_raw.find_elements(BY.TAG_NAME, 'option')
sido_list

sido_names = [option.get_attribute('value') for option in sido_list]
sido_names.remove("")
sido_names

sido_list_raw.send_keys(sido_names[1])

gu_list_raw = driver.find_element(BY.ID, 'SIGUNGU_NM0')
gu_list = gu_list_raw.find_elements(BY.TAG_NAME, 'option')

gu_names = [opion.get_attribute('value') for option in gu_list]
gu_names.remove("")
gu_names

element_get_excel = driver.find_element(BY.ID, 'glopopd_excel').click()

import time
from tqdom import tqdm_notebook

for gu in tqdm_notebook(gu_names):
	element = driver.find_element(BY.ID , 'SIGUNGU_NM0')
	element.send_keys(gu)
	time.sleep(2)

	element_get_excel = driver.find_element(BY.ID, 'glopopd_excel').click()
	time.sleep(1)

driver.close()
```

### 주유소 가격 정보 정리하기
- 파일 목록을 한 번에 가져오기
	- glob 라이브러리를 활용
- DF 형식이 동일하고 연달아 붙이기만 하면 될 때
	- pd.concat()
- 
```
import pandas as pd
from glob import glob

stations_files = glob("../data/지역_*.xls)
stations_files

tmp_raw = []

for file_name in stations_files:
	tmp = pd.read_excel(file_name, hedaer = 2)
	tmp_raw.append(tmp)
	
station_raw = pd.concat(tmp_raw)
station_raw.info()
station_raw.head()

stations = pd.DataFrame(
	{
		"상호": station_raw["상호"],
		"주소": station_raw["주소"],
		"가격": station_raw["휘발유"],
		"셀프": station_raw["셀프여부"],
		"상표": station_raw["상표"],
	}
)
stations['구'] = [eachAddress.split()[1] for eachAddress in stations['주소']]

len(stations['구'].unique())

stations[stations['구'] == '서울특별시', '구'] = '성동구'
stations[stations['구'] == '특별시', '구'] = '도봉구'

len(stations['구'].unique())

stations['가격'] = stations['가격'].astype('float')
# 가격이 없어서 -로 표시된 부분 버리기
stations = stations[stations['가격'] != '-']
stations['가격'] = stations['가격'].astype('float')

stations.reset_index(inplace = True)
del stations['index']

stations.head()
```

### 주유가격 시각화
- Box Plot
	- Median 중심으로 아래 위 상자가 각각 전체 데이터의 25%씩 총 50%를 가짐
	- 상자 전체 길이, IQR(Inter Quatile Range)
	- IQR의 1.5배를 벗어나면 점으로 별도 표기, outlier
	- 가운데 십자 표시, Mean
```
import matplotlib.pyplot as plt
import seaborn as sns

# pandas의 boxplot
stations.boxplot(column = '가격', by = '셀프', figsize = (12, 8));

# seaborn의 boxplot
plt.figure(figsize = (12, 8))
sns.boxplot(x = '셀프', y = '가격', data = stations, palette = 'Set3')
plt.grid()
plt.show()

plt.figure(figsize = (12, 8))
sns.boxplot(x = '상표', y = '가격', hue = '셀프', data = stations, palette = 'Set3')
plt.grid()
plt.show()


# 지도 시각화
import json
immport folium
import warnings

Warnings.simplefilter(acction = 'ignore', category = futrueWarning)

stations.sort_values(by = '가격', asceding = False).head(10)
stations.sort_values(by = '가격', asceding = True).head(10)

import numpy as np

gu_data = pd.pivot_table(stations, index = ['구'], values = ['가격'], aggfunc = np.mean)
gu_data.head()

geo_path = '../data/02. skorea_municipalities_geo_simple.json'
geo_str = json.load(open(geo_path, encoding = 'utf-8'))

my_map = folium.Map(location = [37.5502, 126.982],
	zom_start = 10.5,
	tiles = 'Stamen Toner')

my_map.choropleth(
	geo_data = geo_str,
	data = gu_data,
	columns = [gu_data.index, '가격'],
	fill_color = 'PuRd',
	key_on = 'feature.id'
)
my_map
```