# Selenium이용한 크롤링실습

In [1]:
import requests
from bs4 import BeautifulSoup
import numpy as np
import pandas as pd

In [3]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

In [4]:
service = Service(executable_path=ChromeDriverManager().install())

## 싼 주유소 찾기 Opinet

- https://www.opinet.co.kr/user/main/mainView.do

### 서울시 구별 주유소 가격 정도 얻어오기

- 사이트에서 [싼주유소찾기] > [지역별] 메뉴 선택
- 지역은 '서울' > 원하는 구 지정
    - '시/군/구'를 선택하는 select option의 XPath 찾기

- '조회'버튼 클릭
- 조회된 주유소 정보 '엑셀저장' 버튼 클릭하여 엑셀파일 다운로드

#### 크롬 드라이버 객체 생성

In [5]:
driver = webdriver.Chrome(service=service)

#### 웹페이지 로드

In [11]:
url = 'https://www.opinet.co.kr/user/main/mainView.do'

In [12]:
driver.get(url)

#### [싼주유소찾기]-[지역] 페이지로 이동

- 자바스트립트 코드 실행으로 통해서 이동

In [13]:
driver.execute_script('goSubPage(0,0,99)')

#### 시 이름 찾기

In [17]:
xpath = '//*[@id="SIDO_NM0"]'
sido_lists = driver.find_element(By.XPATH, xpath)
sido_opt= sido_lists.find_elements(By.TAG_NAME, 'option')
sido_names = [opt.get_attribute('value') for opt in sido_opt]
sido_names

['',
 '서울특별시',
 '부산광역시',
 '대구광역시',
 '인천광역시',
 '광주광역시',
 '대전광역시',
 '울산광역시',
 '세종특별자치시',
 '경기도',
 '강원특별자치도',
 '충청북도',
 '충청남도',
 '전북특별자치도',
 '전라남도',
 '경상북도',
 '경상남도',
 '제주특별자치도']

#### 구 이름 찾기

In [16]:
xpath = '//*[@id="SIGUNGU_NM0"]'
gu_lists = driver.find_element(By.XPATH, xpath)
gu_opt= gu_lists.find_elements(By.TAG_NAME, 'option')
gu_names = [opt.get_attribute('value') for opt in gu_opt]
gu_names

['',
 '강릉시',
 '고성군',
 '동해시',
 '삼척시',
 '속초시',
 '양구군',
 '양양군',
 '영월군',
 '원주시',
 '인제군',
 '정선군',
 '철원군',
 '춘천시',
 '태백시',
 '평창군',
 '홍천군',
 '화천군',
 '횡성군']

#### '강남구' 주유소 지정

In [22]:
elementsido = driver.find_element(By.ID, 'SIDO_NM0')
elementsido.send_keys('서울시')

In [23]:
elementgu = driver.find_element(By.ID, 'SIGUNGU_NM0')
elementgu.send_keys('강남구')

#### '조회' 버튼 클릭

In [24]:
xpath = '//*[@id="searRgSelect"]'
driver.find_element(By.XPATH, xpath).click()

#### 조회된 주유소 '엑셀저장' 버튼 클릭

In [25]:
xpath = '//*[@id="glopopd_excel"]'
driver.find_element(By.XPATH, xpath).click()

=> '지역_위치별(주유소).xls'파일 다운로드 폴더에 저장됨

### 25개 구 주유소 엑셀파일 다운로드

- 함수로 작성하여 실행

In [26]:
import time

In [28]:
# 시도 이름 찾기
xpath = '//*[@id="SIDO_NM0"]'
sido_lists = driver.find_element(By.XPATH, xpath)
sido_opt= sido_lists.find_elements(By.TAG_NAME, 'option')
sido_names = [opt.get_attribute('value') for opt in sido_opt]

# 구 이름 찾기
xpath = '//*[@id="SIGUNGU_NM0"]'
gu_lists = driver.find_element(By.XPATH, xpath)
gu_opt= gu_lists.find_elements(By.TAG_NAME, 'option')
gu_names = [opt.get_attribute('value') for opt in gu_opt]

# 시도 이름 지정
elementsido = driver.find_element(By.ID, 'SIDO_NM0')
elementsido.send_keys('서울시')


# 시군구 휘발유 가격 엑셀파일 다운로드 함수
def search_download_sigungu(sigungu):
    # 구 이름 지정
    elementgu = driver.find_element(By.ID, 'SIGUNGU_NM0')
    elementgu.send_keys(sigungu)
    time.sleep(2)

# 조회버튼 클릭
    xpath = '//*[@id="searRgSelect"]'
    driver.find_element(By.XPATH, xpath).click()
    time.sleep(2)

# 엑셀저장 버튼 클릭
    xpath = '//*[@id="glopopd_excel"]'
    driver.find_element(By.XPATH, xpath).click()
    time.sleep(2)
    
# 입력한 시도의 모든 시군구 휘발유 가격 엑셀파일 다운로드 함수
def search_download_sido(sido):
    # 시도 이름 선택
    elementsido = driver.find_element(By.ID, 'SIDO_NM0')
    elementsido.send_keys(sido)
    time.sleep(2)
    
    # 시군구 이름 찾기
    xpath = '//*[@id="SIGUNGU_NM0"]'
    gu_lists = driver.find_element(By.XPATH, xpath)
    gu_opt= gu_lists.find_elements(By.TAG_NAME, 'option')
    gu_names = [opt.get_attribute('value') for opt in gu_opt][1:]

    # 시군구 조회후 엑셀다운
    for sigungu in gu_names:
        search_download_sigungu(sigungu)

# 전체 시도별 주유소 가격 다운로드
def search_download_all():
    # 시도이름 찾기
    xpath = '//*[@id="SIDO_NM0"]'
    sido_lists = driver.find_element(By.XPATH, xpath)
    sido_opt= sido_lists.find_elements(By.TAG_NAME, 'option')
    sido_names = [opt.get_attribute('value') for opt in sido_opt]
    
    # 시도별 주유소 가격 다운로드
    for sido in sido_names:
        search_download_sido(sido)

In [29]:
search_download_sido('서울특별시')

### 엑셀 파일 읽어오기

In [61]:
# glob 함수: 파일 경로 및 이름을 모아서 리스트에 저장
from glob import glob

In [59]:
import os
cpath = os.getcwd()
cpath

'C:\\workspace_multi07\\web\\03_crawling'

In [62]:
path = 'C:/Users/gillhk/Downloads/'

In [64]:
filename = '지역_위치별*.xls'
files = glob(path+filename)
len(files)

25

In [66]:
!pip install xlrd

Defaulting to user installation because normal site-packages is not writeable
Collecting xlrd
  Downloading xlrd-2.0.1-py2.py3-none-any.whl.metadata (3.4 kB)
Downloading xlrd-2.0.1-py2.py3-none-any.whl (96 kB)
   ---------------------------------------- 0.0/96.5 kB ? eta -:--:--
   ---------------------------------------- 96.5/96.5 kB 2.8 MB/s eta 0:00:00
Installing collected packages: xlrd
Successfully installed xlrd-2.0.1


In [67]:
station = pd.read_excel(files[0], header=2)
station

Unnamed: 0,지역,상호,주소,상표,전화번호,셀프여부,고급휘발유,휘발유,경유,실내등유
0,서울특별시,재건에너지 재정제2주유소 고속셀프지점,서울특별시 강동구 천호대로 1246 (둔촌제2동),HD현대오일뱅크,02-487-2030,Y,-,1629,1529,-
1,서울특별시,구천면주유소,서울 강동구 구천면로 357 (암사동),HD현대오일뱅크,02-441-0536,N,-,1654,1565,-
2,서울특별시,방아다리주유소,서울 강동구 동남로 811 (명일동),SK에너지,02-442-5145,Y,-,1665,1575,-
3,서울특별시,(주)소모 신월주유소,서울 강동구 양재대로 1323 (성내동),GS칼텍스,02-6956-6674,Y,1896,1686,1588,1590
4,서울특별시,(주)삼표에너지 고덕주유소,서울 강동구 고덕로 39 (암사동),GS칼텍스,02-441-3327,Y,1895,1695,1595,1599
5,서울특별시,대성석유(주)길동주유소,서울 강동구 천호대로 1168,GS칼텍스,02-474-7222,N,1895,1696,1598,1500
6,서울특별시,sk해뜨는주유소,서울 강동구 상일로 132 (강일동),SK에너지,02-442-7801,Y,1929,1699,1609,1600
7,서울특별시,주)지유에너지직영 오렌지주유소,서울 강동구 성안로 102 (성내동),SK에너지,02-484-6165,N,1894,1734,1634,-
8,서울특별시,(주)퍼스트오일 코알라주유소,서울특별시 강동구 올림픽로 556 (성내동),S-OIL,02-484-1162,Y,-,1750,1650,-
9,서울특별시,(주)소모 성내주유소,서울 강동구 올림픽로 578 (성내동),GS칼텍스,02-479-3838,Y,-,1768,1668,-


In [68]:
type(station)

pandas.core.frame.DataFrame

#### 데이터 합치기

In [71]:
tmp = []
for file in files:
    station = pd.read_excel(file, header=2)
    tmp.append(station)
stations = pd.concat(tmp)

In [72]:
stations

Unnamed: 0,지역,상호,주소,상표,전화번호,셀프여부,고급휘발유,휘발유,경유,실내등유
0,서울특별시,재건에너지 재정제2주유소 고속셀프지점,서울특별시 강동구 천호대로 1246 (둔촌제2동),HD현대오일뱅크,02-487-2030,Y,-,1629,1529,-
1,서울특별시,구천면주유소,서울 강동구 구천면로 357 (암사동),HD현대오일뱅크,02-441-0536,N,-,1654,1565,-
2,서울특별시,방아다리주유소,서울 강동구 동남로 811 (명일동),SK에너지,02-442-5145,Y,-,1665,1575,-
3,서울특별시,(주)소모 신월주유소,서울 강동구 양재대로 1323 (성내동),GS칼텍스,02-6956-6674,Y,1896,1686,1588,1590
4,서울특별시,(주)삼표에너지 고덕주유소,서울 강동구 고덕로 39 (암사동),GS칼텍스,02-441-3327,Y,1895,1695,1595,1599
...,...,...,...,...,...,...,...,...,...,...
27,서울특별시,대청주유소,서울 강남구 개포로 654 (일원동),SK에너지,02-445-5500,N,2489,2195,2086,1846
28,서울특별시,㈜새서울석유 새서울주유소,서울 강남구 압구정로 154,HD현대오일뱅크,02-543-1154,N,2397,2198,1998,-
29,서울특별시,SK논현주유소,서울 강남구 논현로 747 (논현동),SK에너지,02-511-0955,N,2561,2363,2198,1798
30,서울특별시,(주)제이제이네트웍스 제이제이주유소,서울 강남구 언주로 716,HD현대오일뱅크,02-518-5631,N,2780,2490,2380,-


In [73]:
stations.info()

<class 'pandas.core.frame.DataFrame'>
Index: 438 entries, 0 to 31
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   지역      438 non-null    object
 1   상호      438 non-null    object
 2   주소      438 non-null    object
 3   상표      438 non-null    object
 4   전화번호    438 non-null    object
 5   셀프여부    438 non-null    object
 6   고급휘발유   438 non-null    object
 7   휘발유     438 non-null    object
 8   경유      438 non-null    object
 9   실내등유    438 non-null    object
dtypes: object(10)
memory usage: 37.6+ KB


In [74]:
stations.to_csv('주유소.csv')

In [76]:
driver.close()

-----