# 크롤링 스터디 3주차-1 (selenium)
- 기상청 주소록

In [1]:
import time
import numpy as np
import pandas as pd

### selenium이란?
웹크롤링을 하다 보면 여러 가지 어려운 상황을 마주치게 됩니다. 대표적인 상황은 다음과 같습니다.

 

- 해당 웹사이트가 프로그램을 통한 접근 허용하지 않는 경우

- 해당 웹사이트가 로그인을 요구하는 경우

- 해당 웹사이트가 동적 웹페이지로 구성되어 있는 경우

 

이런 경우에는 requests 라이브러리만으로 해결하기에는 쉽지 않습니다. 이럴 때 상황을 해결하는 가장 손쉽고 효과적인 방법이 바로 selenium을 이용하는 것입니다.

selenium은 웹사이트 테스트를 위한 도구로 브라우저 동작을 자동화할 수 있습니다. 셀레니움을 이용하는 웹크롤링 방식은 바로 이점을 적극적으로 활용하는 것입니다. 프로그래밍으로 브라우저 동작을 제어해서 마치 사람이 이용하는 것 같이 웹페이지를 요청하고 응답을 받아올 수 있습니다.

### Selenium 설치하기
파이썬 request를 사용하면 인스타그램 태그 개수를 제대로 읽히지 않는다. 왜냐하면 페이지 내용이 뜨기 전에 인스타그램 로딩 페이지가 읽히기 때문. 따라서 Selenium를 사용해서 크롬창을 띄운 뒤 내용이 나온 페이지를 크롤링한다.

아래와 같이 pip를 사용해서 Selenium를 설치한다. (만약 파이썬 버전 2.7이라면 pip를 먼저 수동으로 설치해야 한다.)

In [2]:
# pip install selenium
# pip install webdriver_manager

### 크롬드라이버 설치하기
Selenium은 기본적으로 파이어폭스 드라이버가 설치되어 있다. 만약 크롬 브라우저를 사용하고 싶다면 먼저 크롬 드라이버를 설치해야 한다.

크롬 드라이버 다운로드 받기 : https://sites.google.com/a/chromium.org/chromedriver/downloads
다음과 같이 크롬 드라이버를 사용한다.

In [3]:
# Selenium import
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# webdriver 설정하기
driver = webdriver.Chrome(service = Service(ChromeDriverManager().install()))

ModuleNotFoundError: No module named 'selenium'

## Selenium 의 기초

In [4]:
import selenium
from selenium import webdriver
driver = webdriver.Chrome("chromedriver") #크롬 브라우저 실행


Selenium은 앞의 request + bs4 와는 다르게 실시간으로 창이 움직이는 변화를 관찰할 수 있다. 그렇기에 순간 순간 변화하는 창이 있으니 이 친구를 나의 팻이라고 생각하고 움직이는 변화를 관찰해보자!

In [3]:
url = 'https://www.naver.com'
driver.get(url) #url 접속

In [7]:
url = 'https://google.com'
driver.get(url) #url 접속

## 크롤링 방법

일반적으로, 크롤링을 할 때는 HTML을 읽는 법이 중요하다. 그렇기에 셀레니움도 읽는 방법이 정해져서 정리되었는데 이번에 개편이 되면서 셀레니움 문법이 전부 다 바꼈다고 한다. 그래서 from selenium.webdriver.common.by import By 을 활용하여 조금 더 편리하게 크롤링을 하는 법을 알아보자.

driver.find_element(By.XPATH, '//button[text()="Some text"]')  
driver.find_element(By.XPATH, '//button')  
driver.find_element(By.ID, 'loginForm')  
driver.find_element(By.LINK_TEXT, 'Continue')  
driver.find_element(By.PARTIAL_LINK_TEXT, 'Conti')  
driver.find_element(By.NAME, 'username')  
driver.find_element(By.TAG_NAME, 'h1')  
driver.find_element(By.CLASS_NAME, 'content')  
driver.find_element(By.CSS_SELECTOR, 'p.content')  

위에서 보이는 것 처럼, HTML 구조의 대부분을 가져올 수 있고, 제일 많이 쓰는 것이 XPATH, ID, NAME, CLASS_NAME 정도이다. 이정도는 양심껏 외워보자

## id를 통해서 찾아오기

2주차에 했던 '네이버를 시작페이지로'를 한 번 긁어봅시다. id는 NM_set_home_btn이니 이를 selenium에 맞는 코드로 들고오는 게 중요합니다.

In [6]:
from selenium import webdriver

from selenium.webdriver.common.by import By
driver = webdriver.Chrome('chromedriver')
url = 'https://www.naver.com'
driver.get(url)

selected_id = driver.find_element(By.ID,'NM_set_home_btn')
print(selected_id)
print(selected_id.tag_name)
print(selected_id.text)

SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version 110
Current browser version is 112.0.5615.138 with binary path C:\Program Files\Google\Chrome\Application\chrome.exe
Stacktrace:
Backtrace:
	(No symbol) [0x00DB37D3]
	(No symbol) [0x00D48B81]
	(No symbol) [0x00C4B36D]
	(No symbol) [0x00C6ED6D]
	(No symbol) [0x00C69B90]
	(No symbol) [0x00C66FC9]
	(No symbol) [0x00CA1ED5]
	(No symbol) [0x00CA1B2C]
	(No symbol) [0x00C9B216]
	(No symbol) [0x00C70D97]
	(No symbol) [0x00C7253D]
	GetHandleVerifier [0x0102ABF2+2510930]
	GetHandleVerifier [0x01058EC1+2700065]
	GetHandleVerifier [0x0105C86C+2714828]
	GetHandleVerifier [0x00E63480+645344]
	(No symbol) [0x00D50FD2]
	(No symbol) [0x00D56C68]
	(No symbol) [0x00D56D4B]
	(No symbol) [0x00D60D6B]
	BaseThreadInitThunk [0x76227D49+25]
	RtlInitializeExceptionChain [0x7732B74B+107]
	RtlClearBits [0x7732B6CF+191]


## class를 통해 찾아오기

![image.png](attachment:image.png)  

네이버 홈페이지에 존재하는 메일을 뽑아오겠습니다.

In [23]:
selected_class_name = driver.find_element(By.CLASS_NAME,'nav')
print(selected_tag_name)
print(selected_tag_name.tag_name) # tag name은 맨 앞에 a
print(selected_tag_name.text) # text는 제일 중요한 값. 

<selenium.webdriver.remote.webelement.WebElement (session="09b00fbb9bdf49768da9a53405f17b6e", element="854d07ba-945a-469a-abaf-d8780e765ca9")>
a
메일


![image-2.png](attachment:image-2.png)

In [8]:
# 기상청 부서/직원 검색 웹페이지 접속
url = "https://www.kma.go.kr/kma/org/system/staff.jsp" 
driver.get(url)

우선 HTML부터 얘기해보면 HTML은 요소(Element)와 속성(Attribute)으로 이루어져 있습니다.

그리고 요소와 요소, 요소와 속성 간에 계층 관계가 있음을 알 수 있습니다.

(selector 표현식으로 표현하면 이렇겠죠. body > div#container > div.title > p)

 

하지만 아주 복잡하게 구현되어 있는 네이버나 다음 같은 웹 페이지에서 바로 내가 원하는 부분을 절대 경로로 가져오는 것은 매우 길고 복잡한 경로(path)가 필요하게 될 것입니다. 이러한 문제를 해결하기 위해서 나온 개념이 XPath(XML Path Language)로 내가 원하는 요소 또는 속성을 찾기 위한 질의어라고 할 수 있습니다.

XPath(XML Path Language)는 W3C의 표준으로 확장 생성 언어 문서의 구조를 통해 경로 위에 지정한 구문을 사용하여 항목을 배치하고 처리하는 방법을 기술하는 언어이다.
- 위키백과 -
 

XPath는 다양한 언어에서 사용될 수 있습니다. 기본적으로 XML이나 XSLT에서 사용될 수 있고, Java, Javascript, Python, PHP, C/C++ 등등 많은 언어에서 사용되고 있다고 합니다.

![image.png](attachment:image.png)

사실 위의 예시들 외에도 위치 경로(location path) 표현식, 검색방향(axis step) 설정, 경로 표현식(path expression), 필터 표현식(filter expression), XPath 함수(XPath Functions), 와일드카드(Wildcards), 연산자(Operator) 등의 다양한 문법들이 존재합니다만, 여기서는 웹 스크래핑/크롤링 할 때 자주 보일 수 있는 기본적인 부분만 언급하고 넘어가도록 하겠습니다.


그리고 실제로 위에 언급한 모든 문법을 익힐 필요가 없는 것이 브라우저에서 우리가 원하는 부분의 XPath를 자동으로 추출해주기 때문에 기본 문법만 눈에 익히기만 한다면 문제가 없을 것이라고 생각됩니다.

 
혹시 다양한 XPath 사용법을 더 눈에 익히고 싶으시다면 아래 사이트에 들어가셔서 보시기를 추천드립니다. 아래 사이트에서는 다양한 사람들이 자주 사용하게 되는 XPath 표현식을 한번에 정리 해놓은 사이트이기도 합니다.

https://devhints.io/xpath

![image-2.png](attachment:image-2.png)

출처: https://domdom.tistory.com/entry/XPath-%EC%9B%B9-%EC%8A%A4%ED%81%AC%EB%9E%98%ED%95%91%ED%81%AC%EB%A1%A4%EB%A7%81%EC%97%90-%EC%9E%88%EC%96%B4%EC%84%9C-XPath%EB%9E%80-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80

## 01. 기상청 주소록 Xpath살펴보기

**-> 20행 4열의 배열**
![image.png](attachment:image.png)

In [30]:
# 업무분장 살펴보기 - 부서
# 어떤 인덱스를 사용해서 코드를
test_elem_department1 = driver.find_element(By.XPATH, "//*[@id=\"container\"]/div/div[4]/table/tbody/tr[1]/td[1]").text
test_elem_department2 = driver.find_element(By.XPATH, "//*[@id=\"container\"]/div/div[4]/table/tbody/tr[2]/td[1]").text

print("첫번째 행 부서: "+test_elem_department1)
print("두번째 행 부서: "+test_elem_department2)

첫번째 행 부서: 기상청
두번째 행 부서: 비서실


In [31]:
# 업무분장 살펴보기 - 성명
# 어떤 인덱스를 사용해서 코드를 작성하면 될까?
test_elem_name1 = driver.find_element(By.XPATH, "//*[@id=\"container\"]/div/div[4]/table/tbody/tr[1]/td[2]").text
test_elem_name2 = driver.find_element(By.XPATH, "//*[@id=\"container\"]/div/div[4]/table/tbody/tr[2]/td[2]").text

print("첫번째 행 성명: "+test_elem_name1)
print("두번째 행 성명: "+test_elem_name2)



첫번째 행 성명: 유희동
두번째 행 성명: 이수홍


In [34]:
# 업무분장 살펴보기 - 주요업무
# 어떤 인덱스를 사용해서 코드를 작성하면 될까?
test_elem_work1 = driver.find_element(By.XPATH,"//*[@id=\"container\"]/div/div[4]/table/tbody/tr[1]/td[3]").text
test_elem_work2 = driver.find_element(By.XPATH,"//*[@id=\"container\"]/div/div[4]/table/tbody/tr[2]/td[3]").text

print("첫번째 행 주요업무: "+test_elem_work1)
print("두번째 행 주요업무: "+test_elem_work2)

첫번째 행 주요업무: 
두번째 행 주요업무: 비서실 업무 총괄


In [35]:
# 업무분장 살펴보기 - 연락처
# 어떤 인덱스를 사용해서 코드를 작성하면 될까?
test_elem_phone1 = driver.find_element(By.XPATH,"//*[@id=\"container\"]/div/div[4]/table/tbody/tr[1]/td[4]").text
test_elem_phone2 = driver.find_element(By.XPATH,"//*[@id=\"container\"]/div/div[4]/table/tbody/tr[2]/td[4]").text

print("첫번째 행 연락처: "+test_elem_phone1)
print("두번째 행 연락처: "+test_elem_phone2)

첫번째 행 연락처: 042-481-7200
두번째 행 연락처: 042-481-7201


## 02. for문 쌓아서 page1 긁어보기

In [None]:
//*[@id="container"]/div/div[4]/table/tbody/tr[1]/td[2]
//*[@id="container"]/div/div[4]/table/tbody/tr[2]/td[2]
//*[@id="container"]/div/div[4]/table/tbody/tr[3]/td[2]

In [36]:
# page1 업무분장
# 긁어온 데이터를 넣어줄 빈 리스트 만들기
elems = []

for i in range(1,21):
    elem_department = driver.find_element(By.XPATH, "//*[@id=\"container\"]/div/div[4]/table/tbody/tr["+str(i)+"]/td[1]").text
    elem_name = driver.find_element(By.XPATH, "//*[@id=\"container\"]/div/div[4]/table/tbody/tr["+str(i)+"]/td[2]").text
    elem_work = driver.find_element(By.XPATH,"//*[@id=\"container\"]/div/div[4]/table/tbody/tr["+str(i)+"]/td[3]").text
    elem_phone = driver.find_element(By.XPATH,"//*[@id=\"container\"]/div/div[4]/table/tbody/tr["+str(i)+"]/td[4]").text
    # 하나의 행
    elem = []
    elem.extend([elem_department, elem_name, elem_work, elem_phone])
    elems.append(elem)

In [37]:
test_df = pd.DataFrame(elems)
test_df.columns = ['부서', '성명', '주요업무', '연락처']
test_df

Unnamed: 0,부서,성명,주요업무,연락처
0,기상청,유희동,,042-481-7200
1,비서실,이수홍,비서실 업무 총괄,042-481-7201
2,비서실,류두희,청장 보좌(수행),042-481-7202
3,비서실,정해혼,,042-481-7204
4,비서실,김영주,1. 기관장 보좌 2. 일정관리 3. 민원 응대 및 행정업무,042-481-7203
5,대변인,김회철,업무총괄,02-2181-0352
6,대변인,노성운,기상청 정책 홍보,042-481-7209
7,대변인,우진규,1.언론 소통 및 개선 / 2. 기상정책 대외 발표 및 조정 / 3. 기관장 홍보....,02-2181-0353
8,대변인,오철규,1. 디지털소통 2. 온라인대변인 3. 디지털소통콘텐츠 개발,02-2181-0355
9,대변인,마재준,1. 통합 홍보사업 2. 기상업무 대국민 인식 제고 3. 기관지 발간 등,02-2181-0354


## 03. 페이지 넘겨보기

**-> 기상청 업무분장은 총 112페이지까지 있음**

**-> 112페이지X20인=2,240명...!**

버튼01 //*[@id="container"]/div/div[6]/a[3]

버튼02 //*[@id="container"]/div/div[6]/a[4]

버튼03 //*[@id="container"]/div/div[6]/a[5]

버튼04 //*[@id="container"]/div/div[6]/a[6]

버튼05 //*[@id="container"]/div/div[6]/a[7]

버튼06 //*[@id="container"]/div/div[6]/a[8]

버튼07 //*[@id="container"]/div/div[6]/a[9]

버튼08 //*[@id="container"]/div/div[6]/a[10]

버튼09 //*[@id="container"]/div/div[6]/a[11]

버튼10 //*[@id="container"]/div/div[6]/a[12]

**다음장 //*[@id="container"]/div/div[6]/a[13]**

버튼11 //*[@id="container"]/div/div[6]/a[3]

버튼12 //*[@id="container"]/div/div[6]/a[4]

버튼13 //*[@id="container"]/div/div[6]/a[5]

버튼14 //*[@id="container"]/div/div[6]/a[6]

버튼15 //*[@id="container"]/div/div[6]/a[7]

버튼16 //*[@id="container"]/div/div[6]/a[8]

버튼17 //*[@id="container"]/div/div[6]/a[9]

버튼18 //*[@id="container"]/div/div[6]/a[10]

버튼19 //*[@id="container"]/div/div[6]/a[11]

버튼20 //*[@id="container"]/div/div[6]/a[12]

**다음장 //*[@id="container"]/div/div[6]/a[13]**

In [9]:
# 페이지 넘기기 버튼 클릭해보기 
elem_page_button = driver.find_element(By.XPATH,"//*[@id=\"container\"]/div/div[6]/a[4]").click() #버튼 2로 들어가는 코드

In [43]:
# for문으로 페이지 넘기기 버튼 클릭해보기
# 첫 페이지는 3 -> 클릭해 접속할 필요 없음
# 4 부터 12까지 이동한 후, 13을 클릭해 다음 페이지로 넘어가야함

for p in range(4,14):
    time.sleep(0.1)
    elem_page_button = driver.find_element(By.XPATH,"//*[@id=\"container\"]/div/div[6]/a["+str(p)+"]").click()

In [10]:
#다시 첫 페이지로 돌아와서
driver.get(url)

#총 112개의 페이지가 있으므로 ">" 버튼을 10번 누르고, 마지막에는 2개의 페이지만 살펴보게 되겠지?
for t in range(3):
    for p in range(4,14):
        time.sleep(0.01)
        try: 
            elem_page_button = driver.find_element(By.XPATH,"//*[@id=\"container\"]/div/div[6]/a["+str(p)+"]").click()
        except:
            print("끝....!")

## 04. 페이지 넘겨가며 주소록 몽땅 긁어오기

In [45]:
#다시 첫 페이지로 돌아와주고
driver.get(url)

# 긁어온 데이터를 넣어줄 빈 리스트 만들기
elems = []

#총 112개의 페이지가 있으므로 ">" 버튼을 10번 누르고, 마지막에는 2개의 페이지만 살펴보게 되겠지?
for t in range(3):
    for p in range(4,14):
        time.sleep(0.01)
        try: 
            for i in range(1,21):
                elem_department = driver.find_element(By.XPATH,  "//*[@id=\"container\"]/div/div[4]/table/tbody/tr["+str(i)+"]/td[1]").text
                elem_name = driver.find_element(By.XPATH,"//*[@id=\"container\"]/div/div[4]/table/tbody/tr["+str(i)+"]/td[2]").text
                elem_work = driver.find_element(By.XPATH,"//*[@id=\"container\"]/div/div[4]/table/tbody/tr["+str(i)+"]/td[3]").text
                elem_phone = driver.find_element(By.XPATH,"//*[@id=\"container\"]/div/div[4]/table/tbody/tr["+str(i)+"]/td[4]").text
                # 하나의 행
                elem = []
                elem.extend([elem_department, elem_name, elem_work, elem_phone])
                elems.append(elem)
            elem_page_button = driver.find_element(By.XPATH,"//*[@id=\"container\"]/div/div[6]/a["+str(p)+"]").click()
        except:
            print("끝....!")

In [46]:
weather_df = pd.DataFrame(elems)
weather_df.columns = ['부서', '성명', '주요업무', '연락처']
weather_df

Unnamed: 0,부서,성명,주요업무,연락처
0,기상청,유희동,,042-481-7200
1,비서실,이수홍,비서실 업무 총괄,042-481-7201
2,비서실,류두희,청장 보좌(수행),042-481-7202
3,비서실,정해혼,,042-481-7204
4,비서실,김영주,1. 기관장 보좌 2. 일정관리 3. 민원 응대 및 행정업무,042-481-7203
...,...,...,...,...
595,기상융합서비스과,정선애,1. 기상기후빅데이터 융합서비스 정책 및 계획 2. 기상기후빅데이터 융합서비스 기술...,042-481-7497
596,기상융합서비스과,김양희,빅데이터 융합서비스 개발,042-481-7498
597,기상융합서비스과,이경,1. 지역기상융합서비스 계획 수립 및 운영 관리 2. 국회 및 예결산 3. 전주기 ...,042-481-7494
598,기상융합서비스과,이호준,"1. 생활기상정보 서비스 개선사업 2. 부처협업 서비스 기술이전, 3.취약계층 문자...",042-481-7486


In [47]:
# 엑셀로 다운로드~~~
weather_df.to_excel("weather_df.xlsx", encoding='utf-8')