## 웹크롤링 - Selenium

- 공식페이지: https://www.selenium.dev/
- 참고: https://wikidocs.net/198942
- 참고: https://greeksharifa.github.io/references/2020/10/30/python-selenium-usage/

### 1.라이브러리 설치 

In [None]:
# 동적 크롤링을 위한 라이브러리
!pip install selenium 

In [26]:
!pip install chromedriver-autoinstaller



In [42]:
import selenium 
selenium.__version__

'4.8.2'

### 2. ChromeDriver 프로그램 PC에 설치 
- https://sites.google.com/chromium.org/driver/
   * Latest ChromeDriver Binaries > the Chrome for Testing availability 페이지에서 자신의 크롬 버전와 같은 프로그램 선택
   * win64비트 링크 긁어서 다운로드하고 PC에 설치하기
- **chromedriver.exe 파일을 코드와 같은 위치**(또는 특정 위치)에 놓기

### 3. ChromeDriver 사용 
- 방법1 : chromedriver-autoinstaller 라이브러리 사용해서 버전 고려 안하기
- 방법2 : 버전 업데이트마다 PC에 ChromeDriver.exe 드라이버 재설치

#### ChromeDriver 동작 확인
- 크롬 브라우저에 'Chrome이 자동화된 테스트 소프트웨어에 의해 제어되고 있습니다' 문구와 함께 화면이 뜨면 성공!

In [45]:
import chromedriver_autoinstaller # chrome driver 자동 설치 라이브러리
from selenium import webdriver

# chrome driver를 자동으로 설치함
chromedriver_autoinstaller.install()

options = webdriver.ChromeOptions() # Browser 세팅하기
options.add_argument('lang=ko_KR') # 사용언어 한국어
options.add_argument('disable-gpu') # 하드웨어 가속 안함
# options.add_argument('headless') # 창 숨기기

# # 브라우저 세팅
driver = webdriver.Chrome(options=options)

# 브라우저에 URL 호출하기
driver.get(url='https://www.naver.com/')

# 브라우저 탭 닫기
driver.close()

# 브라우저 종료하기 (탭 모두 종료)
driver.quit()



- 간단하게 사용하기

In [29]:
from selenium import webdriver

# 드라이버 초기화
# 방법1 : 코드와 같은 위치에 chromedriver.exe 파일이 있는 경우
driver = webdriver.Chrome()
# 방법2 : 코드와 다른 위치에 chromedriver.exe 파일이 있는 경우
# PATH = './chromedriver-win64/chromedriver.exe'
# driver = webdriver.Chrome(PATH)

# 웹페이지로 이동
driver.get('https://www.naver.com/')

  driver = webdriver.Chrome(PATH)


---------------

### 4. Selenium을 사용하여 동적 웹 페이지와 상호작용하기

#### (클릭 이벤트를 위한 xpath 복사)작업 순서
- 크롬에서 target 페이지 접속(https://www.naver.com/)
- F12 눌러 오른쪽 영역에 개발자 페이지 나타나도록 함(html코드 나타남)
- ctrl+shift+c 누른 상태에서 클릭 이벤트 발생할 곳 찾아 마우스 클릭
- 해당 html코드 영역에서 마우스 오른쪽키 누르고 copy>copy.xpath 메뉴 선택하여 이벤트 코드 클립보드에 복사
- driver.find_element(By.XPATH, '복사되니 부분 붙여넣기').click()

#### [사용방법] 버튼(링크) 클릭 

In [46]:
from selenium import webdriver
from selenium.webdriver.common.by import By

# 드라이버 초기화
driver = webdriver.Chrome()

# 웹페이지로 이동
driver.get('https://www.naver.com/')

# 클릭(copy.xpath 이용)
search_button = driver.find_element(By.XPATH, '//*[@id="search-btn"]')
search_button.click()

#### [1단계] 네이버 메이페이지에서 검색어 입력하고 버튼 클릭하기

In [65]:
import chromedriver_autoinstaller
from selenium import webdriver
from selenium.webdriver.common.by import By

# chrome driver를 자동으로 설치함
chromedriver_autoinstaller.install() 

# 드라이버 초기화
driver = webdriver.Chrome()

def naver_main_search(driver, keyword):
    driver.get('https://www.naver.com/') # 웹페이지 로드 
    search_box = driver.find_element(By.XPATH, '//*[@id="query"]')  # 검색 키워드 영역
    search_button = driver.find_element(By.XPATH, '//*[@id="search-btn"]') # 검색 버튼
    search_keyword = keyword  # 키워드
    search_box.send_keys(search_keyword)
    search_button.click()
    
# 1.네이버 메인 검색    
naver_main_search(driver, '10월 제주')
print(f'현재URL : {driver.current_url}')




현재URL : https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=10%EC%9B%94+%EC%A0%9C%EC%A3%BC


#### [2단계] 네이버 검색 결과 페이지에서 다시 버튼 클릭

In [82]:
import chromedriver_autoinstaller
from selenium import webdriver
from selenium.webdriver.common.by import By

# chrome driver를 자동으로 설치함
chromedriver_autoinstaller.install() 

# 드라이버 초기화
driver = webdriver.Chrome()

# [CODE 1] : 검색어 넣고 네이버 메인 검색
def naver_main_search(driver, keyword):
    print('\n1단계 : 검색어 넣고 네이버 메인 검색......')
    driver.get('https://www.naver.com/') # 웹페이지 로드   
    search_box = driver.find_element(By.XPATH, '//*[@id="query"]')  # 검색 키워드 영역
    search_button = driver.find_element(By.XPATH, '//*[@id="search-btn"]') # 검색 버튼
    search_keyword = keyword  # 키워드
    search_box.send_keys(search_keyword)
    search_button.click()

# [CODE 2] : 검색 결과에서 VIEW 탭 선택
def naver_main_search_tab(driver, url, xpath):
    print('\n2단계 : 검색 결과에서 VIEW 탭 선택......')
    print(f'      currnet_url={driver.current_url}')
    driver.get(url) # 해당 웹페이지 로드   
    search_button = driver.find_element(By.XPATH, xpath) # target xpath
    search_button.click()      
    

keyword = input('페이지 검색어 입력: ')

# 1.[CODE 1] : 검색어 넣고 네이버 메인 검색
naver_main_search(driver, keyword)

# 2.[CODE 2] : 검색 결과에서 VIEW 탭 선택
naver_main_search_tab(driver, driver.current_url, '//*[@id="lnb"]/div[1]/div/div[1]/div/div[1]/div[1]/a' )

# 2.[CODE 2] : 검색 결과에서 이미지 탭 선택
# naver_main_search_tab(driver, driver.current_url, '//*[@id="lnb"]/div[1]/div/div[1]/div/div[1]/div[3]/a' )



페이지 검색어 입력: 가을여행

1단계 : 검색어 넣고 네이버 메인 검색......

2단계 : 검색 결과에서 VIEW 탭 선택......
      currnet_url=https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%EA%B0%80%EC%9D%84%EC%97%AC%ED%96%89


#### [3단계] 네이버 검색[VIEW] 정보 추출하기 : 제목, 상세설명, 링크 

In [81]:
import chromedriver_autoinstaller
from selenium import webdriver
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup
import requests
import pandas as pd

# chrome driver를 자동으로 설치함
chromedriver_autoinstaller.install() 

# 드라이버 초기화
driver = webdriver.Chrome()


# [CODE 1] : 검색어 넣고 네이버 메인 검색
def naver_main_search(driver, keyword):
    print('\n1단계 : 검색어 넣고 네이버 메인 검색......')
    driver.get('https://www.naver.com/') # 웹페이지 로드   
    search_box = driver.find_element(By.XPATH, '//*[@id="query"]')  # 검색 키워드 영역
    search_button = driver.find_element(By.XPATH, '//*[@id="search-btn"]') # 검색 버튼
    search_keyword = keyword  # 키워드
    search_box.send_keys(search_keyword)
    search_button.click()

# [CODE 2] : 검색 결과에서 VIEW 탭 선택
def naver_main_search_tab(driver, url, xpath):
    print('\n2단계 : 검색 결과에서 VIEW 탭 선택......')
    print(f'      currnet_url={driver.current_url}')
    driver.get(url) # 해당 웹페이지 로드   
    search_button = driver.find_element(By.XPATH, xpath) # target xpath
    search_button.click()      

# [CODE 3] : VIEW탭 페이지에서 정보(제목,상세,링크) 추출
def naver_html_parse(html): 
    print('\n3단계 : VIEW탭 페이지에서 정보(제목,상세,링크) 추출......')
    t_list, d_list, link_list = [], [], []
    
    soup = BeautifulSoup(html, 'html.parser')
    ul = soup.select_one('ul.lst_view._list_base') #공백에 있을 경우 . 사용
    # 제목, 링크 추출하기
    titles = ul.select('li > div > div > div.title_area > a')
    for title in titles: 
        t_list.append(title.get_text())       # 제목
        link_list.append(title.attrs['href']) # href 링크  
    # 상세설명 추출하기
    titles = ul.select('li > div > div > div.dsc_area > a') # 상세설명
    for title in titles: 
        d_list.append(title.get_text())
        
    # DataFrame으로 만들기
    data = {'title': t_list, 'desc':d_list,'link':link_list}
    df = pd.DataFrame(data)
    return df


keyword = input('페이지 검색어 입력: ')

# 1.[CODE 1] : 검색어 넣고 네이버 메인 검색
naver_main_search(driver, keyword)

# 2.[CODE 2] : 검색 결과에서 VIEW 탭 선택
naver_main_search_tab(driver, driver.current_url, '//*[@id="lnb"]/div[1]/div/div[1]/div/div[1]/div[1]/a' )
html = driver.page_source  # 페이지 소스 가져오기

# 3.[CODE 3] : VIEW 탭 페이지에서 정보(제목,상세,링크) 추출
df = naver_html_parse(html)
print('\n완료 : 추출된 정보 표로 만들기......')
print(f'Total[{len(df)} 건]')
df.head(5)



페이지 검색어 입력: 10월 제주

1단계 : 검색어 넣고 네이버 메인 검색......

2단계 : 검색 결과에서 VIEW 탭 선택......
      currnet_url=https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=10%EC%9B%94+%EC%A0%9C%EC%A3%BC

3단계 : VIEW탭 페이지에서 정보(제목,상세,링크) 추출......

완료 : 추출된 정보 표로 만들기......
Total[30 건]


Unnamed: 0,title,desc,link
0,10월 제주도 가볼만한곳 : 제주 서귀포 치유의 숲 예약,돌아가는길 10월 제주도 가볼만한곳 서귀포 치유의숲 오르는길 흐렸다면 돌아갈때는 맑...,https://blog.naver.com/kayak71/223222984866
1,10월 제주도 여행지 추천 제주 표선 가볼만한곳 제주민속촌 입장료,대표적인 제주 표선 가볼만한곳으로 10월 제주도 여행지로도 추천하는 곳입니다. 가을...,https://blog.naver.com/overroad89/223224371702
2,제주여행 제주동쪽 10월 가볼만한곳 명소 풍경들,풍경도 아름답다 하니 10월 해 질 무렵 찾아가면 노을빛에 물든 황홀한 은빛 물결 ...,https://blog.naver.com/ka8564/223230868738
3,10월 제주는 억새와 핑크뮬리 천지 ~,가을에 제주에 가신다면 억새와 핑크뮬리 보셔요~ 명불허전 새별오름~ 요건 9월말 사...,https://cafe.naver.com/jejutip/2348159?art=ZXh...
4,10월 제주도 여행 제주 산굼부리 억새 제주도 명소 추천 코스,"10월 제주도 여행 제주 산굼부리 억세 제주도 명소 추천 코스 글, 사진 : 그루터...",https://blog.naver.com/hloveh01/223241505536


#### [4단계] 페이지 자동 스크롤링한 후 정보 가져오기 

In [63]:
# 웹 드라이버매니저 설치
!pip install webdriver-manager



In [79]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
import time

# 크롬 드라이버 자동 업데이트
from webdriver_manager.chrome import ChromeDriverManager

#브라우저 꺼짐 방지 
chrome_options = Options()
chrome_options.add_experimental_option("detach", True)

# 불필요한 에러 메시지 없애기
chrome_options.add_experimental_option("excludeSwitches", ["enable-logging"])

# 드라이버 초기화
driver = webdriver.Chrome(options=chrome_options)


# [CODE 1] : 검색어 넣고 네이버 메인 검색
def naver_main_search(driver, keyword):
    print('\n1단계 : 검색어 넣고 네이버 메인 검색......')
    driver.get('https://www.naver.com/') # 웹페이지 로드   
    search_box = driver.find_element(By.XPATH, '//*[@id="query"]')  # 검색 키워드 영역
    search_button = driver.find_element(By.XPATH, '//*[@id="search-btn"]') # 검색 버튼
    search_keyword = keyword  # 키워드
    search_box.send_keys(search_keyword)
    search_button.click()

# [CODE 2] : 검색 결과에서 VIEW 탭 선택
def naver_main_search_tab(driver, url, xpath):
    print('\n2단계 : 검색 결과에서 VIEW 탭 선택......')
    print(f'      currnet_url={driver.current_url}')
    driver.get(url) # 해당 웹페이지 로드   
    search_button = driver.find_element(By.XPATH, xpath) # target xpath
    search_button.click()   
    
    # 페이지 자동 스크롤하기(3번)
    print('2단계 : 페이지 자동 스크롤...')
    actions = driver.find_element(By.CSS_SELECTOR, 'body')
    time.sleep(2)
    for _ in range(3):        
        actions.send_keys(Keys.END)
        print('       page scroll...' )
        time.sleep(2)    

# [CODE 3] : VIEW탭 페이지에서 정보(제목,상세,링크) 추출
def naver_html_parse(html): 
    print('\n3단계 : VIEW탭 페이지에서 정보(제목,상세,링크) 추출......')
    t_list, d_list, link_list = [], [], []
    
    soup = BeautifulSoup(html, 'html.parser')
    ul = soup.select_one('ul.lst_view._list_base') #공백에 있을 경우 . 사용
    # 제목, 링크 추출하기
    titles = ul.select('li > div > div > div.title_area > a')
    for title in titles: 
        t_list.append(title.get_text())       # 제목
        link_list.append(title.attrs['href']) # href 링크  
    # 상세설명 추출하기
    titles = ul.select('li > div > div > div.dsc_area > a') # 상세설명
    for title in titles: 
        d_list.append(title.get_text())
        
    # DataFrame으로 만들기
    data = {'title': t_list, 'desc':d_list,'link':link_list}
    df = pd.DataFrame(data)
    return df


keyword = input('페이지 검색어 입력: ')

# 1.[CODE 1] : 검색어 넣고 네이버 메인 검색
naver_main_search(driver, keyword)

# 2.[CODE 2] : 검색 결과에서 VIEW 탭 선택
naver_main_search_tab(driver, driver.current_url, '//*[@id="lnb"]/div[1]/div/div[1]/div/div[1]/div[1]/a' )
html = driver.page_source  # 페이지 소스 가져오기

# 3.[CODE 3] : VIEW 탭 페이지에서 정보(제목,상세,링크) 추출
df = naver_html_parse(html)
print('\n완료 : 추출된 정보 표로 만들기......')
print(f'Total[{len(df)} 건]')
df.head(5)


페이지 검색어 입력: 10월 제주

1단계 : 검색어 넣고 네이버 메인 검색......

2단계 : 검색 결과에서 VIEW 탭 선택......
      currnet_url=https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=10%EC%9B%94+%EC%A0%9C%EC%A3%BC
2단계 : 페이지 자동 스크롤...
       page scroll...
       page scroll...
       page scroll...

3단계 : VIEW탭 페이지에서 정보(제목,상세,링크) 추출......

완료 : 추출된 정보 표로 만들기......
Total[112 건]


Unnamed: 0,title,desc,link
0,10월 제주도 가볼만한곳 : 제주 서귀포 치유의 숲 예약,돌아가는길 10월 제주도 가볼만한곳 서귀포 치유의숲 오르는길 흐렸다면 돌아갈때는 맑...,https://blog.naver.com/kayak71/223222984866
1,10월 제주도 여행지 추천 제주 표선 가볼만한곳 제주민속촌 입장료,대표적인 제주 표선 가볼만한곳으로 10월 제주도 여행지로도 추천하는 곳입니다. 가을...,https://blog.naver.com/overroad89/223224371702
2,제주여행 제주동쪽 10월 가볼만한곳 명소 풍경들,풍경도 아름답다 하니 10월 해 질 무렵 찾아가면 노을빛에 물든 황홀한 은빛 물결 ...,https://blog.naver.com/ka8564/223230868738
3,10월 제주는 억새와 핑크뮬리 천지 ~,가을에 제주에 가신다면 억새와 핑크뮬리 보셔요~ 명불허전 새별오름~ 요건 9월말 사...,https://cafe.naver.com/jejutip/2348159?art=ZXh...
4,10월 제주도 여행 제주 산굼부리 억새 제주도 명소 추천 코스,"10월 제주도 여행 제주 산굼부리 억세 제주도 명소 추천 코스 글, 사진 : 그루터...",https://blog.naver.com/hloveh01/223241505536


In [80]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112 entries, 0 to 111
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   title   112 non-null    object
 1   desc    112 non-null    object
 2   link    112 non-null    object
dtypes: object(3)
memory usage: 2.8+ KB


----------------------

### [실습문제] : Selenium을 이용하여 TEXT 정보 추출하여 표로 만들기
자신이 원하는 TEXT 검색 페이지를 정해서 100개 이상 텍스트 정보 추출해서 표로 출력하기

-------------------------