# 데이터 분석

## 4. 웹 크롤링으로 데이터 수집 - 동적 웹크롤링

### 1) 웹 크롤링 기초

### 2) 정적 크롤링(스크래핑)

### 3) 동적 크롤링(Visual Studio Code 사용)

- 공식페이지: https://www.selenium.dev/
- 참고: https://wikidocs.net/198942

- https://chromedriver.chromium.org/
- 최신 chrome webdriver 다운로드
- 코드가 있는 위치에 chromedriver.exe파일 옮겨놓는다.
- 자신의 크롬 웹 브라우저의 버전을 확인하고 버전에 맞는 것을 다운로드해야한다.

#### 자신의 PC 폰트 목록 가져오기

In [None]:
#(windows) 폰트 목록 가져오기
import matplotlib.font_manager as fm
font_list_win = fm.findSystemFonts(fontpaths=None, fontext='ttf')
print(f'windows 폰트 목록 : {font_list_win}')

In [None]:
#(Mac) 폰트 목록 가져오기
import matplotlib.font_manager as fm

font_list_mac = fm.OSXInstalledFonts()
print(f'Mac 폰트 목록 : {font_list_mac}')

- **한글 폰트 지정하기**

In [None]:
# 코랩에서 한글 폰트 종류와 이름이 win과 다를 수 있다!!!
# 코랩: NanumGothic, 윈도우: Malgun Gothic
import matplotlib.pyplot as plt
plt.rcParams.update({'font.family': 'Malgun Gothic',
                     'font.size': 12,
                     'figure.figsize': (6, 4),
                     'axes.unicode_minus':  False }) # 폰트 설정

#### 1.라이브러리 설치하기

In [None]:
# 동적 크롤링을 위한 라이브러리
!pip install selenium

In [None]:
!pip install chromedriver-autoinstaller

In [1]:
import selenium
selenium.__version__

'4.19.0'

#### 2.ChromeDriver 사용

* ChromeDriver 사용방법
    - 방법1 : **chromedriver-autoinstaller 라이브러리 사용해서 버전 고려 안하기(쉬움)**
    - 방법2 : 버전 업데이트마다 PC에 ChromeDriver.exe 드라이버 재설치(복잡함)

* ChromeDriver 동작 확인
    - 크롬 브라우저에 'Chrome이 자동화된 테스트 소프트웨어에 의해 제어되고 있습니다' 문구와 함께 화면이 뜨면 성공!

In [2]:
import chromedriver_autoinstaller # chrome driver 자동 설치 라이브러리
from selenium import webdriver

# chrome driver를 자동으로 설치함
chromedriver_autoinstaller.install()

options = webdriver.ChromeOptions() # Browser 세팅하기
options.add_argument('lang=ko_KR') # 사용언어 한국어
options.add_argument('disable-gpu') # 하드웨어 가속 안함
# options.add_argument('headless') # 창 숨기기

# # 브라우저 세팅
driver = webdriver.Chrome(options=options)

# 브라우저에 URL 호출하기
driver.get(url='https://www.naver.com/')

# 브라우저 탭 닫기
driver.close()

# 브라우저 종료하기 (탭 모두 종료)
driver.quit()

- 간단하게 사용하기

In [3]:
from selenium import webdriver

# 드라이버 초기화
driver = webdriver.Chrome()

# 웹페이지로 이동
driver.get('https://www.naver.com/')

---------------

#### 3. Selenium을 사용하여 동적 웹 페이지와 상호작용하기

* **(클릭 이벤트를 위한 xpath 복사)작업 순서**
    - 크롬에서 target 페이지 접속(https://www.naver.com/)
    - F12 눌러 오른쪽 영역에 개발자 페이지 나타나도록 함(html코드 나타남)
    - ctrl+shift+c 누른 상태에서 클릭 이벤트 발생할 곳 찾아 마우스 클릭
    - 해당 html코드 영역에서 마우스 오른쪽키 누르고 copy>copy.xpath 메뉴 선택하여 이벤트 코드 클립보드에 복사
    - driver.find_element(By.XPATH, '복사되니 부분 붙여넣기').click()

* **[사용방법] 버튼(링크) 클릭**

In [4]:
from selenium import webdriver
from selenium.webdriver.common.by import By

# 드라이버 초기화
driver = webdriver.Chrome()

# 웹페이지로 이동
driver.get('https://www.naver.com/')

# 클릭(copy.xpath 이용)
search_button = driver.find_element(By.XPATH, '//*[@id="search-btn"]')
search_button.click()

#### [1단계] 네이버 메인페이지에서 검색어 입력하고 버튼 클릭하기

In [5]:
import chromedriver_autoinstaller
from selenium import webdriver
from selenium.webdriver.common.by import By

# chrome driver를 자동으로 설치함
chromedriver_autoinstaller.install()

# 드라이버 초기화
driver = webdriver.Chrome()

def naver_main_search(driver, keyword):
    driver.get('https://www.naver.com/') # 웹페이지 로드
    search_box = driver.find_element(By.XPATH, '//*[@id="query"]')  # 검색 키워드 영역
    search_button = driver.find_element(By.XPATH, '//*[@id="search-btn"]') # 검색 버튼
    search_keyword = keyword  # 키워드
    search_box.send_keys(search_keyword)
    search_button.click()

# 1.네이버 메인 검색
keyword = '눈물의여왕'
naver_main_search(driver, keyword)
print(f'현재URL : {driver.current_url}')


현재URL : https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%EB%88%88%EB%AC%BC%EC%9D%98%EC%97%AC%EC%99%95


#### [2단계] 네이버 검색 결과 페이지에서 다시 버튼 클릭
- 버튼 클릭 위치 확인(xPath) : 마우스오른쪽버튼 > Copy >Copy xPath

In [7]:
import chromedriver_autoinstaller
from selenium import webdriver
from selenium.webdriver.common.by import By

# chrome driver를 자동으로 설치함
chromedriver_autoinstaller.install()

# 드라이버 초기화
driver = webdriver.Chrome()

# [CODE 1] : 검색어 넣고 네이버 메인 검색
def naver_main_search(driver, keyword):
    print('\n1단계 : 검색어 넣고 네이버 메인 검색......')
    driver.get('https://www.naver.com/') # 웹페이지 로드
    search_box = driver.find_element(By.XPATH, '//*[@id="query"]')  # 검색 키워드 영역
    search_button = driver.find_element(By.XPATH, '//*[@id="search-btn"]') # 검색 버튼
    search_keyword = keyword  # 키워드
    search_box.send_keys(search_keyword) # 검색창에 검색어 반영
    search_button.click() # 클릭 이벤트

# [CODE 2] : 검색 결과에서 다른 탭 선택
def naver_main_search_tab(driver, url, xpath):
    print('\n2단계 : 검색 결과에서 탭 선택......')
    print(f'      currnet_url={driver.current_url}')
    driver.get(url) # 해당 웹페이지 로드
    search_button = driver.find_element(By.XPATH, xpath) # target xpath
    search_button.click()


keyword = input('페이지 검색어 입력: ')

# 1.[CODE 1] : 검색어 넣고 네이버 메인 검색
naver_main_search(driver, keyword)

# 2.[CODE 2] : 검색 결과에서 다른 탭 선택 ( 마우스오른쪽버튼 > Copy >Copy xPath)
naver_main_search_tab(driver, driver.current_url, '//*[@id="lnb"]/div[1]/div/div[1]/div/div[1]/div[1]/a' )


1단계 : 검색어 넣고 네이버 메인 검색......

2단계 : 검색 결과에서 탭 선택......
      currnet_url=https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%EA%B3%A0%EB%A0%B9%ED%99%94


#### [3단계] 네이버 검색 다른 탭 정보 추출하기 : 제목, 상세설명, 링크
- 추출할 정보의 정확한 위치 확인 후 --> 적절히 코드 수정후 실행한다.

In [9]:
import chromedriver_autoinstaller
from selenium import webdriver
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup
import requests
import pandas as pd

# chrome driver를 자동으로 설치함
chromedriver_autoinstaller.install()

# 드라이버 초기화
driver = webdriver.Chrome()


# [CODE 1] : 검색어 넣고 네이버 메인 검색
def naver_main_search(driver, keyword):
    print('\n1단계 : 검색어 넣고 네이버 메인 검색......')
    driver.get('https://www.naver.com/') # 웹페이지 로드
    search_box = driver.find_element(By.XPATH, '//*[@id="query"]')  # 검색 키워드 영역
    search_button = driver.find_element(By.XPATH, '//*[@id="search-btn"]') # 검색 버튼
    search_keyword = keyword  # 키워드
    search_box.send_keys(search_keyword)
    search_button.click()

# [CODE 2] : 검색 결과에서 다른 탭(첫번째 탭) 선택
def naver_main_search_tab(driver, url, xpath):
    print('\n2단계 : 검색 결과에서 다른 탭 선택......')
    print(f'      currnet_url={driver.current_url}')
    driver.get(url) # 해당 웹페이지 로드
    search_button = driver.find_element(By.XPATH, xpath) # target xpath
    search_button.click()

# [CODE 3] : 다른 탭 페이지에서 정보(ex: 제목,상세,링크) 추출
def naver_html_parse(html):
    print('\n3단계 : 다른 탭 페이지에서 정보(제목,상세,링크) 추출......')
    t_list, d_list, link_list = [], [], []

    soup = BeautifulSoup(html, 'html.parser')
    #main_pack > section > div.api_subject_bx > ul > li:nth-child(1) > div > div.detail_box > div.title_area > a
    ul = soup.select_one('ul.lst_view._fe_view_infinite_scroll_append_target') #공백에 있을 경우 . 사용
    # 제목, 링크 추출하기
    contents = ul.select('li > div > div > div.title_area > a')
    for content in contents:
        t_list.append(content.get_text())       # 제목        
    # 상세설명 추출하기
    contents = ul.select('li > div > div > div.dsc_area > a') # 상세설명
    for content in contents:
        link_list.append(content.attrs['href']) # href 링크
        d_list.append(content.get_text())

    # DataFrame으로 만들기
    data = {'title': t_list, 'desc':d_list,'link':link_list}
    df = pd.DataFrame(data)
    return df


keyword = input('페이지 검색어 입력: ')

# 1.[CODE 1] : 검색어 넣고 네이버 메인 검색
naver_main_search(driver, keyword)

# 2.[CODE 2] : 검색 결과에서 다른 탭 선택
naver_main_search_tab(driver, driver.current_url, '//*[@id="lnb"]/div[1]/div/div[1]/div/div[1]/div[1]/a/i' )
html = driver.page_source  # 페이지 소스 가져오기

# 3.[CODE 3] : 다른 탭 페이지에서 정보(ex: 제목,상세,링크) 추출
df = naver_html_parse(html)
print('\n완료 : 추출된 정보 표로 만들기......')
print(f'Total[{len(df)} 건]')
df.head(5)


1단계 : 검색어 넣고 네이버 메인 검색......

2단계 : 검색 결과에서 다른 탭 선택......
      currnet_url=https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%EB%88%88%EB%AC%B8%EC%9D%98%EC%97%AC%EC%99%95

3단계 : 다른 탭 페이지에서 정보(제목,상세,링크) 추출......

완료 : 추출된 정보 표로 만들기......
Total[30 건]


Unnamed: 0,title,desc,link
0,눈물의 여왕 15회 예고 최고 시청률에도 혹평 이유 인물관계도,"눈물의 여왕 15회 최고 시청률에도 혹평 이유 인물관계도 줄거리 요 작품 김지원, ...",https://blog.naver.com/blanche15/223424671673
1,눈물의 여왕 14회 리뷰 기억 상실 분노 주의 엔딩 김지원❤️김수현님 연기가 다했다...,출처 : tvN 토일드라마 눈물의 여왕 14회 공식영상 그러나 해인이의 무의식 속에...,https://blog.naver.com/alsk1130/223422787910
2,눈물의 여왕 몇부작 정보 홍해인 죽지마 (설레는 드라마 추천),눈물의 여왕 몇부작 정보 홍해인 죽지마 (설레는 드라마 추천) 안녕하세요 ~ ! 요...,https://blog.naver.com/kiwi111/223401230822
3,<눈물의 여왕>귀여운 백현우 씨 - 10회 명장면,요즘 <눈물의 여왕>을 보면서 김수현이라는 배우는 정말 격이 다른 연기를 하는구나 ...,https://blog.naver.com/i__memory/223414583178
4,눈물의 여왕 11회 12회 홍해인 병세 악화,그동안 자신이 저질렀던 잘못 때문에 홍해인이 깨어났다는 소식을 듣고도 차마 그녀를 ...,https://blog.naver.com/c106507/223414744136


#### [4단계] 페이지 자동 스크롤링한 후 정보 가져오기

In [None]:
# 웹 드라이버매니저 설치
!pip install webdriver-manager

In [10]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup
import pandas as pd
import time

# 크롬 드라이버 자동 업데이트
from webdriver_manager.chrome import ChromeDriverManager

#브라우저 꺼짐 방지
chrome_options = Options()
chrome_options.add_experimental_option("detach", True)

# 불필요한 에러 메시지 없애기
chrome_options.add_experimental_option("excludeSwitches", ["enable-logging"])

# 드라이버 초기화
driver = webdriver.Chrome(options=chrome_options)


# [CODE 1] : 검색어 넣고 네이버 메인 검색
def naver_main_search(driver, keyword):
    print('\n1단계 : 검색어 넣고 네이버 메인 검색......')
    driver.get('https://www.naver.com/') # 웹페이지 로드
    search_box = driver.find_element(By.XPATH, '//*[@id="query"]')  # 검색 키워드 영역
    search_button = driver.find_element(By.XPATH, '//*[@id="search-btn"]') # 검색 버튼
    print(f'search_box : {search_box}')
    search_keyword = keyword  # 키워드
    search_box.send_keys(search_keyword)
    search_button.click()

# [CODE 2] : 검색 결과에서 다른 탭 선택
def naver_main_search_tab(driver, url, xpath):
    print('\n2단계 : 검색 결과에서 다른 탭 선택......')
    print(f'      currnet_url={driver.current_url}')
    driver.get(url) # 해당 웹페이지 로드
    search_button = driver.find_element(By.XPATH, xpath) # target xpath
    search_button.click()

    # 페이지 자동 스크롤하기(3번)
    print('2단계 : 페이지 자동 스크롤...')
    actions = driver.find_element(By.CSS_SELECTOR, 'body')
    time.sleep(2)
    for _ in range(3):
        actions.send_keys(Keys.END)
        print('       page scroll...' )
        time.sleep(2)

# [CODE 3] : VIEW탭 페이지에서 정보(제목,상세,링크) 추출
def naver_html_parse(html):
    print('\n3단계 : 다른 탭 페이지에서 정보(제목,상세,링크) 추출......')
    t_list, d_list, link_list = [], [], []

    soup = BeautifulSoup(html, 'html.parser')
    #main_pack > section > div.api_subject_bx > ul > li:nth-child(1) > div > div.detail_box > div.title_area > a
    ul = soup.select_one('ul.lst_view._fe_view_infinite_scroll_append_target') #공백에 있을 경우 . 사용
    # 제목, 링크 추출하기
    contents = ul.select('li > div > div > div.title_area > a')
    for content in contents:
        t_list.append(content.get_text())       # 제목        
    # 상세설명 추출하기
    contents = ul.select('li > div > div > div.dsc_area > a') # 상세설명
    for content in contents:
        link_list.append(content.attrs['href']) # href 링크
        d_list.append(content.get_text())

    # DataFrame으로 만들기
    data = {'title': t_list, 'desc':d_list,'link':link_list}
    df = pd.DataFrame(data)
    return df


keyword = input('페이지 검색어 입력: ')

# 1.[CODE 1] : 검색어 넣고 네이버 메인 검색
naver_main_search(driver, keyword)

# 2.[CODE 2] : 검색 결과에서 VIEW 탭 선택
naver_main_search_tab(driver, driver.current_url, '//*[@id="lnb"]/div[1]/div/div[1]/div/div[1]/div[1]/a/i' )
html = driver.page_source  # 페이지 소스 가져오기

# 3.[CODE 3] : 다른 탭 페이지에서 정보(제목,상세,링크) 추출
df = naver_html_parse(html)
print('\n완료 : 추출된 정보 표로 만들기......')
print(f'Total[{len(df)} 건]')
df.head(5)



1단계 : 검색어 넣고 네이버 메인 검색......
search_box : <selenium.webdriver.remote.webelement.WebElement (session="ded0112faa35e2929d29dd1335b338fc", element="f.5D326E57383260FB6A4366648BDF5653.d.E028DBBE10FBAE3F86F20EF05D360132.e.95")>

2단계 : 검색 결과에서 다른 탭 선택......
      currnet_url=https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%EB%88%88%EB%AC%BC%EC%9D%98%EC%97%AC%EC%99%95
2단계 : 페이지 자동 스크롤...
       page scroll...
       page scroll...
       page scroll...

3단계 : 다른 탭 페이지에서 정보(제목,상세,링크) 추출......

완료 : 추출된 정보 표로 만들기......
Total[34 건]


Unnamed: 0,title,desc,link
0,눈물의 여왕 15회 예고 최고 시청률에도 혹평 이유 인물관계도,"눈물의 여왕 15회 최고 시청률에도 혹평 이유 인물관계도 줄거리 요 작품 김지원, ...",https://blog.naver.com/blanche15/223424671673
1,눈물의 여왕 14회 리뷰 기억 상실 분노 주의 엔딩 김지원❤️김수현님 연기가 다했다...,출처 : tvN 토일드라마 눈물의 여왕 14회 공식영상 그러나 해인이의 무의식 속에...,https://blog.naver.com/alsk1130/223422787910
2,눈물의 여왕 몇부작 정보 홍해인 죽지마 (설레는 드라마 추천),눈물의 여왕 몇부작 정보 홍해인 죽지마 (설레는 드라마 추천) 안녕하세요 ~ ! 요...,https://blog.naver.com/kiwi111/223401230822
3,<눈물의 여왕>귀여운 백현우 씨 - 10회 명장면,요즘 <눈물의 여왕>을 보면서 김수현이라는 배우는 정말 격이 다른 연기를 하는구나 ...,https://blog.naver.com/i__memory/223414583178
4,눈물의 여왕 11회 12회 홍해인 병세 악화,그동안 자신이 저질렀던 잘못 때문에 홍해인이 깨어났다는 소식을 듣고도 차마 그녀를 ...,https://blog.naver.com/c106507/223414744136


In [None]:
df.info()

-------------------------

#### [실습]  커피빈매장 정보 크롤링하여 파일로 저장하기
- 아래 사이트를 이용해 호출해야할 자바스크립트 함수를 확인하다.
- https://www.coffeebeankorea.com
- https://www.coffeebeankorea.com/store/store.asp
- (매장 번호로) 자세히보기: javascript:storePop2('374'); 
- chromedriver.exe 파일 위치는 코드와 동일한 위치에 놓는다.

In [11]:
from bs4 import BeautifulSoup
import urllib.request
import pandas as pd
import datetime

from selenium import webdriver
import time

MAX = 10     # 추출 데이터 건수
FILE = './CoffeeBean_매장정보.csv'

#[CODE 1] 
def getStoreInfo():
    CoffeeBean_URL = "https://www.coffeebeankorea.com/store/store.asp"

    # 드라이버 초기화
    driver = webdriver.Chrome()
    
    result = []  # 데이터 저장 변수
    total, cnt = 370, 0      
    for i in range(1, total+1):  #매장 수 만큼(370) 반복        
        driver.get(CoffeeBean_URL)
        time.sleep(1)  #웹페이지 연결할 동안 1초 대기
        try:
            print(f'read[{i}]')
            driver.execute_script("storePop2(%d)" %i)
            time.sleep(1) #스크립트 실행 할 동안 1초 대기
            
            html = driver.page_source
            soup = BeautifulSoup(html, 'html.parser')
            store_name_h2 = soup.select("div.store_txt > h2")
            store_name = store_name_h2[0].string  #매장 이름
            
            store_info = soup.select("div.store_txt > table.store_table > tbody > tr > td")
            store_address_list = list(store_info[2])
            store_address = store_address_list[0]  #매장 주소

            store_phone = store_info[3].string     #매장 전화번호
            result.append([store_name]+[store_address]+[store_phone])  
            cnt += 1
            # 매장정보 가져온 데이터 출력하기
            print("save[%3d] %3d - %s" % (cnt, i, store_name))            
            
             # MAX값에 해당하는 건수 만큼만 실행하기
            if cnt >= MAX: 
                break
            
        except:
            continue

    return result

#---------------
# main
#---------------
#[CODE 0]
def main():
    result = []
    print('CoffeeBean store crawling >>>>>>>>>>>>>>>>>>>>>>>>>>')
    result = getStoreInfo()  #[매장 추출 함수]호출하기   #[CODE 1] 호출 
    coffeebean_tbl = pd.DataFrame(result, columns=('store', 'address','phone'))
    coffeebean_tbl.to_csv(FILE, encoding='cp949', mode='w', index=True)  # 파일로 저장하기
    del result[:]
    return coffeebean_tbl


df = main() #[CODE 0] 호출
df.head()

CoffeeBean store crawling >>>>>>>>>>>>>>>>>>>>>>>>>>
read[1]
read[2]
read[3]
save[  1]   3 - 차병원점
read[4]
read[5]
read[6]
save[  2]   6 - 강남대로점
read[7]
read[8]
read[9]
read[10]
read[11]
read[12]
save[  3]  12 - 청담에스점
read[13]
save[  4]  13 - 신사점
read[14]
read[15]
save[  5]  15 - 역삼점
read[16]
save[  6]  16 - 양재스포타임점
read[17]
save[  7]  17 - 청담성당점
read[18]
save[  8]  18 - 영동점
read[19]
save[  9]  19 - 도곡점
read[20]
save[ 10]  20 - 영동고앞점


Unnamed: 0,store,address,phone
0,차병원점,서울시 강남구 논현로 566 강남차병원1층,02-538-7615
1,강남대로점,서울시 서초구 강남대로 369 1층,02-588-5778
2,청담에스점,"서울시 강남구 압구정로 461 네이처포엠빌딩B108,109호",02-548-6052
3,신사점,서울시 강남구 도산대로 126,02-548-2741
4,역삼점,"서울시 강남구 논현로 512 지상1,2층",02-569-8051


----------------------

### **[미션] : Selenium을 이용하여 동적인 정보 추출하여 표로 만들기**
- 1. 자신이 원하는 웹 페이지를 정해서 동적인 정보를 100개 이상 추출하기
- 2. Pandas DataFrame 표로 나타내기
- 3. CSV file로 저장하기
  4. Slack에 코드 업로드하기