# 데이터 크롤링 템플릿

In [None]:
%pip install beautifulsoup4 requests fake-useragent selenium chromedriver-autoinstaller

## 페이지를 불러와서 추출 가능한 상태로 만들기

정적 데이터의 경우 requests의 get만 활용해도 되고 동적 데이터의 경우 selenium의 get를 활용하면 된다.

도전해보고싶은 페이지가 있는 경우 그 페이지를 활용하고, 없으면 다음 예시를 사용한다.

리스트 페이지는 https://ridibooks.com/category/books/2200?order=recent

각 데이터 페이지의 예시는 https://ridibooks.com/books/4489000001

각 페이지에서 제목, 저자, 전자책 출간일, 판매가, 평점, 평점 남긴 사람의 수를 크롤링하자.

In [None]:
def load_selenium_driver(options=None):
  """
  이 함수는 Selenium driver를 리턴하는 함수이다.
  """
  from selenium import webdriver
  import chromedriver_autoinstaller
  from selenium.webdriver.chrome.service import Service

  chrome_path = chromedriver_autoinstaller.install(True)
  s = Service(chrome_path)

  return webdriver.Chrome(
    service=s, # 서비스
    options=options
  )

In [None]:
# TODO: 다른 것을 하고싶다면 그 페이지를 변수에 넣어보자.
SINGLE_PAGE_URL = "https://ridibooks.com/books/4489000001"

In [None]:
from bs4 import BeautifulSoup
import requests
from fake_useragent import UserAgent

# TODO: BeautifulSoup를 사용하거나 Selenium를 사용해서 페이지를 데이터 추출 가능 상태로 만든다.

def load_single_page_bs4(url):
  """
  TODO: 페이지의 URL을 인수로 받아 Soup를 리턴하는 함수를 작성해봅시다.
  requests를 사용하는 경우 User Agent에 신경쓰면서 GET을 해봅시다.
  """
  pass


def load_single_page_selenium(url, driver=None):
  """
  TODO: 페이지의 URL을 인수로 받아 Selenium driver에 GET을 동작시키는 함수를 작성해봅시다.
  """
  pass

In [None]:
# 실행 테스트

# BeautifulSoup
## data_soup = load_single_page_bs4(SINGLE_PAGE_URL)

# Selenium
## driver = load_selenium_driver()
## load_single_page_selenium(SINGLE_PAGE_URL, driver)

## 원하는 데이터를 추출하기

In [None]:
# CSS Selector, XPath, BeautifulSoup 문법을 사용해서 원하는 데이터까지 경로를 이용해 데이터를 추출한다

def extract_data_bs4(soup):
  """
  TODO: 이 함수는 Soup를 인수로 받아 원하는 데이터들의 Dictionary를 리턴하는 함수입니다.
  """
  return { "foo": "bar" }


def extract_data_selenium(driver):
  """
  TODO: 이 함수는 Selenium을 인수로 받아 원하는 데이터들의 Dictionary를 리턴하는 함수입니다.
  """
  return { "foo": "bar" }


In [None]:
# 실행 테스트

# BeautifulSoup
## bs4_data = extract_data_bs4(data_soup)
## print ("Soup:", bs4_data)

# Selenium
## selenium_data = extract_data_selenium(driver)
## print ("Selenium:", selenium_data)

## 데이터를 원하는 곳에 저장하기

In [None]:
# MongoDB Client를 구하는 함수
import pymongo

def get_mongo_client():
  URI = f'mongodb://username:password@localhost:27017'
  return pymongo.MongoClient(URI)

def get_table_from_client(client: pymongo.MongoClient):
  return client['crawl_test_db']['crawl_test_tb']

In [None]:
# 잘 정비되있고 크롤링이 오래 안걸리는 데이터면 pandas같은 것을 통해 CSV 파일로 적당히 저장해도 좋지만
# 그게 아니라면 관리가 가능하면서 사용이 어렵지 않은 MongoDB에 저장한다

def save_data(data):
  """
  TODO: 이 함수는 데이터를 원하는 장소에 저장하는 함수입니다. 원하는 곳에 저장하되, 여러 데이터가 이어서 저장될 수 있도록 합시다.
  """
  pass

In [None]:
# 실행 테스트

# BeautifulSoup
## save_data(bs4_data)

# Selenium
## save_data(selenium_data)

## 리스트 페이지에서 각 페이지 위치 구하기

In [None]:
# TODO: 다른 것을 하고싶다면 그 리스트 페이지를 변수에 넣어보자.
LIST_FIRST_PAGE_URL = "https://ridibooks.com/category/books/2200?order=recent"

In [None]:
# BeautifulSoup4의 경우에는 리스트 페이지에서 각 하위 페이지의 URL을 구하고,
# Selenium의 경우에는 리스트 페이지에서 각 하위 페이지의 URL을 구하거나 element를 구하면 된다.
# 다음 과정에서는 각 URL을 통해 그 페이지로 이동하거나, element를 클릭하여 다음 페이지로 이동할 수 있다.

def get_all_single_page_url_bs4(list_page_soup):
  """
  TODO: 리스트 페이지에서 Selector 등을 활용하여 모든 하위 페이지의 href를 구해봅시다.
  """
  pass


def get_all_single_page_elem_selenium(driver):
  """
  TODO: 리스트 페이지에서 Selector 등을 활용하여 모든 하위 페이지의 elements들을 구해봅시다.
  """
  pass

In [None]:
# 실행 테스트

# BeautifulSoup
## list_page_soup = load_single_page_bs4(LIST_FIRST_PAGE_URL)
## print(get_all_single_page_url_bs4(list_page_soup))


# Selenium
## load_single_page_selenium(LIST_FIRST_PAGE_URL, driver)
## driver.implicitly_wait(5)
## single_pages = get_all_single_page_elem_selenium(driver)
## for x in single_pages: print(x.get_attribute('class'))

## 큰 페이지에서 작은 페이지를 순서대로 크롤링하여 모든 과정 합치기

In [None]:
from time import sleep

def crawl_bs4(list_page_url):
  """
  TODO: 
  """
  next_page_url = list_page_url
  while next_page_url != None:
    # 리스트 페이지를 로드하고
    list_page_soup = load_single_page_bs4(next_page_url)

    # 리스트 페이지에서 모든 데이터 페이지의 URL을 구한다.
    all_single_page_url = get_all_single_page_url_bs4(list_page_soup)

    # 각 페이지의 URL에 대해
    for single_page_url in all_single_page_url:
      try:
        # 각 페이지를 로드해서
        single_page_soup = load_single_page_bs4(single_page_url)

        # 데이터를 뽑고
        data = extract_data_bs4(single_page_soup)

        # 저장하고
        save_data(data)

        # 서버에 부하를 주지않기 위해 Delay를 준 후 반복한다.
        sleep(3)

      except Exception as e:
        print ("Error occurred while running crawling with BeautifulSoup:", e)
        break

    # TODO: 다음 URL이 있으면 다음 페이지로 이동한다.
    next_page_url = None # get_next_url_bs4(list_page_soup)
    break



def crawl_selenium(list_page_url):
  crawl_driver = load_selenium_driver()
  # 리스트 페이지를 로드한다.
  load_single_page_selenium(crawl_driver, list_page_url)

  while True:
    crawl_driver.implicitly_wait(5)

    # 각 리스트 페이지에서 모든 데이터 페이지의 URL을 구한다.
    # 각 elements에 대해
    for data_page_element in get_all_single_page_elem_selenium(crawl_driver):
      try:
        # TODO: 적당히 각 페이지를 로드해서
        data_page_element.click()

        # 데이터를 뽑고
        data = extract_data_selenium(crawl_driver)

        # 저장하고
        save_data(data)

        # 다시 리스트 페이지로 나온다
        crawl_driver.back()

        # 서버에 부하를 주지않기 위해 Delay를 준 후 반복한다.
        sleep(3)

      except Exception as e:
        print ("Error occurred while running crawling with selenium:", e)
        break

    # TODO: 다음 URL이 있으면 다음 페이지로 이동한다.
    break

  crawl_driver.close()


In [None]:
# 실행 테스트

# BeautifulSoup
## crawl_bs4(LIST_FIRST_PAGE_URL)

# Selenium
## crawl_selenium(LIST_FIRST_PAGE_URL)

## 임의의 시간에 자동으로 실행되게 만들기

In [None]:
# 리눅스, 맥의 경우는 crontab을 이용하고 윈도우즈의 경우에는 스케쥴러를 이용한다.