# User-Agent 부여하기
- User-Agent란? 클라이언트가 서버에 접속하는 플랫폼
    - 현재 우리가 사용하고 있는 User-Agent는? 브라우저(크롬, 사파리, ...)
- 만약 서버에서 크롤링 봇으로 접근하는 것을 차단한다면?
    - 브라우저가 아니면 접근 금지!

In [3]:
import requests

# 무신사 접속해보기
MUSINSA_COAT_LIST_URL = "https://www.musinsa.com/categories/item/002008"
response = requests.get(MUSINSA_COAT_LIST_URL)
response

<Response [200]>

In [4]:
MUSINSA_COAT_DETAIL_URL = "https://www.musinsa.com/app/goods/709188"
response = requests.get(MUSINSA_COAT_DETAIL_URL)
response

<Response [403]>

fake_useragent : User Agent를 랜덤으로 만들어 준다.

In [42]:
from fake_useragent import UserAgent

headers = {'User-agent': UserAgent().chrome}
headers

{'User-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.36 Safari/535.7'}

In [43]:
response = requests.get(MUSINSA_COAT_DETAIL_URL, headers=headers)
response

<Response [200]>

# Selenium 옵션

In [46]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# usergent를 임의로 설정할 수 있는 driver 생성 함수
def get_chrome_driver_useragent():
    chrome_options = webdriver.ChromeOptions()
    
    chrome_options.add_argument("user-agent={}".format(UserAgent().chrome))
    
    driver = webdriver.Chrome(
        service=Service(ChromeDriverManager().install()),
        options=chrome_options
    )
    
    return driver

In [47]:
driver = get_chrome_driver_useragent()

In [48]:
driver.execute_script("return navigator.userAgent;")

'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_5_7; en-US) AppleWebKit/532.1 (KHTML, like Gecko) Chrome/4.0.212.1 Safari/532.1'

In [50]:
driver.quit()

Selenium으로 크롤링을 할 때 중요한 옵션
- Headless : 브라우저를 화면에 띄우지 않고 컴퓨터 내부에서만 돌아가도록
- Windows, Mac 같은 GUI(Graphic User Interface) 환경 OS 에서는 화면이 뜬다. 
- Linux는 CLI(Command User Interface) 환경 OS 에서는 명령창만 뜬다.
- 크롬 같은 경우는 메모리를 굉장히 많이 잡아먹는 브라우저라서, 메모리를 아끼기 위해 headless 옵션을 쓰기도 한다.

In [49]:
def get_chrome_driver_headless():
    chrome_options = webdriver.ChromeOptions()
    
    chrome_options.add_argument("headless")
    
    driver = webdriver.Chrome(
        service=Service(ChromeDriverManager().install()),
        options=chrome_options
    )
    
    return driver

In [51]:
driver = get_chrome_driver_headless()

In [52]:
driver.get("https://www.naver.com")

In [53]:
driver.title

'NAVER'

In [54]:
driver.quit()

셀레니움을 이용한 크롤링은 GUI 환경에서 모든 테스트를 마치고 headless 설정을 하여 CLI 환경으로 돌린다.