# User-Agent 부여하기
- User-Agent란? 클라이언트가 서버에 접속하는 플랫폼
    - 현재 우리가 사용하고 있는 User-Agent? ->  브라우저(크롬, 사파리... etc)
- 만약 서버에서 크롤링 봇으로 접근하는 것을 차단한다면?
    - 브라우저가 아니면 접근 금지!

In [1]:
import requests
# 무신사 접속해보기

MUSINSA_SHOES_LIST_URL = "https://www.musinsa.com/categories/item/005"
response = requests.get(MUSINSA_SHOES_LIST_URL)
response

<Response [200]>

In [2]:
# 상세 페이지는 error
MUSINSA_SHOES_DETAIL_URL = "https://www.musinsa.com/app/goods/1339622"
response = requests.get(MUSINSA_SHOES_DETAIL_URL)
response
# 파이썬 프로그램은 denie 됨
# 그래서 브라우저라고 속일거임
# pip install fake_useragent

<Response [403]>

fake_useragent : User Agent를 랜덤으로 만들어 준다. <br>
문자열로 입력해도 되지만 이렇게 하면 매번 랜덤하게 골라준다고 한다.

In [3]:
from fake_useragent import UserAgent

In [4]:
headers = {'User-agent' : UserAgent().chrome}
headers
# OS와 UserAgent 등을 다 매번 바꿔줌

{'User-agent': 'Mozilla/5.0 (X11; U; Linux i686; en-US) AppleWebKit/534.15 (KHTML, like Gecko) Ubuntu/10.10 Chromium/10.0.611.0 Chrome/10.0.611.0 Safari/534.15'}

In [15]:
response = requests.get(MUSINSA_SHOES_DETAIL_URL, headers = headers)
response

<Response [200]>

# Selenium 옵션

In [16]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# usergent를 임의로 설정할 수 있는 driver 생성 함수

def get_chrome_driver_useragent():
    agent = UserAgent().chrome
    chrome_options = webdriver.ChromeOptions()
    
    chrome_options.add_argument("user-agent{}".format(UserAgent().chrome)) # 크롬이 아닌 것처럼 속일 수 있다.
    
    driver = webdriver.Chrome(
        service=Service(ChromeDriverManager().install()),
        options=chrome_options
    )
    
    return driver

In [17]:
driver = get_chrome_driver_useragent()

In [18]:
driver.execute_script("return navigator.userAgent;")

'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36'

In [19]:
driver.quit()

selenium으로 크롤링 할 때 중요한 옵션
- Headless : 브라우저를 화면에 띄우지 않고 컴퓨터 내부에서만 돌아가도록
- Windows, Mac 같은 GUI 환경 OS에서는 화면이 뜬다
- Linux 같은 경우는 CLI 환경 OS에서는 명령창만 뜬다.
- 크롬같은 경우는 메모리를 굉장히 많이 잡아먹는 브라우저라서, 메모리를 아끼기 위해 headless 옵션을 쓴다.

In [20]:
def get_chrome_driver_headless(): # 브라우저가 안뜸
    agent = UserAgent().chrome
    chrome_options = webdriver.ChromeOptions()
    
    chrome_options.add_argument("headless")
    
    driver = webdriver.Chrome(
        service=Service(ChromeDriverManager().install()),
        options=chrome_options
    )
    
    return driver

In [22]:
driver = get_chrome_driver_headless()

In [23]:
driver.get("https://www.naver.com")

In [24]:
driver.title

'NAVER'

In [25]:
driver.quit()

셀레니움을 이용한 크롤링은 GUI 환경에서 모든 테스트를 마치고 headless 설정을 하여 CLI 환경으로 돌린다.