# 웹 크롤링

### Requests

- HTTP에 요청을 보내는 용도

In [None]:
pip install requests

In [2]:
import requests

url = 'https://www.google.com/webhp?hl=ko&sa=X&ved=0ahUKEwj6-caR1vn9AhVnklYBHWTbBu8QPAgI'
resp = requests.get(url)

resp.status_code # 응답코드 

200

In [6]:
# 에러가 발생했을 때 에러를 따로 빼주는 코드
from requests.exceptions import HTTPError

try:
    resp = requests.get(url)
    resp.raise_for_status()  # 200(정상)코드가 아닌경우 에러발생
except HTTPError as Err:
    print('HTTP 에러가 발생했습니다.')
except Exception as Err:
    print('다른 에러가 발생했습니다.')
else:
    print('성공')

성공


In [9]:
resp.text # 가져온 html문자열을 텍스트로 확인

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="Rsi8kdy-6SC0tDgomLF4iA">(function(){window.google={kEI:\'_UUgZM_iMubk2roP872e6AQ\',kEXPI:\'0,1356781,2628,6059,206,4804,2316,383,246,5,1129120,1197728,673,380090,16114,19397,9287,22431,1361,12316,2819,14764,4998,13228,3847,6884,31560,885,1987,2891,8348,3406,606,60690,15756,3,576,6459,14124,4,1528,2304,42127,13658,4437,9358,7428,5815,2542,4094,7596,1,14261,27893,2,14022,25739,5679,1020,31122,4569,6255,23421,1252,5835,14967,4333,19,7465,445,2,2,1,24626,2006,8155,7381,15970,872,19634,7,1922,9779,21390,14764,6305,2007,18192,20136,14,82,20206,1622,1748,30,12,4965,8378,6513,4097,3857,527,991,2265,765,427,5684,1410,890,7405,1296,508,7553,676,1150,1093,1016,632,109,1127,450,12575,1386,2717,1856,130,4,623,536,1636,

### BeautifulSoup

- 응답받은 데이터를 파싱하여 정보를 찾아내는 기능
- 문자열로 구성된 특정 문서들(HTML, XML) 등을 파이썬에서 쉽게 사용할 수 있도록 변환해주는 작업
- parser의 종류는 html.parser, html5lib 등이 있다.

In [None]:
pip install BeautifulSoup4

In [15]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.google.com/webhp?hl=ko&sa=X&ved=0ahUKEwj6-caR1vn9AhVnklYBHWTbBu8QPAgI'
page = requests.get(url)

soup = BeautifulSoup(page.content, 'html.parser') # content : 가져온 페이지를 HTML형태로 만듬 / text :가져온 페이지를 문자열로 만듬

### 요소찾기(find, select)

**find(한 개의 요소 찾기)**

In [None]:
# 여러개가 존재하면 가장 첫 번째 값을 출력
dog_element = soup.find(id='dog')

**find_all(여러개의 요소 찾기)**

In [None]:
# 여러 개 모두 출력
cat_element = soup.find_all(class_='cat')

In [None]:
# 중첩해서 찾을 수도 있다.
cat_element = soup.find_all(class_='cat')

for i in cat_element:
    i.soup.find(class_='fish')

In [None]:
# 태그사용법
soup.find_all('div')

# string 검색(string은 문자열로 return되기 때문에 반드시 앞에 태그(div나 p같은)와 함께 사용해야한다.)
soup.find_all('div', string = 'raining')
soup.find_all('p', string=lambda text: 'raining' in text.lower())

# 여러개 중첩가능
soup.find_all('div', class_='cat', id='dog') 

# text를 이용해 내부문자 뽑기
cat_el = soup.find('div', class_='cat')
cat_el.text       # 해당 태그의 문자열 뽑기
cat_el.text.strip # 불필요한 띄어쓰기 제거

### Selenium


- 업무 자동화 라이브러리
- 크롬드라이버 최선으로 사용할 것 ([크롬 드라이버](https://chromedriver.chromium.org/downloads))

In [None]:
pip install selenium

In [None]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By

driver = webdriver.Chrome("C:/Users/eg287/chromedriver") # 나의 웹드라이버의 위치(설정-도움말-버전에서 확인 후 최신 드라이버 사용)
driver.get("url") # 웹사이트 방문

driver.find_element(By.명령어, "선택자")

# 팝업 창 제거
driver.find_element(By.CSS_SELECTOR, "button#intro_popup_close").click()

# 시간 대기
driver.implicitly_wait(10) # 암묵적 대기 : 로드 되면 대기하지 않고 진행

# 검색하기
search_box = driver.find_element(By.CSS_SELECTOR, "선택자") # 검색창 찾기
search_box.send_keys("검색어")     # 검색어 입력
time.sleep(3)                     # 로드시간 대기            
search_box.send_keys(Keys.ENTER)  # 검색 버튼 누르기(엔터)


### 크롤링 연습

**탑텐몰 크롤링**

In [None]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
import time
from bs4 import BeautifulSoup
import requests
import pandas as pd

driver = webdriver.Chrome("C:/Users/eg287/chromedriver") # 나의 웹드라이버의 위치(설정-도움말-버전에서 확인 후 최신 드라이버 사용)
driver.get("https://www.topten10mall.com/kr/front/search/categorySearch.do?ctgNo=37341") # 웹사이트 방문


driver.implicitly_wait(10) # 페이지 로드시간 10초 (암묵적 대기 : 로드 되면 대기하지 않고 진행)

# 검색
search_box = driver.find_element(By.CSS_SELECTOR, "#searchWord") # 검색창 찾기
search_box.send_keys("셔츠")      # 검색어 입력
time.sleep(3)                                
search_box.send_keys(Keys.ENTER)  # 검색 버튼 누르기(엔터)



# 추출한 데이터 저장할 DataFrame 생성
empty = pd.DataFrame(columns=['name','price','discount'])
num = 0 # 추출한 값을 넣을 인덱스번호

# 크롤링
for p in range(10):
    # 5초 delay
    time.sleep(2)
    
    # 현재 랜더링된 페이지의 HTML 가져오기
    # 방법1
    # raw = driver.page_source 

    # 방법2 requests [BeutifulSoup(raw.content, 'html.parser')로 변경]
    # raw = requests.get("https://www.topten10mall.com/kr/front/search/totalSearch.do?searchTerm=%EC%85%94%EC%B8%A0") 

    # 방법3 자바 (추출할 범위)
    js_script = "document.querySelector('#divList').innerHTML" # document.querySelector : 선택자('selector') / .innerHTML : HTML형식으로 변환
    raw = driver.execute_script("return " + js_script)         # execute_script : 자바스크립트 코드 사용 / "return " : 뒤의 값을 출력해라 
    
    
    # 파서로 추출할 대상 선택
    # CSS selector를 클래스(.card-goods__body)로 지정해서 여러개의 contents가 존재
    html = BeautifulSoup(raw, 'html.parser')
    contents = html.select('.card-goods__body') # List형식으로 저장됨

    # 각 클래스(.card-goods__body)별 이름,가격,할인률 추출
    for i in contents:
        name = i.select_one('.card-goods__text').text
        try:
            price = i.select_one('.card-goods__price').text
        except:
            price = 'NULL'
        try:
            discount = i.select_one('.card-goods__discount').text
        except:
            discount = '0%'

        # empty 데이터프레임에 추출한 값 넣기
        empty_dict = {'name':name, 'price':price, 'discount':discount}
        for key,value in empty_dict.items():
            empty.loc[num,key] = value
        num += 1 # 인덱스 번호 1씩 증가하도록

        # print(name, price, discount)
        
        
    # 다음 페이지로 이동(다음페이지 없을 때 까지)
    try:
        next_btn = driver.find_element(By.CSS_SELECTOR, "#searchGoods > nav > ul > li:nth-child(12) > a > span")
        next_btn.click()
    except:
        print("데이터 수집 완료")
        break


empty.to_csv(path_or_buf='./크롤링.csv',index=False)