# 7-4. 쇼핑몰 장바구니 데이터 수집
# Selenium 소개
Selenium은 주로 웹/앱을 테스트하는 웹 프레임워크로서 각 브라우저마다 제공되는 Webdriver API를 활용, 웹 브라우저를 Java, C#, Python 같은 프로그래밍 언어를 통해 제어합니다.

웹 브라우저를 직접 제어하므로 자바스크립트에 의해 동적으로 생성되는 사이트의 데이터를 크롤링할 때 매우 유용하게 사용되는 스크래핑 도구입니다.

## 1) Selenium 동작 방식
Selenium은 아래와 같은 과정을 거쳐 크롬 브라우저를 제어합니다.
> Python 소스코드 --> Selenium 패키지 --> ChromeDriver(WebDriver) --> Google Chrome

키보드 입력값을 전달 / 스크롤 이동 등의 제어가 가능<br>
웹 브라우저의 개발자 도구에서 확인 가능한 Element 내용을 수집<br>
-> 웹 페이지 로딩 후 동적 결과를 가져오는 웹 페이지의 컨텐츠 수집 가능 <br>
(requests 패키지를 통해 URL을 수집할 때 동적 결과는 못가져오지만, Selenium 을 활용하면 컨텐츠 수집 가능)

## 2) ChromeDriver 내려받기
https://chromedriver.chromiun.org/downloads 에서 사용중인 운영체제와 크롬 브라우저 버전에 맞는 Driver 다운로드
> 크롬의 버전정보 => 도움말 메뉴에서 확인

## 3) Selenium 설치하기

In [1]:
pip install --upgrade selenium

Requirement already up-to-date: selenium in c:\users\yewon\appdata\local\programs\python\python38\lib\site-packages (3.141.0)
Note: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'python -m pip install --upgrade pip' command.


# 쇼핑몰 회원가입, 로그인 및 장바구니에 상품 담기
먼저 예제를 위해 준비한 쇼핑몰에 회원가입 후 로그인을 하고 장바구니에 상품을 무작위로 담는다.
> http://itproject.ezenac.co.kr/springmyshop
    
# #01. 필요한 모듈 참조

In [3]:
# Chrome을 제어하기 위한 객체
from selenium import webdriver
# Chrome이 웹 페이지 로딩을 완료할 때까지 최대 n초간 대기하는 기능
from selenium.webdriver.support.ui import WebDriverWait
from bs4 import BeautifulSoup
from pandas import DataFrame
# 파이썬 프로그램에 지정된 시간동안 랙을 거는 기능을 위해 사용
import time

# #02. 크롬브라우저 객체 색성

In [4]:
# 맥이나 리눅스의 경우 파일 확장자X, 윈도우의 경우 exe 확장자까지 명시
driver = webdriver.Chrome('./chromedriver.exe')
# 크롬 브라우저가 준비될 때까지 최대 5초씩 대기
driver.implicitly_wait(5)

# #03. 샘플 쇼핑몰 로그인
## 1) 로그인 페이지로 이동하기

In [5]:
driver.get('http://itproject.ezenac.co.kr/springmyshop/account/login')
# 페이지를 이동하는 동안 최대 3초간 대기
time.sleep(3)

## 2) 로그인하기
### 아이디 입력 요소에 키 입력 보내기

In [7]:
id_input = WebDriverWait(driver, 3).until(lambda x: x.find_element_by_css_selector("#user_id"))
id_input.send_keys('leekh4232')

### 비밀번호 입력 요소를 찾아 입력하기

In [8]:
pw_input = WebDriverWait(driver, 3).until(lambda x: x.find_element_by_css_selector("#user_pw"))
pw_input.send_keys('123qwe!@#')

### 로그인 버튼을 찾아 클릭하기

In [9]:
login_button = WebDriverWait(driver, 3).until(
                lambda x : x.find_element_by_css_selector("button[type='submit']"))
login_button.click()

### 로그인 후 페이지가 이동하는 동알 최대 3초간 대기

In [10]:
time.sleep(3)

# #03. 장바구니 데이터 수집
## 1) 장바구니 페이지로 이동

In [11]:
driver.get('http://itproject.ezenac.co.kr/springmyshop/shopping/cart')
# 페이지를 이동하는 동안 최대 3초간 대기
time.sleep(3)

## 2) 장바구니 페이지의 HTML 코드를 BeautifulSoup 객체로 생성
### HTML 코드 추출

In [12]:
html = driver.page_source

### 추출한 코드를 BeautifulSoup 객체로 변환

In [13]:
soup = BeautifulSoup(html, 'html.parser')

### 크롬브라우저 닫기

In [14]:
driver.quit()

## 3) BeautifulSoup을 활용하여 장바구니 데이터 가져오기
### 장바구니 내역 가져오기
한 줄을 의미하는 셀렉터는 .cart-item 임을 알 수 있다.

In [15]:
tr = soup.select('.cart-item')
tr

[<tr class="cart-item cart-item-689">
 <td class="text-center" rowspan="1">
 <input checked="" class="cart_id" name="cart_id[]" type="checkbox" value="689"/>
 </td>
 <td class="text-center" rowspan="1">
 <a href="/springmyshop/product/detail/2152">
 <img src="/springmyshop/upload/products/2152_title_resize_150x150.jpg" width="50"/>
 </a>
 </td>
 <td class="text-center" rowspan="1">
 <a href="/springmyshop/product/detail/2152">네틸 데님스커트~UB</a>
 </td>
 <td class="text-center">M</td>
 <td class="text-center">
 <span class="price" data-value="27900">
                                                 27,900</span>
 <span>원</span>
 </td>
 <td class="text-center">1</td>
 <td class="text-center text-primary">
 <span class="total" data-value="27900">
                                                 27,900</span>
 <span>원</span>
 </td>
 <td class="text-center">
                                                         27,900</span>원</strong>
 </td>
 <td class="text-center">
 <button class="btn-cart

### 장바구니의 상품 수만큼 반복하며 개별 항목 가져오기
하나의 `.cart-item` 안에 공통적으로 `.text-center` 라는 클래스가 적용된 `<td>` 태그에 정보가 표시되고 있다.

이 항목들 중  체크박스/상품이미지/삭제 버튼은 필요 없으므로 `0`, `1`, `8` 번째 항목은 처리할 필요 X<br>
또한 상품가격/수량/합계금액 등 숫자형식의 데이터는 `,`나 `원` 글자를 제거 수 숫자로 변환해야 한다.

In [16]:
# 수집 결과를 모아 놓기 위한 빈 리스트
cart = []

for tr_item in tr :
    td = tr_item.select('.text-center')
    
    item_dict={
        "상품명" : td[2].text.strip(),
        "옵션" : td[3].text.strip(),
        "상품가격" : int(td[4].text.strip().replace("원", "").replace(",","")),
        "수량" : int(td[5].text.strip()),
        "합계" : int(td[6].text.strip().replace("원", "").replace(",","")),
        "판매금액" : int(td[7].text.strip().replace("원", "").replace(",",""))
    }
    
    cart.append(item_dict)
    
cart

[{'상품명': '네틸 데님스커트~UB',
  '옵션': 'M',
  '상품가격': 27900,
  '수량': 1,
  '합계': 27900,
  '판매금액': 27900},
 {'상품명': '요꼬 데님원피스',
  '옵션': '데님(denim)',
  '상품가격': 28900,
  '수량': 1,
  '합계': 28900,
  '판매금액': 28900},
 {'상품명': '크라잉 골지밴딩스커트',
  '옵션': '머스타드(mustard)',
  '상품가격': 17900,
  '수량': 1,
  '합계': 17900,
  '판매금액': 17900},
 {'상품명': '모리트기모레깅스',
  '옵션': '블랙(black)',
  '상품가격': 10900,
  '수량': 1,
  '합계': 10900,
  '판매금액': 10900},
 {'상품명': '홀렌디 롱스커트',
  '옵션': '그린(green)',
  '상품가격': 29900,
  '수량': 1,
  '합계': 29900,
  '판매금액': 29900},
 {'상품명': '니비아니트롱스커트',
  '옵션': '블랙(black)',
  '상품가격': 36900,
  '수량': 1,
  '합계': 36900,
  '판매금액': 36900},
 {'상품명': '펜타스 롱니트원피스',
  '옵션': '아이보리(ivory)',
  '상품가격': 39800,
  '수량': 1,
  '합계': 39800,
  '판매금액': 39800},
 {'상품명': '제라드 니트스커트',
  '옵션': '블랙(black)',
  '상품가격': 23840,
  '수량': 1,
  '합계': 23840,
  '판매금액': 23840},
 {'상품명': '뉴엘런 자수cap',
  '옵션': '머스타드(mustard)',
  '상품가격': 14900,
  '수량': 1,
  '합계': 14900,
  '판매금액': 14900}]