## Gmarket 상품정보 크롤링
- 1~10위까지 상품에 하나하나 접근(클릭)
- 상품이름, 상품가격, 카테고리 수집

### 순서
0. 라이브러리 가져오기
1. Gmarket 베스트 상품 페이지 가져오기
2. 1위 상품 클릭(.click())
3. 상품명, 상품가격, 카테고리에 해당하는 태그 찾아서 컨텐츠 수집
4. Gmarket 베스트 상품 페이지로 돌아가기
5. 반복문으로 1위~10위까지 클릭
6. 상품명, 상품가격, 카테고리라는 key값으로 딕셔너리 생성
7. 데이터프레임 생성 후 csv파일로 변환

#### 0. 라이브러리 가져오기

In [66]:
from selenium import webdriver as wb
# 웹브라우저를 통제하기 위한 라이브러리
from selenium.webdriver.common.keys import Keys
# 웹에게 값을 "입력"하기 위한 라이브러리 -> 컴퓨터용 키보드
from selenium.webdriver.common.by import By
# html 문서에서 태그와 선택자의 위치를 찾기 위한 라이브러리
from bs4 import BeautifulSoup as bs
# 컴퓨터가 이해하기 쉬운 객체로 변환해주는 라이브러리
import pandas as pd
# 수집한 정보를 DataFrame화 하기 위한 라이브러리
import time
# 코딩 중간에 쉬는시간을 부여해주는 라이브러리

#### 1. Gmarket 베스트 상품 페이지 가져오기

In [85]:
driver = wb.Chrome()
driver.get('https://www.gmarket.co.kr/n/best')
time.sleep(2)

#### 2. 1위 상품 클릭(.click())

In [86]:
menu = driver.find_elements(By.CLASS_NAME,'itemname')
menu[0].click()

#### 3. 상품명, 상품가격, 카테고리에 해당하는 태그 찾아서 컨텐츠 수집

In [87]:
# 상품명 가져오기 방법1
soup = bs(driver.page_source,'lxml')

In [99]:
iname= soup.select_one('h1.itemtit')
iname.text

'(클럽 위크전용 쿠폰적용가 6천원) 메가박스 일반예매권 2D주중/주말 '

In [100]:
# 상품명 가져오기 방법2
# 단점 .text 안하면 뭘 가져온지 모르게 됨
m_name = driver.find_element(By.CLASS_NAME,'itemtit')
m_name.text

'(클럽 위크전용 쿠폰적용가 6천원) 메가박스 일반예매권 2D주중/주말'

In [101]:
# 상품 가격
iprice= soup.select_one('strong.price_real')
iprice.text

'15,000원'

In [97]:
# 상품 카테고리
icategory= soup.select_one('li.on>a')
icategory.text

'메가박스'

In [None]:
# copy selector
# selector 찾기 정말 힘들 때 개발자모드에서 찾고 싶은거 지정한 곳에서
# 마우스 우클릭 > copy > copy selector 

#### 4. Gmarket 베스트 상품 페이지로 돌아가기

In [77]:
driver.get('https://www.gmarket.co.kr/n/best')

#### 5. 반복문으로 1위~10위까지 클릭

In [None]:
# 반복문 넣고 1위~10위까지 출력하면 크롤링 완료
# 1. 빈리스트(상품이름, 가격, 카테고리,순위)
# 2. 반복문
# 3. driver.close()
# 4. dictionary 형태로 정리 -> DataFrame화(순위 -> index)

In [120]:
# 이 한셀만 실행해도 크롤링이 자동으로 되도록 코딩
name=[]
price=[]
category=[]
rank=[]
driver = wb.Chrome()

for i in range(1,11):
    # 반복문이 실행될 때마다 페이지 refresh
    driver.get('https://www.gmarket.co.kr/n/best')
    time.sleep(2)
    menu = driver.find_elements(By.CLASS_NAME,'itemname')
    menu[i-1].click() # 상품 1위부터 10위까지 클릭
    time.sleep(2)

    soup = bs(driver.page_source,'lxml') # 상품 상세 페이지 객체화

    iname= soup.select_one('h1.itemtit')
    name.append(iname.text) # 상품명 수집
    iprice= soup.select_one('strong.price_real')
    price.append(iprice.text) # 상품가격 수집
    icategory= soup.select_one('li.on>a')
    category.append(icategory.text) # 카테고리 수집
    rank.append(i) # 순위 수집(1~10위)
        
driver.close() #크롬드라이버 종료


#### 6. 상품명, 상품가격, 카테고리라는 key값으로 딕셔너리 생성

In [122]:
dic = {'상품명': name,
       '상품가격':price,
       '카테고리':category} 

#### 7. 데이터프레임 생성 후 csv파일로 변환

In [130]:
gmarket = pd.DataFrame(dic, index=rank)
gmarket

Unnamed: 0,상품명,상품가격,카테고리
1,(클럽 위크전용 쿠폰적용가 6천원) 메가박스 일반예매권 2D주중/주말,"15,000원",메가박스
2,10%+5% 나이키 뉴발란스 스우시 6팩 크루삭스 운동 스포츠양말,"14,900원",골프양말
3,((쿠폰가:12870원))1+1 든든한 퀄리티 캡커버 장우산 양산 ZH001,"14,300원",장우산
4,통영 자연산 대왕 바다장어 1kg (1kg에 2-3미/ 당일 조업 당일 손질/ 산지...,"19,900원",장어
5,섬유유연제 3100ml x2개+2300mlx3개(향선택)+시그300mlx2개/특가1...,"17,900원",섬유유연제
6,(오플닷컴) 스트라다 단열 스테인레스 스틸 쉐이커 보틀 보냉 텀블러 화이트 710 ...,"24,900원",헬스보충제
7,HACCP인증/국내산 물김치 (얼갈이+열무)2kg/쿠폰가13320원,"14,800원",기타김치
8,한정11.9만 Orthomol(오쏘몰) Immun 이뮨 (정제+드링크) 1+1 무료배송,"143,300원",비타민
9,(최종가 13900원) 초대형 장우산 1+1 자동 튼튼한 골프 의전 우산 둘레 15...,"17,400원",장우산
10,특가 K6 기계식 유/무선 키보드 (한글자판) 블루투스5.0 RGB라이트 100키 ...,"37,800원",키보드


In [129]:
gmarket.to_csv('Gmarket상품정보.csv',encoding='euc-kr')