#  스크레핑(== 크롤링)

## 1. selenium 의 사용
### 마우스를 통한 클릭기능 처럼 구현하기 위해 활용 

In [346]:
from selenium import webdriver

### 모듈 설치를 위한 명령어

한번 설치하면 다음에 설치하지 않아도 되기 때문에
주석으로 처리한다.

In [347]:
# pip install selenium
# pip install beautifulsoup4
# pip install pandas

### 현재 디렉토리에 웹드라이버 사용하기 위한 파일이 있는지 확인

리눅스 환경에서 확인할때 쓰는 명령어이다.

In [348]:
!dir .\chromedriver.exe

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: FCCC-D050

 C:\PycharmProject\scrapping\practice 디렉터리

2021-09-09  오전 09:12        11,177,472 chromedriver.exe
               1개 파일          11,177,472 바이트
               0개 디렉터리  80,676,069,376 바이트 남음


### webdriver의 Chrome을 사용하기 위해 browser변수로 담아 사용한다.

In [349]:
browser = webdriver.Chrome('./chromedriver.exe')

### 주소창에 url을 입력해 이동하는 것과 같은 방식

In [372]:
browser.get('https://www.coupang.com/np/categories/393760')

WebDriverException: Message: chrome not reachable
  (Session info: chrome=93.0.4577.63)


## 2. BeautifulSoup의 사용

### 홈페이지 내 '데이터'를 추출할 수 있도록 HTML 테그들을 Parser를 활용하여 파이썬 객체로 만들어 제공해준다

In [351]:
from bs4 import BeautifulSoup

In [352]:
soup = BeautifulSoup(browser.page_source,'html.parser')

### 쿠팡에서 저장하고 싶은 데이터 부분을 가지고 있는 단락을 선택한다

ul.baby-product-list

In [370]:
pages = soup.select('ul.baby-product-wrap')

In [371]:
pages[0]

IndexError: list index out of range

### 저장하고 싶은 부분을 확인한다.

div.name == 상품명, 단위 , 몇개

strong.price-value == 금액

In [355]:
page = pages[0]

In [356]:
part = page.select('dl.baby-product-wrap')
len(part)

60

In [357]:
title = page.select('div.name')[0].text.strip()

title

'제주 해어람세트 (냉동), 1.19kg, 1세트'

In [358]:
price = page.select('strong.price-value')[0].text.strip()

price

'75,000'

In [359]:
gram = page.select('span.unit-price')[0].text.strip()
gram

'(1세트당 45,900원)'

In [360]:
cupang = []
for page in part :
    title = page.select('div.name')[0].text.strip()
    price = page.select('strong.price-value')[0].text.strip()
    cupang.append([title, price])

In [361]:
cupang

[['제주 해어람세트 (냉동), 1.19kg, 1세트', '75,000'],
 ['치즈 & 하몽 선물세트, 1세트', '45,900'],
 ['다향오리 1등급 훈제 오리 슬라이스, 600g, 1개', '10,990'],
 ['올프레쉬 프리미엄 사과 560g + 배 960g 선물세트 1호, 1.52kg, 1세트', '32,500'],
 ['한입 햇 밤고구마, 500g, 1봉', '3,980'],
 ['셰프초이스 춘천식닭갈비 (냉장), 1kg, 1개', '12,900'],
 ['곰곰 납작한 떡갈비 (냉동), 1000g, 1개', '8,780'],
 ['풀무원 한끼 연두부 + 오리엔탈 유자 소스 6개입, 110g, 1세트', '7,500'],
 ['동원 라이트 스탠다드 참치, 85g, 12개', '15,480'],
 ['올프레쉬 프리미엄 배 선물세트, 1.9kg(4입), 1세트', '32,000'],
 ['감동란 반숙계란 15구, 750g, 1개', '11,400'],
 ['사조 명품 김밥재료 5종 세트, 520g, 1세트', '5,680'],
 ['하림 치킨너겟 (냉동), 1200g, 1개', '12,500'],
 ['엑셀컷 미국산 프리미엄 스테이크 2호 세트 1.2kg (냉장), 1세트', '64,900'],
 ['다미원씨푸드 영광 법성포 명품 참굴비 (냉동), 1.6kg(10미), 1개', '355,000'],
 ['엑셀컷 미국산 프리미엄 스테이크 1호 세트 1.2kg (냉장), 1세트', '79,900'],
 ['삼원가든 양념 꽃살 + 불고기 혼합세트 1700g (냉동), 1세트', '96,480'],
 ['경복궁 명품 소양념 본갈비 (냉동), 1000g, 2개', '170,000'],
 ['곰곰 납작지짐만두 1350g (냉동), 1개', '8,780'],
 ['마이셰프 장흥 버섯 담은 삼합 850g + 선물가방 세트 (냉동), 1세트', '65,900'],
 ['삼진어묵 옛날모듬어묵, 1004g, 1개', '11,480'],
 ['영광법성포 황제 굴비 세트

In [362]:
import pandas as pd

In [363]:
df = pd.DataFrame(cupang,columns = ['title','price'])

df

Unnamed: 0,title,price
0,"제주 해어람세트 (냉동), 1.19kg, 1세트",75000
1,"치즈 & 하몽 선물세트, 1세트",45900
2,"다향오리 1등급 훈제 오리 슬라이스, 600g, 1개",10990
3,"올프레쉬 프리미엄 사과 560g + 배 960g 선물세트 1호, 1.52kg, 1세트",32500
4,"한입 햇 밤고구마, 500g, 1봉",3980
5,"셰프초이스 춘천식닭갈비 (냉장), 1kg, 1개",12900
6,"곰곰 납작한 떡갈비 (냉동), 1000g, 1개",8780
7,"풀무원 한끼 연두부 + 오리엔탈 유자 소스 6개입, 110g, 1세트",7500
8,"동원 라이트 스탠다드 참치, 85g, 12개",15480
9,"올프레쉬 프리미엄 배 선물세트, 1.9kg(4입), 1세트",32000


In [366]:
df.to_excel('./cupang_data.xlsx', index=False)