## Crawling & Crawing

### 1. 실전 예제: 크롤링
* 이커머스(지마켓) 베스트100 상품 타이틀/가격 추출하기

In [None]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://corners.gmarket.co.kr/Bestsellers?viewType=G&groupCode=G06')
soup = BeautifulSoup(res.content, 'html.parser')
bestlists = soup.select('div.best-list')
bestitems = bestlists[1]
products = bestitems.select('ul > li')

for index, product in enumerate(products):
    title = product.select_one('a.itemname')
    price = product.select_one('div.s-price > strong')
    print (title.get_text(), price.get_text(), title['href'])

### 2. 실전 예제: 크롤링 & 크롤링
* 이커머스(지마켓) 베스트100 상품 타이틀/가격, 그리고 판매업체 추출하기

In [None]:
import requests
from bs4 import BeautifulSoup

import re                          # 2020.07.25 업데이트 (지마켓 일부 상품 태그 변경, 공지사항 참조부탁드림)
link_re = re.compile('^http://')   # 2020.07.25 업데이트 (지마켓 일부 상품 태그 변경, 공지사항 참조부탁드림)

res = requests.get('http://corners.gmarket.co.kr/Bestsellers?viewType=G&groupCode=G06')
soup = BeautifulSoup(res.content, 'html.parser')
bestlists = soup.select('div.best-list')
bestitems = bestlists[1]
products = bestitems.select('ul > li')

for index, product in enumerate(products):
    title = product.select_one('a.itemname')
    price = product.select_one('div.s-price > strong')
    if link_re.match(title['href']):                  # 2020.07.25 업데이트 (지마켓 일부 상품 태그 변경, 공지사항 참조부탁드림)
        res_info = requests.get(title['href'])
        soup_info = BeautifulSoup(res_info.content, 'html.parser')
        provider_info = soup_info.select_one('div.item-topinfo > div.item-topinfo_headline > p > a > strong')
        print (title.get_text(), price.get_text(), title['href'], provider_info.get_text())

### 3. 실전 예제: 크롤링 & 크롤링 + 엑셀
* 이커머스(지마켓) 베스트100 상품 타이틀/가격, 그리고 판매업체 추출하기

In [3]:
import requests, openpyxl
from bs4 import BeautifulSoup

import re                          # 2020.07.25 업데이트 (지마켓 일부 상품 태그 변경, 공지사항 참조부탁드림)
link_re = re.compile('^http://')   # 2020.07.25 업데이트 (지마켓 일부 상품 태그 변경, 공지사항 참조부탁드림)

excel_file = openpyxl.Workbook()
excel_sheet = excel_file.active
excel_sheet.append(['랭킹', '상품명', '판매가격', '상품상세링크', '판매업체'])
excel_sheet.column_dimensions['B'].width = 80
excel_sheet.column_dimensions['C'].width = 20
excel_sheet.column_dimensions['D'].width = 80
excel_sheet.column_dimensions['E'].width = 20

res = requests.get('http://corners.gmarket.co.kr/Bestsellers?viewType=G&groupCode=G06')
soup = BeautifulSoup(res.content, 'html.parser')

bestlists = soup.select('div.best-list')
bestitems = bestlists[1]
products = bestitems.select('ul > li')

for index, product in enumerate(products):
    title = product.select_one('a.itemname')
    price = product.select_one('div.s-price > strong')
    if link_re.match(title['href']):             # 2020.07.25 업데이트 (지마켓 일부 상품 태그 변경, 공지사항 참조부탁드림)
        res_info = requests.get(title['href'])
        soup_info = BeautifulSoup(res_info.content, 'html.parser')
        provider_info = soup_info.select_one('div.item-topinfo > div.item-topinfo_headline > p > a > strong')
        print(index + 1, title.get_text(), price.get_text(), title['href'], provider_info.get_text())
        excel_sheet.append([index + 1, title.get_text(), price.get_text(), title['href'], provider_info.get_text()])
        excel_sheet.cell(row=index+2 , column=4).hyperlink = title['href']


cell_A1 = excel_sheet['A1'] # 셀 선택하기
cell_A1.alignment = openpyxl.styles.Alignment(horizontal='center') # 중앙정렬하기
cell_A1.font = openpyxl.styles.Font(color="01579B") # 폰트 색깔 바꾸기
# 색상값 찾기: https://material.io/design/color/#tools-for-picking-colors

cell_B1 = excel_sheet['B1'] # 셀 선택하기
cell_B1.alignment = openpyxl.styles.Alignment(horizontal='center') # 중앙정렬하기
cell_B1.font = openpyxl.styles.Font(color="01579B") # 폰트 색깔 바꾸기
# 색상값 찾기: https://material.io/design/color/#tools-for-picking-colors

cell_C1 = excel_sheet['C1'] # 셀 선택하기
cell_C1.alignment = openpyxl.styles.Alignment(horizontal='center') # 중앙정렬하기
cell_C1.font = openpyxl.styles.Font(color="01579B") # 폰트 색깔 바꾸기
# 색상값 찾기: https://material.io/design/color/#tools-for-picking-colors

cell_D1 = excel_sheet['D1'] # 셀 선택하기
cell_D1.alignment = openpyxl.styles.Alignment(horizontal='center') # 중앙정렬하기
cell_D1.font = openpyxl.styles.Font(color="01579B") # 폰트 색깔 바꾸기
# 색상값 찾기: https://material.io/design/color/#tools-for-picking-colors

cell_E1 = excel_sheet['E1'] # 셀 선택하기
cell_E1.alignment = openpyxl.styles.Alignment(horizontal='center') # 중앙정렬하기
cell_E1.font = openpyxl.styles.Font(color="01579B") # 폰트 색깔 바꾸기
# 색상값 찾기: https://material.io/design/color/#tools-for-picking-colors

excel_file.save('BESTPRODUCT_COM_GMARKET.xlsx')
excel_file.close()

1 [갤럭시]3in1 동시 멀티 충전케이블 5핀/8핀/C타입 1+1 2개 4,900원 http://item.gmarket.co.kr/Item?goodscode=1672984317&ver=637313140659489502 제로큐브
2 [비달사순]비달사순 2000W 전문가용 헤어드라이기 VSD5129K 20,900원 http://item.gmarket.co.kr/Item?goodscode=1807976048&ver=637313140659489502 스마일배송
3 [뽀송]위닉스 제습기 {DN2H160-IWK} 16리터 1등급 위닉스뽀송 380,000원 http://item.gmarket.co.kr/Item?goodscode=1549874538&ver=637313140659489502 위닉스샵
4 [에브리봇]로봇청소기 3i 흡입+물걸레 청소 겸용 419,000원 http://item.gmarket.co.kr/Item?goodscode=1821389418&ver=637313140659489502 스마일배송
5 [샤오미]샤오미 미밴드5  정품 블랙 /글로벌버전/공식파트너 38,500원 http://item.gmarket.co.kr/Item?goodscode=1844656883&ver=637313140659489502 샤오미공식파트너
6 [애플][Apple]  애플 정품 에어팟 프로 MWP22KH/A 281,450원 http://item.gmarket.co.kr/Item?goodscode=1849784457&ver=637313140659489502 신세계몰
7 샤오미 미지아 구강 세정기 4개노즐 200ml물탱크 34,900원 http://item.gmarket.co.kr/Item?goodscode=1755007388&ver=637313140659489502 MC해외직구샵
8 램프쿡 자동회전냄비 세트 99,000원 http://item.gmarket.co.kr/Item?goodscode=1823402686&ver=637313140659489502 홈앤쇼핑
9 [삼성전자]SM

65 [쿠첸]전기압력밥솥 6인용 CJS-FA0601V 음성안내 / 뚜껑분리 119,300원 http://item.gmarket.co.kr/Item?goodscode=1833619642&ver=637313140659499503 스마일배송
66 [네스카페]돌체구스토캡슐 아메리카노 돌체구스토 캡슐커피 7,600원 http://item.gmarket.co.kr/Item?goodscode=1621438212&ver=637313140659499503 CoCo BeBe
67 [네고]강화유리 갤럭시S20 노트10 9 S10 아이폰11프로맥스XS 14,900원 http://item.gmarket.co.kr/Item?goodscode=637253436&ver=637313140659509504 네고네고
68 [일렉트로룩스]에르고라피도 18V 무선청소기 ZB3113AK + 4종 노즐 168,160원 http://item.gmarket.co.kr/Item?goodscode=1825919007&ver=637313140659509504 스마일배송
69 [로지텍]로지텍G G102 2세대 LIGHTSYNC 마우스 벌크 병행 22,120원 http://item.gmarket.co.kr/Item?goodscode=1807758456&ver=637313140659509504 pcgamemall
70 샤오미 미밴드4 한글판 정품 31,080원 http://item.gmarket.co.kr/Item?goodscode=1835503835&ver=637313140659509504 엑슬비젼
71 카카오 갤럭시S20 노트10 S9 S8 플러스 아이폰11 PRO 9,900원 http://item.gmarket.co.kr/Item?goodscode=1536522634&ver=637313140659509504 아이컬러즈
72 [LG TV] [1등급][75] LG 울트라 HD TV 189CM (75UN7850KNA) 2,390,000원 http://item.gmarket.co.kr/Item?goodscode=18