# 나이키 신발 신상정보

In [1]:
# 나이키 신발 신상 정보
# nike.co.kr
# NEW RELEASE - NEW FOR MAN - 신발

# 스크롤 페이징이 구현되어 있슴을 확인하자
# '개발자 도구' 에서 각 페이지마다 '어떠한 URL' 로 '무엇'을 request-response 하는지 확인하자.

# 최신 n 페이지의 '제품명', '가격', '페이지 url' 을 크롤링 하기
# 여러 페이징한 내용을 합쳐서, 가격별 정렬하고
# 그 결과물을  엑셀 저장하기

In [2]:
import requests
from bs4 import BeautifulSoup

### 스크롤 페이징 분석

In [4]:
# 스크롤 페이징 분석 결과
# text/html 문서로 페이징 response 받는 것을 알수 있다.  (2020.05 현재)
# 게다가 중간중간에 상품이 아닌 이벤트(?) 구매 링크도 삽입되어 있는 형태다 (걸러 내야 한다)

# url 형태
# page 값으로 페이징 한다.
# ex) https://www.nike.com/kr/ko_kr/w/new/fw/xc/new-mens-shoes?page=2&pageSize=40&lineSize=5&_=1590244038313


In [15]:
url = "https://www.nike.com/kr/ko_kr/w/new/fw/xc/new-mens-shoes?page=10&pageSize=40&lineSize=5&_=1592566499718"

In [16]:
# user-agent 값 필요
# 없으면... response 200 이어도 상품 데이터가 없다.
headers = {
    "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36"
}

In [17]:
response = requests.get(url, headers=headers)
response

<Response [200]>

In [18]:
dom = BeautifulSoup(response.text, "html.parser")

In [20]:
items = dom.select("div.item-list-wrap > div")
len(items)
# 41개?   <-- 이벤트 포함.
# 상품만 뽑아내려면 어케 하나?

41

In [21]:
items = dom.select("div.item-list-wrap div.a-product")
len(items)

40

In [26]:
# 제품명
items[0].select_one(".item-title").text

'나이키 프리 런 플라이니트 3.0 2020'

In [27]:
# 가격
items[0].select_one(".product-display-price").text

'149,000 원'

In [29]:
# URL
item_url = items[0].select_one(".a-product-image-link").attrs['href']
item_url
'https://www.nike.com/' + item_url

'https://www.nike.com//kr/ko_kr/t/men/fw/running/CJ0266-400/nnwt85/nike-free-rn-flyknit-30-2020'

## 가격에서 숫자만 추출

In [31]:
s = '189,000 원'

In [34]:
int(s.replace(',', '')[:-2])

189000

#### 정규표현식 사용

In [35]:
import re
re.sub('[^0-9]', '', s)   # 숫자가 아닌 것들을 '' 치환 

'189000'

In [36]:
aa = 'asjk123dlfh1254asd870ue3as5jkd'
re.sub('[^0-9]', '', aa)

'123125487035'

# 한 페이지 크롤링, 함수로 만들기

In [40]:
def nike_page(page = 1):
    url = f"https://www.nike.com/kr/ko_kr/w/new/fw/xc/new-mens-shoes?page={page}&pageSize=40&lineSize=5&_=1592566499718"
    headers = {
        "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36"
    }
    response = requests.get(url, headers=headers)
    dom = BeautifulSoup(response.text, 'html.parser')
    item_list = dom.select('div.item-list-wrap div.a-product')
    result = [
        {
            'title' : item.select_one('.item-title').text.strip(),
            'price' : int(re.sub('[^0-9]', '', item.select_one('.product-display-price').text.strip())),
            'url' : 'https://www.nike.com/' + item.select_one('.a-product-image-link').attrs['href']
        }
        for item in item_list
    ]
    return result


nike_page(2)
    
    

[{'title': '나이키 에어 모나크 4',
  'price': 79000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/men-training/415445-102/M3I1Nb/air-monarch-iv'},
 {'title': '나이키 에어맥스 95',
  'price': 209000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/nike-sportswear/CJ0589-001/frmc20/air-max-95-qs'},
 {'title': '나이키 에어맥스 95 ERA',
  'price': 219000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/nike-sportswear/CZ9723-100/psjb52/air-max-95-era'},
 {'title': '나이키 에어맥스 알파 TR 3',
  'price': 99000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/men-training/CJ8058-001/yype52/nike-air-max-alpha-trainer-3'},
 {'title': '나이키 슈퍼렙 사이클',
  'price': 139000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/men-training/CW2191-008/dlyf28/m-nike-superrep-cycle'},
 {'title': '나이키 슈퍼렙 사이클',
  'price': 139000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/men-training/CW2191-100/wclh64/m-nike-superrep-cycle'},
 {'title': '나이키\xa0슈퍼렙 고',
  'price': 119000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw

## 원하는 페이지 분량만큼 가져오기

In [43]:
result = []
for i in range(4):
    print(i + 1, '페이지 크롤링..')
    result += nike_page(i + 1)
    
len(result)

1 페이지 크롤링..
2 페이지 크롤링..
3 페이지 크롤링..
4 페이지 크롤링..


160

In [44]:
result

[{'title': '나이키 챌린저 OG',
  'price': 109000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/nike-sportswear/CW7645-003/dbaf90/nike-challenger-og'},
 {'title': '나이키 SB 차지 캔버스',
  'price': 69000,
  'url': 'https://www.nike.com//kr/ko_kr/t/women/fw/action-outdoor/CN5269-102/khpu31/wmns-nike-sb-charge-cnvs'},
 {'title': '나이키 에어 베이퍼맥스 360',
  'price': 259000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/nike-sportswear/CK9671-100/yhwt15/nike-air-vapormax-360'},
 {'title': '나이키 드롭-타입',
  'price': 89000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/nike-sportswear/CQ0989-102/ldvc73/nike-drop-type-hbr'},
 {'title': '나이키 MX-720-818 WW',
  'price': 229000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/nike-sportswear/CT1282-100/zkyu12/nike-mx-720-818-ww'},
 {'title': '나이키 어댑트 오토 맥스',
  'price': 439000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/nike-sportswear/CW7274-001/sydl98/nike-adapt-auto-max'},
 {'title': '나이키 에어 테일윈드 79',
  'price': 109000,
  'url': 'https://www.nik

# Pandas (DataFrame) 에 담기

In [45]:
import pandas as pd

In [46]:
df = pd.DataFrame(result)
df

Unnamed: 0,title,price,url
0,나이키 챌린저 OG,109000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
1,나이키 SB 차지 캔버스,69000,https://www.nike.com//kr/ko_kr/t/women/fw/acti...
2,나이키 에어 베이퍼맥스 360,259000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
3,나이키 드롭-타입,89000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
4,나이키 MX-720-818 WW,229000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
...,...,...,...
155,나이키 에어맥스 270 리액트,179000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
156,나이키 에어맥스 200,139000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
157,나이키 블레이저 미드 '77 빈티지,119000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
158,나이키 MX-720-818,229000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...


In [47]:
df.columns = ['상품명', '가격', '상세페이지']
df

Unnamed: 0,상품명,가격,상세페이지
0,나이키 챌린저 OG,109000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
1,나이키 SB 차지 캔버스,69000,https://www.nike.com//kr/ko_kr/t/women/fw/acti...
2,나이키 에어 베이퍼맥스 360,259000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
3,나이키 드롭-타입,89000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
4,나이키 MX-720-818 WW,229000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
...,...,...,...
155,나이키 에어맥스 270 리액트,179000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
156,나이키 에어맥스 200,139000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
157,나이키 블레이저 미드 '77 빈티지,119000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
158,나이키 MX-720-818,229000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...


In [49]:
#df.sort_values(by=['가격'], axis=0)  # 오름 차순
df.sort_values(by=['가격'], axis=0, ascending=False)  # 내림차순 

Unnamed: 0,상품명,가격,상세페이지
132,나이키 어댑트 BB 2.0 KR,439000,https://www.nike.com//kr/ko_kr/t/men/fw/basket...
105,나이키 어댑트 오토 맥스,439000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
5,나이키 어댑트 오토 맥스,439000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
16,나이키 어댑트 BB 2.0 KR,439000,https://www.nike.com//kr/ko_kr/t/men/fw/basket...
117,나이키 머큐리얼 슈퍼플라이 7 엘리트 대한민국 FG,349000,https://www.nike.com//kr/ko_kr/t/adult-unisex/...
...,...,...,...
20,조던 하이드로 8,69000,https://www.nike.com//kr/ko_kr/t/men/fw/basket...
1,나이키 SB 차지 캔버스,69000,https://www.nike.com//kr/ko_kr/t/women/fw/acti...
138,나이키 오아시스 샌들,59000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
24,나이키 베나시 JDI 슬라이드,39000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...


In [52]:
# 가격정렬후 index 값 reset 하고 1부터 시작하기

df.sort_values(by=['가격'], axis=0, ascending=False) # 내림차순
df = df.reset_index(drop=True)
df.index += 1  # 인덱스 1부터 시작하기
df



Unnamed: 0,상품명,가격,상세페이지
1,나이키 챌린저 OG,109000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
2,나이키 SB 차지 캔버스,69000,https://www.nike.com//kr/ko_kr/t/women/fw/acti...
3,나이키 에어 베이퍼맥스 360,259000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
4,나이키 드롭-타입,89000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
5,나이키 MX-720-818 WW,229000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
...,...,...,...
156,나이키 에어맥스 270 리액트,179000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
157,나이키 에어맥스 200,139000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
158,나이키 블레이저 미드 '77 빈티지,119000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
159,나이키 MX-720-818,229000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
