# 나이키 신상정보

In [1]:
# 나이키 신발 신상 정보
# nike.co.kr
# NEW RELEASE - NEW FOR MAN - 신발

# 스크롤 페이징이 구현되어 있슴을 확인하자
# '개발자 도구' 에서 각 페이지마다 '어떠한 URL' 로 '무엇'을 request-response 하는지 확인하자.

# 최신 n 페이지의 '제품명', '가격', '페이지 url' 을 크롤링 하기
# 여러 페이징한 내용을 합쳐서, 가격별 정렬하고
# 그 결과물을  엑셀 저장하기



In [2]:
import requests
from bs4 import BeautifulSoup

In [None]:
# https://www.nike.com/kr/ko_kr/w/new/fw/xc/new-mens-shoes?page=6&pageSize=40&lineSize=5&_=1590408213867

In [3]:
url = "https://www.nike.com/kr/ko_kr/w/new/fw/xc/new-mens-shoes?page=6&pageSize=40&lineSize=5&_=1590408213867"

In [4]:
headers = {
    "user-agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.1"
}

In [5]:
response = requests.get(url, headers=headers)
response

<Response [200]>

In [6]:
dom = BeautifulSoup(response.text, "html.parser")

In [7]:
item_list = dom.select("div.item-list-wrap div.a-product")
len(item_list)

40

In [8]:
# 제품이름
item_list[0].select_one("div.product-info span.item-title").text.strip()

'조던 에어 래티튜드 720'

In [10]:
# 제품 가격
item_list[0].select_one("div.product-price p.product-display-price").text.strip()

'219,000 원'

In [13]:
# url
item_url = item_list[0].select_one("div.a-product-image a.a-product-image-link").attrs['href']
print('https://www.nike.com/' + item_url)

https://www.nike.com//kr/ko_kr/t/women/fw/nike-sportswear/AV5187-006/cfyq57/wmns-jordan-air-latitude-720


## 가격에서 숫자만 추출하기
'219,000 원' -> 219000

#### 방법1: for 사용

In [17]:
s = '219,000 원'
int(''.join([
    ch
    for ch in s
    if '0' <= ch <= '9'
]))

219000

#### 방법2: join, filter 사용

In [22]:
s = '219,000 원'
int("".join(list(filter(str.isdigit, s))))

219000

In [20]:
"5".isdigit()

True

#### 방법3: 정규표현식 사용

In [24]:
import re
s = '219,000 원'
string = re.sub('[^0-9]', '', s)
int(string)


219000

## 한페이지 크롤링 하는 함수 만들기

In [25]:
def nike_page(page = 1):
    url = f'https://www.nike.com/kr/ko_kr/w/new/fw/xc/new-mens-shoes?page={page}&pageSize=40&lineSize=5&_=1590408213867'
    
    headers = {
        "user-agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.1"
    }
    
    response = requests.get(url, headers=headers)
    dom = BeautifulSoup(response.text, "html.parser")
    item_list = dom.select("div.item-list-wrap div.a-product")
    result = [
        {
            "title" : item.select_one("div.product-info span.item-title").text.strip(),
            "price" : int(re.sub('[^0-9]', '', item.select_one("div.product-price p.product-display-price").text.strip())),
            "url" : 'https://www.nike.com/' + item.select_one("div.a-product-image a.a-product-image-link").attrs['href']
        }
        for item in item_list
    ]
    return result
    
    
    
    
    

In [26]:
nike_page(2)

[{'title': '나이키 P-6000',
  'price': 119000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/nike-sportswear/CD6404-008/faih50/nike-p-6000'},
 {'title': '나이키 어댑트 오토 맥스',
  'price': 439000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/nike-sportswear/CW7274-002/ccfy54/nike-adapt-auto-max'},
 {'title': '나이키 에어맥스 2090',
  'price': 169000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/nike-sportswear/BV9977-102/szfo59/nike-air-max-2090'},
 {'title': '나이키 에어맥스 2090',
  'price': 169000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/nike-sportswear/BV9977-800/wqiu35/nike-air-max-2090'},
 {'title': '에어 조던 34 로우 PF',
  'price': 199000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/basketball/CU3475-001/poof61/air-jordan-xxxiv-low-pf'},
 {'title': '조던 줌 트루너 어드밴스',
  'price': 129000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/basketball/CJ1494-100/betn15/jordan-trunner-advance'},
 {'title': '나이키 메트콘 5 AMP',
  'price': 169000,
  'url': 'https://www.nike.com//kr/ko_kr/t/adu

## 원하는 페이지 분량만큼 크롤링 하기

In [27]:
result = []
for i in range(4):
    print(i + 1, '페이지 크롤링...')
    page_result = nike_page(i + 1)
    result += page_result
    
result

1 페이지 크롤링...
2 페이지 크롤링...
3 페이지 크롤링...
4 페이지 크롤링...


[{'title': '나이키 에어맥스 97 G',
  'price': 209000,
  'url': 'https://www.nike.com//kr/ko_kr/t/adult-unisex/fw/golf/CI7538-100/fwkt26/air-max-97-g'},
 {'title': 'KD13 EP',
  'price': 179000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/basketball/CI9949-602/oioi12/kd13-ep'},
 {'title': '에어 조던 13 레트로',
  'price': 229000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/basketball/414571-404/uhqs35/air-jordan-13-retro'},
 {'title': '나이키 에어맥스 97 G',
  'price': 209000,
  'url': 'https://www.nike.com//kr/ko_kr/t/adult-unisex/fw/golf/CI7538-002/rdvb58/air-max-97-g'},
 {'title': '에어 조던 3 레트로 SE',
  'price': 299000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/basketball/CV3583-003/uzuy15/air-jordan-3-retro-se'},
 {'title': '나이키 킬샷 OG SP',
  'price': 109000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/nike-sportswear/CU9180-101/offa40/nike-killshot-og-sp'},
 {'title': '나이키 에어맥스 90 20',
  'price': 169000,
  'url': 'https://www.nike.com//kr/ko_kr/t/men/fw/nike-sportswear/CT5066-100/o

# Pandas 에 담기

In [28]:
import pandas as pd

In [29]:
df = pd.DataFrame(result)
df

Unnamed: 0,title,price,url
0,나이키 에어맥스 97 G,209000,https://www.nike.com//kr/ko_kr/t/adult-unisex/...
1,KD13 EP,179000,https://www.nike.com//kr/ko_kr/t/men/fw/basket...
2,에어 조던 13 레트로,229000,https://www.nike.com//kr/ko_kr/t/men/fw/basket...
3,나이키 에어맥스 97 G,209000,https://www.nike.com//kr/ko_kr/t/adult-unisex/...
4,에어 조던 3 레트로 SE,299000,https://www.nike.com//kr/ko_kr/t/men/fw/basket...
...,...,...,...
155,르브론 17,239000,https://www.nike.com//kr/ko_kr/t/men/fw/basket...
156,카이리 6 EP,159000,https://www.nike.com//kr/ko_kr/t/men/fw/basket...
157,줌 프릭 1,139000,https://www.nike.com//kr/ko_kr/t/men/fw/basket...
158,나이키 리액트 메트콘,179000,https://www.nike.com//kr/ko_kr/t/adult-unisex/...


In [31]:
df.columns = ['상품명', '가격', '상세페이지']
df

Unnamed: 0,상품명,가격,상세페이지
0,나이키 에어맥스 97 G,209000,https://www.nike.com//kr/ko_kr/t/adult-unisex/...
1,KD13 EP,179000,https://www.nike.com//kr/ko_kr/t/men/fw/basket...
2,에어 조던 13 레트로,229000,https://www.nike.com//kr/ko_kr/t/men/fw/basket...
3,나이키 에어맥스 97 G,209000,https://www.nike.com//kr/ko_kr/t/adult-unisex/...
4,에어 조던 3 레트로 SE,299000,https://www.nike.com//kr/ko_kr/t/men/fw/basket...
...,...,...,...
155,르브론 17,239000,https://www.nike.com//kr/ko_kr/t/men/fw/basket...
156,카이리 6 EP,159000,https://www.nike.com//kr/ko_kr/t/men/fw/basket...
157,줌 프릭 1,139000,https://www.nike.com//kr/ko_kr/t/men/fw/basket...
158,나이키 리액트 메트콘,179000,https://www.nike.com//kr/ko_kr/t/adult-unisex/...


In [35]:
#df.sort_values(by=['가격'], axis=0)  # 오름차순
df = df.sort_values(by=['가격'], axis=0, ascending=False) # 내림차순 
df

Unnamed: 0,상품명,가격,상세페이지
68,나이키 어댑트 BB 2.0 KR,439000,https://www.nike.com//kr/ko_kr/t/men/fw/basket...
41,나이키 어댑트 오토 맥스,439000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
52,나이키 머큐리얼 슈퍼플라이 7 엘리트 대한민국 FG,349000,https://www.nike.com//kr/ko_kr/t/adult-unisex/...
126,나이키 머큐리얼 베이퍼 13 엘리트 네이마르 FG,329000,https://www.nike.com//kr/ko_kr/t/adult-unisex/...
103,나이키 머큐리얼 슈퍼플라이 7 엘리트 FG,329000,https://www.nike.com//kr/ko_kr/t/adult-unisex/...
...,...,...,...
115,조던 하이드로 8,69000,https://www.nike.com//kr/ko_kr/t/men/fw/basket...
99,나이키 오아시스 샌들,59000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
74,나이키 오아시스 샌들,59000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
143,나이키 베나시 JDI 프린티드 슬라이드,39000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...


In [38]:
# index 를 reset 하기
df = df.reset_index(drop = True)
df.index = df.index + 1   
df

Unnamed: 0,상품명,가격,상세페이지
1,나이키 어댑트 BB 2.0 KR,439000,https://www.nike.com//kr/ko_kr/t/men/fw/basket...
2,나이키 어댑트 오토 맥스,439000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
3,나이키 머큐리얼 슈퍼플라이 7 엘리트 대한민국 FG,349000,https://www.nike.com//kr/ko_kr/t/adult-unisex/...
4,나이키 머큐리얼 베이퍼 13 엘리트 네이마르 FG,329000,https://www.nike.com//kr/ko_kr/t/adult-unisex/...
5,나이키 머큐리얼 슈퍼플라이 7 엘리트 FG,329000,https://www.nike.com//kr/ko_kr/t/adult-unisex/...
...,...,...,...
156,조던 하이드로 8,69000,https://www.nike.com//kr/ko_kr/t/men/fw/basket...
157,나이키 오아시스 샌들,59000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
158,나이키 오아시스 샌들,59000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...
159,나이키 베나시 JDI 프린티드 슬라이드,39000,https://www.nike.com//kr/ko_kr/t/men/fw/nike-s...


### 위 결과 엑셀로 저장

In [39]:
import os
filepath = os.path.join(os.getcwd(), 'out', '나이키신상.xlsx') 
filepath

'D:\\ds2005\\out\\나이키신상.xlsx'

In [40]:
df.to_excel(filepath, encoding='euc-kr')