# 6-4. 쇼핑몰 상품목록 수집
> 페이지 번호를 이동하면서 수집하기

http://itproject.ezenac.co.kr/springmyshop/product/best 에서 특정 상품을 검색 후 모든 페이지에 대한 상품 목록을 출력하여 엑셀로 저장하시오.
단, 상품 정보의 모든 페이지를 반복적으로 수집해야 합니다.
> ex) 팬츠에 대한 검색결과가 7페이지인 경우 7페이지에 대한 모든 데이터 수집

# #01. 필요한 모듈 참조

In [1]:
import requests      # -> 웹 페이지 요청 모듈
import urllib        # -> URLEncoding을 위한 모듈
from bs4 import BeautifulSoup
from pandas import DataFrame

# #02. 수집 준비
## 1) 접속을 수행하기 위한 session 객체 생성

In [2]:
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36"
session= requests.Session()
session.headers.update({'User-agent':user_agent, 'referer':None})

## 2) 접근할 페이지 주소
### 필요한 변수들 정의

In [3]:
keyword = "팬츠"

### 기본 URL
브라우저에 표시되는 검색결과 URL에서 `?` 전까지만 지정

In [4]:
base_url = "http://itproject.ezenac.co.kr/springmyshop/product/best"

### 파라미터 구조
2페이지부터 3~4페이지 정도 직접 이동하여 주소를 확인한 후 패턴을 찾는다.
> page=1&keyword=검색어

In [5]:
base_param = {'page' : 1, 'keyword' : keyword}
base_param

{'page': 1, 'keyword': '팬츠'}

# #03. 반복 수행으로 데이터 수집하기
개별 상품 정보들을 딕셔너리 형태로 수집한 다음 미리 준비한 빈 리스트에 추가한다.

In [7]:
# 수집 결과를 누적할 빈 리스트
data_list = []

base_param['page']=1

#직접 접속하기 전까지는 검색결과가 몇 페이지인지 모르는 상태
while True:
    #--------------------------------------------------
    # 1) 접속할 주소 준비하기
    #--------------------------------------------------
    # URL Encoding
    query = urllib.parse.urlencode(base_param)
    
    # 접속할 주소 확정
    content_url = base_url+'?'+query
    print(content_url)
    #break
    
    #--------------------------------------------------
    # 2) 페이지에 접속하기
    #--------------------------------------------------
    r = session.get(content_url)
    
    # 접속 실패 시 다음 항목으로 반복문 제어 이동
    if r.status_code != 200:
        print("%d Error가 발생했습니다." % r.status_code)
        continue
    
    r.encoding='utf-8' # 컨텐츠의 인코딩 형식 설정
    
    # 웹 페이지의 소스코드 HTML 분석 객체로 생성
    soup = BeautifulSoup(r.text, 'html.parser')
    #break
    
    #--------------------------------------------------
    # 3) 상품정보 추출
    #--------------------------------------------------
    product_item = soup.select('.product-item')
    
    # 상품 수만큼 반복
    for item in product_item:
        #상품명
        name=item.select('h3')
        name=name[0].text.strip()
        print(name)
        
        #상품가격
        price = item.select('.price')
        price_str = price[0].text.strip()
        
        #정가와 할인가가 나누어져 있는 경우
        if price_str.count('원') == 2:
            origin_price = price[0].select('.cancel-price')[0].text.strip()
            sale_price = price[0].select('.sale-price')[0].text.strip()
        # 정가만 있는 경우
        else :
            origin_price = price_str
            sale_price = None
            
        # 가격 문자열에서 불필요한 글자와 공백을 제거 후 정수로 변환
        origin_price = int(origin_price.replace('원', '').replace(',','').strip())
        
        if sale_price:
            sale_price = int(sale_price.replace('원', '').replace(',','').strip())
            
        print('정가 : %s, 할인가 : %s' % (origin_price, sale_price))
        
        # 상품설명
        desc = item.select('.desc')[0].text.strip()
        
        product_dic = { '상품명' : name,
                       '정가' : origin_price,
                       '할인가' : sale_price,
                       '설명' : desc  }
        #print(product_dic)
        
        # 상품 개별 정보를 리스트에 병합
        data_list.append(product_dic)
        
    #--------------------------------------------------
    # 4) 전체 페이지 수를 가져와서 반복 실행 여부 판단하기
    #--------------------------------------------------
    text_muted = soup.select('.text-muted')
    # -> (1/7Pages.)
    page_info = text_muted[0].text.strip()
    p = page_info.find('/')
    max_page = int(page_info[p+1:-7])
    
    # 페이지 번호 1 증가
    base_param['page'] += 1
    
    # 원하는 조건이 성립한 경우 처리 중단
    if base_param['page'] > max_page:
        break

http://itproject.ezenac.co.kr/springmyshop/product/best?page=1&keyword=%ED%8C%AC%EC%B8%A0
블린체휘트니스팬츠
정가 : 25900, 할인가 : None
플러튼휘트니스팬츠
정가 : 25900, 할인가 : None
메이건7부트레이닝팬츠
정가 : 15900, 할인가 : None
루더스휘트니스치마팬츠
정가 : 19900, 할인가 : None
론사선트레이닝팬츠
정가 : 21900, 할인가 : 13140
페버휘트니스팬츠
정가 : 19900, 할인가 : None
치크네온트레이닝팬츠
정가 : 17900, 할인가 : None
바루스휘트니스팬츠
정가 : 19900, 할인가 : None
베이브 휘트니스팬츠
정가 : 29900, 할인가 : None
네듀휘트니스팬츠
정가 : 19900, 할인가 : None
데로피트니스팬츠
정가 : 19900, 할인가 : None
퓨어코 휘트니스팬츠
정가 : 29900, 할인가 : None
발링휘트니스팬츠
정가 : 19900, 할인가 : None
미네추트레이닝팬츠
정가 : 23900, 할인가 : 16730
엘샤드 휘트니스팬츠
정가 : 19800, 할인가 : None
퍼드 트레이닝팬츠
정가 : 18800, 할인가 : None
이엔트레이닝팬츠
정가 : 16900, 할인가 : None
카엘린 트레이닝팬츠
정가 : 14900, 할인가 : None
점핑트레이닝팬츠
정가 : 14900, 할인가 : None
말리아휘트니스팬츠
정가 : 16900, 할인가 : None
로미슈 휘트니스팬츠
정가 : 18900, 할인가 : None
유키라 휘트니스팬츠
정가 : 17900, 할인가 : None
시글리 휘트니스팬츠
정가 : 19900, 할인가 : None
리틀팜 휘트니스팬츠
정가 : 17900, 할인가 : None
힙V피트니스팬츠
정가 : 19900, 할인가 : None
벤슬러 휘트니스팬츠
정가 : 16000, 할인가 : None
알리트 휘트니스팬츠
정가 : 15800, 할인가 : None
올트 트레이닝팬츠

# #04. 수집 결과를 데이터 프레임으로 변환

In [9]:
df = DataFrame(data_list)
df

Unnamed: 0,상품명,정가,할인가,설명
0,블린체휘트니스팬츠,25900,,★휘트니스룩★텐션좋은 쫀쫀한 스판기에 기능성원단으로 부담없이 입기 좋은 휘트니스 팬...
1,플러튼휘트니스팬츠,25900,,다리 라인을 매끄럽게 정리해주는 쫀쫀한 신축성에 아랫배까지 잡아주는 긴 밑위기장으로...
2,메이건7부트레이닝팬츠,15900,,★휘트니스룩★ 곡선 옆라인이 바디라인을 더욱 날씬하게! 쫀쫀한 허리밴딩이 아랫배를 ...
3,루더스휘트니스치마팬츠,19900,,스커트가 레이어드된 피트니스팬츠입니다. 배색라인 포인트와 쫀쫀한 텐션으로 다리라인을...
4,론사선트레이닝팬츠,21900,13140.0,★휘트니스룩★옆라인 사선 배색 포인트로 더욱 얇아보이는 다리라인으로 만들어준답니당 ...
...,...,...,...,...
240,헬로디밴딩팬츠,9900,8910.0,신축성 좋은 허리밴딩으로 편안하게~ 9가지 다양한 컬러로 넓은 초이스~ one si...
241,코븐 4부데님팬츠,16800,,은은한 워싱디자인과 밑단 컷팅스타일로 빈티지하게! size(S~XXL)
242,[인싸팬츠12탄]레트로 플라워 패턴팬츠,36800,33120.0,찰랑찰랑 시원한 느낌의 패턴 소재로 편안한 밴딩 팬츠 아이템! FREE(44~66)
243,러뷰드 린넨와이드팬츠,49800,44820.0,★자체제작 + 루즈핏★ 허리는밴딩으로 편안하게~ 입어주면 우아한 룩으로 완성시켜주는...


# #05. 데이터프레임을 엑셀로 저장

In [10]:
df.to_excel('상품정보(%s).xlsx' % keyword, index=False)