In [3]:
from requests import request
from requests.compat import *
from bs4 import BeautifulSoup
from user_agent import generate_user_agent
import pandas as pd
import math

def makePageDF(category_id, page_id):
    url = 'https://search.shopping.naver.com/search/category/' + str(category_id)
    params = {
        'pagingIndex' : str(page_id),
        'pagingSize' : '80',
        'productSet' : 'model'
    }
    headers = {'User-Agent':generate_user_agent(os =('mac', 'linux'),device_type='desktop')}
    resp = request('GET',url=url, params=params, headers=headers)
    dom = BeautifulSoup(resp.text, 'html.parser')
    script_tag = dom.find("script", {"id": "__NEXT_DATA__"})
    data = json.loads(script_tag.text)
    itemList = data['props']['pageProps']['initialState']['products']
    
    # 각 상품의 정보를 저장할 리스트를 생성합니다.
    products_info = []

    for item in itemList['list'][:80]:

        attributes_dict = dict()
        # 'attributeValue'와 'characterValue' 문자열을 리스트로 분리합니다.
        attribute_values = item['item']['attributeValue'].split('|')
        character_values = item['item']['characterValue'].split('|')

        # 'attributeValue' 리스트의 각 요소에서 '_M' 문자열을 제거합니다.
        attribute_values = [value.replace('_M', '') for value in attribute_values]

        min_len = min(len(attribute_values), len(character_values))

        for j in range(min_len):
            attribute = attribute_values[j]
            character = character_values[j]

            if attribute in attributes_dict:
                attributes_dict[attribute].append(character)
            else:
                attributes_dict[attribute] = [character]

        attribute_list = [item['item']['category3Name']]

        for i in attributes_dict:
            if i not in ['용량', '구성', '']:
                attribute_list = attribute_list + attributes_dict[i]
            else:
                continue

        dict_data = {
            'ID': item['item']['id'],
            '상품명': item['item']['productName'],
            '상품 카테고리 대분류': item['item']['category1Name'],
            '상품 카테고리 중분류': item['item']['category2Name'],
            '상품 카테고리 소분류': item['item']['category3Name'],
            '제조사': item['item']['maker'],
            '브랜드': item['item']['brand'],
            '특징': attribute_list
        }
        for attribute in attribute_list:
            dict_data[attribute] = True

        products_info.append(dict_data)
        
        # 딕셔너리의 리스트를 데이터프레임으로 변환합니다.
    df = pd.DataFrame(products_info)
    
    return df

def makeCategoryDF(category_id):
    url = 'https://search.shopping.naver.com/search/category/' + str(category_id)
    params = {
        'pagingIndex' : '1',
        'pagingSize' : '80',
        'productSet' : 'model'
    }
    headers = {'User-Agent':generate_user_agent(os =('mac', 'linux'),device_type='desktop')}
    resp = request('GET',url=url, params=params, headers=headers)
    dom = BeautifulSoup(resp.text, 'html.parser')
    script_tag = dom.find("script", {"id": "__NEXT_DATA__"})
    data = json.loads(script_tag.text)
    itemList = data['props']['pageProps']['initialState']['products']
    total = data['props']['pageProps']['initialState']['products']['total']
    total_page = math.ceil(total/80)
    
    df = makePageDF(category_id,1)
    
    if total_page >1:
        for i in range(2,total_page+1):
            new_df = makePageDF(category_id,i)
            df = pd.concat([df, new_df], ignore_index=True)
    
    df = df.drop_duplicates(subset=['ID'])
    df = pd.DataFrame(df).astype({'제조사': 'category'})
    df = pd.DataFrame(df).astype({'브랜드': 'category'})
    attribute_columns = df.columns.drop(['ID', '상품명', '상품 카테고리 대분류', '상품 카테고리 중분류','상품 카테고리 소분류','제조사','브랜드','특징'])
    df[attribute_columns] = df[attribute_columns].fillna(False).astype('bool')
    small_df = df.explode('특징')[['ID','상품명','특징']]
    attributes = pd.DataFrame(small_df['특징'].unique()).reset_index()
    attributes.columns = ['attribute_id', '특징']
    attributes = pd.DataFrame(attributes).astype({'attribute_id': 'category'})
    merged_df = pd.merge(small_df, attributes, on=['특징'])
    
    return df, merged_df, attributes

In [4]:
df, merged_df, attributes = makeCategoryDF(100001013)

In [5]:
df

Unnamed: 0,ID,상품명,상품 카테고리 대분류,상품 카테고리 중분류,상품 카테고리 소분류,제조사,브랜드,특징,트리트먼트,모든 모발용,...,건선/피부염성,이브비건,브러쉬형,정전기방지,쉐도우형,비건소사이어티,두피케어,모발보호,모발탄력,두피진정
0,29220255618,물초 트리트먼트 500g,화장품/미용,헤어케어,트리트먼트,마잘,마잘,"[트리트먼트, 모든 모발용, 펌프형, 머릿결개선, 향, 촉촉함(수분공급), 윤기부여...",True,True,...,False,False,False,False,False,False,False,False,False,False
1,29227729619,물초 트리트먼트 70g,화장품/미용,헤어케어,트리트먼트,마잘,마잘,"[트리트먼트, 모든 모발용, 머릿결개선, 향, 촉촉함(수분공급), 윤기부여, 모발영양]",True,True,...,False,False,False,False,False,False,False,False,False,False
2,30085828618,글라이신 트리트먼트 1000ml,화장품/미용,헤어케어,트리트먼트,이엔에스코리아,바이오가,"[트리트먼트, 가는 모발용, 염색 모발용, 손상 모발용, 로션형, 머릿결개선, 향,...",True,True,...,False,False,False,False,False,False,False,False,False,False
3,20021113743,오리지널 오일 트리트먼트 200ml,화장품/미용,헤어케어,트리트먼트,모로칸오일,모로칸오일,"[트리트먼트, 모든 모발용, 오일형, 머릿결개선, 촉촉함(수분공급), 윤기부여, 영...",True,True,...,False,False,False,False,False,False,False,False,False,False
4,19558540136,오리지널 트리트먼트 125ml,화장품/미용,헤어케어,트리트먼트,모로칸오일,모로칸오일,"[트리트먼트, 모든 모발용, 오일형, 머릿결개선, 윤기부여, 영양공급, 모발영양]",True,True,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2470,37281951620,마유 엘피피 트리트먼트 1000ml,화장품/미용,헤어케어,트리트먼트,본코스메틱,엘라드,"[트리트먼트, 모든 모발용, 펌프형]",True,True,...,False,False,False,False,False,False,False,False,False,False
2471,34857498618,스캘프 트리트먼트 500ml,화장품/미용,헤어케어,트리트먼트,메디치코리아코스메틱,오자스,"[트리트먼트, 모든 모발용, 펌프형]",True,True,...,False,False,False,False,False,False,False,False,False,False
2472,37310162621,레미레미 매직 트리트먼트 플러스 1000g,화장품/미용,헤어케어,트리트먼트,,,"[트리트먼트, 모든 모발용, 펌프형, 머릿결개선, 촉촉함(수분공급), 윤기부여, 영...",True,True,...,False,False,False,False,False,False,False,False,False,False
2473,37102986620,돈 디스페어 리페어 라이스 워터 프로틴 + 모이스처 스트렝쓰닝 트리트먼트 148ml,화장품/미용,헤어케어,트리트먼트,,브리오지오,"[트리트먼트, 모든 모발용, 펌프형, 머릿결개선, 촉촉함(수분공급), 영양공급, 모...",True,True,...,False,False,False,False,False,False,False,False,False,False


In [6]:
merged_df

Unnamed: 0,ID,상품명,특징,attribute_id
0,29220255618,물초 트리트먼트 500g,트리트먼트,0
1,29227729619,물초 트리트먼트 70g,트리트먼트,0
2,30085828618,글라이신 트리트먼트 1000ml,트리트먼트,0
3,20021113743,오리지널 오일 트리트먼트 200ml,트리트먼트,0
4,19558540136,오리지널 트리트먼트 125ml,트리트먼트,0
...,...,...,...,...
17007,5528839872,세이지 앤 시더 스칼프 트리트먼트 25ml,두피케어,42
17008,5714579497,멀티 비타민 트리트먼트 500ml,모발보호,43
17009,5714579497,멀티 비타민 트리트먼트 500ml,모발탄력,44
17010,5718366863,그린 티 LPP 트리트먼트 1000ml,모발탄력,44


In [7]:
attributes

Unnamed: 0,attribute_id,특징
0,0,트리트먼트
1,1,모든 모발용
2,2,펌프형
3,3,머릿결개선
4,4,향
5,5,촉촉함(수분공급)
6,6,윤기부여
7,7,모발영양
8,8,가는 모발용
9,9,염색 모발용
