### 데이터셋 생성을 위한 노트북

In [11]:
import pandas as pd
import os
import json
from tqdm import tqdm
from sklearn.preprocessing import LabelEncoder
import numpy as np

In [2]:
df = pd.read_json('dataset/dataset_sample_1percent.json')

In [3]:
df.head()

Unnamed: 0,prd_id,view_name,cate1_nm,cate2_nm,cate3_nm,supplier_code,class_name,price,discprice,buy_count,review_score,review_count,prd_adult_flag,brand_name
0,1045363955,행거 걸이 퍼피 2p 옷걸이 수건 행주 걸이 도어훅,가구,드레스룸/행거,행거,1050249,기타수납용품,5600,5600,0,0,0,False,지구방위사령부
1,1039712480,리바트하움 오브제 1200 6단 학생 책상세트 콘센트형,가구,책상,학생책상,1051232,책상세트,636000,636000,0,0,0,False,리바트하움
2,50237029,베니 모션베드+천연라텍스200T매트리스SS,가구,침대,슈퍼싱글침대,1003345,전동침대,1034000,982300,3,60,2,False,파로마
3,1038767251,다이젠 메이디 원목 선반장 400 3단,가구,수납가구,주방수납장,1010159,수납장,102900,102900,0,0,0,False,미아트
4,1041353764,리히테 슈퍼싱글 1350 평상형 노헤드 침대 엘다 원목 프레임 (착,가구,침대,슈퍼싱글침대,1019672,침대,580900,580900,0,0,0,False,인우드


In [6]:
df['cleaned_text'] = df['view_name'].str.replace(r'[^a-zA-Z0-9가-힣\s]', '', regex=True)

In [7]:
df['text'] = df['brand_name'].str.cat(df['cleaned_text'], sep=' ')

In [15]:
df['cate1_nm_encoded'].unique()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62])

In [14]:
df.head()

Unnamed: 0,prd_id,view_name,cate1_nm,cate2_nm,cate3_nm,supplier_code,class_name,price,discprice,buy_count,review_score,review_count,prd_adult_flag,brand_name,cleaned_text,text,cate1_nm_encoded,cate2_nm_encoded,cate3_nm_encoded,class_name_encoded
0,1045363955,행거 걸이 퍼피 2p 옷걸이 수건 행주 걸이 도어훅,가구,드레스룸/행거,행거,1050249,기타수납용품,5600,5600,0,0,0,False,지구방위사령부,행거 걸이 퍼피 2p 옷걸이 수건 행주 걸이 도어훅,지구방위사령부 행거 걸이 퍼피 2p 옷걸이 수건 행주 걸이 도어훅,0,108,1064,153
1,1039712480,리바트하움 오브제 1200 6단 학생 책상세트 콘센트형,가구,책상,학생책상,1051232,책상세트,636000,636000,0,0,0,False,리바트하움,리바트하움 오브제 1200 6단 학생 책상세트 콘센트형,리바트하움 리바트하움 오브제 1200 6단 학생 책상세트 콘센트형,0,381,1048,738
2,50237029,베니 모션베드+천연라텍스200T매트리스SS,가구,침대,슈퍼싱글침대,1003345,전동침대,1034000,982300,3,60,2,False,파로마,베니 모션베드천연라텍스200T매트리스SS,파로마 베니 모션베드천연라텍스200T매트리스SS,0,394,538,676
3,1038767251,다이젠 메이디 원목 선반장 400 3단,가구,수납가구,주방수납장,1010159,수납장,102900,102900,0,0,0,False,미아트,다이젠 메이디 원목 선반장 400 3단,미아트 다이젠 메이디 원목 선반장 400 3단,0,207,833,440
4,1041353764,리히테 슈퍼싱글 1350 평상형 노헤드 침대 엘다 원목 프레임 (착,가구,침대,슈퍼싱글침대,1019672,침대,580900,580900,0,0,0,False,인우드,리히테 슈퍼싱글 1350 평상형 노헤드 침대 엘다 원목 프레임 착,인우드 리히테 슈퍼싱글 1350 평상형 노헤드 침대 엘다 원목 프레임 착,0,394,538,758


In [12]:
label_encoders = {
    'cate1_nm': LabelEncoder(),
    'cate2_nm': LabelEncoder(),
    'cate3_nm': LabelEncoder(),
    'class_name': LabelEncoder()
}

In [13]:
for column, le in label_encoders.items():
    df[column + '_encoded'] = le.fit_transform(df[column])

In [9]:
output_dir = 'dataset/text'
os.makedirs(output_dir, exist_ok=True)

In [17]:
mapping_dir = "mappings"
os.makedirs(mapping_dir, exist_ok=True)

for column, le in label_encoders.items():
    label_mapping = le.classes_.tolist()
    with open(os.path.join(mapping_dir, f"{column}_mapping.json"), 'w', encoding='utf-8') as f:
        json.dump(label_mapping, f, ensure_ascii=False, indent=4)

In [18]:
for _, row in tqdm(df.iterrows()):
    prd_id = row['prd_id']
    text = row['text']

    json_data = {
        "prd_id": prd_id,
        "text": text,
        "cate1_nm": row['cate1_nm_encoded'],
        "cate2_nm": row['cate2_nm_encoded'],
        "cate3_nm": row['cate3_nm_encoded'],
        "class_name": row['class_name_encoded']
    }
    
    # 파일 경로 설정
    file_path = os.path.join(output_dir, f"{prd_id}.json")
    
    # JSON 파일로 저장
    with open(file_path, 'w', encoding='utf-8') as f:
        json.dump(json_data, f, ensure_ascii=False, indent=4)

159179it [00:26, 6088.07it/s]
