# 데이터 탐색, 전처리 및 JSON 파일 생성

이 노트북은 주어진 훈련, 검증 파일을 확인하고, CSV 파일을 JSON 포맷으로 변경을 합니다.

# 1. 파일 로딩 및 확인
- 아래의 데이터 셋 폴더는 데이터셋이 변경시에 바꾸어 주세요.

In [2]:
import os

dataset_folder = "../data/retail_demo_store"

train_file_path= os.path.join(dataset_folder, "input_raw/train_kr_search_retail_demo.csv")
val_file_path =  os.path.join(dataset_folder,"input_raw/test_kr_search_retail_demo.csv")

In [3]:
import pandas as pd

train_raw_df = pd.read_csv(train_file_path)
val_raw_df = pd.read_csv(val_file_path)


In [4]:
train_raw_df

Unnamed: 0,product,input,intent
0,크리스마스 리스,연말연시 머스트해브 아이템,계절|크리스마스
1,블랙 힐,여성용 블랙 포멀 힐 한 켤레,신발|정장
2,칵테일 글라스,주방에 꼭 필요한 아이템,가정용품|주방
3,멋진 세라믹 볼,어떤 상황에도 잘 어울리는 멋진 세라믹 그릇,가정용품|그릇
4,힙 샌들,이 남성용 힙한 샌들은 여름에 딱 맞습니다.,신발|샌들
...,...,...,...
1491,정교한 알루미늄 보울,모든 상황에 적합한 정교한 알루미늄 보울,가정용품|그릇
1492,블랙 오피스 체어,이 멋진 검은색 사무용 의자로 생산성을 높이세요.,가구|의자
1493,라이트 그레이 스퀘어 쿠션,이 밝은 회색 사각형 쿠션은 매우 부드럽습니다.,홈 데코 | 쿠션
1494,트렌디 안경,이 트렌디한 남성용 안경은 타의 추종을 불허합니다,액세서리|안경


In [5]:
val_raw_df

Unnamed: 0,product,input,intent
0,블랙 슈즈,남성용 블랙 포멀 슈즈 한 켤레,신발|정장
1,스틸 가위,모든 욕실에 사용할 수 있는 면도기,뷰티|그루밍
2,백합 어레인지먼트,우리 재배자들이 신선하고 활기차게 배달한 백합 어레인지먼트,플로럴|어레인지먼트
3,어쿠스틱 드럼,이 어쿠스틱 드럼은 아마추어 및 전문 뮤지션에게 적합합니다.,악기|타악기
4,어쿠스틱 베이스,이 어쿠스틱 베이스는 아마추어 및 전문 음악가에게 적합합니다.,악기 | 현악기
...,...,...,...
370,돼지고기,우리 돼지고기는 농부들이 지속 가능한 방식으로 사육합니다.,식료품|고기
371,울트라시크 스카프,어떤 상황에도 어울리는 여성용 울트라시크 스카프,의류|스카프
372,고급스러운 세라믹 볼,모든 상황에 어울리는 고급스러운 세라믹 그릇,가정용품|그릇
373,새들 브라운 핸드백,이 새들 브라운 드레시 핸드백은 전형적인 필수품입니다,액세서리|핸드백


In [6]:
intent_col = 'intent'

def show_stat_df(df, intent_col):
    print("# of unique intent: ", df[intent_col].nunique())
    print(df[intent_col].value_counts())



In [7]:
pd.set_option('display.max_rows', 100)
show_stat_df(df=train_raw_df, intent_col=intent_col)    

# of unique intent:  35
intent
가정용품|주방       128
계절|크리스마스       73
가구|테이블         73
의류|재킷          65
신발|정장          63
가구|의자          57
의류|셔츠          54
가정 장식 | 장식     52
악기 | 현악기       49
액세서리|안경        47
가정용품|그릇        43
식료품|베이커리       43
의류|스카프         42
홈 데코 | 조명      42
가구|소파          39
액세서리|배낭        38
신발|스니커즈        38
계절별|할로윈        37
홈 데코 | 쿠션      37
꽃|식물           34
계절|부활절         34
식료품|야채         33
뷰티|그루밍         33
악기|타악기         32
계절별|발렌타인       30
야외|낚시          30
액세서리|핸드백       30
액세서리|벨트        30
보석|팔찌          30
플로럴|어레인지먼트     29
전자제품|카메라       29
악기|키           26
가구|옷장          26
신발|샌들          25
식료품|고기         25
Name: count, dtype: int64


In [8]:
intent_col = 'intent'
show_stat_df(df=val_raw_df, intent_col=intent_col)    

# of unique intent:  35
intent
가정용품|주방       32
계절|크리스마스      19
가구|테이블        19
신발|정장         16
의류|재킷         16
가구|의자         15
가정 장식 | 장식    13
의류|셔츠         13
액세서리|안경       12
악기 | 현악기      12
의류|스카프        11
가정용품|그릇       11
홈 데코 | 조명     11
식료품|베이커리      11
가구|소파         10
액세서리|배낭       10
신발|스니커즈       10
홈 데코 | 쿠션      9
계절별|할로윈        9
식료품|야채         8
뷰티|그루밍         8
악기|타악기         8
계절|부활절         8
액세서리|핸드백       8
액세서리|벨트        8
꽃|식물           8
플로럴|어레인지먼트     7
악기|키           7
야외|낚시          7
전자제품|카메라       7
보석|팔찌          7
계절별|발렌타인       7
식료품|고기         6
신발|샌들          6
가구|옷장          6
Name: count, dtype: int64


# 2. 전처리

중복된 레코드를 제거 합니다.

In [9]:
import glob

train_csv_files = glob.glob(train_file_path)
val_csv_files = glob.glob(val_file_path)


def remove_duplicate_col(csv_files, remove_col):
    '''
    csv_files : list of csv file path
    remove_col : column name to remove duplicate
    Desc: 
    '''
    all_df = pd.DataFrame()
    
    for file_path in csv_files:
        df = pd.read_csv(file_path)
        # df = pd.json_normalize(df.sections) # Normalize sections
        all_df = pd.concat([all_df, df])
    
    print("Before dropping duplication: ", all_df.shape)
    all_df.drop_duplicates(subset=remove_col, inplace=True)
    print("After dropping duplication: ", all_df.shape)    
    
    return all_df

In [10]:
train_df = remove_duplicate_col(train_csv_files, remove_col='input')
val_df = remove_duplicate_col(val_csv_files, remove_col='input')


Before dropping duplication:  (1496, 3)
After dropping duplication:  (748, 3)
Before dropping duplication:  (375, 3)
After dropping duplication:  (256, 3)


In [11]:
train_df

Unnamed: 0,product,input,intent
0,크리스마스 리스,연말연시 머스트해브 아이템,계절|크리스마스
1,블랙 힐,여성용 블랙 포멀 힐 한 켤레,신발|정장
2,칵테일 글라스,주방에 꼭 필요한 아이템,가정용품|주방
3,멋진 세라믹 볼,어떤 상황에도 잘 어울리는 멋진 세라믹 그릇,가정용품|그릇
4,힙 샌들,이 남성용 힙한 샌들은 여름에 딱 맞습니다.,신발|샌들
...,...,...,...
1482,다크 씨 그린 소파,이 고급스러운 짙은 바다 녹색 소파는 모든 객실의 하이라이트가 될 것입니다.,가구|소파
1485,다크 그린 슈즈,남성용 짙은 녹색 정장 신발 한 켤레,신발|정장
1489,퍼펙트 그레이 소파,편안하고 따뜻하며 멋집니다.,가구|소파
1493,라이트 그레이 스퀘어 쿠션,이 밝은 회색 사각형 쿠션은 매우 부드럽습니다.,홈 데코 | 쿠션


In [12]:
def create_concatenated_col(ldf, col01, col02, new_col):
    df = ldf.copy()
    df[new_col] = df[col01] + ', ' + df[col02]
    return df

train_new_df = create_concatenated_col(ldf = train_df, 
                            col01='input', col02='intent', new_col='input_intent')
val_new_df = create_concatenated_col(ldf = val_df, 
                            col01='input', col02='intent', new_col='input_intent')

train_new_df = create_concatenated_col(ldf = train_new_df, 
                            col01='product', col02='input_intent', new_col='product_input_intent')
val_new_df = create_concatenated_col(ldf = val_new_df, 
                            col01='product', col02='input_intent', new_col='product_input_intent')


# 3. Create JSON File

In [13]:
import os
import json
dataset_folder
save_json_folder = os.path.join(dataset_folder, "json")


def create_json_file(df, save_json_folder, file_name):
    os.makedirs(save_json_folder, exist_ok=True)    
    json_file_path = os.path.join(save_json_folder, file_name)
    print("json_file_path: ", json_file_path)
    df.reset_index(drop=True).to_json(json_file_path,orient='records', force_ascii=False)    
    with open(json_file_path, 'r') as file:
        data = json.load(file)
        # Print the loaded data
        #print(data)


    return json_file_path



In [14]:
train_json_file_path = create_json_file(df=train_new_df,save_json_folder=save_json_folder, file_name="train.json")
train_df_json = pd.read_json(train_json_file_path)
train_df_json.head(3)


json_file_path:  ../data/retail_demo_store/json/train.json


Unnamed: 0,product,input,intent,input_intent,product_input_intent
0,크리스마스 리스,연말연시 머스트해브 아이템,계절|크리스마스,"연말연시 머스트해브 아이템, 계절|크리스마스","크리스마스 리스, 연말연시 머스트해브 아이템, 계절|크리스마스"
1,블랙 힐,여성용 블랙 포멀 힐 한 켤레,신발|정장,"여성용 블랙 포멀 힐 한 켤레, 신발|정장","블랙 힐, 여성용 블랙 포멀 힐 한 켤레, 신발|정장"
2,칵테일 글라스,주방에 꼭 필요한 아이템,가정용품|주방,"주방에 꼭 필요한 아이템, 가정용품|주방","칵테일 글라스, 주방에 꼭 필요한 아이템, 가정용품|주방"


In [15]:
val_json_file_path = create_json_file(df=val_new_df,save_json_folder=save_json_folder, file_name="val.json")
val_df_json = pd.read_json(val_json_file_path)
val_df_json.head(3)



json_file_path:  ../data/retail_demo_store/json/val.json


Unnamed: 0,product,input,intent,input_intent,product_input_intent
0,블랙 슈즈,남성용 블랙 포멀 슈즈 한 켤레,신발|정장,"남성용 블랙 포멀 슈즈 한 켤레, 신발|정장","블랙 슈즈, 남성용 블랙 포멀 슈즈 한 켤레, 신발|정장"
1,스틸 가위,모든 욕실에 사용할 수 있는 면도기,뷰티|그루밍,"모든 욕실에 사용할 수 있는 면도기, 뷰티|그루밍","스틸 가위, 모든 욕실에 사용할 수 있는 면도기, 뷰티|그루밍"
2,백합 어레인지먼트,우리 재배자들이 신선하고 활기차게 배달한 백합 어레인지먼트,플로럴|어레인지먼트,"우리 재배자들이 신선하고 활기차게 배달한 백합 어레인지먼트, 플로럴|어레인지먼트","백합 어레인지먼트, 우리 재배자들이 신선하고 활기차게 배달한 백합 어레인지먼트, 플..."


In [16]:
%store val_json_file_path
%store train_json_file_path

Stored 'val_json_file_path' (str)
Stored 'train_json_file_path' (str)
