In [1]:
import pandas as pd
import os

In [2]:
file_list = [x for x in os.listdir(os.getcwd()+'/csv') if 'INFO' in x]
file_list

['INFO_KAKAO_small_luxury.csv',
 'INFO_KAKAO_samll_gift.csv',
 'INFO_KAKAO_health.csv',
 'INFO_KAKAO_touched.csv',
 'INFO_KAKAO_luxury.csv',
 'INFO_KAKAO_birthday.csv',
 'INFO_KAKAO_funny.csv',
 'INFO_KAKAO_baby.csv']

In [3]:
COLUMN_DICT = {'name':['name'],
              'price':['price'],
              'type':['type'],
              'material':['재질','원재료명 및 함량','영양성분','소재','제품 소재','원재료명 및 함량'],
              'madefrom':['제조국','수입품의 경우 생산자, 수입자 및 제조국','소재/순도/밴드재질',],
              'color':['색상']}

In [4]:
import itertools

column_list = list(itertools.chain(*COLUMN_DICT.values()))
column_list

['name',
 'price',
 'type',
 '재질',
 '원재료명 및 함량',
 '영양성분',
 '소재',
 '제품 소재',
 '원재료명 및 함량',
 '제조국',
 '수입품의 경우 생산자, 수입자 및 제조국',
 '소재/순도/밴드재질',
 '색상']

In [5]:
def get_by_columns(df):
    df_list = list(set(df.columns)&set(column_list))
    return df[df_list]

In [6]:
dataframe_list = []

for file in file_list:
    df = pd.read_csv(f'./csv/{file}', index_col = 0)
    df = get_by_columns(df)
    dataframe_list.append(df)

In [7]:
total_df = pd.concat(dataframe_list)
total_df.shape

(1716, 12)

In [8]:
convert_dict = {}
for key, val in COLUMN_DICT.items():
    for x in val:
        convert_dict[x] = key
    
print(convert_dict)

{'name': 'name', 'price': 'price', 'type': 'type', '재질': 'material', '원재료명 및 함량': 'material', '영양성분': 'material', '소재': 'material', '제품 소재': 'material', '제조국': 'madefrom', '수입품의 경우 생산자, 수입자 및 제조국': 'madefrom', '소재/순도/밴드재질': 'madefrom', '색상': 'color'}


In [9]:
converted_df = total_df.rename(columns = convert_dict)
converted_df.head()

Unnamed: 0,material,type,madefrom,name,price,material.1,madefrom.1,madefrom.2,color,material.2,material.3,material.4
0,,small_luxury,한국,"""편안한 휴식"" [리추얼 선물세트] 샌달우드 괄사 & 비건 오일 2종 (톡별)","29,000원",,,,,,,
1,,small_luxury,상품상세설명 참조,록시땅 베스트 핸드 크림 & 립 세트 (9종 택1)*,"29,000원",,,,,,,
2,,small_luxury,상품상세설명 참조,[선물하기 단독] 달바 '비건' 페이스&핸드 해피버스데이 기프트 세트(미스트세럼+핸...,"26,900원",,,,,,,
3,,small_luxury,한국,[단독/핸드타올증정] 라벤더 바디워시 & 바디로션 2종 세트,"38,000원",,,,,,,
4,,small_luxury,한국,디프로젝트 차량용방향제_블랙라이언,"49,000원",,,,,,,


In [10]:
import math


In [38]:
total_df_list = []

for column in COLUMN_DICT:
    row_list = []

    part_df = converted_df[[column]]
    
    if part_df.shape[1] == 1:
        total_df_list.append(part_df)
        continue
        
    #display(part_df)
        
    column_df = part_df.fillna(method='bfill',axis=1).iloc[:,0]
    total_df_list.append(column_df)

In [40]:
ans_df = pd.concat(total_df_list, axis=1)
ans_df

Unnamed: 0,name,price,type,material,madefrom,color
0,"""편안한 휴식"" [리추얼 선물세트] 샌달우드 괄사 & 비건 오일 2종 (톡별)","29,000원",small_luxury,,한국,
1,록시땅 베스트 핸드 크림 & 립 세트 (9종 택1)*,"29,000원",small_luxury,,상품상세설명 참조,
2,[선물하기 단독] 달바 '비건' 페이스&핸드 해피버스데이 기프트 세트(미스트세럼+핸...,"26,900원",small_luxury,,상품상세설명 참조,
3,[단독/핸드타올증정] 라벤더 바디워시 & 바디로션 2종 세트,"38,000원",small_luxury,,한국,
4,디프로젝트 차량용방향제_블랙라이언,"49,000원",small_luxury,,한국,
...,...,...,...,...,...,...
92,[조카선물] [생일선물] 메이크잇리얼 겨울왕국2 DIY 팔찌만들기 비즈만들기 디즈니팔찌,"20,500원",baby,상품상세설명 참조,상품상세설명 참조,상품상세설명 참조
93,[스틱오by맥포머스] 핑크퐁 아기상어 프렌즈 세트,"55,200원",baby,"자석,ABS,스틸",중국,빨강 외
94,"""포켓몬 키링 20P"" [단체선물] 포켓몬 키링 20P 세트 포켓몬스터 열쇠고리 장난감","37,900원",baby,상품상세설명 참조,중국,상품상세설명 참조
95,5648-실바니안 블라인드백_아기 디저트,"9,500원",baby,플라스틱,중국,색상다양


In [41]:
(ans_df.isna().sum()/(len(ans_df.index)) * 100)

name         0.000000
price        0.000000
type         0.000000
material    51.340326
madefrom    30.594406
color       82.459207
dtype: float64

In [48]:
tdf = ans_df.replace('상품상세설명 참조',float('nan'))
tdf

Unnamed: 0,name,price,type,material,madefrom,color
0,"""편안한 휴식"" [리추얼 선물세트] 샌달우드 괄사 & 비건 오일 2종 (톡별)","29,000원",small_luxury,,한국,
1,록시땅 베스트 핸드 크림 & 립 세트 (9종 택1)*,"29,000원",small_luxury,,,
2,[선물하기 단독] 달바 '비건' 페이스&핸드 해피버스데이 기프트 세트(미스트세럼+핸...,"26,900원",small_luxury,,,
3,[단독/핸드타올증정] 라벤더 바디워시 & 바디로션 2종 세트,"38,000원",small_luxury,,한국,
4,디프로젝트 차량용방향제_블랙라이언,"49,000원",small_luxury,,한국,
...,...,...,...,...,...,...
92,[조카선물] [생일선물] 메이크잇리얼 겨울왕국2 DIY 팔찌만들기 비즈만들기 디즈니팔찌,"20,500원",baby,,,
93,[스틱오by맥포머스] 핑크퐁 아기상어 프렌즈 세트,"55,200원",baby,"자석,ABS,스틸",중국,빨강 외
94,"""포켓몬 키링 20P"" [단체선물] 포켓몬 키링 20P 세트 포켓몬스터 열쇠고리 장난감","37,900원",baby,,중국,
95,5648-실바니안 블라인드백_아기 디저트,"9,500원",baby,플라스틱,중국,색상다양


In [49]:
(tdf.isna().sum()/(len(tdf.index)) * 100)

name         0.000000
price        0.000000
type         0.000000
material    72.435897
madefrom    67.599068
color       90.850816
dtype: float64

In [51]:
gdf = tdf.isna()
gdf['class'] = tdf['type']

In [52]:
gdf

Unnamed: 0,name,price,type,material,madefrom,color,class
0,False,False,False,True,False,True,small_luxury
1,False,False,False,True,True,True,small_luxury
2,False,False,False,True,True,True,small_luxury
3,False,False,False,True,False,True,small_luxury
4,False,False,False,True,False,True,small_luxury
...,...,...,...,...,...,...,...
92,False,False,False,True,True,True,baby
93,False,False,False,False,False,False,baby
94,False,False,False,True,False,True,baby
95,False,False,False,False,False,False,baby


# Missing Rate

In [59]:
edf = gdf.groupby('class').sum()/gdf.groupby('class').count()
edf

Unnamed: 0_level_0,name,price,type,material,madefrom,color
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
baby,0.0,0.0,0.0,0.525773,0.649485,0.690722
birthday,0.0,0.0,0.0,1.0,1.0,1.0
funny,0.0,0.0,0.0,0.834532,0.589928,0.895683
health,0.0,0.0,0.0,0.735,0.755,0.985
luxury,0.0,0.0,0.0,0.365591,0.369176,0.781362
samll_gift,0.0,0.0,0.0,0.717687,0.741497,0.955782
small_luxury,0.0,0.0,0.0,0.994709,0.873016,1.0
touched,0.0,0.0,0.0,0.658163,0.576531,0.892857


In [64]:
edf[['material','madefrom','color']].mean(axis=1).to_frame().T

class,baby,birthday,funny,health,luxury,samll_gift,small_luxury,touched
0,0.621993,1.0,0.773381,0.825,0.505376,0.804989,0.955908,0.709184


In [65]:
allowed_list = ['baby','funny','luxury','touched']

In [76]:
result_df = tdf[(tdf['type']=='baby')|(tdf['type']=='funny')|(tdf['type']=='luxury')|(tdf['type']=='touched')]



In [77]:
result_df.to_csv(f'./csv/total_data.csv')