In [3]:
import pandas as pd
import os

In [5]:
file_list = [x for x in os.listdir(os.getcwd()+'/csv') if 'INFO' in x]
file_list

['INFO_KAKAO_small_luxury.csv',
 'INFO_KAKAO_samll_gift.csv',
 'INFO_KAKAO_health.csv',
 'INFO_KAKAO_touched.csv',
 'INFO_KAKAO_luxury.csv',
 'INFO_KAKAO_birthday.csv',
 'INFO_KAKAO_funny.csv',
 'INFO_KAKAO_baby.csv']

In [None]:
COLUMN = ['name','price','type',
          '제조국','재질',
          '수입품의 경우 생산자, 수입자 및 제조국','원재료명 및 함량','소재','색상','소재/순도/밴드재질',]


In [8]:
COLUMN_DICT = {'name':['name'],
              'price':['price'],
              'type':['type'],
              'material':['재질','원재료명 및 함량','영양성분','소재','제품 소재','원재료명 및 함량'],
              'madefrom':['제조국','수입품의 경우 생산자, 수입자 및 제조국','소재/순도/밴드재질',],
              'color':['색상']}

In [20]:
import itertools

column_list = list(itertools.chain(*COLUMN_DICT.values()))
column_list

['name',
 'price',
 'type',
 '재질',
 '원재료명 및 함량',
 '영양성분',
 '소재',
 '제품 소재',
 '원재료명 및 함량',
 '제조국',
 '수입품의 경우 생산자, 수입자 및 제조국',
 '소재/순도/밴드재질',
 '색상']

In [24]:
def get_by_columns(df):
    df_list = list(set(df.columns)&set(column_list))
    return df[df_list]

In [27]:
dataframe_list = []

for file in file_list:
    print(f'\n{file}')
    df = pd.read_csv(f'./csv/{file}', index_col = 0)
    df = get_by_columns(df)
    dataframe_list.append(df)


INFO_KAKAO_small_luxury.csv

INFO_KAKAO_samll_gift.csv

INFO_KAKAO_health.csv

INFO_KAKAO_touched.csv

INFO_KAKAO_luxury.csv

INFO_KAKAO_birthday.csv

INFO_KAKAO_funny.csv

INFO_KAKAO_baby.csv


In [28]:
total_df = pd.concat(dataframe_list)
total_df.shape

(1716, 12)

In [32]:
convert_dict = {}
for key, val in COLUMN_DICT.items():
    for x in val:
        convert_dict[x] = key
    
print(convert_dict)

{'name': 'name', 'price': 'price', 'type': 'type', '재질': 'material', '원재료명 및 함량': 'material', '영양성분': 'material', '소재': 'material', '제품 소재': 'material', '제조국': 'madefrom', '수입품의 경우 생산자, 수입자 및 제조국': 'madefrom', '소재/순도/밴드재질': 'madefrom', '색상': 'color'}


In [34]:
converted_df = total_df.rename(columns = convert_dict)
converted_df.head()

Unnamed: 0,name,price,material,madefrom,type,material.1,madefrom.1,madefrom.2,material.2,color,material.3,material.4
0,"""편안한 휴식"" [리추얼 선물세트] 샌달우드 괄사 & 비건 오일 2종 (톡별)","29,000원",,한국,small_luxury,,,,,,,
1,록시땅 베스트 핸드 크림 & 립 세트 (9종 택1)*,"29,000원",,상품상세설명 참조,small_luxury,,,,,,,
2,[선물하기 단독] 달바 '비건' 페이스&핸드 해피버스데이 기프트 세트(미스트세럼+핸...,"26,900원",,상품상세설명 참조,small_luxury,,,,,,,
3,[단독/핸드타올증정] 라벤더 바디워시 & 바디로션 2종 세트,"38,000원",,한국,small_luxury,,,,,,,
4,디프로젝트 차량용방향제_블랙라이언,"49,000원",,한국,small_luxury,,,,,,,


In [36]:
converted_df.sort_index(axis=1)

Unnamed: 0,color,madefrom,madefrom.1,madefrom.2,material,material.1,material.2,material.3,material.4,name,price,type
0,,한국,,,,,,,,"""편안한 휴식"" [리추얼 선물세트] 샌달우드 괄사 & 비건 오일 2종 (톡별)","29,000원",small_luxury
1,,상품상세설명 참조,,,,,,,,록시땅 베스트 핸드 크림 & 립 세트 (9종 택1)*,"29,000원",small_luxury
2,,상품상세설명 참조,,,,,,,,[선물하기 단독] 달바 '비건' 페이스&핸드 해피버스데이 기프트 세트(미스트세럼+핸...,"26,900원",small_luxury
3,,한국,,,,,,,,[단독/핸드타올증정] 라벤더 바디워시 & 바디로션 2종 세트,"38,000원",small_luxury
4,,한국,,,,,,,,디프로젝트 차량용방향제_블랙라이언,"49,000원",small_luxury
...,...,...,...,...,...,...,...,...,...,...,...,...
92,상품상세설명 참조,상품상세설명 참조,,,상품상세설명 참조,,,,,[조카선물] [생일선물] 메이크잇리얼 겨울왕국2 DIY 팔찌만들기 비즈만들기 디즈니팔찌,"20,500원",baby
93,빨강 외,중국,,,"자석,ABS,스틸",,,,,[스틱오by맥포머스] 핑크퐁 아기상어 프렌즈 세트,"55,200원",baby
94,상품상세설명 참조,중국,,,상품상세설명 참조,,,,,"""포켓몬 키링 20P"" [단체선물] 포켓몬 키링 20P 세트 포켓몬스터 열쇠고리 장난감","37,900원",baby
95,색상다양,중국,,,플라스틱,,,,,5648-실바니안 블라인드백_아기 디저트,"9,500원",baby


In [39]:
converted_df['madefrom']

Unnamed: 0,madefrom,madefrom.1,madefrom.2
0,한국,,
1,상품상세설명 참조,,
2,상품상세설명 참조,,
3,한국,,
4,한국,,
...,...,...,...
92,상품상세설명 참조,,
93,중국,,
94,중국,,
95,중국,,


In [40]:
tmp = converted_df['madefrom']
(tmp.isna().sum()/(len(tmp.index)) * 100)



madefrom    40.909091
madefrom    89.685315
madefrom    99.941725
dtype: float64

In [41]:
tmp

Unnamed: 0,madefrom,madefrom.1,madefrom.2
0,한국,,
1,상품상세설명 참조,,
2,상품상세설명 참조,,
3,한국,,
4,한국,,
...,...,...,...
92,상품상세설명 참조,,
93,중국,,
94,중국,,
95,중국,,


In [55]:
for row in tmp.values:
    print(row)

['한국' nan nan]
['상품상세설명 참조' nan nan]
['상품상세설명 참조' nan nan]
['한국' nan nan]
['한국' nan nan]
[nan nan nan]
['상품상세설명 참조' nan nan]
['영국' nan nan]
['상품상세설명 참조' nan nan]
['상품상세설명 참조' nan nan]
['프랑스' nan nan]
['대한민국' nan nan]
['실키 핸드 크림 : 미국 / 텐더토크 립 밤 : 한국' nan nan]
['프랑스' nan nan]
['대한민국' nan nan]
['대한민국' nan nan]
[nan nan nan]
['상품상세설명 참조' nan nan]
['바디오일: 한국 / 우드 마사저: 베트남 / 파우치: 중국' nan nan]
['대한민국' nan nan]
['상품상세설명 참조' nan nan]
['상품상세설명 참조' nan nan]
['상품상세설명 참조' nan nan]
['대한민국' nan nan]
['프랑스' nan nan]
['[모로칸오일 트리트먼트] 이스라엘 [올 인 원 리브인 컨디셔너] 미국' nan nan]
['상품상세설명 참조' nan nan]
['상품상세설명 참조' nan nan]
['대한민국' nan nan]
['상품상세설명 참조' nan nan]
['이탈리아' nan nan]
['한국' nan nan]
['프랑스' nan nan]
['상품상세설명 참조' nan nan]
['프랑스' nan nan]
['상품상세설명 참조' nan nan]
['이스라엘' nan nan]
[nan nan nan]
['대한민국' nan nan]
['대한민국' nan nan]
[nan nan nan]
['인도네시아' nan nan]
['상품상세설명 참조' nan nan]
['상품상세설명 참조' nan nan]
[nan nan nan]
[nan nan nan]
[nan nan nan]
[nan nan nan]
[nan nan nan]
[nan nan nan]
[nan nan nan]
[nan nan nan]

['상품상세설명 참조' nan nan]
['중국' nan nan]
['중국' nan nan]
['중국' nan nan]
['상품상세설명 참조' nan nan]
['상품상세설명 참조' nan nan]
['중국' nan nan]
['체코' nan nan]
['상품상세설명 참조' nan nan]
['상품상세설명 참조' nan nan]
['상품상세설명 참조' nan nan]
['상품상세설명 참조' nan nan]
['상품상세설명 참조' nan nan]
['상품상세설명 참조' nan nan]
['상품상세설명 참조' nan nan]
['상품상세설명 참조' nan nan]
['상품상세설명 참조' nan nan]
['상품상세설명 참조' nan nan]
['중국' nan nan]
['중국' nan nan]
['중국' nan nan]
['상품상세설명 참조' nan nan]
['상품상세설명 참조' nan nan]
['중국' nan nan]
['중국' nan nan]
['중국' nan nan]
['중국' nan nan]


In [65]:
import math

math.isnan(tmp.values[0][1])

True

In [76]:
tmp

Unnamed: 0,madefrom,madefrom.1,madefrom.2
0,한국,,
1,상품상세설명 참조,,
2,상품상세설명 참조,,
3,한국,,
4,한국,,
...,...,...,...
92,상품상세설명 참조,,
93,중국,,
94,중국,,
95,중국,,


In [72]:
row_list = []

for row in tmp.values:
    for elements in row:
        if type(elements)==str:
            row_list.append({'madefrom':elements})
            break
        row_list.append({'madefrom':float('nan')})

In [73]:
tmp2 = pd.DataFrame(row_list)

(tmp2.isna().sum()/(len(tmp2.index)) * 100)

madefrom    59.531091
dtype: float64

In [75]:
tmp2.shape

(2943, 1)

In [74]:
tmp2.head(15)

Unnamed: 0,madefrom
0,한국
1,상품상세설명 참조
2,상품상세설명 참조
3,한국
4,한국
5,
6,
7,
8,상품상세설명 참조
9,영국
