In [None]:
import numpy as np
import pandas as pd
import datetime as dt
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
%matplotlib inline

# for문 진행 현황을 확인할 수 있는 패키지
from tqdm.notebook import tqdm

# 여러 개의 데이터 프레임을 한 번에 merge 해주기 위한 패키지
from functools import reduce

# 이 두 줄의 코드는 matplotlib의 기본 scheme말고, seaborn scheme을 세팅해준다
# 일일이 graph의 font size를 지정할 필요 없이, seaborn의 font_scale을 사용하면 편리하다
plt.style.use('seaborn')
sns.set(font_scale = 2.5)

# 그래프에서 한글 폰트 깨지는 문제를 해결해주기 위한 코드
from matplotlib import font_manager, rc
plt.rcParams['axes.unicode_minus'] = False

import platform

if platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
    path = "c:/Windows/Fonts/malgun.ttf"
    font_name = font_manager.FontProperties(fname = path).get_name()
    rc('font', family = font_name)
else:
    print('Unknown system... sorry~~~~')

**<데이터 불러오기>**

In [None]:
df_train = pd.read_csv('C:/Users/Playdata/2020_Bigcontest_working/dataset/df_train_final2.csv')
df_train.head()

# 상품 분류

In [None]:
df_train.pd_group.value_counts()

## 각 상품군(총 11개)의 상품명들 확인
- 중복된 상품명들은 제거해주도록 하겠다.
    - ```drop_duplicates()``` 사용

In [None]:
pd_kitchen = pd.DataFrame(df_train[(df_train['pd_group'] == '주방')]['pd_name']).drop_duplicates()
pd_kitchen.rename(columns = {'pd_name':'pd_kitchen'}, inplace = True)
print("'주방' 상품군의 상품명 개수: ", len(pd_kitchen))
print('-' * 50)

pd_elec = pd.DataFrame(df_train[(df_train['pd_group'] == '가전')]['pd_name']).drop_duplicates()
pd_elec.rename(columns = {'pd_name':'pd_elec'}, inplace = True)
print("'가전' 상품군의 상품명 개수: ", len(pd_elec))
print('-' * 50)

pd_clothes = pd.DataFrame(df_train[(df_train['pd_group'] == '의류')]['pd_name']).drop_duplicates()
pd_clothes.rename(columns = {'pd_name':'pd_clothes'}, inplace = True)
print("'의류' 상품군의 상품명 개수: ", len(pd_clothes))
print('-' * 50)

pd_underwear = pd.DataFrame(df_train[(df_train['pd_group'] == '속옷')]['pd_name']).drop_duplicates()
pd_underwear.rename(columns = {'pd_name':'pd_underwear'}, inplace = True)
print("'속옷' 상품군의 상품명 개수: ", len(pd_underwear))
print('-' * 50)

pd_etc = pd.DataFrame(df_train[(df_train['pd_group'] == '잡화')]['pd_name']).drop_duplicates()
pd_etc.rename(columns = {'pd_name':'pd_etc'}, inplace = True)
print("'잡화' 상품군의 상품명 개수: ", len(pd_etc))
print('-' * 50)

pd_agri = pd.DataFrame(df_train[(df_train['pd_group'] == '농수축')]['pd_name']).drop_duplicates()
pd_agri.rename(columns = {'pd_name':'pd_agri'}, inplace = True)
print("'농수축' 상품군의 상품명 개수: ", len(pd_agri))
print('-' * 50)

pd_supply = pd.DataFrame(df_train[(df_train['pd_group'] == '생활용품')]['pd_name']).drop_duplicates()
pd_supply.rename(columns = {'pd_name':'pd_supply'}, inplace = True)
print("'생활용품' 상품군의 상품명 개수: ", len(pd_supply))
print('-' * 50)

pd_furniture = pd.DataFrame(df_train[(df_train['pd_group'] == '가구')]['pd_name']).drop_duplicates()
pd_furniture.rename(columns = {'pd_name':'pd_furniture'}, inplace = True)
print("'가구' 상품군의 상품명 개수: ", len(pd_furniture))
print('-' * 50)

pd_beauty = pd.DataFrame(df_train[(df_train['pd_group'] == '이미용')]['pd_name']).drop_duplicates()
pd_beauty.rename(columns = {'pd_name':'pd_beauty'}, inplace = True)
print("'이미용' 상품군의 상품명 개수: ", len(pd_beauty))
print('-' * 50)

pd_health = pd.DataFrame(df_train[(df_train['pd_group'] == '건강기능')]['pd_name']).drop_duplicates()
pd_health.rename(columns = {'pd_name':'pd_health'}, inplace = True)
print("'건강기능' 상품군의 상품명 개수: ", len(pd_health))
print('-' * 50)

pd_bed = pd.DataFrame(df_train[(df_train['pd_group'] == '침구')]['pd_name']).drop_duplicates()
pd_bed.rename(columns = {'pd_name':'pd_bed'}, inplace = True)
print("'침구' 상품군의 상품명 개수: ", len(pd_bed))

- 이제 각 상품군별로 **브랜드명 및 세부적인 상품 리스트**를 추출해보겠다. (노가다)

### "주방" 상품군

In [None]:
pd_kitchen_list = ['에코라믹 냄비', '쿠첸 압력밥솥', '린나이 가스레인지', '키친플라워 에어프라이어', '한일 분쇄믹서기', 
                   '쿠쿠 전기밥솥', '에코라믹 프라이팬', '스위스밀리터리 에어프라이어', '모즈 커피머신', '모즈 미니오븐', 
                   '아이오 진공포장기', '락앤락 칼블럭_키친툴', '키친플라워 참소쿠리', '락앤락 밀폐용기', '에버홈 직화그릴',
                   '올리고 가스와이드그릴레인지', '쿠첸 티메이커', '해피콜 냄비', '스텐락 밀폐용기', '쓰임 도마',
                   '로벤탈 실버팬', '뉴클레린 티메이커', '쿠쿠 전기밥솥', '린나이 가스레인지', '세균싹 행주티슈',
                   '해피콜 싱크릴', '아이넥스 싱크선반', '락앤락 오븐글라스', '쿠쿠 인덕션레인지', '프로피쿡 에어프라이어',
                   '키친아트 밀폐용기', '아이넥스 싱크선반', '쿠첸 압력밥솥', '쿠진나이프케어 살균건조기', '에지리 프라이팬',
                   '베스트하임 에어프라이어', '노와 에어프라이어', '키친아트 밀폐용기', '쿠첸 압력밥솥', '델첸 텀블러블랜더',
                   '베스트하임 에어프라이어', '해피콜 후라이팬', '올리고 가스와이드그릴', '파뷔에 도마', '쿠첸 압력밥솥',
                   '해피콜 냄비', '드럼쿡 회전통그릴', '송도순 홈밀맷돌', '매직쉐프 에어프라이어', '테팔 프라이팬',
                   '파뷔에 후라이팬', '쓰임 마리벨_홈세트', '글라스락 밀폐용기', '리큅 블렌더', '뉴욕맘 행주', 
                   '에지리 냄비', '한샘 프라이팬', '쿠진 바비큐그릴', '마이베비 텀블러', '휴롬 착즙기',
                   '오스터 텀블러블랜더', '쿠쿠 전기밥솥', '파뷔에 도마', '매직쉐프 전자레인지', '휴롬 퀵스퀴저',
                   '아이넥스 식기건조대', '에코바이런 도마', '웰스락 밀폐용기', '키친플라워 그린후레쉬', '하우홈 진공쿠킹블렌더',
                   'am마카롱 텀블러', '두꺼비매직 수세미', 'QOOCA 휴대용믹서기', '오슬로 프라이팬', '안타고 가스그릴',
                   '쿠쿠 전기밥솥', '뉴욕맘 수세미', '이지엔 지퍼백', '해피콜 양면팬', '해피콜 냄비', 
                   '에코라믹 냄비', '락앤락 살균블럭', '에코라믹 프라이팬', '에코라믹 냄비', '쿠쿠 전기밥솥',
                   '파뷔에 식기건조대', '로벤탈 실버팬', '에델코첸 냄비', 'SK매직 식기세척기', '파뷔에 냄비',
                   '실리만 냄비', '실리만 후라이팬', '노와 만능다지기', '엘가 가마솥', '벨라홈 행주티슈',
                   '라니 그릴', 'PN풍년 죽제조기', '파뷔에 도마', '뉴욕맘 행주', '뉴욕맘 수세미', 
                   '쿠첸 전자레인지', '스마트코너 블렌더', '아이넥스 식기건조대', '센스락 무선진공포장기', '로벤탈 후라이팬',
                   '올리고 가스와이드그릴레인지', '송도순 중탕기', '에버홈 믹서기', '클란츠 멀티쿡', '구스터 티포트',
                   '해피콜 블렌더', '실바트 인덕션', '실바트 후라이팬', '셰프웨이 프라이팬', '파뷔에 디너세트', 
                   '키친아트 스텐용기', '쿠첸 압력밥솥', '세라맥스 전기레인지', '파뷔에 프라이팬', 'am마카롱 보온병', 
                   '셰프웨이 프라이팬', '키친플라워 에어프라이어', '셀렉프로 전기밥솥', '옥샘쿡 가마솥', '램프쿡 냄비', '벨라홈 멀티포트']

In [None]:
result1 = []
for i in range(len(pd_kitchen_list)):
    result1.append(pd_kitchen_list[i].split(' '))
result1

In [None]:
kitchen_brand = [] # 브랜드 명을 담을 리스트
kitchen_product = [] # 세부적인 상품 종류를 담을 리스트

for i in range(len(result1)):
    kitchen_brand.append(result1[i][0])
    kitchen_product.append(result1[i][1])

In [None]:
# 브랜드 명 (총 65개의 브랜드가 존재)
df_kitchen_brand = pd.DataFrame(kitchen_brand, columns = ['brand_name']).drop_duplicates()
df_kitchen_brand

In [None]:
# 상품 종류 (총 62종의 상품이 존재)
df_kitchen_product = pd.DataFrame(kitchen_product, columns = ['product']).drop_duplicates()
df_kitchen_product