In [1]:
import numpy as np
import pandas as pd
import random

In [2]:
df = pd.read_csv('tmk_bda_test.csv')
df = df.drop('Unnamed: 0', axis=1)
df

Unnamed: 0,scd,product_name,net_order_qty,net_order_amt,gender,age_grp,employee_yn,order_date,prime_yn
0,20230101964282,비비고 스팸부대찌개 460g,1,8.161946,M,4,N,20230101,
1,20230101970142,삼호 생선살어묵 야채 200g,1,8.098947,M,4,Y,20230101,
2,20230101965237,크레잇 블랙페퍼 폭찹 스테이크,1,8.277412,F,4,N,20230101,
3,20230102973798,비비고 소고기 미역국 500g,3,9.145375,F,3,N,20230102,
4,20230101965633,비비고 소고기 미역국 500g,2,8.613230,F,3,N,20230101,
...,...,...,...,...,...,...,...,...,...
19655,20230103986821,비비고 찐만두168g,1,7.930566,M,5,Y,20230103,
19656,20230102979023,사골곰탕 한 그릇 100g (1-2인분X5개입),1,8.477412,F,3,Y,20230102,
19657,20230103989581,쁘띠첼 자몽상큼함듬뿍워터젤리 130ml,10,9.421249,F,3,Y,20230103,
19658,20230104999357,비비고 언양식 바싹불고기 460g,1,8.594895,M,4,N,20230104,


In [3]:
# 결측값 확인
df.isnull().sum()

scd                  0
product_name         0
net_order_qty        0
net_order_amt        0
gender               0
age_grp              0
employee_yn          0
order_date           0
prime_yn         19660
dtype: int64

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19660 entries, 0 to 19659
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   scd            19660 non-null  int64  
 1   product_name   19660 non-null  object 
 2   net_order_qty  19660 non-null  int64  
 3   net_order_amt  19660 non-null  float64
 4   gender         19660 non-null  object 
 5   age_grp        19660 non-null  int64  
 6   employee_yn    19660 non-null  object 
 7   order_date     19660 non-null  int64  
 8   prime_yn       0 non-null      float64
dtypes: float64(2), int64(4), object(3)
memory usage: 1.4+ MB


In [5]:
# 프라임 회원 유무 인코딩 (1 = 프라임 회원, 0 = 일반 회원)
map_prime = {'N':0, 'Y':1}
df['prime_yn'] = df['prime_yn'].map(map_prime)
df

Unnamed: 0,scd,product_name,net_order_qty,net_order_amt,gender,age_grp,employee_yn,order_date,prime_yn
0,20230101964282,비비고 스팸부대찌개 460g,1,8.161946,M,4,N,20230101,
1,20230101970142,삼호 생선살어묵 야채 200g,1,8.098947,M,4,Y,20230101,
2,20230101965237,크레잇 블랙페퍼 폭찹 스테이크,1,8.277412,F,4,N,20230101,
3,20230102973798,비비고 소고기 미역국 500g,3,9.145375,F,3,N,20230102,
4,20230101965633,비비고 소고기 미역국 500g,2,8.613230,F,3,N,20230101,
...,...,...,...,...,...,...,...,...,...
19655,20230103986821,비비고 찐만두168g,1,7.930566,M,5,Y,20230103,
19656,20230102979023,사골곰탕 한 그릇 100g (1-2인분X5개입),1,8.477412,F,3,Y,20230102,
19657,20230103989581,쁘띠첼 자몽상큼함듬뿍워터젤리 130ml,10,9.421249,F,3,Y,20230103,
19658,20230104999357,비비고 언양식 바싹불고기 460g,1,8.594895,M,4,N,20230104,


In [6]:
# 성별 인코딩 (1 = Male, 0 = Female)
map_gender = {'F':0, 'M':1}
df['gender'] = df['gender'].map(map_gender)
df

Unnamed: 0,scd,product_name,net_order_qty,net_order_amt,gender,age_grp,employee_yn,order_date,prime_yn
0,20230101964282,비비고 스팸부대찌개 460g,1,8.161946,1,4,N,20230101,
1,20230101970142,삼호 생선살어묵 야채 200g,1,8.098947,1,4,Y,20230101,
2,20230101965237,크레잇 블랙페퍼 폭찹 스테이크,1,8.277412,0,4,N,20230101,
3,20230102973798,비비고 소고기 미역국 500g,3,9.145375,0,3,N,20230102,
4,20230101965633,비비고 소고기 미역국 500g,2,8.613230,0,3,N,20230101,
...,...,...,...,...,...,...,...,...,...
19655,20230103986821,비비고 찐만두168g,1,7.930566,1,5,Y,20230103,
19656,20230102979023,사골곰탕 한 그릇 100g (1-2인분X5개입),1,8.477412,0,3,Y,20230102,
19657,20230103989581,쁘띠첼 자몽상큼함듬뿍워터젤리 130ml,10,9.421249,0,3,Y,20230103,
19658,20230104999357,비비고 언양식 바싹불고기 460g,1,8.594895,1,4,N,20230104,


In [7]:
# 구매일자 인코딩
df['weekday'] = df['order_date'].apply(lambda x: pd.to_datetime(str(x), format='%Y-%m-%d'))
df['weekday'] = df['weekday'].dt.weekday
df

Unnamed: 0,scd,product_name,net_order_qty,net_order_amt,gender,age_grp,employee_yn,order_date,prime_yn,weekday
0,20230101964282,비비고 스팸부대찌개 460g,1,8.161946,1,4,N,20230101,,6
1,20230101970142,삼호 생선살어묵 야채 200g,1,8.098947,1,4,Y,20230101,,6
2,20230101965237,크레잇 블랙페퍼 폭찹 스테이크,1,8.277412,0,4,N,20230101,,6
3,20230102973798,비비고 소고기 미역국 500g,3,9.145375,0,3,N,20230102,,0
4,20230101965633,비비고 소고기 미역국 500g,2,8.613230,0,3,N,20230101,,6
...,...,...,...,...,...,...,...,...,...,...
19655,20230103986821,비비고 찐만두168g,1,7.930566,1,5,Y,20230103,,1
19656,20230102979023,사골곰탕 한 그릇 100g (1-2인분X5개입),1,8.477412,0,3,Y,20230102,,0
19657,20230103989581,쁘띠첼 자몽상큼함듬뿍워터젤리 130ml,10,9.421249,0,3,Y,20230103,,1
19658,20230104999357,비비고 언양식 바싹불고기 460g,1,8.594895,1,4,N,20230104,,2


In [8]:
# 요일로 분류 (0 = 월, 1 = 화, 2 = 수, 3 = 목, 4 = 금, 5 = 토, 6 = 일)
df['weekday'].value_counts()

6    6292
0    4768
1    3047
3    1730
2    1495
4    1249
5    1079
Name: weekday, dtype: int64

In [9]:
# 1월 23일 월, 1월 24일 화 : 설 연휴
df['order_date'] = df['order_date'].apply(lambda x: pd.to_datetime(str(x), format='%Y-%m-%d'))
df['weekday'] = np.where((df['weekday']==5) | (df['weekday']==6) | (df['order_date']==2023-1-23) | (df['order_date']==2023-1-24), 0, 1)
df

Unnamed: 0,scd,product_name,net_order_qty,net_order_amt,gender,age_grp,employee_yn,order_date,prime_yn,weekday
0,20230101964282,비비고 스팸부대찌개 460g,1,8.161946,1,4,N,2023-01-01,,0
1,20230101970142,삼호 생선살어묵 야채 200g,1,8.098947,1,4,Y,2023-01-01,,0
2,20230101965237,크레잇 블랙페퍼 폭찹 스테이크,1,8.277412,0,4,N,2023-01-01,,0
3,20230102973798,비비고 소고기 미역국 500g,3,9.145375,0,3,N,2023-01-02,,1
4,20230101965633,비비고 소고기 미역국 500g,2,8.613230,0,3,N,2023-01-01,,0
...,...,...,...,...,...,...,...,...,...,...
19655,20230103986821,비비고 찐만두168g,1,7.930566,1,5,Y,2023-01-03,,1
19656,20230102979023,사골곰탕 한 그릇 100g (1-2인분X5개입),1,8.477412,0,3,Y,2023-01-02,,1
19657,20230103989581,쁘띠첼 자몽상큼함듬뿍워터젤리 130ml,10,9.421249,0,3,Y,2023-01-03,,1
19658,20230104999357,비비고 언양식 바싹불고기 460g,1,8.594895,1,4,N,2023-01-04,,1


In [10]:
# 평일 / 주말 및 공휴일로 분류 (1 = 평일, 0 = 주말 및 공휴일)
df['weekday'].value_counts()

1    12289
0     7371
Name: weekday, dtype: int64

In [11]:
# 이벤트 할인 제품 총 구매 횟수 (event_product)
# '['가 포함되어 있는 제품
# 식물성, 냉동, 배송, 유산균, 눈건강, 피부건강, 1BOX는 이벤트에서 제외
df['event_product'] = np.where((df['product_name'].str.contains(r'\[')) & (-df['product_name'].str.contains('식물성|냉동|배송|유산균|눈건강|피부건강|1BOX|쿡킷')), 1, 0)
df

Unnamed: 0,scd,product_name,net_order_qty,net_order_amt,gender,age_grp,employee_yn,order_date,prime_yn,weekday,event_product
0,20230101964282,비비고 스팸부대찌개 460g,1,8.161946,1,4,N,2023-01-01,,0,0
1,20230101970142,삼호 생선살어묵 야채 200g,1,8.098947,1,4,Y,2023-01-01,,0,0
2,20230101965237,크레잇 블랙페퍼 폭찹 스테이크,1,8.277412,0,4,N,2023-01-01,,0,0
3,20230102973798,비비고 소고기 미역국 500g,3,9.145375,0,3,N,2023-01-02,,1,0
4,20230101965633,비비고 소고기 미역국 500g,2,8.613230,0,3,N,2023-01-01,,0,0
...,...,...,...,...,...,...,...,...,...,...,...
19655,20230103986821,비비고 찐만두168g,1,7.930566,1,5,Y,2023-01-03,,1,0
19656,20230102979023,사골곰탕 한 그릇 100g (1-2인분X5개입),1,8.477412,0,3,Y,2023-01-02,,1,0
19657,20230103989581,쁘띠첼 자몽상큼함듬뿍워터젤리 130ml,10,9.421249,0,3,Y,2023-01-03,,1,0
19658,20230104999357,비비고 언양식 바싹불고기 460g,1,8.594895,1,4,N,2023-01-04,,1,0


- 0 = 국/김치/김/반찬/두부
- 1 = 스팸/닭가슴살/소시지
- 2 = 신선식품
- 3 = 만두/피자/치킨
- 4 = 핫도그/떡볶이/간식
- 5 = 돈까스/함박/구이
- 6 = 밥/죽/면
- 7 = 밀키트
- 8 = 건강식품
- 9 = 음료/생수/시럽
- 10 = 양념/소스/가루/오일
- 11 = 대용량 식자제

In [12]:
# 중복 데이터 삭제
cj = pd.read_csv('cj_category.csv')
cj = cj.drop('Unnamed: 0', axis=1)
cj = cj.drop_duplicates()
cj.columns = ['category', 'product_name']
cj

Unnamed: 0,category,product_name
0,0,[생산직송]비비고 포기배추김치 5kg+총각김치 2kg
1,0,[생산직송]비비고 포기김치 5kg+열무김치 900gX2개
2,0,비비고 순살 고등어구이 60g
3,0,비비고 소고기 미역국 500gx18개(1box)
4,0,비비고 소고기 미역국 500gX6개
...,...,...
1722,11,크레잇 베이컨 1kg
1723,11,요리당5kg
1724,11,크레잇 햄야채볶음밥 280g
1725,11,쉐프솔루션 고기팡팡 미트볼1kg


In [13]:
# 2개 이상의 카테고리에 포함되어 있는 제품
cj_cate = cj['product_name'].value_counts().to_frame()
cj_cate.reset_index(drop=False, inplace=True)
cj_cate.columns = ['product_name', 'num']
cj_cate

Unnamed: 0,product_name,num
0,프레시웨이 간식/아이스크림 골라담기,3
1,백설 하얀설탕 5kg,2
2,울트라레귤러컷 냉동감자 2kg,2
3,고메 삼선해물볶음밥 420g,2
4,해찬들 100% 우리쌀 매운 태양초 고추장 3kg,2
...,...,...
1662,비비고 청양고추 찐만두 392gX2개,1
1663,고메 미니치즈너겟 400g,1
1664,비비고 왕만두490gx2개,1
1665,비비고 청양고추 찐만두 168g,1


In [14]:
cj_cate2 = cj_cate[cj_cate['num']>=2]
cj_cate2

Unnamed: 0,product_name,num
0,프레시웨이 간식/아이스크림 골라담기,3
1,백설 하얀설탕 5kg,2
2,울트라레귤러컷 냉동감자 2kg,2
3,고메 삼선해물볶음밥 420g,2
4,해찬들 100% 우리쌀 매운 태양초 고추장 3kg,2
5,비비고칩 스위트콘40G,2
6,비비고칩 포테이토40g,2
7,백설 하얀 자일로스 설탕 5kg,2
8,하선정 알찬 알마늘 1kg,2
9,아메리칸 와플믹스 10kg,2


In [15]:
cj_cate2_lst = cj_cate2.product_name.values.tolist()
cj_cate2_lst

['프레시웨이 간식/아이스크림 골라담기',
 '백설 하얀설탕 5kg',
 '울트라레귤러컷 냉동감자 2kg',
 '고메 삼선해물볶음밥 420g',
 '해찬들 100% 우리쌀 매운 태양초 고추장 3kg',
 '비비고칩 스위트콘40G',
 '비비고칩 포테이토40g',
 '백설 하얀 자일로스 설탕 5kg',
 '하선정 알찬 알마늘 1kg',
 '아메리칸 와플믹스 10kg',
 '하선정 장아찌 1kg',
 '백설 프락토 올리고당 2.45kg',
 '육수가득 소불고기 전골_밀키트',
 '고메 간식 골라담기',
 '쿠캣 티라미수쏙 찹쌀떡 540g',
 '비비고칩 오리지널40g',
 '하선정 까나리액젓 실속형 3kg',
 '백설 갈색설탕 5Kg',
 '고메 중화게살볶음밥 420g',
 '아메리칸 핫도그용 포크소시지 950g',
 '한뿌리 홍삼수 340mlX20개',
 '해찬들 찰골드고추장 14kg',
 '하선정 까나리액젓 실속형 9kg',
 '백설 2배사과식초 1.8L',
 '고메 중화짜장 760g',
 '해찬들 새콤달콤 초고추장 1050g',
 '백설 요리 올리고당 2.45kg',
 '해찬들 태양초고추장 6.5kg',
 '백설 옥수수전분 20kg',
 '해찬들 태양초고추장 14kg(캔)',
 '하선정 멸치액젓 실속형 9kg',
 '이츠웰 빵가루왕새우튀김300gx3개',
 '요리당2.45kg',
 '쿠캣 딸기쏙우유 찹쌀떡 540g',
 '[택배배송] 해물 짬뽕 비비고 만두 전골_밀키트 (유통기한 23.09.14까지)',
 '중화요리간짜장 2인분 630g',
 '배터믹스20kg',
 '해찬들 사계절쌈장 골드 14kg',
 '백설 브라운 자일로스 설탕 5Kg',
 '[고메x덕후선생] 고메 호남식납육초반 420g',
 '크레잇 꼬마핫도그 1.25kg(50gX 25개)',
 '케이준프라이 냉동감자 2kg',
 '고메 중화소고기볶음밥 420g',
 '하선정 통오이지 1kg',
 '다시다 쇠고기 25kg',
 '해찬들 재래식된장 3kg',
 '해쉬브라운 냉동감자 1.2kg',
 '얼큰

In [16]:
cj_cate2_lst = '|'.join(cj_cate2_lst)
cj_2 = cj[cj['product_name'].str.contains(cj_cate2_lst)].sort_values(by='product_name', ascending=False)
cj_2

  cj_2 = cj[cj['product_name'].str.contains(cj_cate2_lst)].sort_values(by='product_name', ascending=False)


Unnamed: 0,category,product_name
1689,11,해찬들 태양초고추장 6.5kg
1535,10,해찬들 태양초고추장 6.5kg
1715,11,해찬들 찰골드고추장 14kg
1630,10,해찬들 찰골드고추장 14kg
1395,10,해찬들 재래식된장 3kg
...,...,...
589,4,고메 간식 골라담기
1081,7,[택배배송] 해물 짬뽕 비비고 만두 전골_밀키트 (유통기한 23.09.14까지)
255,0,[택배배송] 해물 짬뽕 비비고 만두 전골_밀키트 (유통기한 23.09.14까지)
1078,7,[택배배송] 얼큰 버섯 비비고 만두 전골_밀키트 (유통기한 23.08.30까지)


In [17]:
cj_2['category'].value_counts()

11    30
10    23
0     11
4     10
3     10
6      8
7      5
2      3
8      2
9      2
1      1
Name: category, dtype: int64

In [18]:
# 대용량으로 겹치는 제품 삭제
cj_2_11 = cj_2[cj_2['category']==11]
cj_2_11

Unnamed: 0,category,product_name
1689,11,해찬들 태양초고추장 6.5kg
1715,11,해찬들 찰골드고추장 14kg
1649,11,해찬들 재래식된장 3kg
1639,11,해찬들 새콤달콤 초고추장 1050g
1698,11,해찬들 사계절쌈장 골드 14kg
1656,11,해찬들 사계절쌈장 3kg
1666,11,해찬들 100% 우리쌀 매운 태양초 고추장 3kg
1642,11,해쉬브라운 냉동감자 1.2kg
1650,11,하선정 통오이지 1kg
1685,11,하선정 장아찌 1kg


In [19]:
cj_2_11_lst = cj_2_11.product_name.values.tolist()
cj_2_11_lst

['해찬들 태양초고추장 6.5kg',
 '해찬들 찰골드고추장 14kg',
 '해찬들 재래식된장 3kg',
 '해찬들 새콤달콤 초고추장 1050g',
 '해찬들 사계절쌈장 골드 14kg',
 '해찬들 사계절쌈장 3kg',
 '해찬들 100% 우리쌀 매운 태양초 고추장 3kg',
 '해쉬브라운 냉동감자 1.2kg',
 '하선정 통오이지 1kg',
 '하선정 장아찌 1kg',
 '하선정 알찬 알마늘 1kg',
 '하선정 멸치액젓 실속형 9kg',
 '하선정 까나리액젓 실속형 9kg',
 '하선정 까나리액젓 실속형 3kg',
 '케이준프라이 냉동감자 2kg',
 '중력 밀가루 10kg',
 '울트라레귤러컷 냉동감자 2kg',
 '요리당2.45kg',
 '아메리칸 핫도그용 포크소시지 950g',
 '아메리칸 와플믹스 10kg',
 '백설 하얀설탕 5kg',
 '백설 하얀 자일로스 설탕 5kg',
 '백설 프락토 올리고당 2.45kg',
 '백설 요리 올리고당 2.45kg',
 '백설 옥수수전분 20kg',
 '백설 브라운 자일로스 설탕 5Kg',
 '백설 갈색설탕 5Kg',
 '백설 2배사과식초 1.8L',
 '배터믹스20kg',
 '다시다 쇠고기 25kg']

In [20]:
cj_2_11_lst = '|'.join(cj_2_11_lst)
cj.drop(cj[(cj['product_name'].str.contains(cj_2_11_lst))&(cj['category']==11)].index, inplace=True)
cj

Unnamed: 0,category,product_name
0,0,[생산직송]비비고 포기배추김치 5kg+총각김치 2kg
1,0,[생산직송]비비고 포기김치 5kg+열무김치 900gX2개
2,0,비비고 순살 고등어구이 60g
3,0,비비고 소고기 미역국 500gx18개(1box)
4,0,비비고 소고기 미역국 500gX6개
...,...,...
1722,11,크레잇 베이컨 1kg
1723,11,요리당5kg
1724,11,크레잇 햄야채볶음밥 280g
1725,11,쉐프솔루션 고기팡팡 미트볼1kg


In [21]:
cj_cate = cj['product_name'].value_counts().to_frame()
cj_cate.reset_index(drop=False, inplace=True)
cj_cate.columns = ['product_name', 'num']
cj_cate

Unnamed: 0,product_name,num
0,프레시웨이 간식/아이스크림 골라담기,3
1,한뿌리 홍삼수 340ml,2
2,중화요리간짜장 2인분 630g,2
3,[택배배송] 해물 짬뽕 비비고 만두 전골_밀키트 (유통기한 23.09.14까지),2
4,해물 짬뽕 비비고 만두 전골_밀키트,2
...,...,...
1662,비비고 왕만두490gx2개,1
1663,비비고 청양고추 찐만두 168g,1
1664,크레잇 테이스티박스 만두그라탕 240g,1
1665,비비고 버섯소고기만두618g,1


In [22]:
cj_cate2 = cj_cate[cj_cate['num']>=2]
cj_cate2

Unnamed: 0,product_name,num
0,프레시웨이 간식/아이스크림 골라담기,3
1,한뿌리 홍삼수 340ml,2
2,중화요리간짜장 2인분 630g,2
3,[택배배송] 해물 짬뽕 비비고 만두 전골_밀키트 (유통기한 23.09.14까지),2
4,해물 짬뽕 비비고 만두 전골_밀키트,2
5,고메 중화짬뽕 652g,2
6,[고메x덕후선생] 고메 호남식납육초반 420g,2
7,해찬들 태양초고추장 14kg(캔),2
8,육수가득 소불고기 전골_밀키트,2
9,비비고칩 포테이토40g,2


In [23]:
cj_cate2_lst = cj_cate2.product_name.values.tolist()
cj_cate2_lst

['프레시웨이 간식/아이스크림 골라담기',
 '한뿌리 홍삼수 340ml',
 '중화요리간짜장 2인분 630g',
 '[택배배송] 해물 짬뽕 비비고 만두 전골_밀키트 (유통기한 23.09.14까지)',
 '해물 짬뽕 비비고 만두 전골_밀키트',
 '고메 중화짬뽕 652g',
 '[고메x덕후선생] 고메 호남식납육초반 420g',
 '해찬들 태양초고추장 14kg(캔)',
 '육수가득 소불고기 전골_밀키트',
 '비비고칩 포테이토40g',
 '이츠웰 빵가루왕새우튀김300gx3개',
 '비비고칩 스위트콘40G',
 '크레잇 꼬마핫도그 1.25kg(50gX 25개)',
 '고메 중화짜장 760g',
 '쿠캣 티라미수쏙 찹쌀떡 540g',
 '고메 삼선해물볶음밥 420g',
 '이츠웰 빵가루코코넛새우튀김200gx3개',
 '[택배배송] 얼큰 버섯 비비고 만두 전골_밀키트 (유통기한 23.08.30까지)',
 '얼큰 버섯 비비고 만두 전골_밀키트',
 '고메 중화게살볶음밥 420g',
 '쿠캣 딸기쏙우유 찹쌀떡 540g',
 '고메 중화소고기볶음밥 420g',
 '고메 간식 골라담기',
 '[고메x덕후선생] 고메 덕후선생 마장반면 425g',
 '한뿌리 홍삼수 340mlX20개',
 '비비고칩 오리지널40g']

In [24]:
cj_cate2_lst = '|'.join(cj_cate2_lst)
cj_2 = cj[cj['product_name'].str.contains(cj_cate2_lst)].sort_values(by='product_name', ascending=False)
cj_2

  cj_2 = cj[cj['product_name'].str.contains(cj_cate2_lst)].sort_values(by='product_name', ascending=False)


Unnamed: 0,category,product_name
1082,7,해물 짬뽕 비비고 만두 전골_밀키트
256,0,해물 짬뽕 비비고 만두 전골_밀키트
1221,9,한뿌리 홍삼수 340mlX20개
1135,8,한뿌리 홍삼수 340mlX20개
1236,9,한뿌리 홍삼수 340ml
1162,8,한뿌리 홍삼수 340ml
392,2,프레시웨이 간식/아이스크림 골라담기
628,4,프레시웨이 간식/아이스크림 골라담기
546,3,프레시웨이 간식/아이스크림 골라담기
687,4,쿠캣 티라미수쏙 찹쌀떡 540g


In [25]:
# 나머지는 랜덤으로 첫번째 카테고리로 분류
cj = cj.drop_duplicates(subset=['product_name'], keep='last') #first
cj

Unnamed: 0,category,product_name
0,0,[생산직송]비비고 포기배추김치 5kg+총각김치 2kg
1,0,[생산직송]비비고 포기김치 5kg+열무김치 900gX2개
2,0,비비고 순살 고등어구이 60g
3,0,비비고 소고기 미역국 500gx18개(1box)
4,0,비비고 소고기 미역국 500gX6개
...,...,...
1722,11,크레잇 베이컨 1kg
1723,11,요리당5kg
1724,11,크레잇 햄야채볶음밥 280g
1725,11,쉐프솔루션 고기팡팡 미트볼1kg


In [26]:
# 카테고리 변수 생성
cj_new = pd.merge(df, cj, on='product_name', how='left')
cj_new

Unnamed: 0,scd,product_name,net_order_qty,net_order_amt,gender,age_grp,employee_yn,order_date,prime_yn,weekday,event_product,category
0,20230101964282,비비고 스팸부대찌개 460g,1,8.161946,1,4,N,2023-01-01,,0,0,0.0
1,20230101970142,삼호 생선살어묵 야채 200g,1,8.098947,1,4,Y,2023-01-01,,0,0,
2,20230101965237,크레잇 블랙페퍼 폭찹 스테이크,1,8.277412,0,4,N,2023-01-01,,0,0,
3,20230102973798,비비고 소고기 미역국 500g,3,9.145375,0,3,N,2023-01-02,,1,0,0.0
4,20230101965633,비비고 소고기 미역국 500g,2,8.613230,0,3,N,2023-01-01,,0,0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...
19655,20230103986821,비비고 찐만두168g,1,7.930566,1,5,Y,2023-01-03,,1,0,3.0
19656,20230102979023,사골곰탕 한 그릇 100g (1-2인분X5개입),1,8.477412,0,3,Y,2023-01-02,,1,0,10.0
19657,20230103989581,쁘띠첼 자몽상큼함듬뿍워터젤리 130ml,10,9.421249,0,3,Y,2023-01-03,,1,0,4.0
19658,20230104999357,비비고 언양식 바싹불고기 460g,1,8.594895,1,4,N,2023-01-04,,1,0,5.0


In [27]:
cj_new.isnull().sum()

scd                  0
product_name         0
net_order_qty        0
net_order_amt        0
gender               0
age_grp              0
employee_yn          0
order_date           0
prime_yn         19660
weekday              0
event_product        0
category          7015
dtype: int64

In [28]:
# 결측치 12로 대체
cj_new = cj_new.fillna(12)
cj_new = cj_new.astype({'category':'int'})

In [29]:
# 배정되지 않은 카테고리
# list_10 첫번째
list_10 = ['15kg', '3.6L', '5kg', '1.4kg', '1.5L', '1.25kg', '3kg', '20kg', '6.5kg', '14kg', '1.45kg', '2.45kg', 
           '11kg', '9kg', '25kg']
# list_6 두번째
list_6 = ['포도씨유', '양념', '올리브유', '쌈장', '소스', '다진마늘', '고추장', '참치액', '가루', '기름', '맛술',
          '드레싱', '시즈닝', '카놀라유', '간장', '올리브유', '다시마', '요리유', '비빔장', '된장', '식초', '다시다',
          '올리고당', '설탕', '액젓', '믹스', '천일염', '참깨', '굴소스', '가루', '옥수수유', '해바라기씨유', '쌀엿']
# list_8 세번째
list_8 = ['오리', '배', '고구마', '망고', '블루베리', '오렌지', '양갈비', '육포', '랍스터', '삼겹살', '목심살', '사과', 
          '토마토', '키위', '매실', '항정살', '한우', '청도', '스위트콘', '대추', '명란젓', '새우튀김', '황도', '양파', 
          '갈비','감자', '한돈', '날개', '닭', '야자', '버섯', '멜론']

list_0 = ['햇반', '죽', '냉면', '짬뽕', '동치미', '메밀', '우동', '잡채', '짜장', '밀면', '파스타', '쌀국수', 
          '야끼소바', '콩국수', '소면', '당면', '죽', '스파게티', '덮밥', '쫄면', '수프', '마라탕', '리조또', 
          '떡볶이떡', '칼국수', '뇨끼', '밸런스밀', '병아리콩']
list_1 = ['김치', '구이', '탕', '미역국', '육개장', '국물', '두부', '찌개', '무국', '국', '김', '유부', '단무지', 
          '메추리알', '쌈무', '볶음', '어묵', '조림', '밥이랑', '육수', '조림', '마늘', '란', '오이지', '장아찌']
list_2 = ['피자', '치킨', '교자', '순살', '너겟', '만두', '탕수육', '봉', '구이', '윙', '칠리새우', '깐풍기', 
          '닭강정', '새우튀김']
list_3 = ['츄러스', '밤', '핫도그', '쁘띠첼', '떡볶이' '바삭칩', '맥스봉', '핫랩', '면볶이', '고메 베이커리', 
          '냉동감자', '팝콘', '찹쌀떡', '스크림', '아몬드']
list_4 = ['스테이크', '카츠', '미트볼', '떡갈비', '동그랑땡', '까스', '불고기', '완자', '너비아니', '고기말이', '바베큐바']
list_5 = ['닭가슴살', '햄', '베이컨', '후랑크', '비엔나', '스팸', '통삼겹', '소시지', '킬바사', '더블에이징', '부어스트', '']
list_7 = ['오메가', '루테인', '유산균', '영양', '전립소', '비타민', '팻다운', '리턴업', '바이오코어', '홍삼', '흑삼',
          '콜라겐', '멀티', '배도라지', '양배추', '한뿌리', '닥터뉴트리', '환심']
list_9 = ['아이시스', '트레비', '삼다수', '콜라', '석류', '토레타', '컨디션', '사이다', '얼티브', 'W차', '파우더', '청', 
          '미초', '커피', '시럽', '식혜', '아이누리', '플리또', '메티에', '보리']
list_11 = ['쿡킷', '밀키트']

In [30]:
list_10 = '|'.join(list_10)
cj_new.loc[(cj_new['category']==12)&(cj_new['product_name'].str.contains(list_10)), 'category'] = 10

In [31]:
list_6 = '|'.join(list_6)
cj_new.loc[(cj_new['category']==12)&(cj_new['product_name'].str.contains(list_6)), 'category'] = 6

In [32]:
list_8 = '|'.join(list_8)
cj_new.loc[(cj_new['category']==12)&(cj_new['product_name'].str.contains(list_8)), 'category'] = 8

In [33]:
list_0 = '|'.join(list_0)
cj_new.loc[(cj_new['category']==12)&(cj_new['product_name'].str.contains(list_0)), 'category'] = 0

In [34]:
list_1 = '|'.join(list_1)
cj_new.loc[(cj_new['category']==12)&(cj_new['product_name'].str.contains(list_1)), 'category'] = 1

In [35]:
list_2 = '|'.join(list_2)
cj_new.loc[(cj_new['category']==12)&(cj_new['product_name'].str.contains(list_2)), 'category'] = 2

In [36]:
list_3 = '|'.join(list_3)
cj_new.loc[(cj_new['category']==12)&(cj_new['product_name'].str.contains(list_3)), 'category'] = 3

In [37]:
list_4 = '|'.join(list_4)
cj_new.loc[(cj_new['category']==12)&(cj_new['product_name'].str.contains(list_4)), 'category'] = 4

In [38]:
list_5 = '|'.join(list_5)
cj_new.loc[(cj_new['category']==12)&(cj_new['product_name'].str.contains(list_5)), 'category'] = 5

In [39]:
list_7 = '|'.join(list_7)
cj_new.loc[(cj_new['category']==12)&(cj_new['product_name'].str.contains(list_7)), 'category'] = 7

In [40]:
list_9 = '|'.join(list_9)
cj_new.loc[(cj_new['category']==12)&(cj_new['product_name'].str.contains(list_9)), 'category'] = 9

In [41]:
list_11 = '|'.join(list_11)
cj_new.loc[(cj_new['category']==12)&(cj_new['product_name'].str.contains(list_11)), 'category'] = 11
cj_new

Unnamed: 0,scd,product_name,net_order_qty,net_order_amt,gender,age_grp,employee_yn,order_date,prime_yn,weekday,event_product,category
0,20230101964282,비비고 스팸부대찌개 460g,1,8.161946,1,4,N,2023-01-01,12.0,0,0,0
1,20230101970142,삼호 생선살어묵 야채 200g,1,8.098947,1,4,Y,2023-01-01,12.0,0,0,1
2,20230101965237,크레잇 블랙페퍼 폭찹 스테이크,1,8.277412,0,4,N,2023-01-01,12.0,0,0,4
3,20230102973798,비비고 소고기 미역국 500g,3,9.145375,0,3,N,2023-01-02,12.0,1,0,0
4,20230101965633,비비고 소고기 미역국 500g,2,8.613230,0,3,N,2023-01-01,12.0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...
19655,20230103986821,비비고 찐만두168g,1,7.930566,1,5,Y,2023-01-03,12.0,1,0,3
19656,20230102979023,사골곰탕 한 그릇 100g (1-2인분X5개입),1,8.477412,0,3,Y,2023-01-02,12.0,1,0,10
19657,20230103989581,쁘띠첼 자몽상큼함듬뿍워터젤리 130ml,10,9.421249,0,3,Y,2023-01-03,12.0,1,0,4
19658,20230104999357,비비고 언양식 바싹불고기 460g,1,8.594895,1,4,N,2023-01-04,12.0,1,0,5


In [42]:
# 12로 대체했던 결측치가 모두 사라짐
cj_new['category'].value_counts()

6     4058
0     3921
3     2641
5     2363
1     1986
10    1584
4     1522
8      815
2      488
9      195
11      87
Name: category, dtype: int64

In [43]:
# num_category 계산을 위해 추가
cj_new['num_category'] = cj_new['category']

카테고리 축약
- 요리 : 국/김치/김/반찬/두부, 스팸/닭가슴살/소시지, 신선식품 (0, 1, 2)
- 간식 : 만두/피자/치킨, 핫도그/떡볶이/간식, 돈까스/함박/구이 (3, 4, 5)
- 식사 : 밥/죽/면, 밀키트 (6, 7)
- 기타 : 건강식품, 음료/생수/시럽, 양념/소스/가루/오일, 대용량 식자재 (8, 9, 10, 11)

In [44]:
def cate(x):
    if x==0 or x==1 or x==2 : return 0
    elif x==3 or x==4 or x==5 : return 1
    elif x==6 or x==7 : return 2
    else: return 3

In [45]:
cj_new['category'] = cj_new['category'].apply(cate)
cj_new

Unnamed: 0,scd,product_name,net_order_qty,net_order_amt,gender,age_grp,employee_yn,order_date,prime_yn,weekday,event_product,category,num_category
0,20230101964282,비비고 스팸부대찌개 460g,1,8.161946,1,4,N,2023-01-01,12.0,0,0,0,0
1,20230101970142,삼호 생선살어묵 야채 200g,1,8.098947,1,4,Y,2023-01-01,12.0,0,0,0,1
2,20230101965237,크레잇 블랙페퍼 폭찹 스테이크,1,8.277412,0,4,N,2023-01-01,12.0,0,0,1,4
3,20230102973798,비비고 소고기 미역국 500g,3,9.145375,0,3,N,2023-01-02,12.0,1,0,0,0
4,20230101965633,비비고 소고기 미역국 500g,2,8.613230,0,3,N,2023-01-01,12.0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
19655,20230103986821,비비고 찐만두168g,1,7.930566,1,5,Y,2023-01-03,12.0,1,0,1,3
19656,20230102979023,사골곰탕 한 그릇 100g (1-2인분X5개입),1,8.477412,0,3,Y,2023-01-02,12.0,1,0,3,10
19657,20230103989581,쁘띠첼 자몽상큼함듬뿍워터젤리 130ml,10,9.421249,0,3,Y,2023-01-03,12.0,1,0,1,4
19658,20230104999357,비비고 언양식 바싹불고기 460g,1,8.594895,1,4,N,2023-01-04,12.0,1,0,1,5


In [46]:
cj_new['amt/qty'] = cj_new['net_order_amt']/cj_new['net_order_qty']
cj_new

Unnamed: 0,scd,product_name,net_order_qty,net_order_amt,gender,age_grp,employee_yn,order_date,prime_yn,weekday,event_product,category,num_category,amt/qty
0,20230101964282,비비고 스팸부대찌개 460g,1,8.161946,1,4,N,2023-01-01,12.0,0,0,0,0,8.161946
1,20230101970142,삼호 생선살어묵 야채 200g,1,8.098947,1,4,Y,2023-01-01,12.0,0,0,0,1,8.098947
2,20230101965237,크레잇 블랙페퍼 폭찹 스테이크,1,8.277412,0,4,N,2023-01-01,12.0,0,0,1,4,8.277412
3,20230102973798,비비고 소고기 미역국 500g,3,9.145375,0,3,N,2023-01-02,12.0,1,0,0,0,3.048458
4,20230101965633,비비고 소고기 미역국 500g,2,8.613230,0,3,N,2023-01-01,12.0,0,0,0,0,4.306615
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19655,20230103986821,비비고 찐만두168g,1,7.930566,1,5,Y,2023-01-03,12.0,1,0,1,3,7.930566
19656,20230102979023,사골곰탕 한 그릇 100g (1-2인분X5개입),1,8.477412,0,3,Y,2023-01-02,12.0,1,0,3,10,8.477412
19657,20230103989581,쁘띠첼 자몽상큼함듬뿍워터젤리 130ml,10,9.421249,0,3,Y,2023-01-03,12.0,1,0,1,4,0.942125
19658,20230104999357,비비고 언양식 바싹불고기 460g,1,8.594895,1,4,N,2023-01-04,12.0,1,0,1,5,8.594895


In [47]:
cj_new = cj_new.rename(columns={'net_order_qty': 'total_qty', 'net_order_amt': 'total_amt'})
cj_new

Unnamed: 0,scd,product_name,total_qty,total_amt,gender,age_grp,employee_yn,order_date,prime_yn,weekday,event_product,category,num_category,amt/qty
0,20230101964282,비비고 스팸부대찌개 460g,1,8.161946,1,4,N,2023-01-01,12.0,0,0,0,0,8.161946
1,20230101970142,삼호 생선살어묵 야채 200g,1,8.098947,1,4,Y,2023-01-01,12.0,0,0,0,1,8.098947
2,20230101965237,크레잇 블랙페퍼 폭찹 스테이크,1,8.277412,0,4,N,2023-01-01,12.0,0,0,1,4,8.277412
3,20230102973798,비비고 소고기 미역국 500g,3,9.145375,0,3,N,2023-01-02,12.0,1,0,0,0,3.048458
4,20230101965633,비비고 소고기 미역국 500g,2,8.613230,0,3,N,2023-01-01,12.0,0,0,0,0,4.306615
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19655,20230103986821,비비고 찐만두168g,1,7.930566,1,5,Y,2023-01-03,12.0,1,0,1,3,7.930566
19656,20230102979023,사골곰탕 한 그릇 100g (1-2인분X5개입),1,8.477412,0,3,Y,2023-01-02,12.0,1,0,3,10,8.477412
19657,20230103989581,쁘띠첼 자몽상큼함듬뿍워터젤리 130ml,10,9.421249,0,3,Y,2023-01-03,12.0,1,0,1,4,0.942125
19658,20230104999357,비비고 언양식 바싹불고기 460g,1,8.594895,1,4,N,2023-01-04,12.0,1,0,1,5,8.594895


- scd : 주문번호
- gender : 성별 (1 = Male; 0 = Female)
- age_grp : 나이대 (1 = 10대; 2 = 20대; 3 = 30대; 4 = 40대; 5 = 50대; 6 = 60대)
- weekday : 주문일자 (1 = 평일; 0 = 주말 및 공휴일)
- total_qty : 총 주문 수량
- total_amt : 총 주문 금액 (정규화)
- category : 구매한 카테고리 (0 = 요리; 1 = 간식; 2 = 식사; 3 = 기타)
- event_product : 이벤트 할인 제품 총 구매 횟수
- num_category : 구매 제품의 카테고리 개수
- prime_yn : 프라임 회원 유무 (1 = 프라임 회원; 0 = 일반 회원)

In [48]:
cj_new = cj_new[['scd', 'gender', 'age_grp', 'weekday', 'total_qty', 'total_amt', 'category', 'event_product', 'num_category', 'amt/qty', 'prime_yn', 'employee_yn']]
cj_new

Unnamed: 0,scd,gender,age_grp,weekday,total_qty,total_amt,category,event_product,num_category,amt/qty,prime_yn,employee_yn
0,20230101964282,1,4,0,1,8.161946,0,0,0,8.161946,12.0,N
1,20230101970142,1,4,0,1,8.098947,0,0,1,8.098947,12.0,Y
2,20230101965237,0,4,0,1,8.277412,1,0,4,8.277412,12.0,N
3,20230102973798,0,3,1,3,9.145375,0,0,0,3.048458,12.0,N
4,20230101965633,0,3,0,2,8.613230,0,0,0,4.306615,12.0,N
...,...,...,...,...,...,...,...,...,...,...,...,...
19655,20230103986821,1,5,1,1,7.930566,1,0,3,7.930566,12.0,Y
19656,20230102979023,0,3,1,1,8.477412,3,0,10,8.477412,12.0,Y
19657,20230103989581,0,3,1,10,9.421249,1,0,4,0.942125,12.0,Y
19658,20230104999357,1,4,1,1,8.594895,1,0,5,8.594895,12.0,N


In [49]:
cj_new = cj_new.astype({'num_category': 'object'})

In [50]:
# most_product 원핫인코딩
cj_new = cj_new.astype({'category': 'object'})
cj_new = pd.get_dummies(cj_new, columns = ['category'])
cj_new

  cj_new = pd.get_dummies(cj_new, columns = ['category'])


Unnamed: 0,scd,gender,age_grp,weekday,total_qty,total_amt,event_product,num_category,amt/qty,prime_yn,employee_yn,category_0,category_1,category_2,category_3
0,20230101964282,1,4,0,1,8.161946,0,0,8.161946,12.0,N,1,0,0,0
1,20230101970142,1,4,0,1,8.098947,0,1,8.098947,12.0,Y,1,0,0,0
2,20230101965237,0,4,0,1,8.277412,0,4,8.277412,12.0,N,0,1,0,0
3,20230102973798,0,3,1,3,9.145375,0,0,3.048458,12.0,N,1,0,0,0
4,20230101965633,0,3,0,2,8.613230,0,0,4.306615,12.0,N,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19655,20230103986821,1,5,1,1,7.930566,0,3,7.930566,12.0,Y,0,1,0,0
19656,20230102979023,0,3,1,1,8.477412,0,10,8.477412,12.0,Y,0,0,0,1
19657,20230103989581,0,3,1,10,9.421249,0,4,0.942125,12.0,Y,0,1,0,0
19658,20230104999357,1,4,1,1,8.594895,0,5,8.594895,12.0,N,0,1,0,0


In [51]:
# 주문번호 별로 합치기
cj_grp = cj_new.groupby('scd').agg({'gender': pd.Series.mode,
                                   'age_grp': pd.Series.mode,
                                   'weekday': pd.Series.mode,
                                   'total_qty': 'sum',
                                   'total_amt': 'sum',
                                   'category_0': 'sum',
                                   'category_1': 'sum',
                                   'category_2': 'sum',
                                   'category_3': 'sum',
                                   'event_product': 'sum',
                                   'num_category': pd.Series.nunique,
                                   'amt/qty': 'mean', 
                                   'prime_yn': pd.Series.mode,
                                   'employee_yn' : pd.Series.mode})
cj_grp

Unnamed: 0_level_0,gender,age_grp,weekday,total_qty,total_amt,category_0,category_1,category_2,category_3,event_product,num_category,amt/qty,prime_yn,employee_yn
scd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
20230101963221,0,3,0,1,7.959975,0,1,0,0,0,1,7.959975,12.0,N
20230101963226,1,3,0,8,37.321156,0,1,3,0,0,2,4.665145,12.0,Y
20230101963229,1,5,0,1,9.003808,0,0,1,0,0,1,9.003808,12.0,Y
20230101963246,1,2,0,2,9.574080,0,1,0,0,0,1,4.787040,12.0,Y
20230101963265,0,3,0,5,43.665790,1,1,3,0,0,3,8.733158,12.0,Y
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20230131216228,0,3,1,2,9.021961,0,0,1,0,0,1,4.510980,12.0,N
20230131216338,1,4,1,3,16.394430,1,0,1,0,0,2,6.092155,12.0,N
20230131216371,0,3,1,2,16.019650,1,1,0,0,0,2,8.009825,12.0,N
20230131216446,0,4,1,1,8.655214,0,0,1,0,0,1,8.655214,12.0,N


In [52]:
cj_grp.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6328 entries, 20230101963221 to 20230131216584
Data columns (total 14 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   gender         6328 non-null   int64  
 1   age_grp        6328 non-null   int64  
 2   weekday        6328 non-null   int32  
 3   total_qty      6328 non-null   int64  
 4   total_amt      6328 non-null   float64
 5   category_0     6328 non-null   uint8  
 6   category_1     6328 non-null   uint8  
 7   category_2     6328 non-null   uint8  
 8   category_3     6328 non-null   uint8  
 9   event_product  6328 non-null   int32  
 10  num_category   6328 non-null   int64  
 11  amt/qty        6328 non-null   float64
 12  prime_yn       6328 non-null   float64
 13  employee_yn    6328 non-null   object 
dtypes: float64(3), int32(2), int64(4), object(1), uint8(4)
memory usage: 519.1+ KB


In [53]:
cj_grp.to_csv('cj_test.csv')