# 상품 데이터 전처리

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split

item_data = pd.read_csv('./상품데이터.csv', engine = 'python', encoding='cp949')

In [2]:
food = item_data[item_data['IS_FOOD'] == ' 식품 ']
not_food = item_data[item_data['IS_FOOD'] == ' 비식품 ']

## 1. 카테고리별 층화 추출

### 1-1) 식품 데이터 층화 추출

In [3]:
_, food_sample = train_test_split(food, test_size=0.15, random_state=42, stratify=food['KURLY_MCT'])
print('FOOD_SAMPLE SIZE : %d' % (len(food_sample)))
food_sample.groupby(['KURLY_HCT', 'KURLY_MCT']).count()['CATEGORY']

FOOD_SAMPLE SIZE : 15343


KURLY_HCT    KURLY_MCT    
간식_과자_떡      과자_스낵_쿠키          417
             아이스크림            1138
             초콜릿_젤리_캔디         109
과일_견과_쌀      간편과일              330
             견과류               249
             국산과일              581
             수입과일              253
             쌀_잡곡             1204
             제철과일              645
국_반찬_메인요리    김치_젓갈_장류          322
             밑반찬               130
             베이컨_햄_통조림         110
면_양념_오일      밀가루_가루_믹스         180
             소금_설탕_향신료         743
             식용유_참기름_오일        362
             식초_소스_드레싱         257
             양념_액젓_장류          527
베이비_키즈_완구    분유_간편 이유식         114
             이유식 재료             85
베이커리_치즈_델리   식빵_빵류             173
             잼_버터_스프레드         305
             치즈                208
샐러드_간편식      떡볶이_튀김_순대         771
             죽_스프_카레           190
             파스타_면류            718
생수_음료_우유_커피  생수_탄산수            107
             음료_주스             785
             커피             

### 1-2) 비식품 데이터 층화 추출

In [4]:
_, not_food_sample = train_test_split(not_food, test_size=0.026, random_state=42, stratify=not_food['KURLY_MCT'])
print('NOT_FOOD_SAMPLE SIZE : %d' % (len(not_food_sample)))
not_food_sample.groupby(['KURLY_HCT', 'KURLY_MCT']).count()['CATEGORY']

NOT_FOOD_SAMPLE SIZE : 10262


KURLY_HCT   KURLY_MCT
가전제품        계절가전           16
            디지털_PC        382
            생활가전           23
            주방가전           17
            헬스기구          397
베이비_키즈_완구   아동패션         1740
            완구_잡화류        123
생활용품_리빙_캠핑  생활잡화_문구      1582
            세제_청소용품       469
            휴지_티슈          77
스킨케어_메이크업   메이크업          555
            스킨_미스트_패드     398
            에센스_앰플_로션      40
주방용품        주방소모품_잡화      137
패션          남녀 공용 패션     1648
            남성패션          693
            신발            362
            여성패션          971
헤어_바디_구강    구강_면도         451
            바디워시_스크럽       43
            샴푸_컨디셔너       138
Name: CATEGORY, dtype: int64

## 2. 식품·비식품 데이터 컬리온리(KF365, 최저가도전) 비율 설정

In [5]:
import numpy as np
np.random.seed(123)

# 식품 샘플
# None : 컬리온리 : KF365 : 컬리스 = 5:3:1:1
item_feature2 = [None, '컬리온리', 'KF365', '컬리스']
p = [0.85,0.1,0.025,0.025]
food_sample['ITEM_FEATURE2'] = np.random.choice(item_feature2, p=p, size=len(food_sample))

# 비식품 샘플
# None : 컬리온리 = 9 : 1
item_feature2 = [None, '컬리온리']
p = [0.95,0.05]
not_food_sample['ITEM_FEATURE2'] = np.random.choice(item_feature2, p=p, size=len(not_food_sample))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy


In [6]:
food_sample.groupby(['ITEM_FEATURE2']).count()

Unnamed: 0_level_0,CATEGORY,ITEM_ID,ITEM_NAME,SALE_PRICE,REDUCED_PRICE,BENEFIT_PRICE,DISCOUNT_RATE,IS_FOOD,ITEM_FEATURE1,MEANING_SCORE,PRICE_DT,KURLY_HCT,KURLY_MCT
ITEM_FEATURE2,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
KF365,400,400,400,400,400,400,400,400,9,9,400,400,400
컬리스,365,365,365,365,365,365,365,365,14,14,365,365,365
컬리온리,1478,1478,1478,1478,1478,1478,1478,1478,39,39,1478,1478,1478


In [7]:
not_food_sample.groupby(['ITEM_FEATURE2']).count()

Unnamed: 0_level_0,CATEGORY,ITEM_ID,ITEM_NAME,SALE_PRICE,REDUCED_PRICE,BENEFIT_PRICE,DISCOUNT_RATE,IS_FOOD,ITEM_FEATURE1,MEANING_SCORE,PRICE_DT,KURLY_HCT,KURLY_MCT
ITEM_FEATURE2,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
컬리온리,472,472,472,472,472,472,472,472,0,0,472,472,472


## 3. 데이터 합치기

In [8]:
item_sample = pd.concat([food_sample, not_food_sample], axis=0)
item_sample

Unnamed: 0,CATEGORY,ITEM_ID,ITEM_NAME,SALE_PRICE,REDUCED_PRICE,BENEFIT_PRICE,DISCOUNT_RATE,IS_FOOD,ITEM_FEATURE1,ITEM_FEATURE2,MEANING_SCORE,PRICE_DT,KURLY_HCT,KURLY_MCT
47134,풋고추,84386150653,친환경 미인풋고추 미인고추 2kg 속리산 무농약 맵지않은 당뇨 고추 아삭이 오이,28000,28000,0,-,식품,친환경,,10.0,2022-07-01,채소,오이_호박_고추
76440,카레,29504837177,오뚜기3분쇠고기카레200g,4270,4270,0,-,식품,,,,2022-07-01,샐러드_간편식,죽_스프_카레
94199,커피,32152347507,프렌치카페 프렌치카페 커피믹스 300T,27900,27900,0,-,식품,,,,2022-07-01,생수_음료_우유_커피,커피
27027,생선통조림,29041017233,치킨 오브 더 씨 청크 라이트 참치 통조림 1880g,34280,34280,0,-,식품,,,,2022-07-01,수산_해산_건어물,수산가공품
55111,김,33119787732,광천해저김 김밥김 20g 10매,10970,10970,0,-,식품,,,,2022-07-01,수산_해산_건어물,김_미역_해조류
97277,기능성음료,83063280386,몬스터 에너지 파이프라인 펀치 355ml,1240,1240,0,-,식품,,,,2022-07-01,생수_음료_우유_커피,음료_주스
13578,당면,33018748871,알뜰당면(오뚜기 2.4K) 고구마 업소용 찰용 용,16800,16800,0,-,식품,,컬리스,,2022-07-01,샐러드_간편식,파스타_면류
29909,참기름,82942255621,국산 참깨 100% 저온압착 다이닝푸드 참기름 100ml,14800,14800,0,-,식품,,,,2022-07-01,면_양념_오일,식용유_참기름_오일
12079,라면,32118840300,라면 칼로리낮은 건강한 비건 오뚜기 진짬뽕 130g 4개,18310,18310,0,-,식품,,,,2022-07-01,샐러드_간편식,파스타_면류
40484,블루베리,30691429217,프레시데이 고창 베리월드 블루베리 원액 1L,49050,49050,0,-,식품,,,,2022-07-01,과일_견과_쌀,수입과일


In [101]:
item_sample.to_csv('./상품데이터_전처리.csv', encoding='cp949', index=False)

## 4. 조회 데이터 생성

In [10]:
user_data = pd.read_csv('./사용자데이터.csv', engine = 'python', encoding='cp949')

In [13]:
75000*0.3

22500.0

In [14]:
# 식품 52,500건(7.5만*0.7) 복원 추출 
food_view = food_sample.sample(n=52500, replace=True, random_state=42)
# 비식품 22,500건(7.5만*0.3) 복원 추출
not_food_view = not_food_sample.sample(n=22500, replace=True, random_state=42)
# 상품 샘플링
item_view = pd.concat([food_view, not_food_view], axis=0)
item_view.reset_index(inplace=True, drop=True)
# 사용자 샘플링
user_view = user_data.sample(n=75000, replace=True, random_state=42)
user_view.reset_index(inplace=True, drop=True)
# 조회 기록 생성
view_data = pd.concat([item_view, user_view], axis=1)
view_data = view_data[['USER_ID', 'ITEM_ID', 'ITEM_NAME', 'CATEGORY']]

In [15]:
import random
import datetime
import time

random.seed(123)

start = datetime.datetime(2021,8,1,0,0,0)
end = datetime.datetime(2022,8,31,23,59,59)

view_data['VIEW_DT'] = [(start+(end-start)*random.random()).strftime('%y/%m/%d %H:%M:%S') for _ in range(len(view_data))]
view_data

Unnamed: 0,USER_ID,ITEM_ID,ITEM_NAME,CATEGORY,VIEW_DT
0,ecAF7XX,83836165776,Coca-Cola Energy 코카콜라 에너지 12oz 24개,탄산음료,21/08/21 17:39:49
1,FpCYLkeu1B,9079954968,[오뚜기] [오뚜기] 3분 쇠고기 카레 12개 or 짜장 12개,카레,21/09/04 12:37:19
2,0x9BPCizQyCa,33179684668,농부플러스 국산 흑미 쌀 검은쌀 950g,혼식곡,22/01/09 06:25:32
3,CNVD276FO,82609472025,코카콜라 제로 1.5L,탄산음료,21/09/12 15:34:58
4,p8kp7mjCRoe,32149400628,[ON] 염장 미역줄기 10kg,미역,22/07/23 20:59:37
5,DAl0HkOk,1970113391,주호 고운 청양 고추가루 (2.5kg) 고춧가루 양념,고춧가루,21/08/16 02:36:44
6,lkocJVMEIS,23373291457,[홈플러스]미원쇠고기진국다시1.1KG,혼합조미료,22/03/01 08:03:50
7,v6fPeU,1873055259,완도 미역귀 200g (100g x 2개),미역,21/12/10 13:12:24
8,QcBBHoHieg,32177597703,샘표 황도 통조림 400g 1개,과일가공품,22/07/04 10:13:51
9,Zlt5m2BZWmyr,33131686881,고추참치 100g 5개 동원에프앤비 참치 통조림,생선통조림,21/10/03 05:25:52


In [22]:
view_data.to_csv('./조회기록.csv', index=False)

## 5. 찜 데이터 생성

In [23]:
jjim_sample = view_data.sample(n=3000, replace=False, random_state=42)

In [24]:
# 중복제거 : 중복 없음
jjim_sample.drop_duplicates(['USER_ID', 'ITEM_ID'])
jjim_sample.shape

(3000, 5)

In [25]:
import datetime
import random
random.seed(123)

# 찜한 시간은 조회 날짜와 다르지 않게 설정
def jjim_date(x):
    start = datetime.datetime.strptime(x, "%y/%m/%d %H:%M:%S")
    end = datetime.datetime(start.year,start.month,start.day,23,59,59)
    
    return (start+(end-start)*random.random()).strftime('%y/%m/%d %H:%M:%S')

jjim_sample['JJIM_DT'] = jjim_sample['VIEW_DT'].apply(jjim_date)
jjim_sample = jjim_sample[['USER_ID', 'ITEM_ID', 'ITEM_NAME', 'JJIM_DT']]
jjim_sample.reset_index(inplace=True, drop=True)

# 찜한 상품 중 50%는 구매했다고 가정
jjim_sample['IS_BUY'] = [1 if random.random()>0.5 else 0 for x in range(len(jjim_sample))]
jjim_sample

Unnamed: 0,USER_ID,ITEM_ID,ITEM_NAME,JJIM_DT,IS_BUY
0,SAJAqqtBImc,31671981459,갤러리아 실속 가정용 나주배 신고배 7.5kg(13-15과),21/08/10 21:21:29,1
1,2HqEiZpgFFq,25299199912,백설 백설 사과식초500ml,22/03/12 09:58:27,1
2,qAGlzP,82347005648,CJ 비비고 사골곰탕 500g x16개,22/04/01 20:34:39,0
3,jmk1rI0UpJK,33131234049,(제브라)클립온 멀티 볼펜 X 100개,21/08/18 12:22:54,0
4,UfblnPgV7T,920539949,NC서면 써멀 플렉스 파워 웜 재킷 REWMJKF20312_서면점,22/08/25 22:56:53,1
5,8OEwIvKR,79701550,NC05 여성 냉감소재긴팔티KJ 바트나 (S5992439),21/10/06 16:09:04,0
6,peABzQ,1931324342,[경상북도][자연맛남] 아삭아삭 세척사과 3kg (13과내),22/05/24 18:12:27,1
7,uXOOAJ1Ryt,32594678568,종가집 포기 김치 1kg x2+열무 김치 900g x1 혼합팩 / 종갓집 주문 생김치,21/11/10 10:53:23,1
8,iuHOy2qKvz8D,33090912978,[서의성농협] 의성의미 찹쌀 1kg,21/09/23 23:22:19,0
9,iSX0lx,33156816986,파스퇴르 아이생각 상온 무균이유식 완료기 12개,22/03/17 15:32:57,1


In [26]:
jjim_sample.to_csv('./찜데이터.csv', encoding='cp949', index=False)

## 6. 구매 데이터 생성

In [27]:
buy_sample = view_data.sample(n=30000, replace=False, random_state=42)

In [28]:
import datetime
import random
random.seed(123)

# 찜한 시간은 조회 날짜와 다르지 않게 설정
def buy_date(x):
    start = datetime.datetime.strptime(x, "%y/%m/%d %H:%M:%S")
    end = datetime.datetime(2022,8,31,23,59,59)
    
    return (start+(end-start)*random.random()).strftime('%y/%m/%d %H:%M:%S')

buy_sample['BUY_DT'] = buy_sample['VIEW_DT'].apply(buy_date)
buy_sample['IS_REBUY'] = ['' for x in range(len(buy_sample))]
buy_sample = buy_sample[['USER_ID', 'ITEM_ID', 'ITEM_NAME', 'BUY_DT', 'IS_REBUY']]
buy_sample

Unnamed: 0,USER_ID,ITEM_ID,ITEM_NAME,BUY_DT,IS_REBUY
26837,SAJAqqtBImc,31671981459,갤러리아 실속 가정용 나주배 신고배 7.5kg(13-15과),21/08/31 02:27:16,
2592,2HqEiZpgFFq,25299199912,백설 백설 사과식초500ml,22/03/27 09:52:51,
18359,qAGlzP,82347005648,CJ 비비고 사골곰탕 500g x16개,22/06/02 18:11:43,
73292,jmk1rI0UpJK,33131234049,(제브라)클립온 멀티 볼펜 X 100개,21/09/28 05:26:17,
60127,UfblnPgV7T,920539949,NC서면 써멀 플렉스 파워 웜 재킷 REWMJKF20312_서면점,22/08/31 08:43:15,
71737,8OEwIvKR,79701550,NC05 여성 냉감소재긴팔티KJ 바트나 (S5992439),21/10/19 05:24:45,
26473,peABzQ,1931324342,[경상북도][자연맛남] 아삭아삭 세척사과 3kg (13과내),22/07/16 20:13:25,
1040,uXOOAJ1Ryt,32594678568,종가집 포기 김치 1kg x2+열무 김치 900g x1 혼합팩 / 종갓집 주문 생김치,22/02/16 02:52:36,
32622,iuHOy2qKvz8D,33090912978,[서의성농협] 의성의미 찹쌀 1kg,22/07/12 09:17:56,
44679,iSX0lx,33156816986,파스퇴르 아이생각 상온 무균이유식 완료기 12개,22/04/13 07:28:33,


In [29]:
# 재구매 일자
def rebuy_date(x):
    start = datetime.datetime.strptime(x, "%y/%m/%d %H:%M:%S")
    # 재구매는 최소 일주일 이후
    start = start + datetime.timedelta(days=7)
    end = datetime.datetime(2022,8,31,23,59,59)
    
    return (start+(end-start)*random.random()).strftime('%y/%m/%d %H:%M:%S')

rebuy_sample = buy_sample.sample(n=3000, replace=True, random_state=42)
rebuy_sample['BUY_DT'] = rebuy_sample['BUY_DT'].apply(rebuy_date)
rebuy_sample['IS_REBUY'] = ['재구매' for _ in range(len(rebuy_sample))]
rebuy_sample

Unnamed: 0,USER_ID,ITEM_ID,ITEM_NAME,BUY_DT,IS_REBUY
8870,nflDs4oan,28273399519,[후레쉬] 사과 단품 선물세트 4kg(15과내외),22/05/20 07:30:34,재구매
14168,bXrgWUbk,29028494415,[농협] 애호박 10개(3kg내외),22/08/29 11:36:49,재구매
35570,yRSlOlhqN,33041751872,코카)스프라이트 1.5L 1박스(12병),22/08/25 13:17:19,재구매
68069,NYvlb2t,1955534106,샤프란 시트 섬유유연제 코튼블로썸 50매 x 2개,22/04/21 21:36:53,재구매
45018,RI1thATfK,82663405180,단일품종 백옥찰 찰현미 현미찹쌀5kg,22/08/16 09:03:59,재구매
15200,yvxpzkRkep,1340321283,함평천지 전라도 파김치 10kg,22/09/07 05:59:51,재구매
24108,6UF5O4Xr,27351369132,오쿡 닭가슴살 소세지 불갈비 100g 12팩,22/02/19 09:50:18,재구매
18729,NGRbRWY,29344682136,두보식품 찰현미 2kg,22/08/24 11:31:53,재구매
3785,cWf4Y60H8o5,27496974457,뿌려먹는 덜짠 김가루 400g 고명 고소한 김자반볶음 도시락김 주먹밥용 조미김,22/08/22 01:30:10,재구매
67989,JzdkLs,989789132,탈렌트키즈 블링하트구두 TSU51HSH15PK_신구로점,22/08/18 04:56:50,재구매


In [30]:
total_buy_sample = pd.concat([buy_sample, rebuy_sample], axis=0)
total_buy_sample.reset_index(inplace=True, drop=True)
total_buy_sample

Unnamed: 0,USER_ID,ITEM_ID,ITEM_NAME,BUY_DT,IS_REBUY
0,SAJAqqtBImc,31671981459,갤러리아 실속 가정용 나주배 신고배 7.5kg(13-15과),21/08/31 02:27:16,
1,2HqEiZpgFFq,25299199912,백설 백설 사과식초500ml,22/03/27 09:52:51,
2,qAGlzP,82347005648,CJ 비비고 사골곰탕 500g x16개,22/06/02 18:11:43,
3,jmk1rI0UpJK,33131234049,(제브라)클립온 멀티 볼펜 X 100개,21/09/28 05:26:17,
4,UfblnPgV7T,920539949,NC서면 써멀 플렉스 파워 웜 재킷 REWMJKF20312_서면점,22/08/31 08:43:15,
5,8OEwIvKR,79701550,NC05 여성 냉감소재긴팔티KJ 바트나 (S5992439),21/10/19 05:24:45,
6,peABzQ,1931324342,[경상북도][자연맛남] 아삭아삭 세척사과 3kg (13과내),22/07/16 20:13:25,
7,uXOOAJ1Ryt,32594678568,종가집 포기 김치 1kg x2+열무 김치 900g x1 혼합팩 / 종갓집 주문 생김치,22/02/16 02:52:36,
8,iuHOy2qKvz8D,33090912978,[서의성농협] 의성의미 찹쌀 1kg,22/07/12 09:17:56,
9,iSX0lx,33156816986,파스퇴르 아이생각 상온 무균이유식 완료기 12개,22/04/13 07:28:33,


In [31]:
total_buy_sample.to_csv('./구매데이터.csv',encoding='cp949', index=False)