## 과제
### Q. 고객 구매데이터 생성(id, 성별, 연령, 지역, 상품, 가격, 구매시간) 하고 데이터 프레임으로 변환한 후 아래 사항을 수행하세요.
#### 구매 데이터 생성
- id : 1번 ~ 1000번 일련번호(관측치 1000개)
- gender : 0,1 정수 난수 생성
- age : 10 ~ 80사이 정수 난수를 생성하고 범주화하여 age_cat 파생
- region : 1 ~ 10 사이 정수 난수 생성
- product : 1개 제품 이상
- price_avg_19 : 1000 ~ 50000 사이 실수 난수 생성하고 범주화하여 price_avg_cat 파생
- price_avg_20 : 1000 ~ 50000 사이 실수 난수 생성하고 범주화하여 price_avg_cat 파생
- qty_19 : 1 ~ 100 사이 정수 난수 생성하여('19년 구매 수량) 
- qty_20 : 1 ~ 100 사이 정수 난수 생성하여('20년 구매 수량)
- time_19 : 01 ~ 24 사이 정수 난수 생성하고 오전, 오후, 야간 으로 범주화하여 time_cat_19 파생('19년에 가장 자주 구매한 시간대)
- time_20 : 01 ~ 24 사이 정수 난수 생성하고 오전, 오후, 야간 으로 범주화하여 time_cat 파생('20년에 가장 자주 구매한 시간대)
- 구매액은 price * qty로 산출('19년, '20년 각각 계산)하여 pur_19, pur_20 컬럼으로 생성 
- 종속변수(결과변수)는 (pur_20 - pur_19)으로 계산하여 구매액 증감을 0(감소), 1(증가)로 범주화하여 pur_gap 컬럼 생성
- np.nan으로 각 컬럼별로 10개씩 null값을 삽입하고 각 칼럼의 특성을 고려한 null 값 처리

#### 인사이트 도출
- 통계적 분석 및 시각화하여 탐색한 후 불필요한 컬럼은 삭제하고 필요시 추가 파생변수 생성한 후 분석용 데이터셋을 작성하고 인사이트 3개 이상 도출
- 인사이트 도출하지 못한 경우 데이터를 수정하여 다시 탐색한 후 인사이트 도출 및 기술

#### 데이터 수정시 참조
- 구매액 증감에 영향을 주는 주요 요인과 관련된 인사이트를 만들 수 있는 데이터로 변경하는 점에 중점을 둠
- 구매 감소한 고객의 특성으로 성별, 지역, 선호제픔, 선호 구매시간대, 평균 구매가 level(저가, 중가, 고가)별로 데이터 수정
- 연령, 성별로 상품유형, 구매단가, 구매시간대 등을 복합적으로 그룹화하여 데이터 특성 부여
- 연도별로 상기한 사항들의 변동과 구매 감소간의 상관성을 부여하는 데이터 수정
- 데이터 수정은 불린 인덱싱으로 특정 그룹을 선택한 후 고객 특성에 맞는 값으로 변경
                                                                

In [1]:
# import module
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import random
%matplotlib inline

#### 구매 데이터 생성

In [40]:
np.random.seed(0)
# id : 1번~ 1000번 일련번호 생성. 관측지 (1000개)
id_ = np.arange(1,1001) # len(ID) # 1000

# gender : 0,1 정수 난수 생성 
gender = np.random.randint(2,size=1000) 

# age : 10 ~ 80사이 정수 난수를 생성
age = np.random.randint(10,81,size=1000)

# region : 1 ~ 10 사이 정수 난수 생성
region = np.random.randint(1,11,size=1000)

# product : 1개 이상 (A,B,C ~ 1,2,3)
product = np.random.randint(6,size=1000)

# price_avg_10 : 1000 ~ 50000 사이 실수 난수 생성 
price_avg_19 = np.random.uniform(1000,50001,size=1000)

#price_avg_20 = 1000 ~ 50000 사이 실수 난수 생성
price_avg_20 = np.random.uniform(1000,50001,size=1000)

#qty_19 : 01 ~ 100 사이 정수 난수 생성
qty_19 = np.random.randint(1,101,size=1000)

#qty_20 : 01 ~ 100 사이 정수 난수 생성
qty_20 = np.random.randint(1,101,size=1000)

#time_19 : 01 ~ 24 정수 난수 생성
time_19 = np.random.randint(1,25,size=1000)

#time_20 : 01 ~ 24 정수 난수 생성
time_20 = np.random.randint(1,25,size=1000)

#pur_19 : price_avg_19 * qty_19
pur_19 = price_avg_19 * qty_19

#pur_20 : price_avg_20 * qty_20
pur_20 = price_avg_20 * qty_20

# pur_gap : pur_20 - pur_19
pur_gap = pur_20 - pur_19

In [61]:
data = pd.DataFrame({"id":id_,"gender":gender,"age":age,"region":region,"product":product,"price_avg_19":price_avg_19,
             "price_avg_20":price_avg_20,"qty_19":qty_19,"qty_20":qty_20,"time_19":time_19,"time_20":time_20,
              "pur_19":pur_19,"pur_20":pur_20,"pur_gap":pur_gap})

In [62]:
data

Unnamed: 0,id,gender,age,region,product,price_avg_19,price_avg_20,qty_19,qty_20,time_19,time_20,pur_19,pur_20,pur_gap
0,1,0,49,2,4,43517.539279,16523.515710,88,99,4,19,3.829543e+06,1.635828e+06,-2.193715e+06
1,2,1,38,7,0,17541.293841,8474.748205,7,3,11,24,1.227891e+05,2.542424e+04,-9.736481e+04
2,3,1,34,7,2,43913.369311,27490.108116,87,31,15,6,3.820463e+06,8.521934e+05,-2.968270e+06
3,4,0,28,9,4,6735.718911,7965.810767,61,31,6,11,4.108789e+05,2.469401e+05,-1.639387e+05
4,5,1,77,9,4,12660.311375,47026.857829,52,70,14,4,6.583362e+05,3.291880e+06,2.633544e+06
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,996,0,50,9,0,42598.204735,27110.969743,33,54,6,9,1.405741e+06,1.463992e+06,5.825161e+04
996,997,0,64,1,1,14919.120679,5666.459954,81,88,9,20,1.208449e+06,4.986485e+05,-7.098003e+05
997,998,0,61,7,4,24973.838713,37519.135982,28,9,17,8,6.992675e+05,3.376722e+05,-3.615953e+05
998,999,1,57,6,5,35633.207141,18035.282893,35,30,24,18,1.247162e+06,5.410585e+05,-7.061038e+05
