# 유통고객 구매패턴 데이터 전처리
## 단계1. 데이터 탐색 및 준비

## 0.미션

### (1) 미션① : 비즈니스 정보 파악
* 예제 질문 9개 조회를 수행해냅니다.


### (2) 미션 ② : 데이터 구조 만들기

* 고객 이탈을 정의하고, 데이터를 생성합니다.
    * 대상 고객
        * 2014 ~ 2016년 신규 가입 고객 이면서,
        * 2016년 하반기에 한번 이상 방문한 고객을 대상 고객으로 정의합니다.
    * Labeling
        * 위 대상 고객 중, 2017년 1~3월(3개월)동안 방문(구매)하지 않은 사람은 이탈로 간주합니다.
        * 이처럼 이탈한 고객을 식별하여 이탈 원인을 분석하거나, 비이탈 고객의 행동을 예측하거나 이탈과의
          차이를 파악해서 이에 따른 전략을 추후에 수립할 수 있습니다.
    * feature 추가하기
        * 주어진 기본 feature 3가지를 생성합니다.
          구매주기, 구매금액 평균, 가장 많이 구매한 카테고리, 최근 구매일로부터 경과일 등
          제공해드린 기본 feature 외에도 고민해보실 수 있습니다.

## 1.환경설정

### (1) 라이브러리 설치하기
아래를 실행해주세요. matplotlib 함수는 파이썬의 시각화 라이브러리로 다양한 유형의 그래프와
차트를 생성할 수 있는 도구입니다. 주요 모듈은 matplotlib.pyplot으로 plt로 말합니다.

In [1]:
!pip install matplotlib
!pip install --upgrade matplotlib

import matplotlib.pyplot as plt



### (2) 라이브러리 불러오기

* 세부 요구사항
    - 기본적으로 필요한 라이브러리를 import 하도록 코드가 작성되어 있습니다.
    - 필요하다고 판단되는 라이브러리를 추가하세요.

In [2]:
#[문제1] pandas, numpy, matplotlib 라이브러리를 임포트하세요.

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### (3) 데이터 불러오기

* 주어진 데이터셋
    * customers.csv : 고객정보
    * sales.csv : 판매정보
    * products.csv : 상품정보
    
* 다음과 같이 데이터를 저장하세요.
    * 주피터랩 실행
        * 제공된 압축파일 '미프 1차_구매'를 다운받아 압축을 푼다.
        * anaconda의 root directory(보통 C:\Users\<ID> 에 '미프 1차_구매' 폴더를 만들고, 복사하고 붙여넣습니다.
        * '미프 1차_구매' 폴더에 필요한 파일들을 넣고, 본 파일 '구매패턴을 통한 이탈고객 예측.ipynb' 실습파일을 불러옵니다

* 세부 요구사항
    - 데이터셋을 각각 불러와서 데이터프레임으로 저장합니다.
    - 날짜 데이터들은 날짜형식으로 변환합니다. (customers['RegisterDate'], sales['OrderDate'])
    - 기본 정보를 확인합니다.(.shape, .info(), .head())

In [4]:
#[문제2] '미프 1차_구매' 폴더에서 본 파일들을 열어주세요.
##[해설] 현재 작업 중인 디렉토리를 기준으로 하는 상대경로로 불러와주시기 바랍니다. 왼쪽에 보이는 현재 위치를 기준으로 경로를 표기합니다.

In [5]:
# 전체 데이터 불러오기

# 데이터를 pd.read_csv로 불러오기
customers = pd.read_csv('customers.csv')
sales = pd.read_csv('sales.csv')
products = pd.read_csv('products.csv')

In [6]:
#[문제3] 'customers', 'sales' 데이터의 상단 일부 행을 출력해보세요.
##[해설] head 함수를 사용합니다.

In [7]:
customers.head()

Unnamed: 0,CustomerID,RegisterDate,Gender,BirthYear,Addr1,Addr2
0,c328222,2014-09-25,F,1960,강원도,원주시
1,c281448,2013-06-18,F,1974,강원도,원주시
2,c038336,2003-10-10,F,1968,강원도,춘천시
3,c084237,2007-03-09,F,1982,강원도,강릉시
4,c162600,2010-06-14,F,1978,강원도,속초시


In [8]:
sales.head()

Unnamed: 0,OrderID,Seq,OrderDate,ProductID,Qty,Amt,CustomerID
0,107,2,2016-01-02,p1036481,2,2100,c150417
1,69,1,2016-01-02,p1152861,1,1091,c212716
2,69,7,2016-01-02,p1013161,1,2600,c212716
3,69,8,2016-01-02,p1005771,1,1650,c212716
4,69,11,2016-01-02,p1089531,1,2600,c212716


In [9]:
#[문제4] 'customers'와 'sales' 데이터프레임의 구조와 기본 통계정보를 출력해보세요.
##[해설] 데이터의 열 수나 열 이름, 데이터 타입(int 정수, float 소수점데이터, object 객체데이터), 메모리 사용량 등을 확인하는데 info 함수로 확인합니다.

In [10]:
customers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2243 entries, 0 to 2242
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   CustomerID    2243 non-null   object
 1   RegisterDate  2243 non-null   object
 2   Gender        2243 non-null   object
 3   BirthYear     2243 non-null   int64 
 4   Addr1         2243 non-null   object
 5   Addr2         2243 non-null   object
dtypes: int64(1), object(5)
memory usage: 105.3+ KB


In [11]:
sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70012 entries, 0 to 70011
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   OrderID     70012 non-null  int64 
 1   Seq         70012 non-null  int64 
 2   OrderDate   70012 non-null  object
 3   ProductID   70012 non-null  object
 4   Qty         70012 non-null  int64 
 5   Amt         70012 non-null  int64 
 6   CustomerID  70012 non-null  object
dtypes: int64(4), object(3)
memory usage: 3.7+ MB


In [12]:
#[문제5] 날짜 데이터를 날짜형식으로 변환해주세요. 날짜데이터 : customers['RegisterDate'], sales['OrderDate']
##[해설] pd.to_datetime 함수 : 문자열이나 정수 등 다양한 형식의 날짜와 시간 데이터를 표준적인 방식인 datetime64 타입으로 변환합니다.
##[해설] datetime64 타입은 다른 형식의 날짜나 시간 데이터와 호환되기 때문에 데이터 전처리에 유용합니다. pd.to_datetime으로 사용합니다.

In [13]:
# pd.to_datetime 활용

customers['RegisterDate'] = pd.to_datetime(customers['RegisterDate'])
sales['OrderDate'] = pd.to_datetime(sales['OrderDate'])

In [14]:
#[문제6] 'customers'의 데이터타입이 날짜형식으로 잘 변환되었는지 확인해주세요.
##[해설] info 함수로 데이터타입을 확인합니다. RegisterDate가 datetime64 타입으로 잘 바뀌었는지 확인해주세요.

In [15]:
customers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2243 entries, 0 to 2242
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   CustomerID    2243 non-null   object        
 1   RegisterDate  2243 non-null   datetime64[ns]
 2   Gender        2243 non-null   object        
 3   BirthYear     2243 non-null   int64         
 4   Addr1         2243 non-null   object        
 5   Addr2         2243 non-null   object        
dtypes: datetime64[ns](1), int64(1), object(4)
memory usage: 105.3+ KB


In [16]:
#[문제7] 'sales'의 데이터타입이 날짜형식으로 변환되었는지 확인해주세요.
##[해설] info 함수로 데이터타입을 확인합니다. OrderDate가 datetime64 타입으로 잘 바뀌었는지 확인해주세요.

In [17]:
sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70012 entries, 0 to 70011
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   OrderID     70012 non-null  int64         
 1   Seq         70012 non-null  int64         
 2   OrderDate   70012 non-null  datetime64[ns]
 3   ProductID   70012 non-null  object        
 4   Qty         70012 non-null  int64         
 5   Amt         70012 non-null  int64         
 6   CustomerID  70012 non-null  object        
dtypes: datetime64[ns](1), int64(4), object(2)
memory usage: 3.7+ MB


In [18]:
#[문제8] 'sales' 데이터의 'OrderDate'의 최소값과 최대값을 표시해주세요.
##[해설] min함수와 max 함수는 데이터의 최소값과 최대값을 표시해줍니다.

In [19]:
# min, max 함수 활용
sales['OrderDate'].min(), sales['OrderDate'].max()

(Timestamp('2016-01-02 00:00:00'), Timestamp('2017-03-31 00:00:00'))

## 2.데이터 탐색

주어진 데이터에 대해서 다음의 요건에 맞게 조회하면서 데이터를 파악해 봅시다.
데이터 탐색은 데이터를 처음 보는 경우 관계를 이해하기 위해 매우 중요하고, 데이터의 분포나
변수들간의 상관관계를 이해함으로써 모델링의 중요한 기반입니다. 또한 데이터로부터 유용한 비즈니스 통찰력을 얻게 합니다.

* **상세요구사항**
    * 아래 예제 질문 9개에 대해 조회를 수행합니다.
    * 예제 질문
        * Q01) 일별 매출액
        * Q02) 월별 매출액
        * Q03) 요일별 매출액 평균
        * Q04) 일별 고객 1인당 평균 구매액(객단가)
        * Q05) 일별 방문 고객수(구매 고객수)
        * Q06) 매출 상위 top 10 상품
        * Q07) 요일별 매출상위 Top 10 상품
        * Q08) 카테고리별 매출 비중
        * Q09) 고객 나이대

### Q01) 일별 매출액

In [20]:
#[문제9] 'sales' 데이터프레임에서 일별 매출액의 합계를 'daily_sales' 데이터 프레임에 할당하세요.
##[해설] groupby함수로 특정 열 'OrderDate' 값에 따라 데이터프레임을 그룹으로 나누고 각 그룹에 대해 sum 연산 수행
##[해설] as_index = False는 그룹화된 결과에서 'OrderDate' 값을 인덱스로 사용하지 않고 새로운 정수 인덱스를 생성, 결과 표시

In [21]:
# 'sales'에서 주문일자별 주문 금액 합산 : groupby
daily_sales = sales.groupby('OrderDate', as_index = False)['Amt'].sum()
daily_sales

Unnamed: 0,OrderDate,Amt
0,2016-01-02,503234
1,2016-01-03,211202
2,2016-01-04,705195
3,2016-01-05,502803
4,2016-01-06,485984
...,...,...
442,2017-03-27,465265
443,2017-03-28,529778
444,2017-03-29,451900
445,2017-03-30,425932


In [22]:
#[문제10] 'sales' 데이터프레임에서 부분인 2016년 1월~3월까지 3개월의 범위로 데이터를 선택하고 'daily_sales'에 재할당하세요.
##[해설] loc 함수로 조건에 해당하는 행을 선택합니다. 2016년 4월 1일보다 OrderDate 열이 작은 값을 선택하여 할당합니다.
##[해설] 이외 아래와 같은 방법으로도 특정범위의 값을 구할 수 있습니다.
##[해설] daily_sales2 = sales.loc[('2016-01-01' <= sales['OrderDate']) & (sales['OrderDate'] <= '2016-03-31')]

In [23]:
# loc 함수 활용 
daily_sales = sales.loc[sales['OrderDate'] < '2016-04-01']

In [24]:
#[문제11] 일자별 매출액을 'daily_sales' 데이터 프레임에 저장해주세요.
##[해설] groupby함수는 데이터를 특정 열의 값을 기준으로 그룹화하고 그룹에 대해 원하는 연산을 수행합니다. 
##[해설] OrderDate라는 특정 열을 기준으로 매출액 Amt에 대한 Sum 연산을 수행하여 daily_sales에 저장합니다.

In [25]:
#'OrderDate' 기준 'Amt'의 합계 계산
daily_sales = daily_sales.groupby('OrderDate', as_index = False)['Amt'].sum()

In [26]:
#[문제12] 'daily_sales' 데이터를 확인해보세요.

In [27]:
daily_sales

Unnamed: 0,OrderDate,Amt
0,2016-01-02,503234
1,2016-01-03,211202
2,2016-01-04,705195
3,2016-01-05,502803
4,2016-01-06,485984
...,...,...
83,2016-03-27,373716
84,2016-03-28,711169
85,2016-03-29,422533
86,2016-03-30,619654


### Q02) 월별 매출액

In [28]:
#[문제13] 기간별 조회를 위해 'sales' 데이터프레임에 주문일자의 연도와 월의 변수를 추가해주세요.
##[해설] OrderDate 날짜정보 활용하여 연도와 월을 추출. sales['OrderDate'].dt.year로 연도를 dt.month로 월 추가합니다.

In [29]:
# 연도는 'Year', 월은 'Month'로 변수를 추가
# 'OrderDate' 컬럼에서 dt.year, dt.month 함수 활용

# 'Year' 변수 추가
sales['Year'] = sales['OrderDate'].dt.year
# 'Month' 변수 추가
sales['Month'] = sales['OrderDate'].dt.month

In [30]:
#[문제14] 월별 매출액의 합계를 구하고 'monthly_sales'에 저장해주세요.
##[해설] 'Year'와 'Month' 열로 groupby함수로 그룹화하여 주문금액('Amt')을 합산합니다.

In [31]:
# groupby 함수 활용, as_index = False
monthly_sales = sales.groupby(['Year','Month'], as_index = False)['Amt'].sum()

In [32]:
#[문제15] 'monthly_sales'를 출력하고 확인해주세요.

In [33]:
monthly_sales

Unnamed: 0,Year,Month,Amt
0,2016,1,14209990
1,2016,2,14367451
2,2016,3,17111120
3,2016,4,15129917
4,2016,5,13976941
5,2016,6,13113610
6,2016,7,10717743
7,2016,8,10176702
8,2016,9,10496653
9,2016,10,10003648


### Q03) 요일별 매출액 평균

In [34]:
#[문제16] 'sales' 데이터프레임에서 주문일자 기준 일별 매출액의 합계를 구해 'day_sales'에 저장하세요.
##[해설] 'OrderDate' 열로 groupby함수로 그룹화하여 주문금액('Amt')을 합산합니다.

In [35]:
# groupby 함수 활용, 'OrderDate' 기준 'Amt'의 합산
# sum 함수 활용

day_sales = sales.groupby('OrderDate', as_index = False)['Amt'].sum()

In [36]:
#[문제17] 'day_sales'에서 'OrderDate' 열의 날짜 정보를 활용하여 'Weekday' 열을 추가하세요.
##[해설] dt.day_name() 함수는 Datetime 형식 컬럼에서 요일을 문자열로 반환하는 함수입니다. 이 함수를 사용하면 날짜 정보가 있는 컬럼을 기반으로 해당 날짜의 요일을 문자열 형태로 얻을 수 있습니다.
##[해설] 우리는 OrderDate라는 날짜 정보 컬럼을 보유하고 있습니다.

In [37]:
# dt.day_name() 함수 
day_sales['Weekday'] = day_sales['OrderDate'].dt.day_name()

In [38]:
#[문제18] day_sales 데이터프레임의 'Weekday' 열을 출력하세요.

In [39]:
day_sales['Weekday']

0       Saturday
1         Sunday
2         Monday
3        Tuesday
4      Wednesday
         ...    
442       Monday
443      Tuesday
444    Wednesday
445     Thursday
446       Friday
Name: Weekday, Length: 447, dtype: object

### Q04) 일별 고객 1인당 평균 구매액(객단가)

In [40]:
#[문제19] 'sales' 데이터프레임에서 주문일자,고객ID별 주문금액을 합산하여 'order_amt'에 저장하세요.
##[해설] 'OrderDate'와 'CustomerID' 열로 groupby함수로 그룹화하여 주문금액('Amt')을 합산합니다.

In [41]:
# 'OrderDate'와 'CustomerID' 기준 groupby 함수 활용
# sum 함수 활용
order_amt = sales.groupby(['OrderDate','CustomerID'], as_index = False)['Amt'].sum()

In [42]:
#[문제20] 'order_amt'의 상단 10행을 출력하세요.
##[해설] 일자별 고객의 객단가 구매액을 확인합니다.

In [43]:
# head
order_amt.head(10)

Unnamed: 0,OrderDate,CustomerID,Amt
0,2016-01-02,c029643,2650
1,2016-01-02,c047907,1650
2,2016-01-02,c068640,3300
3,2016-01-02,c082866,12350
4,2016-01-02,c083862,9504
5,2016-01-02,c085558,12710
6,2016-01-02,c090006,2841
7,2016-01-02,c090821,12500
8,2016-01-02,c104962,1650
9,2016-01-02,c105415,1300


In [44]:
#[문제21] 'order_amt'에서 주문일자별 고객 구매액의 총 평균을 구하고 'order_amt2'에 저장하세요.
##[해설] 평균 구매액을 구하기 위해 OrderDate 열 기준 groupby 함수로 매출액의 평균을 mean함수로 구합니다.

In [45]:
# 'OrderDate'기준 groupby 함수 활용
# mean 함수 활용
order_amt2 = order_amt.groupby('OrderDate', as_index = False)['Amt'].mean()
order_amt2

Unnamed: 0,OrderDate,Amt
0,2016-01-02,7624.757576
1,2016-01-03,5415.435897
2,2016-01-04,6716.142857
3,2016-01-05,6364.594937
4,2016-01-06,6844.845070
...,...,...
442,2017-03-27,5410.058140
443,2017-03-28,6160.209302
444,2017-03-29,5868.831169
445,2017-03-30,5679.093333


### Q05) 일별 방문 고객수(구매 고객수)

In [46]:
#[문제22] 'order_amt'에서 일별 방문 고객수를 구하고 'daily_visit'으로 저장해주세요.
##[해설] OrderDate 열 기준 groupby하여 그룹화하고, CustomerID로 고객수를 count합니다. 

In [47]:
# CustomerID 컬럼의 데이터 개수 계산
daily_visit = order_amt.groupby('OrderDate', as_index=False)['CustomerID'].count()

In [48]:
#[문제23] 'order_amt2'에 'daily_visit' 데이터를 주문일자 컬럼 기준 추가해주세요.
##[해설] merge 함수는 두개의 데이터프레임을 결합할 때 사용되지만 컬럼을 추가할 때에도 사용할 수 있다. pd.merge(df1, df2, on='ID')를 사용하여 두 개의 데이터프레임을 'ID' 컬럼을 기준으로 결합합니다.

In [49]:
order_amt2 = pd.merge(order_amt2, daily_visit, on='OrderDate', how='left')

In [50]:
#[문제24] 'order_amt2' 데이터를 확인해보세요.

In [51]:
order_amt2

Unnamed: 0,OrderDate,Amt,CustomerID
0,2016-01-02,7624.757576,66
1,2016-01-03,5415.435897,39
2,2016-01-04,6716.142857,105
3,2016-01-05,6364.594937,79
4,2016-01-06,6844.845070,71
...,...,...,...
442,2017-03-27,5410.058140,86
443,2017-03-28,6160.209302,86
444,2017-03-29,5868.831169,77
445,2017-03-30,5679.093333,75


### Q06) 매출 상위 top 10 상품
* 데이터 정렬 : sort_index 메소드로 특정열을 기준으로 정렬
* ascending = True : 오름차순 정렬 / ascending = False : 내림차순 정렬
* data.sort_values(by='total_bill', ascending = False)

In [52]:
#[문제25] 'sales' 데이터와 'products' 데이터를 합쳐서 'top_amt'에 할당하세요.
##[해설] merge 함수로 병합해주세요.

In [53]:
# merge 함수 활용
top_amt = pd.merge(sales, products)

In [54]:
#[문제26] 상품명을 기준으로 매출 합계를 구하여 'top_amt2'에 저장하세요
##[해설] 'ProductName' 기준 groupby 함수 활용하여 Amt의 sum을 구하여 저장합니다.

In [55]:
# groupby 함수 활용, sum함수 활용
top_amt2 = top_amt.groupby('ProductName', as_index = False)['Amt'].sum()

In [56]:
#[문제27] 'top_amt2' 데이터프레임을 'Amt'열 기준 상위 10개의 데이터를 선택하여 내림차순으로 정렬하고 'top10_amt'에 저장하세요.
##[해설] 내림차순 정렬은 sort_values()함수를 사용하여 Amt 열을 기준으로 ascending=False로 정렬합니다. 오름차순은 ascending=True이며, by='Amt'로도 작성가능합니다. 
##[해설] 마지막에 head함수로 10개 데이터를 출력합니다.

In [57]:
# sort_values 함수 활용
top10_amt = top_amt2.sort_values('Amt', ascending = False).head(10)

In [58]:
#[문제28] 'top10_amt' 데이터프레임을 확인하세요.

In [59]:
top10_amt

Unnamed: 0,ProductName,Amt
37,우유1000,18129067
23,사과_소,14078818
9,딸기_대,11011541
7,두부_대,10119037
10,딸기_소,7517664
8,두부_소,7319963
49,콩나물,6971347
39,유기농우유,6437323
50,토마토,6291001
43,참외,5491030


### Q07) 카테고리별 매출 비중

In [60]:
#[문제29] 'sales'와 'products' 데이터프레임을 합치고 'cate_amt'에 저장하세요.
##[해설] pd.merge로 데이터프레임을 병합해주세요.

In [61]:
# merge 함수
cate_amt = pd.merge(sales, products)

In [62]:
#[문제30] 카테고리를 기준으로 매출 합계를 구하여 'cate_amt2'에 저장하세요
##[해설] Category 열을 기준으로 groupby하여 Amt의 Sum을 구합니다.

In [63]:
# groupby, sum 함수 활용
cate_amt2 = cate_amt.groupby('Category', as_index = False)['Amt'].sum()

In [64]:
#[문제31] 카테고리별 매출 비중을 구하여 'Rate' 변수를 'cate_amt2'에 추가해주세요.
##[해설] Rate 변수를 추가하려면 cate_amt2['Rate']라는 매출비중은 amt / 전체 amt의 합으로 구합니다. 

In [65]:
# 매출 비중 : 'Amt' / Amt.sum()
cate_amt2['Rate'] = cate_amt2['Amt'] / cate_amt2['Amt'].sum()

In [66]:
# 'cate_amt2'를 출력하세요.

In [67]:
cate_amt2

Unnamed: 0,Category,Amt,Rate
0,간식,12920570,0.06626
1,과일,49789339,0.255331
2,반찬류,32204820,0.165153
3,유제품,45261956,0.232113
4,채소,54822783,0.281143


### Q08) 요일별 매출 비중

In [68]:
#[문제32] 'sales'와 'products' 데이터프레임을 합치고 'day_amt'에 저장하세요.

In [69]:
day_amt = pd.merge(sales, products)

In [70]:
#[문제33] 'day_amt' 데이터에서 'OrderDate' 열을 날짜 형식의 데이터타입으로 변환해주세요.
##[해설] pd.to_datetime 함수 : 문자열이나 정수 등 다양한 형식의 날짜와 시간 데이터를 표준적인 방식인 datetime64 타입으로 변환합니다.

In [71]:
# pd.to_datetime 함수 활용
day_amt['OrderDate'] = pd.to_datetime(day_amt['OrderDate'])

In [72]:
#[문제34] 'day_amt' 데이터에서 'OrderDate' 열의 날짜 정보를 활용하여 요일을 나타내는 'Weekday' 열을 추가하고 확인해주세요.
##[해설] dt.day_name() 함수는 각 날짜의 요일 이름을 추출하는 함수입니다. 이 함수로 날짜 정보가 있는 'OrderDate' 컬럼 기준 해당 날짜의 요일을 알 수 있습니다.

In [73]:
# dt.day_name() 함수 활용 
day_amt['Weekday'] = day_amt['OrderDate'].dt.day_name()
day_amt

Unnamed: 0,OrderID,Seq,OrderDate,ProductID,Qty,Amt,CustomerID,Year,Month,ProductName,Category,SubCategory,Weekday
0,107,2,2016-01-02,p1036481,2,2100,c150417,2016,1,순두부,반찬류,두부,Saturday
1,69,1,2016-01-02,p1152861,1,1091,c212716,2016,1,포토아이스크림,유제품,아이스크림,Saturday
2,69,7,2016-01-02,p1013161,1,2600,c212716,2016,1,느타리버섯,채소,버섯,Saturday
3,69,8,2016-01-02,p1005771,1,1650,c212716,2016,1,두부_소,반찬류,두부,Saturday
4,69,11,2016-01-02,p1089531,1,2600,c212716,2016,1,감자칩,채소,뿌리채소,Saturday
...,...,...,...,...,...,...,...,...,...,...,...,...,...
70007,53,4,2017-03-31,p1072601,1,4600,c337999,2017,3,우유1000,유제품,우유,Friday
70008,53,6,2017-03-31,p1178011,1,8800,c337999,2017,3,사과_소,과일,과수,Friday
70009,55,6,2017-03-31,p1054261,1,2091,c088320,2017,3,고구마스틱,간식,과자,Friday
70010,59,4,2017-03-31,p1175481,1,1300,c238056,2017,3,콩나물,반찬류,나물류,Friday


In [74]:
#[문제35] day_amt를 요일 기준 매출액의 합을 계산하고 day_amt2에 저장하세요.
##[해설] groupby 함수로 weekday 열 기준 그룹화 하고 Amt의 Sum을 구하면 됩니다.

In [75]:
# groupby, sum 함수 활용
day_amt2 = day_amt.groupby(['Weekday'], as_index = False)['Amt'].sum()

In [76]:
#[문제36] day_amt2를 출력하세요.
day_amt2

Unnamed: 0,Weekday,Amt
0,Friday,30838811
1,Monday,34484281
2,Saturday,28683620
3,Sunday,18358536
4,Thursday,26608397
5,Tuesday,28097823
6,Wednesday,27928000


In [77]:
#[문제37] 요일별 매출 비중을 구하여 'Rate' 변수를 'day_amt2'에 추가해주세요.
##[해설] 매출비중(Rate) = amt / 전체 amt의 합을 구하면 됩니다.

In [78]:
day_amt2['Rate'] = day_amt2['Amt'] / day_amt2['Amt'].sum()

In [79]:
#[문제38] day_amt2를 다시 출력하여 변수가 추가되었는지 확인해주세요.
day_amt2

Unnamed: 0,Weekday,Amt,Rate
0,Friday,30838811,0.158148
1,Monday,34484281,0.176843
2,Saturday,28683620,0.147096
3,Sunday,18358536,0.094147
4,Thursday,26608397,0.136454
5,Tuesday,28097823,0.144092
6,Wednesday,27928000,0.143221


### Q09) 고객 나이대

In [80]:
#[문제39] 고객의 태어난 연도를 활용하여 'Age'(고객 나이) 컬럼을 추가 합니다. (기준 : 2016년)
##[해설] 나이는 2016년에서 고객의 BirthYear을 마이너스 하면 됩니다.

In [81]:
customers['Age'] = 2016 - customers['BirthYear']

In [82]:
#[문제40] 고객이 몇십대 인지 'Age' 컬럼을 활용하여 'AgeGroup'(연령대) 컬럼을 추가 합니다.
##[해설] 연령대는 나이를 10으로 나눈 후 10을 곱하면 됩니다. (나누기 연산자 : '//')

In [83]:
customers['AgeGroup'] = customers['Age'] // 10 * 10

In [84]:
#[문제41] 'customers' 데이터의 상단 5행을 출력하세요.

In [85]:
customers.head(5)
sales.head(5)

Unnamed: 0,OrderID,Seq,OrderDate,ProductID,Qty,Amt,CustomerID,Year,Month
0,107,2,2016-01-02,p1036481,2,2100,c150417,2016,1
1,69,1,2016-01-02,p1152861,1,1091,c212716,2016,1
2,69,7,2016-01-02,p1013161,1,2600,c212716,2016,1
3,69,8,2016-01-02,p1005771,1,1650,c212716,2016,1
4,69,11,2016-01-02,p1089531,1,2600,c212716,2016,1


In [86]:
###[추가문제42] 각 고객의 성별과 구매연도에 대한 가변수를 만들고 encoded_data에 저장하세요.
##[해설] 가변수화는 범주형 데이터를 독립된 열로 만들어서 수치형 데이터로 변환하는 과정임.
##[해설] 가변수화는 주로 One-Hot 인코딩이라고 부르며 머신러닝이나 통계분석에서 사용할 수 있게 해주는 작업임
##[해설] get_dummies() 함수를 사용해서 가변수를 쉽게 만들 수 있음

In [87]:
# customers, Sales 데이터프레임을 CustomerID 컬럼 기준 병합, 'merged_data'에 할당하세요.
merged_data = pd.merge(customers, sales, how='left', on='CustomerID')

# Gender 컬럼 기반 가변수화된 데이터프레임 생성, 각 범주에 해당하면 1, 아니면 0을 할당
encoded_data = pd.get_dummies(merged_data, columns=['Gender'])

# Year 컬럼 기반 다시한번 encoded_data를 가변수화
encoded_data = pd.get_dummies(encoded_data, columns=['Year'])
encoded_data

# 결과적으로 Gender와 Category 컬럼의 각 범주에 해당하는 가변수(더미변수)가 생성됨 (Gender_F, Gender_M 등)

Unnamed: 0,CustomerID,RegisterDate,BirthYear,Addr1,Addr2,Age,AgeGroup,OrderID,Seq,OrderDate,ProductID,Qty,Amt,Month,Gender_F,Gender_M,Year_2016,Year_2017
0,c328222,2014-09-25,1960,강원도,원주시,56,50,155,1,2016-02-24,p1001771,1,3300,2,True,False,True,False
1,c328222,2014-09-25,1960,강원도,원주시,56,50,143,5,2016-03-03,p1191881,1,1750,3,True,False,True,False
2,c328222,2014-09-25,1960,강원도,원주시,56,50,143,8,2016-03-03,p1005621,1,2900,3,True,False,True,False
3,c328222,2014-09-25,1960,강원도,원주시,56,50,143,10,2016-03-03,p1133371,2,2000,3,True,False,True,False
4,c328222,2014-09-25,1960,강원도,원주시,56,50,143,11,2016-03-03,p1005891,1,1950,3,True,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
70007,c181797,2011-01-26,1981,경기도,화성시,35,30,73,1,2016-06-23,p1207951,1,2800,6,True,False,True,False
70008,c181797,2011-01-26,1981,경기도,화성시,35,30,73,2,2016-06-23,p1012751,1,1250,6,True,False,True,False
70009,c181797,2011-01-26,1981,경기도,화성시,35,30,73,5,2016-06-23,p1133371,1,800,6,True,False,True,False
70010,c181797,2011-01-26,1981,경기도,화성시,35,30,73,7,2016-06-23,p1119071,1,1091,6,True,False,True,False


## 3.고객 이탈 정의

### (1) Label 만들기

* **Label이란?**
    * 라벨링이란 데이터의 의미 있는 값을 부여하여 구분하거나 분류하는 작업입니다.
    * 라벨링을 통해 데이터를 분석하거나 모델링하는 과정을 더 의미있게 만듭니다.
    * 예를 들면 이메일이 '스팸'인지 '정상'인지를 분류하거나, 데이터를 그룹화하거나 참인지 거짓인지 이진 분류하거나,
      순서를 표현하거나, 카테고리화하는 등 데이터의 특성에 따라 라벨링을 적용합니다.
* **Target이란?**
    * 타겟은 데이터 분석에서 예측하거나 분류하고자 하는 대상을 말합니다. 즉 우리가 예측하려는 값입니다.
    * 즉 타겟은 예측하거나 분류하려는 대상이나 범주이며, 타겟변수는 그 값을 의미합니다. 
    * 라벨과 타겟은 비슷한 개념이지만 라벨은 데이터의 특성이나 카테고리를 설명하기 위해 나타내는 값이며, 
      타겟은 모델이 예측하려는 대상 결과값이라고 이해해주세요.
* **세부 요구사항**
    * 고객의 이탈여부에 해당하는 Target변수를 생성하시오.
    * 대상 고객
        * 2014 ~ 2016년 신규 가입 고객 이면서,
        * 2016년 하반기에 한번 이상 방문한 고객이 대상 고객입니다.
    * Labeling
        * 위 대상 고객 중, 2017년 1~3월(3개월)동안 방문(구매)하지 않은 사람은 이탈로 간주합니다.
        * 이탈고객은 1, 이탈하지 않은 고객은 0으로 정의

#### 1) 대상고객 만들기

In [88]:
#[문제43] 'customers' 데이터에서 2014 ~ 2016년 신규 가입 고객을 'cust01'에 할당하세요.
##[해설] 특정 행과 열을 선택하는 'loc' 함수를 사용하여 'customers' 데이터프레임에서 'RegisterDate'가 '2014-01-01'부터 '2016-12-31' 사이에 있는 행들을 선택하여 'cust01' 데이터프레임에 저장합니다.
##[해설] between 함수를 사용하면 지정한 범위 내에 있는 값을 선택할 수 있습니다.

In [89]:
# loc함수, between('2014-01-01', '2016-12-31') 활용
cust01 = customers.loc[customers['RegisterDate'].between('2014-01-01', '2016-12-31')]

In [90]:
#[문제44] 'cust01'을 출력하세요.

In [91]:
cust01

Unnamed: 0,CustomerID,RegisterDate,Gender,BirthYear,Addr1,Addr2,Age,AgeGroup
0,c328222,2014-09-25,F,1960,강원도,원주시,56,50
12,c354310,2015-07-16,F,1964,강원도,원주시,52,50
16,c390828,2016-10-15,F,1984,강원도,원주시,32,30
28,c386399,2016-08-18,F,1972,강원도,원주시,44,40
30,c367116,2015-12-29,F,1970,강원도,원주시,46,40
...,...,...,...,...,...,...,...,...
2221,c316736,2014-05-17,F,1976,인천광역시,중구,40,40
2225,c310508,2014-03-12,F,1981,전라남도,해남군,35,30
2228,c352708,2015-06-26,F,1980,충청남도,당진시,36,30
2236,c395061,2016-12-08,F,1958,충청북도,청원군,58,50


In [92]:
#[문제45] 'sales' 데이터에서 2016년 하반기에 방문한 고객을 'cust02'에 할당하세요.
##[해설] 특정 행과 열을 선택하는 'loc' 함수를 사용하여 'sales' 데이터프레임에서 'OrderDate'가 '2016-07-01'부터 '2016-12-31' 사이에 있는 행들을 선택하여 'cust02' 데이터프레임에 저장합니다.
##[해설] between 함수를 사용하면 지정한 범위 내에 있는 값을 선택할 수 있습니다.

In [93]:
# loc 함수, between('2016-07-01', '2016-12-31')
cust02 = sales.loc[sales['OrderDate'].between('2016-07-01', '2016-12-31')]

In [94]:
#[문제46] 2016년 하반기에 한번 이상 방문한 고객을 'cust02'에 할당하세요.
##[해설] 한번 이상 방문한 고객은 하나의 고객으로 봐야 하므로 중복된 고객은 제거 해야 합니다.
##[해설] drop_duplicates 함수 : 중복된 행을 제거하는 함수, 매개변수 keep=first(첫번째 중복행 유지), 매개변수 subset = 'CustomerID'를 기준으로 중복된 고객을 제거합니다.

In [95]:
# drop_duplicates 함수, 중복된 고객 제거
cust02 = cust02.drop_duplicates(subset='CustomerID', keep='first')

In [96]:
#[문제47] 'cust02'을 출력하세요.

In [97]:
cust02

Unnamed: 0,OrderID,Seq,OrderDate,ProductID,Qty,Amt,CustomerID,Year,Month
29519,89,1,2016-07-01,p1030071,1,2450,c127482,2016,7
29522,101,1,2016-07-01,p1011291,1,273,c217179,2016,7
29523,103,1,2016-07-01,p1175481,1,1300,c222561,2016,7
29526,107,9,2016-07-01,p1011291,2,546,c333911,2016,7
29527,111,3,2016-07-01,p1030071,1,2450,c373441,2016,7
...,...,...,...,...,...,...,...,...,...
55591,37,5,2016-12-29,p1175481,1,1150,c153641,2016,12
55627,97,2,2016-12-30,p1005771,2,3700,c323093,2016,12
55670,25,2,2016-12-30,p1005891,1,1950,c313636,2016,12
55836,67,5,2016-12-31,p1207281,1,3300,c188728,2016,12


In [98]:
#[문제48] 대상고객 목록인 'cust01', 'cust02' 데이터를 합쳐서 'cust_churn0'으로 할당하세요.
##[해설] pd.merge 함수로 데이터를 병합하세요. cust01은 2014~2016년 신규 가입고객이고, cust02는 2016년 하반기에 방문한 고객이다. 즉 cust_curn0은 우리가 구해낸 대상고객 데이터이다.

In [99]:
# merge 함수
cust_churn0 = pd.merge(cust01, cust02, on='CustomerID', how='inner')

In [100]:
#[문제49] 'cust_churn0'을 상단 5행 출력하세요.

In [101]:
cust_churn0.head(5)

Unnamed: 0,CustomerID,RegisterDate,Gender,BirthYear,Addr1,Addr2,Age,AgeGroup,OrderID,Seq,OrderDate,ProductID,Qty,Amt,Year,Month
0,c328222,2014-09-25,F,1960,강원도,원주시,56,50,99,1,2016-07-12,p1149401,1,909,2016,7
1,c354310,2015-07-16,F,1964,강원도,원주시,52,50,181,3,2016-11-29,p1178011,1,8800,2016,11
2,c390828,2016-10-15,F,1984,강원도,원주시,32,30,49,14,2016-10-15,p1149411,1,1000,2016,10
3,c386399,2016-08-18,F,1972,강원도,원주시,44,40,121,4,2016-10-12,p1012581,3,3150,2016,10
4,c367116,2015-12-29,F,1970,강원도,원주시,46,40,169,3,2016-08-18,p1012581,1,1050,2016,8


#### 2) Label 만들기

In [102]:
#[문제50] sales 데이터프레임에서 2017년 1~3월 구매 고객을 'cust03'에 할당하세요
##[해설] loc 함수를 사용하여 Orderdate 기준 2017년 1월 1일~2017년 3월 31일까지의 범위를 between 함수로 선택하고, 2번 이상 구매한 고객도 1명으로 간주하기 때문에 CustomerID 중복값은 제거합니다.

In [103]:
# loc 함수 : 인덱싱을 사용하여 데이터프레임 내에서 조건을 만족하는 행 선택
# between('2017-01-01', '2017-03-31') 함수 활용, 중복된 CustomerID 삭제하기
# 'keep=first'로 중복된 값 중 첫번째 값 유지

cust03 = sales.loc[sales['OrderDate'].between('2017-01-01', '2017-03-31'),['CustomerID']].drop_duplicates(keep='first')

In [104]:
#[문제51] cust03에 'churn' 열을 추가하고, 해당 열의 모든 값에 0을 할당하세요.
##[해설] cust03은 2017년 1~3월 구매고객이므로 이탈고객이 아닙니다. 이탈을 뜻하는 churn 열을 생성하고 이탈고객이 아니라는 의미의 0을 할당합니다.

In [148]:
cust03['churn'] = 0
cust03

Unnamed: 0,CustomerID,churn
55976,c271068,0
55982,c146132,0
55983,c226242,0
55984,c140658,0
55985,c328839,0
...,...,...
69871,c400253,0
69883,c044830,0
69888,c346882,0
69904,c095005,0


In [106]:
#[문제52] 대상고객 목록인 'cust_churn0'과 2017년 1~3월 구매고객인 'cust03'을 합쳐서 'cust_churn0'으로 저장하세요.
##[해설] 2017년 1~3월에 구매한 고객을 pd.merge 함수로 합쳐서 대상고객 데이터를 만듭니다.

In [107]:
# merge 함수, how = 'left'로 왼쪽 데이터프레임의 행은 유지

cust_churn0 = pd.merge(cust_churn0, cust03, how = 'left')

In [108]:
#[문제53] 'cust_churn0'을 상단 5행 출력하세요.

In [109]:
cust_churn0.head(5)

Unnamed: 0,CustomerID,RegisterDate,Gender,BirthYear,Addr1,Addr2,Age,AgeGroup,OrderID,Seq,OrderDate,ProductID,Qty,Amt,Year,Month,churn
0,c328222,2014-09-25,F,1960,강원도,원주시,56,50,99,1,2016-07-12,p1149401,1,909,2016,7,0.0
1,c354310,2015-07-16,F,1964,강원도,원주시,52,50,181,3,2016-11-29,p1178011,1,8800,2016,11,
2,c390828,2016-10-15,F,1984,강원도,원주시,32,30,49,14,2016-10-15,p1149411,1,1000,2016,10,
3,c386399,2016-08-18,F,1972,강원도,원주시,44,40,121,4,2016-10-12,p1012581,3,3150,2016,10,
4,c367116,2015-12-29,F,1970,강원도,원주시,46,40,169,3,2016-08-18,p1012581,1,1050,2016,8,0.0


In [110]:
#[문제54] cust_churn0 데이터의 churn 열의 NAN은 이탈 고객이다. 이탈고객은 1로 채워주세요.

##[해설] cust_churn0 데이터에서 NaN은 2017년 1~3월에 구매하지 않은 고객이기에 이탈고객입니다.
##[해설] fillna 함수는 누락된값 null값을 다른 값으로 채우는 함수입니다. df.fillna(1)은 1로 대체하는 코드입니다.
##[해설] inplace=True : 기존 데이터프레임을 수정합니다. 원본데이터에 직접적으로 변경 적용

In [111]:
# fillna 함수 활용 : 데이터프레임에서 결측값(NaN)을 원하는 값으로 채우는 함수, inplace=True

cust_churn0['churn'].fillna(1, inplace = True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  cust_churn0['churn'].fillna(1, inplace = True)


In [112]:
#[문제55] 데이터프레임 cust_churn0의 'churn' 열의 데이터 타입을 정수형('int64')으로 변환하세요.
##[해설] 메모리를 절약하거나 연산속도를 향상시키기 위해 int64로 변환하기도 합니다. astype('int64') 함수를 사용합니다.

In [113]:
cust_churn0['churn'] = cust_churn0['churn'].astype('int64')

In [114]:
#[문제56] 데이터프레임 cust_churn0의 각 값들의 개수를 반환하여 고객 이탈 여부의 빈도수를 확인해주세요.
##[해설] value_counts() 함수로 churn 값의 수인 이탈고객 수의 현황을 파악합니다. 이탈고객은 184명임을 알 수 있습니다.

In [115]:
# value_counts() 함수 활용
cust_churn0['churn'].value_counts()

churn
0    363
1    184
Name: count, dtype: int64

### (2) feature 추가하기

* **feature란**
    * Feature란 데이터에서 추출한 변수나 속성을 의미합니다.
    * 각각의 열을 feature라고 간주할 수 있습니다.
    * 올바른 feature를 선택하고 가공하여 생성하는 것은 데이터 분석에서 모델을 학습하거나 예측을 수행하는데 중요합니다.
* **세부 요구사항**
    * 기본 feature 3가지를 생성해봅니다.
        * 1) 가입연차
        * 2) 최근 3개월(2016년10~12월)간 방문 횟수
        * 3) 최근 3개월(2016년10~12월)간 구매금액

#### feature 3가지 생성

* ① 가입연수(RegDuration)
* ② 최근 3개월(2016년10~12월)간 방문 횟수
* ③ 최근 3개월(2016년10~12월)간 구매금액

In [116]:
#<① 가입연수> 
#[문제57] 'RegisterDate' 열의 데이터는 datetime 형식으로 변환합니다.
##[해설] pd.to_datetime 함수를 활용합니다.

In [117]:
cust_churn0['RegisterDate'] = pd.to_datetime(cust_churn0['RegisterDate'])

In [118]:
#[문제58] 2016-12-31 기준으로 가입 연수 'RegDuration' 열을 'cust_churn0'에 추가하여 출력해주세요.
##[해설] 현재 연도에서 등록년도를 마이너스 하면 가입연수가 나옵니다. 2016에서 RegisterDate.dt.year을 마이너스합니다. 2016-cust_churn0.RegisterDate.dt.year로 구합니다.
##[해설] dt.year은 날짜/시간값에서 연도 정보를 추출, 열에 추가하거나 연산에 활용

In [119]:
cust_churn0['RegDuration'] = 2016 - cust_churn0.RegisterDate.dt.year
cust_churn0.head()

Unnamed: 0,CustomerID,RegisterDate,Gender,BirthYear,Addr1,Addr2,Age,AgeGroup,OrderID,Seq,OrderDate,ProductID,Qty,Amt,Year,Month,churn,RegDuration
0,c328222,2014-09-25,F,1960,강원도,원주시,56,50,99,1,2016-07-12,p1149401,1,909,2016,7,0,2
1,c354310,2015-07-16,F,1964,강원도,원주시,52,50,181,3,2016-11-29,p1178011,1,8800,2016,11,1,1
2,c390828,2016-10-15,F,1984,강원도,원주시,32,30,49,14,2016-10-15,p1149411,1,1000,2016,10,1,0
3,c386399,2016-08-18,F,1972,강원도,원주시,44,40,121,4,2016-10-12,p1012581,3,3150,2016,10,1,0
4,c367116,2015-12-29,F,1970,강원도,원주시,46,40,169,3,2016-08-18,p1012581,1,1050,2016,8,0,1


In [120]:
#<② 3개월간 방문 횟수> 
#[문제59] sales에서 주문일자('OrderDate')가 '2016-10-01'부터 '2016-12-31' 사이인 데이터를 선택하여 'temp'에 저장하세요.
##[해설] loc 함수를 사용하여 OrderDate가 2016년 10월 1일부터 12월 31일까지의 범위를 between 함수를 활용하여 선택합니다.

In [121]:
temp = sales.loc[sales['OrderDate'].between('2016-10-01', '2016-12-31')]

In [122]:
#<② 3개월간 방문 횟수> 
#[문제60] 'OrderID', 'OrderDate', 'CustomerID' 열만을 필터링해서 중복된 행을 제거하고 'temp'에 저장하여 출력하세요.
##[해설] temp의 특정열들만을 선택하고 drop_duplicates()함수로 중복된 행을 제거하여 방문 횟수를 구합니다.

In [123]:
temp = temp[['OrderID', 'OrderDate','CustomerID']].drop_duplicates()
temp

Unnamed: 0,OrderID,OrderDate,CustomerID
43455,57,2016-10-01,c155875
43456,59,2016-10-01,c177682
43457,63,2016-10-01,c314136
43461,65,2016-10-01,c319923
43463,69,2016-10-01,c302963
...,...,...,...
55964,91,2016-12-31,c038319
55965,95,2016-12-31,c132501
55968,97,2016-12-31,c259362
55972,99,2016-12-31,c350918


In [124]:
#<② 3개월간 방문 횟수>  
#[문제61] 'temp' 데이터에서 각 고객별 'OrderDate'열의 개수를 세어서 'temp2'에 저장하세요.
##[해설] groupby 함수 활용, CustomerID 기준 OrderDate를 count하면 방문횟수가 나옵니다.
##[해설] as_index=True -> 집계 기준이 되는 열이 인덱스 열이 됨, as_index=False -> 행번호를 기반으로 한 정수값이 인덱스

In [125]:
temp2 = temp.groupby('CustomerID', as_index=False)['OrderDate'].count()

In [126]:
#<② 3개월간 방문 횟수>  
#[문제62] 'temp2' 데이터의 'OrderDate' 열의 이름을 'Visit_3M_Cnt'로 변경하고 확인해주세요.
##[해설] 열의 이름 변경은 rename 함수를 사용합니다. 딕셔너리 형태로 {'OrderDate' : 'Visit_3M_Cnt'}로 변경합니다.

In [127]:
temp2 = temp2.rename(columns={'OrderDate':'Visit_3M_Cnt'})
temp2

Unnamed: 0,CustomerID,Visit_3M_Cnt
0,c017487,9
1,c017503,2
2,c017517,12
3,c017522,7
4,c017526,1
...,...,...
1377,c395401,2
1378,c395638,2
1379,c395673,1
1380,c396022,1


In [128]:
#<② 3개월간 방문 횟수> 
#[문제63] cust_churn0과 temp2을 합쳐서 'cust_churn1'으로 저장하세요. how= 'left'로 기존 데이터는 유지해주세요.  
##[해설] pd.merge 함수로 대상고객 데이터에 3개월간 방문횟수인 temp2를 병합합니다.

In [129]:
cust_churn1 = pd.merge(cust_churn0, temp2, how = 'left')

In [130]:
#[문제64] cust_churn1 출력하고 확인해주세요.

In [131]:
cust_churn1

Unnamed: 0,CustomerID,RegisterDate,Gender,BirthYear,Addr1,Addr2,Age,AgeGroup,OrderID,Seq,OrderDate,ProductID,Qty,Amt,Year,Month,churn,RegDuration,Visit_3M_Cnt
0,c328222,2014-09-25,F,1960,강원도,원주시,56,50,99,1,2016-07-12,p1149401,1,909,2016,7,0,2,15.0
1,c354310,2015-07-16,F,1964,강원도,원주시,52,50,181,3,2016-11-29,p1178011,1,8800,2016,11,1,1,1.0
2,c390828,2016-10-15,F,1984,강원도,원주시,32,30,49,14,2016-10-15,p1149411,1,1000,2016,10,1,0,3.0
3,c386399,2016-08-18,F,1972,강원도,원주시,44,40,121,4,2016-10-12,p1012581,3,3150,2016,10,1,0,1.0
4,c367116,2015-12-29,F,1970,강원도,원주시,46,40,169,3,2016-08-18,p1012581,1,1050,2016,8,0,1,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
542,c341674,2015-02-28,M,1973,인천광역시,중구,43,40,47,7,2016-07-01,p1234751,2,1636,2016,7,0,1,19.0
543,c316736,2014-05-17,F,1976,인천광역시,중구,40,40,193,3,2016-07-22,p1013251,1,1650,2016,7,0,2,
544,c310508,2014-03-12,F,1981,전라남도,해남군,35,30,155,1,2016-07-08,p1231011,2,1818,2016,7,0,2,2.0
545,c352708,2015-06-26,F,1980,충청남도,당진시,36,30,125,3,2016-07-04,p1005771,1,1850,2016,7,0,1,7.0


In [132]:
#<③ 3개월간 구매금액>
#[문제65] 최근 3개월(2016-10-01~2016-12-31)간 고객별 구매금액을 계산하여 'temp'에 저장해주세요.
##[해설] loc 함수를 활용하여 sales 데이터프레임의 OrderDate 기준 해당 기간을 between 함수로 나타냅니다. 해당 데이터에서 'CustomerID'와 'Amt' 컬럼만 선택하여 생성합니다.

In [133]:
temp = sales.loc[sales['OrderDate'].between('2016-10-01', '2016-12-31'), ['CustomerID', 'Amt']]

In [134]:
#<③ 3개월간 구매금액>
#[문제66] 데이터프레임 temp를 'CustomerID'를 기준으로 그룹화하고 각 고객별로 'Amt' 열의 합을 계산하여 'temp2'를 생성하세요.
##[해설] CustomerID 기준 groupby하고 Amt는 Sum하여 구매금액을 구합니다.

In [135]:
temp2 = temp.groupby('CustomerID', as_index=False)['Amt'].sum()
temp2

Unnamed: 0,CustomerID,Amt
0,c017487,44206
1,c017503,24400
2,c017517,57971
3,c017522,22027
4,c017526,9750
...,...,...
1377,c395401,9114
1378,c395638,24802
1379,c395673,4200
1380,c396022,7955


In [136]:
#<③ 3개월간 구매금액>
#[문제67] 'temp2'에서 'Amt'열의 이름을 'Amt_3M_sum'으로 변경해주세요. 
##[해설] 3개월간 구매금액을 뜻하는 Amt_3M_sum 열을 rename함수를 사용하여 딕셔너리 형태로 표현합니다. rename(columns={'Amt':'Amt_3M_sum'})

In [137]:
temp2 = temp2.rename(columns={'Amt':'Amt_3M_sum'})
temp2

Unnamed: 0,CustomerID,Amt_3M_sum
0,c017487,44206
1,c017503,24400
2,c017517,57971
3,c017522,22027
4,c017526,9750
...,...,...
1377,c395401,9114
1378,c395638,24802
1379,c395673,4200
1380,c396022,7955


In [138]:
#<③ 3개월간 구매금액>
#[문제68] cust_churn1, temp2을 합쳐서 'cust_churn2'으로 저장하세요.
##[해설] 대상고객 데이터인 cust_churn1에 3개월간 구매금액인 temp2를 pd.merge 함수로 병합하여 'cust_churn2'를 만듭니다.
##[해설] 왼쪽 데이터프레임인 cust_churn1을 기준으로 조인, 왼쪽 데이터프레임의 모든 행을 유지하면서 조인

In [139]:
cust_churn2 = pd.merge(cust_churn1, temp2, how = 'left')

In [140]:
#[문제69] 'cust_churn2'를 출력하고 확인하세요.

In [141]:
cust_churn2

Unnamed: 0,CustomerID,RegisterDate,Gender,BirthYear,Addr1,Addr2,Age,AgeGroup,OrderID,Seq,OrderDate,ProductID,Qty,Amt,Year,Month,churn,RegDuration,Visit_3M_Cnt,Amt_3M_sum
0,c328222,2014-09-25,F,1960,강원도,원주시,56,50,99,1,2016-07-12,p1149401,1,909,2016,7,0,2,15.0,47979.0
1,c354310,2015-07-16,F,1964,강원도,원주시,52,50,181,3,2016-11-29,p1178011,1,8800,2016,11,1,1,1.0,8800.0
2,c390828,2016-10-15,F,1984,강원도,원주시,32,30,49,14,2016-10-15,p1149411,1,1000,2016,10,1,0,3.0,18172.0
3,c386399,2016-08-18,F,1972,강원도,원주시,44,40,121,4,2016-10-12,p1012581,3,3150,2016,10,1,0,1.0,3150.0
4,c367116,2015-12-29,F,1970,강원도,원주시,46,40,169,3,2016-08-18,p1012581,1,1050,2016,8,0,1,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
542,c341674,2015-02-28,M,1973,인천광역시,중구,43,40,47,7,2016-07-01,p1234751,2,1636,2016,7,0,1,19.0,86163.0
543,c316736,2014-05-17,F,1976,인천광역시,중구,40,40,193,3,2016-07-22,p1013251,1,1650,2016,7,0,2,,
544,c310508,2014-03-12,F,1981,전라남도,해남군,35,30,155,1,2016-07-08,p1231011,2,1818,2016,7,0,2,2.0,18488.0
545,c352708,2015-06-26,F,1980,충청남도,당진시,36,30,125,3,2016-07-04,p1005771,1,1850,2016,7,0,1,7.0,37488.0


In [142]:
#[문제70] cust_churn2를 cust_churn으로 저장하세요.
##[해설] 최종적으로 cust_churn으로 전처리한 데이터셋을 완성합니다.

In [143]:
cust_churn = cust_churn2

## 4.데이터셋 저장

* **세부 요구사항**
    * to_csv를 이용하여 전처리된 데이터셋을 저장하세요.
    * 저장할 파일의 확장자는 .csv 입니다.

In [144]:
#[문제71] 전처리된 데이터프레임 'cust_churn'을 CSV 파일로 저장합니다.
##[해설] to_csv로 데이터를 저장합니다.

In [145]:
# 파일 : 'cust_churn.csv'
# to_csv 함수 활용
cust_churn.to_csv('cust_churn.csv', index=False)

In [146]:
#[문제72] 데이터가 잘 저장되었는지 다시 한번 불러오고 확인해보세요.

In [147]:
pd.read_csv('cust_churn.csv')

Unnamed: 0,CustomerID,RegisterDate,Gender,BirthYear,Addr1,Addr2,Age,AgeGroup,OrderID,Seq,OrderDate,ProductID,Qty,Amt,Year,Month,churn,RegDuration,Visit_3M_Cnt,Amt_3M_sum
0,c328222,2014-09-25,F,1960,강원도,원주시,56,50,99,1,2016-07-12,p1149401,1,909,2016,7,0,2,15.0,47979.0
1,c354310,2015-07-16,F,1964,강원도,원주시,52,50,181,3,2016-11-29,p1178011,1,8800,2016,11,1,1,1.0,8800.0
2,c390828,2016-10-15,F,1984,강원도,원주시,32,30,49,14,2016-10-15,p1149411,1,1000,2016,10,1,0,3.0,18172.0
3,c386399,2016-08-18,F,1972,강원도,원주시,44,40,121,4,2016-10-12,p1012581,3,3150,2016,10,1,0,1.0,3150.0
4,c367116,2015-12-29,F,1970,강원도,원주시,46,40,169,3,2016-08-18,p1012581,1,1050,2016,8,0,1,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
542,c341674,2015-02-28,M,1973,인천광역시,중구,43,40,47,7,2016-07-01,p1234751,2,1636,2016,7,0,1,19.0,86163.0
543,c316736,2014-05-17,F,1976,인천광역시,중구,40,40,193,3,2016-07-22,p1013251,1,1650,2016,7,0,2,,
544,c310508,2014-03-12,F,1981,전라남도,해남군,35,30,155,1,2016-07-08,p1231011,2,1818,2016,7,0,2,2.0,18488.0
545,c352708,2015-06-26,F,1980,충청남도,당진시,36,30,125,3,2016-07-04,p1005771,1,1850,2016,7,0,1,7.0,37488.0
