Name : ธีรพงค์ ศันสนียวรรธน์ <br>
Date : 23 May 2564 <br>
Description : <br>
เป็นการใช้ข้อมูลเพื่อช่วยในการทำนายว่าลูกค้าจะทำการตอบรับ Campaign ที่มีการจัดส่งให้กับลูกค้าหรือไม่ <br> <br>

เป็นส่วนหนึ่งของวิชา BADS 7105 Customer Analytics <br>
อาจารย์ผู้สอน ดร. ธนชาตย์ ฤทธิ์บำรุง <br> <br>
สาขาวิชาการวิเคราะธ์ธุรกิจและวิทยาการข้อมูล DS รุ่นที่ 5 <br>
คณะสถิติประยุกต์ <br>
สถาบันบัณฑิตพัฒนบริหารศาสตร์ (นิด้า) NIDA <br>

# Importing libraries and datasets

In [None]:
import numpy as np
import pandas as pd
import datetime as dt
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score, accuracy_score, classification_report, roc_curve, auc
from imblearn.under_sampling import RandomUnderSampler
from imblearn.over_sampling import RandomOverSampler
from imblearn.over_sampling import SMOTE
from xgboost import plot_importance
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix

import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

# 1. Load data

In [None]:
# ข้อมูล Transaction การซื้อสินค้าของลูกค้า
trans_df = pd.read_csv('./data/Retail_Data_Transactions.csv', parse_dates=['trans_date'])
# ข้อมูลการตอบรับ Campaign ของลูกค้า
resp_df = pd.read_csv('./data/Retail_Data_Response.csv')

# 2. EDA (Exploratory Data Analysis)

### 2.1 สำรวจข้อมูลชุด Retail_Data_Transactions
### 2.1.1 ทำการดูข้อมูลที่โหลดมาว่ามี Columm ชื่ออะไรบ้าง และในแต่ละ Column นั้นเก็บข้อมูลเป็นอย่างไร

In [None]:
trans_df.head()

In [None]:
# data distribution
sns.countplot(x='tran_amount', data=trans_df)
plt.title('Distribution of Amount', fontsize=14)
plt.show()

### 2.1.2 ทำการตรวจสอบข้อมูลว่ามีข้อมูลเป็น null และมีข้อมูลแถวไหนที่ซ้าซ้อนหรือไม่

In [None]:
# check null
trans_df.isnull().sum()

In [None]:
# check dupplicate data
print("Duplicate Rows :",trans_df.duplicated().sum())
print(trans_df[trans_df.duplicated()==True])

# found duplicated row and delete them by keeping only the first found row.
trans_df = trans_df.drop_duplicates(keep='first')

### 2.1.3 ทำการตรวจสอบข้อมูล Transaction ว่าข้อมูลที่จัดเก็บจัดเก็บการซื้อสินค้าของ Customer ไว้อย่างไร
จากการตรวจสอบพบว่า มี Transaction ของ Customer แต่ละคน ภายใน 1 วันสามารถมี Transaction ได้มากกว่า 1 Transaction
ดัวยเหตุนี้ ในขั้นตอน Feature Engineering จะทำการกำหนดว่า ถ้าเป็นลูกค้าคนเดียวกัน จะกำหนดให้ Transaction ข้อลูกค้า
คนนั้นที่เป็นขึ้นภายในวันเดียวกัน เป็น Basket Id เดียวกัน (ความเป็นจริงแล้วอาจจะเป็นคนละ Basket ก็ได้ ถ้าลูกค้าคนนั้น ภายใน
เวลา 1 วันมีการกลับเข้ามาซื้อมากกว่า 1 ครั้ง แต่ในการวิเคราะห์นี้จะถือว่าเป็น Basket ID เดียวกัน)

In [None]:
# found a customer bought the same day
grouping = trans_df.groupby(['customer_id','trans_date']).count().reset_index()
grouping[grouping.tran_amount>1].head()

In [None]:
# investigate statatistic data
trans_df.describe()

### 2.2 สำรวจข้อมูลชุด Retail_Data_Response
### 2.2.1 ทำการดูข้อมูลที่โหลดมาว่ามี Columm ชื่ออะไรบ้าง และในแต่ละ Column นั้นเก็บข้อมูลเป็นอย่างไร

In [None]:
resp_df.head()

ทำการดูจำนวนข้อมูลที่ใช้ในการ Predict ของทั้ง 2 Class ซึ่งพบว่าข้อมูลที่เป็นข้อมูลแบบ Imbalaced dataset คือ ข้อมูลที่ระบุว่ามีการตอบรับ Campaign มีจำนวนน้อยกว่าข้อมูลที่ระบุว่าไม่ตอบรับ Campaign

In [None]:
sns.countplot(x='response', data=resp_df)
plt.title('Distribution of Response', fontsize=14)
plt.show()

# 3. Feature Engineering
การบวนการใช้ความรู้ใน Domain นั้นๆ เพื่อสร้าง Feature ใหม่ๆ ขึ้นมา ซึ่ง Feature เหล่านี้จะช่วยทำให้อัลกอริทึมมีการเรียนรู้ได้ดีมากขึ้น ตัวอย่างเช่น เติมข้อมูลที่ขาด หรือจัดแบ่งเป็นกลุ่มเป็นต้น สำหรับใน Assignment นี้จะนำเอาความรู้ในเรื่องของ RFM มาใช้

## RFM (Recency, Frequency, and Monetary)
คือ เทคนิคที่ใช้ข้อมูลเกี่ยวกับพฤติกรรมการซื้อของของลูกค้า 3 ปัจจัยมาใช้ในการวิเคราะห์ ซึ่งก็คือ

a) Recency (R) : ลูกค้ามีการซื้อสินค้าครั้งล่าสุดนานแล้วแค่ไหน? <br>
b) Frequency (F): ลูกค้ามีการซื้อสินค้าบ่อยแค่ไหน? <br>
c) Monetary : มูลค่าในการซื้อสินค้่าเยอะมากแค่ไหน? <br>

ประโยชน์ของ RFM คือ ถ้าลูกค้าพึ่งมาซื้อสินค้าได้ไม่นาน มีการซื้ออยู่เป็นประจำ และมีปริมาณการซื้อเยอะ ย่อมต้องมีโอกาศที่จะตอบรับ Campaign ที่เราส่งให้สูกว่านั่นเอง

### 3.1 หาวันที่จะทำการ Predict
ในการทำนาย Campaign Response จะมีการระบุวันที่จะทำนาย ใน Assignment นี้จะเลือกวันที่ทำนาย เป็นวันถัดมาของ Transaction สุดท้ายที่มีใน Dataset

In [None]:
print("Oldest Transaction Date : ",trans_df['trans_date'].min())
print("Newest Transaction Date : ",trans_df['trans_date'].max())

# select the next day of the last transaction
campaign_date = trans_df['trans_date'].max() + dt.timedelta(days=1)
print("Campaign Date : ",campaign_date)

trans_df['campaign_date'] = campaign_date

### 3.2 สร้าง Feature ชื่อ Basket ID 
จะให้ทุกๆ Transaction ของลูกค้าคนเดียวกัน จะมีต่า Basket ID เดียวกัน

In [None]:
# customer who bought product within the same day, it will be the same basket id
trans_df['basket_id'] = trans_df['customer_id'].astype(str) +'#'+ trans_df['trans_date'].astype(str)
trans_df.head()

### 3.3 แปลงข้อมูลในรูป Transaction เป็นข้อมูลสรุปรายเดือน
ทำการสร้าง Feature เพื่อระบุเดือนของแต่ละ Transaction ข้อมูลนี้ไว้ใช้เพื่อดูลักษณะข้อมูลของลุกค้าในระดับรายเดือน นอกเหนือจากการดูลักษณะของข้อมูลในระดับ Transaction

### 3.3.1 แปลง transaction date จากที่ระบุว่าเป็นรายวันไปเป็นระบุเป็นรายเดือน

In [None]:
def get_adjust_in_month(x) : 
    return dt.datetime(x.year,x.month,1)

# tranform transaction's date of each transaction to transaction's month
trans_df['trans_in_month'] = trans_df['trans_date'].apply(get_adjust_in_month)
# find the first month of transaction of each customer
trans_df['start_trans_in_month'] = trans_df.groupby('customer_id')['trans_in_month'].transform('min')
trans_df.head()

### 3.3.2 คำนวนหาระยะเวลาความเป็นลูกค้าของแต่ละ Customer

In [None]:
def get_month_year(df,col_name): 
    year_value = df[col_name].dt.year
    month_value = df[col_name].dt.month
    return year_value,month_value

# get the start transaction of each customer
trans_df['start_year'],trans_df['start_month'] = get_month_year(trans_df,'start_trans_in_month')

# calculate the customer's period from first purchase's date to campaign' date of each customer
campaign_year,campaign_month = get_month_year(trans_df,'campaign_date')
total_year_diff = campaign_year - trans_df['start_year']
total_month_diff = campaign_month - trans_df['start_month']
trans_df['customer_month'] = total_year_diff * 12 + total_month_diff + 1

trans_df.head()

## 3.3.3 สร้างข้อมูล Customer Single View จากข้อมูล RFM
ข้อมูล Customer Single View คือ การสรุปทุกสิ่งทุกอย่างของลูกค้า 1 คนให้เหลือข้อมูลเพียงแค่ 1 record

In [None]:
# Calculate RFM metrics
customer_df = trans_df.groupby(['customer_id']).agg(
    {'trans_date': lambda x : (campaign_date - x.max()).days, # last visit
     'basket_id': pd.Series.nunique, # total visit
     'tran_amount': 'sum', # total spend
     'customer_month': 'max'
    }).reset_index() 

#Rename columns
customer_df.rename(columns={'trans_date':'recency',
                            'basket_id':'total_frequency', # total visit
                            'tran_amount':'total_monetary'} # total spend
                   ,inplace= True)
#Final RFM values
customer_df.head()

# 4. Predict Campaign Reponse #1

### 4.1 merge 2 datasets (Customer's data and Campaign respose's data)

In [None]:
# filter ข้อมูลที่เป็น null
predict_df = customer_df.merge(resp_df,on=['customer_id'],how='left')
print("Null columns",predict_df.isnull().sum())

predict_df = predict_df[~predict_df.response.isnull()]
predict_df.head()

### 4.2 define prediction function

In [None]:
def campaign_prediction(X,y):
    # split train and test dataset
    RANDOM_STATE = 18
    TEST_SIZE = 0.3

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=TEST_SIZE, random_state=RANDOM_STATE)
    
    print("\nDimension of train and test data: -------------")
    print("X_train dataset: ", X_train.shape)
    print("y_train dataset: ", y_train.shape)
    print("X_test dataset: ", X_test.shape)
    print("y_test dataset: ", y_test.shape)
    
    # fix imbalanced data with SMOTE
    # เพิ่มตัวอย่าง Minority Class ให้มีปริมาณมากขึ้น (Oversampling) 
    sm = SMOTE(random_state=RANDOM_STATE)
    X_sm, y_sm = sm.fit_resample(X_train, y_train)
    print("\nDimension after fixing imbalance issue: -------------")
    print("X_sm dataset: ", X_sm.shape)
    print("y_sm dataset: ", y_sm.shape)
    
    xgb_model = xgb.XGBClassifier(objective='binary:logistic', eval_metric='auc')
    xgb_model.fit(X_sm, y_sm, early_stopping_rounds=5, eval_set=[(X_test, y_test)])

    y_train_pred = xgb_model.predict(X_sm)
    print('\nTraining Set\'s Results ------------------------------------\n')
    print(classification_report(y_sm, y_train_pred))

    y_test_pred = xgb_model.predict(X_test)
    print('\nTesting Set\'s Results ------------------------------------\n')
    print(classification_report(y_test, y_test_pred))
    
    # plot ROC Curve
    plt.figure(figsize=(10,6))
    y_prob_sm = xgb_model.predict_proba(X_sm)
    fpr_train, tpr_train ,_ = roc_curve(y_sm, y_prob_sm[:,1])
    auc_train = roc_auc_score(y_sm, y_prob_sm[:,1])

    plt.plot(fpr_train, tpr_train, color='red', label=f'Train set, auc = {auc_train:.2f}')

    # test set
    y_prob_test = xgb_model.predict_proba(X_test.to_numpy())
    fpr_test, tpr_test ,_ = roc_curve(y_test, y_prob_test[:,1])
    auc_test = roc_auc_score(y_test, y_prob_test[:,1])

    plt.plot([0,1],[0,1], color = 'grey', lw=2, ls ='--')

    plt.plot(fpr_test, tpr_test, color='blue', label=f'Test set, auc = {auc_test:.3f}')
    plt.legend()
    plt.title('ROC Curve')
    plt.show();

### 4.3 prediction

In [None]:
X = predict_df[['recency','total_frequency','total_monetary']]
y = predict_df['response']
print("X: ----------------")
print(X.head())
print("\ny: ----------------")
print(y.head())

campaign_prediction(X,y)

# 5. Predict Campaign Reponse #2
## 5.1 Feature engineering (ฉบับปรับปรุง #1)
### หาค่าเฉลี่ยจำนวนการซื้อ และปริมาณการซื้อ

จากสาเหตุที่ลูกค้าแต่ละคนเริ่มเข้ามาซื้อในเวลาที่ไม่พร้อมกัน ดังนั้นการใช้ feature totl_visit และ total_spend ก็จะมีผลทำให้การตีความค่าสถิติที่ได้นั้นต่ำกว่าความเป็นจริงได้ ดังนี้จึงควรเป็นค่าเฉลี่ย และเฉลี่ยนับจากวันที่ลูกค้าคนนั้นเริ่มเข้ามาเป็นลูกค้าวันแรก

In [None]:
customer_df['avg_frequency'] = customer_df['total_frequency']/customer_df['customer_month']
customer_df['avg_monetary'] = customer_df['total_monetary']/customer_df['customer_month']
customer_df.head()

### 5.2 merge 2 datasets (Customer's data and Campaign respose's data)

In [None]:
# filter ข้อมูลที่เป็น null
predict_df = customer_df.merge(resp_df,on=['customer_id'],how='left')
print("Null columns",predict_df.isnull().sum())

predict_df = predict_df[~predict_df.response.isnull()]
predict_df.head()

### 5.3 predict campaing response #2

In [None]:
X = predict_df[['recency','avg_frequency','avg_monetary']]
y = predict_df['response']
print("X: ----------------")
print(X.head())
print("\ny: ----------------")
print(y.head())

campaign_prediction(X,y)

# 6. Predict Campaign Reponse #3
## 6.1 Feature engineering (ฉบับปรับปรุง #2)
### จัดกลุ่มค่า recency, avg_frequency, avg_monetary ออกเป็น 5 กลุ่ม และคำนวนออกมาเป็นค่า rfm score

In [None]:
# Building RFM Features
customer_df['r'] = pd.qcut(customer_df['recency'], q=5, labels = range(5,0,-1)).astype(int)
customer_df['f'] = pd.qcut(customer_df['avg_frequency'],q=5, labels = range(1, 6)).astype(int)
customer_df['m'] = pd.qcut(customer_df['avg_monetary'],q=5,labels = range(1, 6)).astype(int)
customer_df['rfm_score'] = customer_df[['r','f','m']].sum(axis=1)
customer_df.head()

## 6.2 merge 2 datasets (Customer's data and Campaign respose's data)

In [None]:
# filter ข้อมูลที่เป็น null
predict_df = customer_df.merge(resp_df,on=['customer_id'],how='left')
print("Null columns",predict_df.isnull().sum())

predict_df = predict_df[~predict_df.response.isnull()]
predict_df.head()

## 6.3 predict campaing response #3

In [None]:
X = predict_df[['recency','avg_frequency','avg_monetary','r','f','m','rfm_score']]
y = predict_df['response']

print("X: ----------------")
print(X.head())
print("\ny: ----------------")
print(y.head())

campaign_prediction(X,y)