In [None]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import math
%matplotlib inline

import plotly.graph_objects as go
import plotly.express as px

# 한글깨짐 방지
plt.rc('font', family='AppleGothic')

# 데이터 불러오기
df = pd.read_csv('shopping_behavior_updated.csv')
df.head()

# 데이터 기본정보 확인, null값 없음
# 수치형 번수 중에서 0으로 된 값도 없음
df.info()

# 나이
# 성별
# 구입 상품
# 상품 카테고리
# 금액
# 위치 
# 사이즈
# 컬러
# 시즌
# 리뷰점수
# 구독여부
# 배송타입
# 할인적용 여부
# 프로모션코드 사용여부
# 지불 방법
# 구매빈도

# 데이터 기본정보 확인
df.describe()

# 수치형변수 이상치 확인

fig = go.Figure()

fig.add_trace(go.Box(y=df['Purchase Amount (USD)'], name='Purchase Amount (USD)'))
fig.add_trace(go.Box(y=df['Review Rating'], name='Review Rating'))
fig.add_trace(go.Box(y=df['Previous Purchases'], name='Previous Purchases'))
fig.add_trace(go.Box(y=df['Age'], name='Age'))

fig.update_layout(title='Boxplot of Numeric Columns',
                  xaxis=dict(title=''),
                  yaxis=dict(title='Value'),
                  width=800,  
                  height=500)  

fig.show()

# 모든 컬럼이 이상치가 없음 
# Review Rating 컬럼이 잘 안보이므로 Review Rating만 따로 한 번 보기 -> 이것도 역시 이상치 없음

fig = px.box(df, y='Review Rating', 
             title='Boxplot of Review Rating Columns',
             width=300, height=500)  

fig.update_layout(xaxis_title='Review Rating', yaxis_title='Value')  
fig.show()

# 상관계수 확인을 위해 범주형 컬럼을 수치형으로 변경
# 범주형 컬럼 : Gender, Subscription Status, Discount Applied, Frequency of Purchases

# Gender 컬럼 수치형으로 변경하는 함수

def gender_to_num(gender):
  if gender == 'Male':
    return 0
  else:
    return 1

# 수치형으로 변경한 Gender 컬럼 생성

df['gender'] = df['Gender'].apply(gender_to_num)
df.head()

# Subscription Status 컬럼 수치형으로 변경하는 함수

def subscription_to_num(subscription_status):
  if subscription_status == 'No':
    return 0
  else:
    return 1

# 수치형으로 변경한 Subscription Status 컬럼 생성

df['subscription_status'] = df['Subscription Status'].apply(subscription_to_num)
df.head()

# Discount Applied 컬럼 수치형으로 변경 함수

def discount_to_num(discount_applied):
  if discount_applied == 'No':
    return 0
  else:
    return 1

# 수치형으로 변경한 Discount Applied 컬럼 생성

df['discount_applied'] = df['Discount Applied'].apply(discount_to_num)
df.head()

# Frequency of Purchases 컬럼 수치형으로 변경하는 함수

def frequency_to_num(frequency_of_purchases):
  if frequency_of_purchases == 'Weekly':
    return 5
  elif frequency_of_purchases in ['Fortnightly', 'Bi-Weekly']:
    return 4
  elif frequency_of_purchases == 'Monthly':
    return 3
  elif frequency_of_purchases in ['Every 3 Months', 'Quarterly']:
    return 2
  else:
    return 1

# 수치형으로 변경한 Frequency of Purchases 컬럼 생성

df['frequency_of_purchases'] = df['Frequency of Purchases'].apply(frequency_to_num)
df.head()

# 수치형으로 변경한 컬럼 확인
df.head()

df.info()

# 컬럼별 상관계수 확인

corr=df[['Age', 'Purchase Amount (USD)', 'Review Rating', 'Previous Purchases', 'gender', 
       'subscription_status', 'discount_applied', 'frequency_of_purchases']].corr(method='pearson')
corr

fig = px.imshow(corr.values,
                x=corr.columns,
                y=corr.index,
                text_auto = '.2f',
                color_continuous_scale=px.colors.sequential.GnBu[2:],  
                color_continuous_midpoint=0,  
                labels=dict(x='', y=''),  
                title='Correlation Heatmap')

fig.update_layout(width=800, 
                  height=600,  
                  margin=dict(l=0, r=0, t=40, b=0))  

fig.show()

# Frequency of Purchases 컬럼을 일년 예상구매 횟수로 바꾸는 함수(예상 구매 횟수)
def times_per_annual(frequency_of_purchases):
  if frequency_of_purchases in ['Bi-Weekly', 'Fortnightly']:
    return 26
  elif frequency_of_purchases in ['Every 3 Months', 'Quarterly']:
    return 4
  elif frequency_of_purchases == 'Weekly':
    return 52
  elif frequency_of_purchases == 'Annually':
    return 1
  elif frequency_of_purchases == 'Monthly':
    return 12

# 일년 예상구매 횟수 컬럼 생성
df['purchases_times_per_annual'] = df['Frequency of Purchases'].apply(times_per_annual)
df.head()

# 고객 남녀 수 확인

df_gender_count =df['Gender'].value_counts().sort_values(ascending=False)
pd.DataFrame(df_gender_count)

# 고객 남녀 수 그래프

fig = px.bar(df_gender_count, x=df_gender_count.index, y=df_gender_count.values, 
             title='Count of Customers by Gender',
             color=df_gender_count.index,
             color_discrete_sequence=['royalblue', 'tomato'],
             text=df_gender_count.values)  

fig.update_traces(texttemplate='%{y:,.0f}', textposition='outside')  

fig.update_layout(
    xaxis_title='',  
    yaxis_title='count',  
    width=600,  
    height=500,
    plot_bgcolor='white'
)

fig.show()

# 고객 남녀 성비 확인
df_gender = df['Gender'].value_counts().sort_values(ascending=False)/df['Customer ID'].count()*100
pd.DataFrame(df_gender)

# 고객 남녀 비율 그래프

fig = px.pie(df_gender, values=df_gender, names=df_gender.index,
             title='Gender Ratio', color_discrete_sequence=['royalblue', 'tomato'],  
             hole=0.3)

fig.update_layout(
    width=600,  
    height=400,  
)

fig.show()

# Age 컬럼을 구간별로 나누는 함수
def age_cat(age):
  return str((age//10) * 10) + '대'

# Age 컬럼을 구간별로 카테고리화한 컬럼 생성
df['age_group'] = df['Age'].apply(age_cat)
df.head()

# 고객 연령대 확인
df_by_agegroup = df['age_group'].value_counts().sort_index()
pd.DataFrame(df_by_agegroup)

# 고객 연령대별 판매량 그래프

fig = px.bar(df_by_agegroup, x=df_by_agegroup.index, y=df_by_agegroup.values, 
             title='Count of Customers by Age Group',
             color=df_by_agegroup.index,
             color_discrete_sequence=px.colors.sequential.GnBu[2:],
             text=df_by_agegroup.values)  

fig.update_traces(textposition='outside')  

fig.update_layout(
    xaxis_title='',
    yaxis_title='count', 
    width=600, 
    height=500,
    plot_bgcolor='white'
)

fig.show()

fig = px.histogram(df, x='Review Rating', nbins=50, 
                   title='Review Score Distribution',
                   color_discrete_sequence=[px.colors.sequential.GnBu[5]])

fig.update_layout(width=600,  
                  height=500,
                  plot_bgcolor='white')  

fig.show() 

# Size별 판매량 확인
df_by_size = df['Size'].value_counts().sort_index().loc[['S', 'M', 'L', 'XL']]
pd.DataFrame(df_by_size)

fig = px.bar(df_by_size, x=df_by_size.index, y=df_by_size.values,
             title='Sales Count by Size',
             color=df_by_size.index,  
             color_discrete_sequence=px.colors.sequential.GnBu[4:])  

fig.update_traces(texttemplate='%{y:,.0f}', textposition='outside')  

fig.update_layout(width=600,  
                  height=500, 
                  xaxis_title='',  
                  yaxis_title='count',  
                  plot_bgcolor='white')  

fig.show()

# Location별 판매량 확인
df_by_location = df['Location'].value_counts().sort_values(ascending=False)
pd.DataFrame(df_by_location)

# 국가별 판매수량

fig = px.bar(df_by_location, x=df_by_location.index, y=df_by_location.values,
             title='Sales Count By Country',
             color=df_by_location.index,
             color_discrete_sequence=['rgb(43, 140, 190)'])

fig.update_layout(
    xaxis_title='', 
    yaxis_title='Count',  
    xaxis_tickangle=90,  
    width=1000,  
    height=500,
    plot_bgcolor='white'
)

fig.update_layout(showlegend=False)

fig.show()

# Payment Method별 거래수 확인
df_by_payment = df['Payment Method'].value_counts().sort_values()
pd.DataFrame(df_by_payment)

# Payment Method별 거래수 그래프

fig = px.bar(df_by_payment, x=df_by_payment.index, y='count',
             title='Sales Count by Payment Method',
             color=df_by_payment.index,  
             color_discrete_sequence=px.colors.sequential.GnBu[3:])

fig.update_traces(texttemplate='%{y:.0f}', textposition='outside')  

fig.update_layout(
    xaxis_title='', 
    yaxis_title='count',  
    xaxis_tickangle=30,  
    width=800,  
    height=500,
    plot_bgcolor='white')

fig.show()

# Shipping Type별 거래수 확인
df_by_shipping = df['Shipping Type'].value_counts().sort_values()
pd.DataFrame(df_by_shipping)

# Shipping Type별 거래수 그래프

fig = px.bar(df_by_shipping, x=df_by_shipping.index, y='count',
             title='Sales Count by Shipping Type',
             color=df_by_shipping.index,  
             color_discrete_sequence=px.colors.sequential.GnBu[3:])

fig.update_traces(texttemplate='%{y:.0f}', textposition='outside')  

fig.update_layout(
    xaxis_title='', 
    yaxis_title='count',  
    xaxis_tickangle=30,  
    width=800,  
    height=500,
    plot_bgcolor='white')

fig.show()

df.columns

# 이제 심층분석 : 보통 매출 증대를 위해 할인 프로모션을 하는 경우가 많으니 할인 프로모션을 생각해보자
# 할인 프로모션을 하는 것이 타당한지 보기 위해 매출액, 구매빈도와 할인적용 컬럼의 상관관계를 보자

# 구매금액(Purchase Amount)컬럼, 할인(Discount Applied)컬럼, 1년동안의 예상 구매 횟수(purchased_times_per_annual)컬럼의 상관계수 확인

corr2 = df[['Purchase Amount (USD)', 'discount_applied', 'purchases_times_per_annual']].corr(method='pearson')
corr2

fig = px.imshow(corr2.values,
                x=corr2.columns,
                y=corr2.index,
                text_auto = '.4f',
                color_continuous_scale=px.colors.sequential.GnBu[2:],
                color_continuous_midpoint=0,
                title='Correlation Heatmap')

fig.update_layout(
    width=600,
    height=400,
    margin=dict(l=0, r=0, t=40, b=0),
)

fig.show()

# 전체고객을 대상으로 보면 상관관계가 있어보이지 않는다. 심슨의 역설이 생길 수 있으니 Regular고객과 VIP고객으로 클러스터링 한 후 상관관계가 있는지 확인하자

# VIP고객부터 확인
# VIP 정의 : Frequency of Purchases 컬럼을 바탕으로 1년동안의 구매횟수를 추정하여 purchases_times_per_annual컬럼 생성
# purchases_times_per_annual 컬럼에서 1년에 26회 이상 구매한 고객을 VIP, 미만은 Regular 고객이라 지칭

# VIP-Regular 고객으로 카테고리화 하는 함수

def customer_re_grouping(purchases_times_per_annual):
  if purchases_times_per_annual >= 26:
    return 'VIP'
  else:
    return 'Regular'

# VIP-Regular 카테고리화 된 컬럼 생성
df['customer_type2'] = df['purchases_times_per_annual'].apply(customer_re_grouping)
df.head()

# VIP고객의 Purchase Amount, discount_applied, purchases_times_per_annual 컬럼 상관관계 보기

df_by_VIP = df[df['customer_type2'] == 'VIP']
corr3 = df_by_VIP[['Purchase Amount (USD)', 'discount_applied', 'purchases_times_per_annual']].corr(method='pearson')
corr3

# VIP고객의 Purchase Amount, discount_applied, purchases_times_per_annual 컬럼 상관계수 그래프

fig = px.imshow(corr3.values,
                x=corr3.columns,
                y=corr3.index,
                text_auto = '.4f',
                color_continuous_scale=px.colors.sequential.GnBu[2:],
                color_continuous_midpoint=0,
                title='Correlation Heatmap')

fig.update_layout(
    width=600,
    height=400,
    margin=dict(l=0, r=0, t=40, b=0),
)

fig.show()

# Regular 고객의 Purchase Amount, discount_applied, purchases_times_per_annual 컬럼 상관관계 보기

df_by_Regualr = df[df['customer_type2'] == 'Regular']
corr4 = df_by_Regualr[['Purchase Amount (USD)', 'discount_applied', 'purchases_times_per_annual']].corr(method='pearson')
corr4

# Regular 고객의 Purchase Amount, discount_applied, purchases_times_per_annual 컬럼 상관계수 그래프

fig = px.imshow(corr4.values,
                x=corr4.columns,
                y=corr4.index,
                text_auto = '.4f',
                color_continuous_scale=px.colors.sequential.GnBu[2:],
                color_continuous_midpoint=0,
                title='Correlation Heatmap')

fig.update_layout(
    width=600,
    height=400,
    margin=dict(l=0, r=0, t=40, b=0),
)

fig.show()

# 그룹을 나눈 후에도 상관관계가 없어 보이므로 할인프로모션은 제외
# 그러면 VIP와 Regular 고객을 타겟팅해서 프로모션을 할지 전체고객을 대상으로 할지 결정을 해야 하므로
# 평균 구매단가를 전체를 대상으로도 보고 Regular-VIP고객을 그룹핑한 다음에도 보자.

# 전체 고객 평균 구매단가 확인
df['Purchase Amount (USD)'].mean()

# 거래당 결제금액 중앙값 확인
df['Purchase Amount (USD)'].median()

# VIP-Regular고객 그룹핑한 후 평균단가 확인

df_by_type2_USD = df.groupby('customer_type2')['Purchase Amount (USD)'].mean()
pd.DataFrame(df_by_type2_USD)

# 고객등급별 객단가

fig = px.bar(df_by_type2_USD, x=df_by_type2_USD.index, y=df_by_type2_USD.values,
             title='Average Order Value by Customer Type',
             color=df_by_type2_USD.index, 
             color_discrete_sequence=['silver', 'gold'])

fig.update_traces(texttemplate='%{y:.2f}', textposition='outside')  

fig.update_layout(
    xaxis_title='', 
    yaxis_title='Average Order Value (USD)',    
    width=400,  
    height=500,
    showlegend=False, 
    plot_bgcolor='white')

fig.show()

# 거래당 구매단가는 VIP나 Regular고객이나 비슷하다. 그러면 다음으로 보아야 할 것은 연간 구매횟수이다.
# 평균 구매단가 * 연간 구매횟수 = 1년 예상 매출액

# '평균 구매단가 * 연간 구매횟수' 컬럼 만들기
# 평균 구매 단가를 반올림해서 $60이라고 가정하고 각 ID별로 1년 예상 구매금액 컬럼을 생성하자!

# 1년 예상 매출액 컬럼 생성
df["projected_revenue"] = 60 * df['purchases_times_per_annual']
df.head()

# VIP-Regular고객 1년 예상 매출액 확인
df_revenue = df.groupby('customer_type2')['projected_revenue'].sum()
pd.DataFrame(df_revenue)

# VIP-Regular고객 1년 예상 매출액 그래프

fig = px.bar(df_revenue, x=df_revenue.index, y=df_revenue.values,
             title='Sales Projection by Customer Class',
             color=df_revenue.index, 
             color_discrete_sequence=['silver', 'gold'])

fig.update_traces(texttemplate='%{y:,.0f}', textposition='outside')  

fig.update_layout(
    xaxis_title='', 
    yaxis_title='Projected Sales (USD)',    
    width=400,  
    height=500,
    showlegend=False, 
    plot_bgcolor='white')

fig.show()

# VIP-Regular고객 예상매출 비율 확인

df_revenue_prop = df.groupby('customer_type2')['projected_revenue'].sum()/df['projected_revenue'].sum()*100
pd.DataFrame(df_revenue_prop)

# VIP-Regular고객 예상매출액 비율 그래프

fig = px.pie(df_revenue_prop, values=df_revenue_prop, names=df_revenue_prop.index,
             title='Sales Projection Ratio', color_discrete_sequence=['gold', 'silver'], 
             hole=0.3)

fig.update_layout(
    width=600,  
    height=400,  
)

fig.show()

# VIP-Regular고객 1명당 예상 매출액(1년 기준)
df_revenue_per_member = df.groupby('customer_type2')['projected_revenue'].mean()
pd.DataFrame(df_revenue_per_member)

# VIP-Regular고객 1명당 예상 매출액(1년 기준) 그래프

fig = px.bar(df_revenue_per_member, x=df_revenue_per_member.index, y=df_revenue_per_member.values,
             title='Sales Projection Per Customer',
             color=df_revenue_per_member.index, 
             color_discrete_sequence=['silver', 'gold'])

fig.update_traces(texttemplate='%{y:,.0f}', textposition='outside')  

fig.update_layout(
    xaxis_title='', 
    yaxis_title='Projected Sales (USD)',    
    width=400,  
    height=500,
    showlegend=False, 
    plot_bgcolor='white')

fig.show()

# VIP-Regular 고객 비율 확인
df_by_type2_prop = df.groupby('customer_type2')['Customer ID'].count()/df['Customer ID'].count()*100
pd.DataFrame(df_by_type2_prop)

#VIP-Regular고객 비율 그래프

fig = px.pie(df_by_type2_prop, values=df_by_type2_prop, names=df_by_type2_prop.index,
             title='Customer Ratio', color_discrete_sequence=['silver', 'gold'], 
             hole=0.3)

fig.update_layout(
    width=600,  
    height=400,  
)

fig.show()

# VIP-Regular 고객 수 확인
df_by_type2 = df['customer_type2'].value_counts()
pd.DataFrame(df_by_type2)

# VIP-Regular 고객 수 그래프

fig = px.bar(df_by_type2, x=df_by_type2.index, y=df_by_type2.values,
             title='Customer Count by Class',
             color=df_by_type2.index, 
             color_discrete_sequence=['silver', 'gold'])

fig.update_traces(texttemplate='%{y:,.0f}', textposition='outside')  

fig.update_layout(
    xaxis_title='', 
    yaxis_title='Customer Count',    
    width=400,  
    height=500,
    showlegend=False, 
    plot_bgcolor='white')

fig.show()

# VIP가 매출의 많은 부분을 차지하고 있으므로 VIP대상으로 프로모션을 진행하는 것이 타당해 보인다.
# VIP의 연령대와 아이템 추출하자

# VIP 데이터만 추출
# 이미 만들어 놓은 df가 있음 : df_by_VIP = df[df['customer_type2']=='VIP']
df_by_VIP.head()

# VIP고객 연령대 확인
df_by_VIP = df_by_VIP['age_group'].value_counts().sort_index()
pd.DataFrame(df_by_VIP)

# VIP고객 연령대 그래프

fig = px.bar(df_by_VIP, x=df_by_VIP.index, y='count',
             title='Sales Count by Shipping Type',
             color=df_by_VIP.index,  
             color_discrete_sequence=px.colors.sequential.GnBu[2:])

fig.update_traces(texttemplate='%{y:.0f}', textposition='outside')  

fig.update_layout(
    xaxis_title='', 
    yaxis_title='count',   
    width=600,  
    height=500,
    showlegend=False, 
    plot_bgcolor='white')

fig.show()

# 봄시즌 남성 VIP 데이터만 추출

df_by_spring_VIP_men = df[(df['Season']=='Spring') & (df['customer_type2']=='VIP') & (df['Gender']=='Male')]
df_by_spring_VIP_men.head()

# 봄시즌 남성 VIP고객 구입 아이템 확인
df_by_spring_VIP_men_item = df_by_spring_VIP_men['Item Purchased'].value_counts().sort_values(ascending=False).head(8)
pd.DataFrame(df_by_spring_VIP_men_item)

# 봄시즌 남성 VIP 구입 아이템 수 그래프


fig = px.bar(df_by_spring_VIP_men_item, x=df_by_spring_VIP_men_item.index, y='count',
             title='Top 2 Popular Products among VIPs (Male)',
             color=df_by_spring_VIP_men_item.index,  
             color_discrete_sequence=['royalblue'])

fig.update_traces(texttemplate='%{y:.0f}', textposition='outside')  

fig.update_layout(
    xaxis_title='', 
    yaxis_title='count',   
    width=600,  
    height=500,
    showlegend=False, 
    plot_bgcolor='white')

fig.show()

# 봄시즌 여성 VIP고객  데이터만 추출

df_by_spring_VIP_women = df[(df['Season']=='Spring') & (df['customer_type2']=='VIP') & (df['Gender']=='Female')]
df_by_spring_VIP_women.head()

# 봄시즌 여성 VIP고객 구입 아이템 확인
df_by_spring_VIP_women_item = df_by_spring_VIP_women['Item Purchased'].value_counts().sort_values(ascending=False).head(6)
pd.DataFrame(df_by_spring_VIP_women_item)

# 봄시즌 여성 VIP고객 구입 아이템 수 그래프

fig = px.bar(df_by_spring_VIP_women_item, x=df_by_spring_VIP_women_item.index, y='count',
             title='Top 2 Popular Products among VIPs (Female)',
             color=df_by_spring_VIP_women_item.index,  
             color_discrete_sequence=['tomato'])

fig.update_traces(texttemplate='%{y:.0f}', textposition='outside')  

fig.update_layout(
    xaxis_title='', 
    yaxis_title='count',   
    width=600,  
    height=500,
    showlegend=False, 
    plot_bgcolor='white')

fig.show()

