# EDA : Brazilian E-Commerce Public Dataset

---

### 1. 데이터 전처리

In [2]:
### 데이터 조인을 통한 다수 데이터셋 통합 진행 
### 아래 SQL 쿼리문 참고, order_id는 중복 허용됨, order_status에서 cancel된 주문은 제외

# create or replace view order_info as
# select a.order_id,
# 	b.customer_id,
#   d.customer_unique_id,
# 	d.customer_city,
# 	d.customer_state,
# 	d.customer_zip_code_prefix as customer_zipcode,
# 	c.product_category_name_english as category,
# 	b.order_status,
# 	b.order_purchase_timestamp as purchase_date,
# 	b.order_estimated_delivery_date as estimated_delivery_date,
# 	datediff(b.order_estimated_delivery_date, b.order_purchase_timestamp) as estimated_delivery_period,
# 	a.price + a.freight_value as total_price
# from olist_order_items_dataset a
# left join olist_orders_dataset b on a.order_id = b.order_id
# left join product_dataset c on a.product_id = c.product_id
# left join olist_customers_dataset d on b.customer_id = d.customer_id
# having b.order_status != 'canceled';

In [41]:
import mysql.connector
import pandas as pd
import plotly_express as px
from datetime import datetime, timedelta

# mysql 데이터베이스 연결
conn = mysql.connector.connect(
    host = "localhost",
    user = "root",
    password = "cx@1076044150",
    database = "olist"
)
cursor = conn.cursor(buffered=True)


# 쿼리한 데이터셋 불러오기
sql = 'select * from order_info'
cursor.execute(sql)
result = cursor.fetchall()
columns = [col[0] for col in cursor.description]
df = pd.DataFrame(data=result, columns=columns)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112108 entries, 0 to 112107
Data columns (total 12 columns):
 #   Column                     Non-Null Count   Dtype         
---  ------                     --------------   -----         
 0   order_id                   112108 non-null  object        
 1   customer_id                112108 non-null  object        
 2   customer_unique_id         112108 non-null  object        
 3   customer_city              112108 non-null  object        
 4   customer_state             112108 non-null  object        
 5   customer_zipcode           112108 non-null  int64         
 6   category                   110497 non-null  object        
 7   order_status               112108 non-null  object        
 8   purchase_date              112108 non-null  datetime64[ns]
 9   estimated_delivery_date    112108 non-null  datetime64[ns]
 10  estimated_delivery_period  112108 non-null  int64         
 11  total_price                112108 non-null  float64 

---

### 2. 재구매 고객 및 상품 카테고리 분석
- 재구매 기준 : olist몰의 판매제품의 사용연수가 다양한 종합몰이므로, 최초 구매 시기로부터 1년을 유효기간으로 가정하여 재구매를 정의
- 고객이 최초 구매 후 재구매한 주문건수 분석 (구매일이 1일을 경과하지 않으면 재구매로 보지 않는다.)

In [39]:
# 재구매 고객 현황 (order_id 중복 제외)
df_re = pd.pivot_table(data=df, index='order_id', values=['customer_unique_id', 'purchase_date'], aggfunc='first')
df_re.sort_values(by='purchase_date', ascending=True, inplace=True)

# 고객별 최초 구매일 그룹핑
result = df_re.groupby('customer_unique_id')['purchase_date'].min()

# 재구매 여부 확인
df_re['repurchase'] = df_re.apply(lambda row: 
                                  ((row['purchase_date'] - result[row['customer_unique_id']]).days >= 1) and
                                  ((row['purchase_date'] - result[row['customer_unique_id']]).days <= 730), axis=1)

print('재구매된 주문건수 : ', len(df_re[df_re['repurchase'] == True]), '건 (구매일이 1일이상 경과하지 않으면 재구매로 보지 않는다.)')

재구매된 주문건수 :  2285 건 (구매일이 1일이상 경과하지 않으면 재구매로 보지 않는다.)


In [33]:
# 재구매 카테고리 현황 (재구매 대상 order_id만 필터링)
df_re2 = df[df['order_id'].isin(df_re[df_re['repurchase'] == True].index)]

# 재구매 카테고리 구매빈도
df_re2 = pd.pivot_table(data=df_re2, index='category', values='customer_id', aggfunc='count')
df_re2 = df_re2.sort_values(by='customer_id', ascending=False).rename(columns={'customer_id':'order_count'})
df_re2 = df_re2[df_re2['order_count'] > 1]

px.bar(df_re2, x=df_re2.index, y='order_count',
       labels={"category":"카테고리","order_count":"주문건수"}, 
       title='카테고리별 재구매 주문건수')

In [42]:
df = pd.merge(df, df_re['repurchase'], on='order_id', how='left')

---

- 재구매 전환율이 가장 높은 카테고리는 'diapers_and_hygiene'로 15.15%의 재구매 전환율을 보였다.
- 가장 재구매가 많은 카테고리는 'bed_bath_table'로 구매 수요도 많아서 최초 구매 건수도 많아 전환율은 약 3.6%를 보였다.
- 전환율과 각 특성과의 상관계수가 낮은 것으로 보아, 최초 구매 카테고리와 동일한 카테고리의 제품을 재구매한다고 보기 어렵다.  

In [97]:
# 카테고리별 재구매 전환율이 높은 카테고리 분석
df_re3 = pd.pivot_table(data=df, index='category', columns='repurchase', aggfunc='size', fill_value=0)
df_re3['conversion_rate'] = round(df_re3[True] / df_re3[False], 4)
df_re3.sort_values(by='conversion_rate', ascending=False, inplace=True)
df_re3.rename(columns={True:'re_purchase_cnt', False:'1st_purchase_cnt'}, inplace=True)
df_re3.head(10)

repurchase,1st_purchase_cnt,re_purchase_cnt,conversion_rate
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
diapers_and_hygiene,33,5,0.1515
fashio_female_clothing,44,4,0.0909
drinks,353,25,0.0708
fashion_bags_accessories,1921,104,0.0541
dvds_blu_ray,59,3,0.0508
tablets_printing_image,79,4,0.0506
arts_and_craftmanship,23,1,0.0435
costruction_tools_tools,99,4,0.0404
bed_bath_table,10711,386,0.036
furniture_living_room,484,17,0.0351


In [99]:
# 상관분석 결과
df_re3.corr()

repurchase,1st_purchase_cnt,re_purchase_cnt,conversion_rate
repurchase,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1st_purchase_cnt,1.0,0.965378,0.012319
re_purchase_cnt,0.965378,1.0,0.083423
conversion_rate,0.012319,0.083423,1.0


- 최초구매 + 재구매 카테고리의 총 매출이 높은 상위 10개 카테고리
- 마케팅 1회 비용에 대한 신규 고객 유입 관련 데이터가 없으나, 총 매출량이 높은 카테고리 위주의 마케팅을 진행하는 것이 효율적이다.

In [115]:
# 품목별 매출 분석
df_re4 = pd.pivot_table(data=df, index='category', values='total_price', aggfunc='sum')
df_re4 = pd.merge(df_re3, df_re4, on='category', how='left')
df_re4.sort_values(by='total_price', ascending=False).head(10)

Unnamed: 0_level_0,1st_purchase_cnt,re_purchase_cnt,conversion_rate,total_price
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
health_beauty,9431,203,0.0215,1437665.78
watches_gifts,5805,165,0.0284,1298292.47
bed_bath_table,10711,386,0.036,1240386.13
sports_leisure,8324,266,0.032,1147244.63
computers_accessories,7591,190,0.025,1050941.58
furniture_decor,8057,241,0.0299,899626.04
housewares,6724,191,0.0284,772035.14
cool_stuff,3728,52,0.0139,704176.47
auto,4126,79,0.0191,678652.6
garden_tools,4234,94,0.0222,579525.2


---

### 3. CLV (Customer Lifetime Value, 고객생애가치)
- CLV를 모델의 평가 기준으로 고려
- 신규고객 유치 및 기존 고객 마케팅에 들어간 비용은 olist에서 확인이 어려우므로 무시
- CLV = 평균구매액 × 평균구매빈도

In [162]:
# olist에서 확인 가능한 데이터로 CLV를 산정
df['year'] = df['purchase_date'].dt.year
df_clv1 = pd.pivot_table(data=df, index='customer_unique_id', values=['total_price', 'year', 'order_id'], 
                         aggfunc={'total_price':'sum', 'year':'first', 'order_id':'count'})
df_clv1.rename(columns={'order_id':'purchase_cnt'}, inplace=True)

df_clv2 = pd.pivot_table(data=df_clv1, index='year', values=['total_price', 'purchase_cnt'], aggfunc='mean')
df_clv2.rename(columns={'total_price':'avg_price', 'purchase_cnt':'avg_purchase_cnt'}, inplace=True)
df_clv2['clv'] = df_clv2['avg_price'] * df_clv2['avg_purchase_cnt']

df_clv3 = pd.pivot_table(data=df_clv1, index='year', values=['total_price', 'purchase_cnt'], aggfunc={'total_price':'sum', 'purchase_cnt':'count'})
df_clv3.rename(columns={'purchase_cnt':'customer_unique_id_cnt'}, inplace=True)
df_clv = pd.merge(df_clv2, df_clv3, on='year', how='left')
df_clv

Unnamed: 0_level_0,avg_purchase_cnt,avg_price,clv,customer_unique_id_cnt,total_price
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016,1.226804,184.271993,226.065641,291,53623.15
2017,1.185096,166.028327,196.759486,42713,7091567.95
2018,1.175955,165.28761,194.370726,51985,8592476.42


- 연도별 CLV와 총매출을 분석한 결과, 고객생애가치(CLV)는 감소하고 있다.
- 신규고객의 유입으로 총 매출은 증가하였으나, 고객별 평균 구매빈도와 구매금액이 감소하면서 고객생애가치(CLV)가 낮아졌다.
- 재구매 가능성이 높은 고객을 찾아, 재구매 가능성이 높은 카테고리를 추천하여, 고객생애가치(CLV)를 개선해보자. 