# 고객 데이터 전처리 및 데이터프레임 생성 및 재방문 고객과 통계적 유의성 검정
- 기존 데이터 프레임을 가공하여 고객 단위의 데이터프레임으로 가공
- 재방문 고객과 일회성 방문 고객 간 통계적 차이 검정

In [144]:
import import_ipynb
import EDA_분석목표수립단계

In [145]:
one_visiter = EDA_분석목표수립단계.one_visiter

---

In [146]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [147]:
df = pd.read_csv('../PROCESSED/processed_df.csv')

In [148]:
cust_cat = df.groupby(['고객ID','제품카테고리'])['수량'].sum().unstack().fillna(0)
cust_cat = cust_cat.reset_index()
# 고객별 제품카테고리별 구매 수량

cust_cup = df.groupby(['고객ID','쿠폰상태'])['수량'].sum().unstack().fillna(0)
cust_cup = cust_cup.reset_index()
# 고객별 쿠폰상태별 구매 수량

cust_sign = df.groupby(['고객ID'])['가입기간'].max().fillna(0)
cust_sign = cust_sign.reset_index()
# 고객별 최대 가입기간

cust_avg = df.groupby(['고객ID'])[['순수익','수량']].mean().fillna(0)
cust_avg = cust_avg.reset_index()
# 고객별 평균 구매 수량, 순수익

cust_trs = df.groupby(['고객ID'])['거래ID'].count().fillna(0)
cust_trs = cust_trs.reset_index()
#고객별 총 거래 횟수, 구매량(x)

cust_lst = df.groupby(['고객ID'])['거래주차'].max().fillna(0)
# 고객별 마지막 거래 주차

cust_trs = df.groupby(['고객ID'])['거래ID'].count().fillna(0)
cust_trs = cust_trs.reset_index()
#고객별 총 거래 횟수, 구매량(x)

cust_df = df[['고객ID','성별']].drop_duplicates()

In [149]:
dfs = [cust_avg,cust_cat,cust_cup,cust_df,cust_sign,cust_trs,cust_lst]
# 통합 대상 데이터프레임들

merged_df_all = dfs[0] # 첫 번째 데이터프레임으로 시작

for i in range(1, len(dfs)):
    merged_df_all = pd.merge(merged_df_all, dfs[i], on='고객ID', how='inner')

---

In [150]:
merged_df_all.columns = ['고객ID','평균순수익','평균수량','Accessories',
 'Android',
 'Apparel',
 'Bags',
 'Bottles',
 'Drinkware',
 'Gift Cards',
 'Headgear',
 'Housewares',
 'Lifestyle',
 'Nest',
 'Nest-Canada',
 'Nest-USA',
 'Notebooks & Journals',
 'Office',
 'Waze','Clicked','Not Used','Used','성별','가입기간','총거래량','마지막거래주']

# 변수명 바꾸기

In [151]:
merged_df_all['일회성구매고객'] = merged_df_all['고객ID'].isin(one_visiter).astype('int')
merged_df_all.loc[:,'거주지역'] = df.groupby(['고객ID'])['고객지역'].max().reset_index(drop=True)

In [152]:
cat_list = cust_cat.columns[1:].to_list()

merged_df_all[['Clicked','Not Used','Used']] = merged_df_all[['Clicked','Not Used','Used']].div(merged_df_all[['Clicked','Not Used','Used']].sum(axis=1),axis=0)
merged_df_all[cat_list] = merged_df_all[cat_list].div(merged_df_all[cat_list].sum(axis=1),axis=0)
# 단순 횟수가 아니라 비율로 비교하기 위해 수정

---

In [154]:
from scipy import stats

def perform_ttests(df, group_column):
    group_names = df[group_column].unique()
    if len(group_names) != 2:
        return "T-test는 두 그룹 간의 비교에 사용됩니다. 그룹 열에 두 개의 고유한 값만 있어야 합니다."

    group1 = df[df[group_column] == group_names[0]].drop(columns=[group_column])
    group2 = df[df[group_column] == group_names[1]].drop(columns=[group_column])

    numerical_cols = group1.select_dtypes(include=['number']).columns

    results = {}
    for col in numerical_cols:
        stat, p = stats.ttest_ind(group1[col], group2[col], nan_policy='omit')
        results[col] = {'t_statistic': stat, 'p_value': p}
    return results
# t-test로 통계적 차이가 유의미한 열을 생성

In [155]:
ttest_result = perform_ttests(merged_df_all,'일회성구매고객')
ttest_result= pd.DataFrame(ttest_result).T
# 통계적 차이 데이터프레임 생성

In [166]:
from scipy.stats import chi2_contingency

def chi_squared_test_categorical_binary(df, categorical_col, binary_col):
    """
    주어진 DataFrame에서 범주형 변수와 이진 변수 간의 통계적 유의성을
    카이제곱 검정으로 확인합니다.

    Args:
        df (pd.DataFrame): 분석할 데이터프레임.
        categorical_col (str): 범주형 변수 컬럼 이름.
        binary_col (str): 이진 변수 컬럼 이름.

    Returns:
        float: 카이제곱 검정의 p-value.
    """
    contingency_table = pd.crosstab(df[categorical_col], df[binary_col])
    chi2_stat, p_value, dof, expected_freq = chi2_contingency(contingency_table)

    return p_value

In [170]:
print('거주지역 카이제곱 검정 p값: ',chi_squared_test_categorical_binary(merged_df_all,'거주지역','일회성구매고객'))
print('성별 카이제곱 검정 p값: ',chi_squared_test_categorical_binary(merged_df_all,'성별','일회성구매고객'))
# 재방문 고객과 일회성 고객 간의 거주지역, 성별 간 분포 차이는 통계적으로 유의하지 않음.

거주지역 카이제곱 검정 p값:  0.1877464510664444
성별 카이제곱 검정 p값:  0.2830362395227445


In [172]:
signif = ttest_result[ttest_result['p_value']<0.05]
# 두 집단간 유의한 차이를 보이는 변수만 생성

compare_df = merged_df_all.drop(['고객ID','성별','거주지역'],axis=1).groupby('일회성구매고객').mean().T
# 통계적으로 유의미하지 않았던 성별과 거주지역 변수는 제외함.
compare_df[compare_df.index.isin(signif.index)]
# 차이가 있는 변수들의 실제 평균값 확인

일회성구매고객,0,1
Apparel,0.214747,0.241604
Nest,0.021691,0.031707
Nest-USA,0.165361,0.21426
Office,0.286032,0.233177
총거래량,55.552716,21.078385
마지막거래주,37.246006,26.695962


## 재방문 고객의 구매 특성
- **Apparel 제품**, Nest 제품, Nest-USA 제품: 총 구매에서 각 제품군이 차지하는 비율이 낮았음.
- **Office 제품** : 총 구매에서 해당 제품군이 차지하는 비율이 높았음.
- **총거래량** : 약 2.5배 높음.
- **마지막 거래주**: 마지막 거래로부터 약 30% 정도 더 오래된 특성을 보임.
- 성별과 거주지역은 통계적으로 유의미하지 않았음.

In [173]:
merge_info = pd.concat([compare_df,ttest_result],axis=1)
# 그룹별 통계적 차이 및 평균값 데이터프레임
merge_info.to_csv('../PROCESSED/group_statistic_avg.csv',index=True)

In [174]:
merged_df_all.to_csv('../PROCESSED/merged_customer_info.csv',index=False)