In [35]:
# 필요한 라이브러리 불러오기
import pandas as pd

In [36]:
# ===================== 1. 데이터 로드 =====================
# 각 데이터 파일 경로 설정
purchase_file_path = "../data/purchase_history.csv"
survey_file_path = "../data/satisfaction_survey.csv"

# CSV 파일을 데이터프레임으로 로드
df_purchase = pd.read_csv(purchase_file_path)
df_survey = pd.read_csv(survey_file_path)

In [37]:
# ===================== 2. 데이터 확인 =====================
# 데이터프레임 기본 정보 출력
print("=== 구매 이력 데이터 정보 ===")
print(df_purchase.info())  # 컬럼 정보 및 데이터 타입 확인

print("\n=== 고객 만족도 설문 데이터 정보 ===")
print(df_survey.info())  # 컬럼 정보 및 데이터 타입 확인

=== 구매 이력 데이터 정보 ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   CustomerID       99441 non-null  object 
 1   PurchaseHistory  99441 non-null  int64  
 2   TotalSpent       99441 non-null  float64
dtypes: float64(1), int64(1), object(1)
memory usage: 2.3+ MB
None

=== 고객 만족도 설문 데이터 정보 ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   CustomerID    99441 non-null  object 
 1   Satisfaction  98673 non-null  float64
dtypes: float64(1), object(1)
memory usage: 1.5+ MB
None


In [38]:
# 데이터의 상위 5개 행 출력
print("\n=== 구매 이력 데이터 샘플 ===")
print(df_purchase.head())

print("\n=== 고객 만족도 설문 데이터 샘플 ===")
print(df_survey.head())


=== 구매 이력 데이터 샘플 ===
                         CustomerID  PurchaseHistory  TotalSpent
0  00012a2ce6f8dcda20d059ce98491703                1      114.74
1  000161a058600d5901f007fab4c27140                1       67.41
2  0001fd6190edaaf884bcaf3d49edf079                1      195.42
3  0002414f95344307404f0ace7a26f1d5                1      179.35
4  000379cdec625522490c315e70c7a9fb                1      107.01

=== 고객 만족도 설문 데이터 샘플 ===
                         CustomerID  Satisfaction
0  00012a2ce6f8dcda20d059ce98491703           1.0
1  000161a058600d5901f007fab4c27140           4.0
2  0001fd6190edaaf884bcaf3d49edf079           5.0
3  0002414f95344307404f0ace7a26f1d5           5.0
4  000379cdec625522490c315e70c7a9fb           4.0


In [39]:
# ===================== 3. 데이터 병합 =====================
# 두 데이터셋을 CustomerID를 기준으로 병합
df_merged = pd.merge(df_purchase, df_survey, on="CustomerID")

# 병합된 데이터 확인
print("\n=== 병합된 데이터 확인 ===")
print(df_merged.head())


=== 병합된 데이터 확인 ===
                         CustomerID  PurchaseHistory  TotalSpent  Satisfaction
0  00012a2ce6f8dcda20d059ce98491703                1      114.74           1.0
1  000161a058600d5901f007fab4c27140                1       67.41           4.0
2  0001fd6190edaaf884bcaf3d49edf079                1      195.42           5.0
3  0002414f95344307404f0ace7a26f1d5                1      179.35           5.0
4  000379cdec625522490c315e70c7a9fb                1      107.01           4.0


In [40]:
# ===================== 4. 결측치 처리 =====================
# 각 컬럼별 결측치 개수 확인
print("\n=== 결측치 개수 확인 ===")
print(df_merged.isna().sum())  # 결측치 개수 출력

# 결측치가 없는 경우 그대로 사용, 결측치가 있다면 제거 또는 적절한 값으로 대체
df_merged = df_merged.dropna()

# 결측치 처리 후 데이터 확인
print("\n=== 결측치 처리 후 데이터 크기 ===")
print(df_merged.shape)  # 데이터 크기 확인


=== 결측치 개수 확인 ===
CustomerID           0
PurchaseHistory      0
TotalSpent           0
Satisfaction       768
dtype: int64

=== 결측치 처리 후 데이터 크기 ===
(98673, 4)


In [41]:
print(df_merged.isna().sum()) 

CustomerID         0
PurchaseHistory    0
TotalSpent         0
Satisfaction       0
dtype: int64


In [42]:
df_merged.describe()

Unnamed: 0,PurchaseHistory,TotalSpent,Satisfaction
count,98673.0,98673.0,98673.0
mean,1.0,160.723864,4.086793
std,0.0,220.684835,1.346274
min,1.0,0.0,1.0
25%,1.0,61.98,4.0
50%,1.0,105.28,5.0
75%,1.0,176.81,5.0
max,1.0,13664.08,5.0


In [43]:
# ===================== 5. 고객 세분화 (구매 이력 기반) =====================
# 구매 횟수(PurchaseHistory)를 기준으로 고객을 세 그룹으로 나누기
# 구매 횟수가 10 이하: 'Low'
# 구매 횟수가 11~30: 'Medium'
# 구매 횟수가 31 이상: 'High'
def categorize_purchase_history(purchase_count):
    if purchase_count <= 10:
        return 'Low'
    elif purchase_count >= 11 and purchase_count <= 30:
        return 'Medium'
    else:
        return 'High'

df_merged["PurchaseCategory"] = df_merged["PurchaseHistory"].apply(categorize_purchase_history)

# 고객 세분화 결과 확인
print("\n=== 구매 횟수 기반 고객 세분화 결과 ===")
print(df_merged["PurchaseCategory"].value_counts())  # 각 그룹별 고객 수 확인


=== 구매 횟수 기반 고객 세분화 결과 ===
PurchaseCategory
Low    98673
Name: count, dtype: int64


In [44]:
# ===================== 6. 고객 만족도 기반 세분화 =====================
# 만족도 점수(Satisfaction)를 기준으로 고객을 세 그룹으로 나누기
# 만족도 1~3: 'Low'
# 만족도 4~7: 'Medium'
# 만족도 8~10: 'High'
def categorize_satisfaction(satisfaction_score):
    if satisfaction_score >= 1 and satisfaction_score <= 3:
        return 'Low'
    elif satisfaction_score >= 4 and satisfaction_score <= 7:
        return 'Medium'
    else:
        return 'High'
    
df_merged["SatisfactionCategory"] = df_merged["Satisfaction"].apply(categorize_satisfaction)

# 고객 만족도 세분화 결과 확인
print("\n=== 고객 만족도 기반 세분화 결과 ===")
print(df_merged["SatisfactionCategory"].value_counts())  # 각 그룹별 고객 수 확인


=== 고객 만족도 기반 세분화 결과 ===
SatisfactionCategory
Medium    76028
Low       22619
High         26
Name: count, dtype: int64


In [45]:
# ===================== 7. 각 그룹별 평균 구매 금액 분석 =====================
# 구매 카테고리별 평균 총 지출 금액 분석
df_purchase_analysis = df_merged.groupby("PurchaseCategory")["TotalSpent"].mean().reset_index()
df_purchase_analysis.rename(columns={"TotalSpent": "AvgSpent"}, inplace=True)

# 구매 카테고리별 평균 지출 금액 출력
print("\n=== 구매 카테고리별 평균 지출 금액 분석 ===")
print(df_purchase_analysis)

# 만족도 카테고리별 평균 총 지출 금액 분석
df_satisfaction_analysis = df_merged.groupby("Satisfaction")["TotalSpent"].mean().reset_index()
df_satisfaction_analysis.rename(columns={"TotalSpent": "AvgSpent"}, inplace=True)

# 만족도 카테고리별 평균 지출 금액 출력
print("\n=== 만족도 카테고리별 평균 지출 금액 분석 ===")
print(df_satisfaction_analysis)



=== 구매 카테고리별 평균 지출 금액 분석 ===
  PurchaseCategory    AvgSpent
0              Low  160.723864

=== 만족도 카테고리별 평균 지출 금액 분석 ===
    Satisfaction    AvgSpent
0       1.000000  195.794161
1       1.500000  204.703750
2       2.000000  172.962858
3       2.500000  132.053235
4       3.000000  151.647585
5       3.333333   42.110000
6       3.500000  143.645600
7       4.000000  154.868719
8       4.333333   42.770000
9       4.500000  121.889815
10      5.000000  156.395515


In [46]:
# ===================== 8. 구매 카테고리와 만족도 카테고리 간의 관계 분석 =====================
# 구매 카테고리별 고객 만족도 분포 확인
df_category_relation = df_merged.groupby(["PurchaseCategory", "Satisfaction"])["CustomerID"].count().reset_index()
df_category_relation.rename(columns={"CustomerID": "CustomerCount"}, inplace=True)

# 관계 분석 결과 출력
print("\n=== 구매 카테고리와 만족도 카테고리 간의 관계 분석 ===")
print(df_category_relation)


=== 구매 카테고리와 만족도 카테고리 간의 관계 분석 ===
   PurchaseCategory  Satisfaction  CustomerCount
0               Low      1.000000          11316
1               Low      1.500000              8
2               Low      2.000000           3125
3               Low      2.500000             34
4               Low      3.000000           8136
5               Low      3.333333              1
6               Low      3.500000             25
7               Low      4.000000          19018
8               Low      4.333333              1
9               Low      4.500000             54
10              Low      5.000000          56955


In [47]:
# ===================== 9. 데이터 저장 =====================
# 분석된 데이터를 CSV 파일로 저장
df_merged.to_csv("../data/segmented_customer_data.csv", index=False)
df_purchase_analysis.to_csv("../data/purchase_category_analysis.csv", index=False)
df_satisfaction_analysis.to_csv("../data/satisfaction_category_analysis.csv", index=False)
df_category_relation.to_csv("../data/category_relation_analysis.csv", index=False)

print("\n=== 분석된 데이터 저장 완료 ===")



=== 분석된 데이터 저장 완료 ===
