In [1]:
# 필요한 라이브러리 불러오기
import pandas as pd

In [2]:

# ===================== 1. 데이터 로드 =====================
# 각 데이터 파일 경로 설정
purchase_file_path = "../data/purchase_history.csv"
survey_file_path = "../data/satisfaction_survey.csv"

# CSV 파일을 데이터프레임으로 로드
df_purchase = pd.read_csv(purchase_file_path)
df_survey = pd.read_csv(survey_file_path)

In [3]:
# ===================== 2. 데이터 확인 =====================
# 데이터프레임 기본 정보 출력
print("=== 구매 이력 데이터 정보 ===")
print(df_purchase.info())  # 컬럼 정보 및 데이터 타입 확인

print("\n=== 고객 만족도 설문 데이터 정보 ===")
print(df_survey.info())  # 컬럼 정보 및 데이터 타입 확인

=== 구매 이력 데이터 정보 ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype
---  ------           --------------  -----
 0   CustomerID       1000 non-null   int64
 1   PurchaseHistory  1000 non-null   int64
 2   TotalSpent       1000 non-null   int64
dtypes: int64(3)
memory usage: 23.6 KB
None

=== 고객 만족도 설문 데이터 정보 ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype
---  ------        --------------  -----
 0   CustomerID    1000 non-null   int64
 1   Satisfaction  1000 non-null   int64
dtypes: int64(2)
memory usage: 15.8 KB
None


In [4]:
# 데이터의 상위 5개 행 출력
print("\n=== 구매 이력 데이터 샘플 ===")
print(df_purchase.head())

print("\n=== 고객 만족도 설문 데이터 샘플 ===")
print(df_survey.head())


=== 구매 이력 데이터 샘플 ===
   CustomerID  PurchaseHistory  TotalSpent
0           1               21        1050
1           2                5         100
2           3               12         516
3           4               13         585
4           5               44        3696

=== 고객 만족도 설문 데이터 샘플 ===
   CustomerID  Satisfaction
0           1             1
1           2             1
2           3            10
3           4             4
4           5             4


In [5]:
# ===================== 3. 데이터 병합 =====================
# 두 데이터셋을 CustomerID를 기준으로 병합
df_merged = pd.merge(df_purchase, df_survey, on="CustomerID")

# 병합된 데이터 확인
print("\n=== 병합된 데이터 확인 ===")
print(df_merged.head())


=== 병합된 데이터 확인 ===
   CustomerID  PurchaseHistory  TotalSpent  Satisfaction
0           1               21        1050             1
1           2                5         100             1
2           3               12         516            10
3           4               13         585             4
4           5               44        3696             4


In [6]:
# ===================== 4. 결측치 처리 =====================
# 각 컬럼별 결측치 개수 확인
print("\n=== 결측치 개수 확인 ===")
print(df_merged.isna().sum())  # 결측치 개수 출력

# 결측치가 없는 경우 그대로 사용, 결측치가 있다면 제거 또는 적절한 값으로 대체
df_merged = df_merged.dropna()

# 결측치 처리 후 데이터 확인
print("\n=== 결측치 처리 후 데이터 크기 ===")
print(df_merged.shape)  # 데이터 크기 확인


=== 결측치 개수 확인 ===
CustomerID         0
PurchaseHistory    0
TotalSpent         0
Satisfaction       0
dtype: int64

=== 결측치 처리 후 데이터 크기 ===
(1000, 4)


In [12]:
# ===================== 5. 고객 세분화 (구매 이력 기반) =====================
# 구매 횟수(PurchaseHistory)를 기준으로 고객을 세 그룹으로 나누기
# 구매 횟수가 10 이하: 'Low'
# 구매 횟수가 11~30: 'Medium'
# 구매 횟수가 31 이상: 'High'
def categorize_purchase_history(purchase_count):
    if purchase_count <= 10:
        return 'Low'
    elif purchase_count >= 11 and purchase_count <= 30:
        return 'Medium'
    else:
        return 'High'

df_merged["PurchaseCategory"] = df_merged["PurchaseHistory"].apply(categorize_purchase_history)

# 고객 세분화 결과 확인
print("\n=== 구매 횟수 기반 고객 세분화 결과 ===")
print(df_merged["PurchaseCategory"].value_counts())  # 각 그룹별 고객 수 확인


=== 구매 횟수 기반 고객 세분화 결과 ===
PurchaseCategory
High      420
Medium    380
Low       200
Name: count, dtype: int64


In [None]:
# df_merged.head()

Unnamed: 0,CustomerID,PurchaseHistory,TotalSpent,Satisfaction,PurchaseCategory
0,1,21,1050,1,Medium
1,2,5,100,1,Low
2,3,12,516,10,Medium
3,4,13,585,4,Medium
4,5,44,3696,4,High


In [13]:
# ===================== 6. 고객 만족도 기반 세분화 =====================
# 만족도 점수(Satisfaction)를 기준으로 고객을 세 그룹으로 나누기
# 만족도 1~3: 'Low'
# 만족도 4~7: 'Medium'
# 만족도 8~10: 'High'
def categorize_satisfaction(satisfaction_score):
    if satisfaction_score >= 1 and satisfaction_score <= 3:
        return 'Low'
    elif satisfaction_score >= 4 and satisfaction_score <= 7:
        return 'Medium'
    else:
        return 'High'

df_merged["SatisfactionCategory"] = df_merged["Satisfaction"].apply(categorize_satisfaction)

# 고객 만족도 세분화 결과 확인
print("\n=== 고객 만족도 기반 세분화 결과 ===")
print(df_merged["SatisfactionCategory"].value_counts())  # 각 그룹별 고객 수 확인


=== 고객 만족도 기반 세분화 결과 ===
SatisfactionCategory
Medium    381
High      322
Low       297
Name: count, dtype: int64


In [14]:
# ===================== 7. 각 그룹별 평균 구매 금액 분석 =====================
# 구매 카테고리별 평균 총 지출 금액 분석
df_purchase_analysis = df_merged.groupby("PurchaseCategory")["TotalSpent"].mean().reset_index()
df_purchase_analysis.rename(columns={"TotalSpent": "AvgSpent"}, inplace=True)

# 구매 카테고리별 평균 지출 금액 출력
print("\n=== 구매 카테고리별 평균 지출 금액 분석 ===")
print(df_purchase_analysis)

# 만족도 카테고리별 평균 총 지출 금액 분석
df_satisfaction_analysis = df_merged.groupby("Satisfaction")["TotalSpent"].mean().reset_index()
df_satisfaction_analysis.rename(columns={"TotalSpent": "AvgSpent"}, inplace=True)

# 만족도 카테고리별 평균 지출 금액 출력
print("\n=== 만족도 카테고리별 평균 지출 금액 분석 ===")
print(df_satisfaction_analysis)



=== 구매 카테고리별 평균 지출 금액 분석 ===
  PurchaseCategory     AvgSpent
0             High  2149.033333
1              Low   286.700000
2           Medium  1074.339474

=== 만족도 카테고리별 평균 지출 금액 분석 ===
   Satisfaction     AvgSpent
0             1  1298.158879
1             2  1485.696629
2             3  1508.970297
3             4  1161.585106
4             5  1572.529412
5             6  1311.604651
6             7  1474.363636
7             8  1343.401961
8             9  1342.333333
9            10  1191.009434


In [15]:
# ===================== 8. 구매 카테고리와 만족도 카테고리 간의 관계 분석 =====================
# 구매 카테고리별 고객 만족도 분포 확인
df_category_relation = df_merged.groupby(["PurchaseCategory", "Satisfaction"])["CustomerID"].count().reset_index()
df_category_relation.rename(columns={"CustomerID": "CustomerCount"}, inplace=True)

# 관계 분석 결과 출력
print("\n=== 구매 카테고리와 만족도 카테고리 간의 관계 분석 ===")
print(df_category_relation)


=== 구매 카테고리와 만족도 카테고리 간의 관계 분석 ===
   PurchaseCategory  Satisfaction  CustomerCount
0              High             1             45
1              High             2             39
2              High             3             46
3              High             4             36
4              High             5             48
5              High             6             30
6              High             7             44
7              High             8             47
8              High             9             45
9              High            10             40
10              Low             1             22
11              Low             2             12
12              Low             3             13
13              Low             4             32
14              Low             5             19
15              Low             6             17
16              Low             7             19
17              Low             8             24
18              Low             9

In [16]:
# ===================== 9. 데이터 저장 =====================
# 분석된 데이터를 CSV 파일로 저장
df_merged.to_csv("../data/segmented_customer_data.csv", index=False)
df_purchase_analysis.to_csv("../data/purchase_category_analysis.csv", index=False)
df_satisfaction_analysis.to_csv("../data/satisfaction_category_analysis.csv", index=False)
df_category_relation.to_csv("../data/category_relation_analysis.csv", index=False)

print("\n=== 분석된 데이터 저장 완료 ===")



=== 분석된 데이터 저장 완료 ===
