[실 구매 영수증 기반 온라인 쇼핑몰 연령별 매출 데이터 - KADX 농식품 빅데이터 거래소](https://kadx.co.kr/opmk/frn/pmumkproductDetail/PMU_9334c816-5826-4d0e-a8f4-0b9eb47f6f4d/5#!)

## 실 구매 영수증 기반 온라인 쇼핑몰 연령별 매출 데이터 
* 주력 상품 카테고리 파악: 어떤 상품 카테고리가 가장 높은 매출을 기록하는지 파악하여 마케팅 전략 수립에 활용할 수 있습니다.
* 고객 세분화: RFM 분석을 통해 고객을 세분화하여 맞춤형 마케팅 전략을 수립할 수 있습니다.
* 구매 패턴 분석: 주차별, 연령별, 제품 카테고리별 구매 패턴을 분석하여 프로모션 시행 시점이나 재고 관리 전략 수립에 활용할 수 있습니다.
* 매출 변동 분석: 주차별, 계절별 매출 변동을 분석하여 매출 예측 모델을 개발하고, 사업 계획 수립에 활용할 수 있습니다.

In [None]:
# !pip install -Uq koreanize-matplotlib

In [None]:
import pandas as pd
import numpy as np
import koreanize_matplotlib
import matplotlib.pyplot as plt
import plotly.express as px

In [None]:
df = pd.read_excel("data/실 구매 영수증 기반 온라인 쇼핑몰 연령별 매출 데이터.xlsx")
df.shape

In [None]:
df.head()

In [None]:
df.info()

In [None]:
# 중복데이터 확인
df[df.duplicated()]

In [None]:
# 결측치 확인
df.isnull().sum()

In [None]:
# 수치형 변수의 기술 통계 확인
df.describe()

In [None]:
# 범주형 변수의 기술 통계 확인
df.describe(include="object")

In [None]:
# 전체 변수의 고유값(유일값)
df.nunique()

## 분류별 데이터 빈도 및 구매금액 합계

In [None]:
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(15, 3))
df['대분류'].value_counts().sort_values(ascending=True).plot(kind='barh', ax=axes[0]);
df.groupby('대분류')['구매금액'].sum().sort_values(ascending=True).plot(kind='barh', ax=axes[1]);

In [None]:
fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(15, 15))
df['중분류'].value_counts().plot(kind='bar', rot=60, ax=axes[0], title='중분류 데이터 빈도');
df.groupby('중분류')['구매금액'].sum().sort_values(ascending=False).plot(kind='bar', title='중분류 구매금액 합계', rot=60, ax=axes[1]);

In [None]:
df['구매상품명'].value_counts().head(10)

In [None]:
df.groupby('구매상품명')['구매금액'].sum().nlargest(10)

## 구매 분류별 수량 및 금액 분석

In [None]:
# 구매 대분류별 판매 성과 분석
channel_sales_summary = df.groupby('대분류')[['구매수량', '구매금액']].agg(['sum', 'mean', 'count']).reset_index()
channel_sales_summary

In [None]:
# 대분류별 매출 비율
total_sales = df['구매금액'].sum()
channel_sales_summary[('매출 비율', 'percent')] = (channel_sales_summary[('구매금액', 'sum')] / total_sales) * 100
channel_sales_summary

In [None]:
# 대분류별 주요 구매 상품 분석
top_products_by_channel = df.groupby('대분류')['구매상품명'].apply(lambda x: x.value_counts().index[0]).reset_index()
top_products_by_channel.columns = ['대분류', '가장 많이 구매된 상품']
top_products_by_channel

In [None]:
# 주차별 구매 패턴 분석
weekly_sales_pattern = df.groupby('구매주차')['구매금액'].sum().reset_index()
weekly_sales_pattern

In [None]:
age_sales = df.groupby('구매자연령')['구매금액'].sum().sort_values(ascending=False)
age_sales

In [None]:
df['구매일'] = pd.to_datetime(df['구매주차일자'].str.split('~').str[0].str.strip())
daily_sales = df.groupby('구매일')['구매금액'].sum().sort_index()
daily_sales

In [None]:
(df["구매일"].max() - df['구매일']).dt.days

## RFM 분석

RFM 분석을 통해 고객을 최근성(Recency), 빈도(Frequency), 금액(Monetary) 기준으로 세분화합니다. RFM 분석은 고객의 가치를 평가하고 마케팅 전략을 수립하는 데 유용한 도구입니다.


* RFM 분석을 위해서는 고객ID 가 있어야 하지만, 여기에서는 고객 ID를 알 수 없습니다.
* 고객 식별이 어려운 경우, 고객 집단이나 상품을 중심으로 분석하여 세그먼트를 정의합니다.
* 분석 결과를 활용해 그룹별로 프로모션 전략, 채널 운영, 상품 추천 등을 개선할 수 있습니다.

In [None]:
# 최근성(Recency): 가장 최근 구매일
df['구매일'] = pd.to_datetime(df['구매주차일자'].str.split('~').str[0].str.strip())
recency = df.groupby('구매자연령')['구매일'].max()

# 빈도(Frequency): 구매 빈도
frequency = df.groupby('구매자연령')['테이블순번'].count()

# 금액(Monetary): 총 구매 금액
monetary = df.groupby('구매자연령')['구매금액'].sum()

rfm = pd.concat([recency, frequency, monetary], axis=1)
rfm.columns = ['Recency', 'Frequency', 'Monetary']
rfm

In [None]:

recency = df.groupby('중분류')['구매일'].max()

# 빈도(Frequency): 구매 빈도
frequency = df.groupby('중분류')['테이블순번'].count()

# 금액(Monetary): 총 구매 금액
monetary = df.groupby('중분류')['구매금액'].sum()

rfm = pd.concat([recency, frequency, monetary], axis=1)
rfm.columns = ['Recency', 'Frequency', 'Monetary']
rfm

## 시각화 


시각화는 복잡한 데이터 패턴을 직관적으로 이해하는 데 도움을 줍니다. 예를 들어, Treemap과 Sunburst Chart를 통해 제품 카테고리 간의 상대적 중요도를 쉽게 파악할 수 있으며, 시계열 차트를 통해 매출의 계절성이나 트렌드를 식별할 수 있습니다.

### plotly
* 선 그래프: 주차별 매출 추이를 시각적으로 표현하여 매출 변동을 파악합니다.
* 파이 차트: 제품 카테고리별 매출 비중을 파이 차트로 표현하여 전체적인 매출 구조를 파악합니다.
* Treemap, Sunburst Chart: 제품 카테고리별 매출 비중을 시각적으로 표현하여 전체적인 매출 구조를 파악합니다.
* 히스토그램: 연령대별, 제품 카테고리별, 구매 주차별 구매 금액 및 수량 분포를 확인하여 데이터의 분포를 시각적으로 파악합니다.

In [None]:
# 주차별 매출 추이
weekly_sales_pattern = df.groupby('구매주차')['구매금액'].sum().reset_index()
px.line(
    weekly_sales_pattern,
    x='구매주차',
    y='구매금액',
    title='주차별 합계 매출 추이'
)

In [None]:
# 주차별 매출 추이
weekly_sales_pattern = df.groupby('구매주차')['구매금액'].mean().reset_index()
px.line(
    weekly_sales_pattern,
    x='구매주차',
    y='구매금액',
    title='주차별 평균 매출 추이'
)

In [None]:
# 제품 카테고리별 판매 성과
px.pie(
    df,
    names='대분류',
    values='구매금액',
    width=400, height=400,
    title='제품 카테고리별 판매 성과'
)

In [None]:
# Treemap Chart 시각화
px.treemap(
    df,
    path=['대분류', '중분류', '소분류'],  # 계층 구조를 나타내는 열
    values='구매금액',  # 크기를 나타내는 열
    width=900, height=600,
    title='제품 카테고리별 구매 금액 Treemap Chart'
)

In [None]:
# Sunburst Chart 시각화
px.sunburst(
    df,
    path=['대분류', '중분류', '소분류'],  # 계층 구조를 나타내는 열
    values='구매금액',  # 크기를 나타내는 열
    width=900, height=900,
    title='제품 카테고리별 구매 금액 Sunburst Chart'
)

In [None]:
df.groupby('구매자연령')['구매금액'].describe().style.background_gradient().format('{:,.0f}')

In [None]:
# 연령대별 구매 금액 히스토그램
px.histogram(df, x='구매금액', color='구매자연령', nbins=100, marginal="violin",
             title='연령대별 구매 금액 분포')

In [None]:
df.groupby('대분류')['구매금액'].describe().style.background_gradient().format('{:,.0f}')

In [None]:
# 대분류별 구매 금액 히스토그램
px.histogram(df, x='구매금액', color='대분류', nbins=100, marginal="violin",
             title='제품 대분류별 구매 금액 분포')

In [None]:
# 구매 주차별 구매 수량 히스토그램
px.histogram(df, x='구매주차', y='구매수량', color='구매주차', title='구매 주차별 구매 수량', histfunc='sum')

In [None]:
df.groupby('구매자연령')['구매금액'].describe().style.background_gradient().format('{:,.0f}')

## 군집화

In [None]:
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.cluster import KMeans

# 데이터 전처리
# 필요한 컬럼만 선택
columns_to_use = ['구매주차', '구매자연령', '대분류', '중분류', '구매수량', '구매금액']
df_selected = df[columns_to_use].copy()

# 범주형 데이터를 Label Encoding
label_encoders = {}
for col in ['구매주차', '구매자연령', '대분류', '중분류']:
    le = LabelEncoder()
    df_selected[col] = le.fit_transform(df_selected[col])
    label_encoders[col] = le

# 데이터 스케일링
scaler = StandardScaler()
df_scaled = scaler.fit_transform(df_selected)

# 최적의 클러스터 수 결정 (Elbow Method)
inertia = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(df_scaled)
    inertia.append(kmeans.inertia_)

# Elbow Method 시각화
plt.figure(figsize=(8, 5))
plt.plot(range(1, 11), inertia, marker='o')
plt.xlabel('Number of Clusters')
plt.ylabel('Inertia')
plt.title('Elbow Method')
plt.show()

In [None]:
# K-Means Clustering
optimal_clusters = 3  # Elbow Method로 최적 클러스터 수를 선택
kmeans = KMeans(n_clusters=optimal_clusters, random_state=42)
df_selected['Cluster'] = kmeans.fit_predict(df_scaled)

# 결과 확인
print(df_selected.head())

# 클러스터별 데이터 분석
cluster_summary = df_selected.groupby('Cluster').mean()
print(cluster_summary)

In [None]:
df['cluster'] = kmeans.fit_predict(df_scaled)
df

In [None]:
# 군집별 수량 확인
cluster_counts = df['cluster'].value_counts().reset_index()
cluster_counts.columns = ['Cluster', 'Count']
print("Cluster Counts:")
print(cluster_counts)

In [None]:
pd.crosstab(df['대분류'], df['cluster'])

In [None]:
# 군집별 주요 통계 분석
# 구매금액, 구매수량, 구매자연령 등 주요 변수에 대해 평균/최대값 계산
cluster_summary = df.groupby('cluster').agg({
    '구매수량': ['mean', 'sum'],
    '구매금액': ['mean', 'sum', 'max'],
    '구매자연령': lambda x: x.mode()[0],  # 최빈값
    '대분류': lambda x: x.mode()[0],     # 최빈값
    '중분류': lambda x: x.mode()[0]      # 최빈값
}).reset_index()

# 컬럼 이름 정리
cluster_summary.columns = ['Cluster', 
                           'Avg Quantity', 'Total Quantity', 
                           'Avg Amount', 'Total Amount', 'Max Amount', 
                           'Most Common Age', 'Most Common Category', 'Most Common Subcategory']
print("\nCluster Summary:")
cluster_summary