[실 구매 영수증 기반 온라인 쇼핑몰 연령별 매출 데이터 - KADX 농식품 빅데이터 거래소](https://kadx.co.kr/opmk/frn/pmumkproductDetail/PMU_9334c816-5826-4d0e-a8f4-0b9eb47f6f4d/5#!)

In [None]:
# !pip install -Uq koreanize-matplotlib

In [None]:
import pandas as pd
import numpy as np
import koreanize_matplotlib
import matplotlib.pyplot as plt
import plotly.express as px

In [None]:
df = pd.read_excel("data/실 구매 영수증 기반 온라인 쇼핑몰 연령별 매출 데이터.xlsx")
df.shape

In [None]:
df.head()

In [None]:
df.info()

In [None]:
# 중복데이터 확인
df[df.duplicated()]

In [None]:
# 결측치 확인
df.isnull().sum()

In [None]:
# 수치형 변수의 기술 통계 확인
df.describe()

In [None]:
# 범주형 변수의 기술 통계 확인
df.describe(include="object")

In [None]:
# 전체 변수의 고유값(유일값)
df.nunique()

In [None]:
# 구매 대분류별 판매 성과 분석
channel_sales_summary = df.groupby('대분류')[['구매수량', '구매금액']].agg(['sum', 'mean', 'count']).reset_index()
channel_sales_summary

In [None]:
# 대분류별 매출 비율
total_sales = df['구매금액'].sum()
channel_sales_summary[('매출 비율', 'percent')] = (channel_sales_summary[('구매금액', 'sum')] / total_sales) * 100
channel_sales_summary

In [None]:
# 대분류별 주요 구매 상품 분석
top_products_by_channel = df.groupby('대분류')['구매상품명'].apply(lambda x: x.value_counts().index[0]).reset_index()
top_products_by_channel.columns = ['대분류', '가장 많이 구매된 상품']
top_products_by_channel

In [None]:
# 주차별 구매 패턴 분석
weekly_sales_pattern = df.groupby('구매주차')['구매금액'].sum().reset_index()
weekly_sales_pattern

In [None]:
age_sales = df.groupby('구매자연령')['구매금액'].sum().sort_values(ascending=False)
age_sales

In [None]:
df['구매일'] = pd.to_datetime(df['구매주차일자'].str.split('~').str[0].str.strip())
daily_sales = df.groupby('구매일')['구매금액'].sum().sort_index()
daily_sales

In [None]:
(df["구매일"].max() - df['구매일']).dt.days

In [None]:
def rfm_analysis(df):
    # 최근성(Recency): 가장 최근 구매일
    df['구매일'] = pd.to_datetime(df['구매주차일자'].str.split('~').str[0].str.strip())
    recency = df.groupby('구매자연령')['구매일'].max()
    
    # 빈도(Frequency): 구매 빈도
    frequency = df.groupby('구매자연령')['테이블순번'].count()
    
    # 금액(Monetary): 총 구매 금액
    monetary = df.groupby('구매자연령')['구매금액'].sum()
    
    rfm = pd.concat([recency, frequency, monetary], axis=1)
    rfm.columns = ['Recency', 'Frequency', 'Monetary']
    return rfm

rfm = rfm_analysis(df)
rfm

In [None]:
# Treemap Chart 시각화
px.treemap(
    df,
    path=['대분류', '중분류', '소분류'],  # 계층 구조를 나타내는 열
    values='구매금액',  # 크기를 나타내는 열
    width=900, height=600,
    title='제품 카테고리별 구매 금액 Treemap Chart'
)

In [None]:
# Sunburst Chart 시각화
px.sunburst(
    df,
    path=['대분류', '중분류', '소분류'],  # 계층 구조를 나타내는 열
    values='구매금액',  # 크기를 나타내는 열
    width=900, height=900,
    title='제품 카테고리별 구매 금액 Sunburst Chart'
)

In [None]:
# 연령대별 구매 금액 히스토그램
px.histogram(df, x='구매금액', color='구매자연령', nbins=20, title='연령대별 구매 금액 분포')

In [None]:
# 대분류별 구매 금액 히스토그램
px.histogram(df, x='구매금액', color='대분류', nbins=20, title='제품 대분류별 구매 금액 분포')

In [None]:
# 구매 주차별 구매 수량 히스토그램
px.histogram(df, x='구매주차', y='구매수량', color='구매주차', title='구매 주차별 구매 수량', histfunc='sum')

In [None]:
# 연령대별 구매 금액 및 수량
px.scatter( df, x='구매자연령', y='구매금액', size='구매수량', color='구매자연령', title='연령대별 구매 금액 및 수량')

In [None]:
# 제품 카테고리별 판매 성과
px.pie(
    df,
    names='대분류',
    values='구매금액',
    title='제품 카테고리별 판매 성과'
)

In [None]:
# 주차별 매출 추이
weekly_sales_pattern = df.groupby('구매주차')['구매금액'].sum().reset_index()
px.line(
    weekly_sales_pattern,
    x='구매주차',
    y='구매금액',
    title='주차별 매출 추이'
)