## Python Pandas 통계분석 실습 🐍


* **클래스 목표 및 2일 로드맵 소개**

  * **2일간의 학습 여정:** 기초 통계부터 A/B 테스트 실전까지 체계적으로 학습합니다.
  * **학습 목표:**
      * 핵심 통계 개념의 명확한 이해.
      * Python 코드를 활용한 통계 분석 기법 적용 능력 함양.
      * 확률분포, 통계적 추정, 가설검정, 회귀분석 등 통계적 기법 이해 및 활용.
      * A/B 테스트의 설계, 실행, 분석 및 결과 해석 능력 배양.
      * 데이터 기반의 합리적인 의사결정 능력 향상.
  * **학습 방법:**
      * 주요 이론 및 핵심 개념 강의.
      * 강의 내용을 바로 적용해보는 집중적인 실습 세션.
      * 실제와 유사한 데이터셋을 사용한 문제 해결.
---

## ☀️ DAY 1: Python을 활용한 핵심 통계 개념
---

### 기술 통계 Review 📊

🎯 **학습 목표:**

* 데이터의 중심 경향을 나타내는 주요 측정값(평균, 중앙값, 최빈값)을 이해하고 계산할 수 있습니다.
* 데이터의 흩어진 정도를 나타내는 산포도 측정값(분산, 표준편차, 범위, 사분위수 범위)을 이해하고 계산할 수 있습니다.
* 데이터 분포의 모양을 설명하는 왜도와 첨도의 개념을 이해하고 해석할 수 있습니다.
* Python의 주요 라이브러리(Pandas, Scipy)를 활용하여 기술 통계량을 효율적으로 분석하고 시각화할 수 있습니다.

#### 💡 개념 (Concept)

기술 통계(Descriptive Statistics)는 수집된 데이터를 요약하고 설명하여 데이터의 주요 특징을 파악하는 데 도움을 줍니다.
"
**1. 중심 경향치 (Central Tendency):** 데이터의 중심을 나타내는 값들입니다.

* **평균 (Mean):** 모든 데이터 값을 더한 후 데이터의 총개수로 나눈 값입니다. 이상치(outlier)에 민감하게 반응합니다.
    $\mu = \frac{\sum_{i=1}^{N} x_i}{N}$
    또는 표본 평균:
    $\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}$
* **중앙값 (Median):** 데이터를 크기 순으로 정렬했을 때 정확히 가운데에 위치하는 값입니다. 데이터의 개수가 짝수일 경우, 가운데 두 값의 평균을 사용합니다. 이상치에 덜 민감합니다(robust).
* **최빈값 (Mode):** 데이터에서 가장 빈번하게 나타나는 값입니다. 범주형 데이터나 이산형 데이터에 주로 사용되며, 여러 개 존재할 수도 있고 존재하지 않을 수도 있습니다.

**2. 산포도 (Dispersion/Variability):** 데이터가 얼마나 흩어져 있는지를 나타내는 값들입니다.

* **분산 (Variance):** 각 데이터 값이 평균으로부터 얼마나 떨어져 있는지를 제곱하여 평균 낸 값입니다. 데이터의 흩어진 정도를 나타내지만, 단위가 원래 데이터의 단위의 제곱이 됩니다.
    모분산: $\sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}$
    표본분산: $s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$ (n-1로 나누는 것은 불편추정량을 얻기 위함)
* **표준편차 (Standard Deviation):** 분산의 제곱근으로, 데이터의 변동성을 원래 데이터와 같은 단위로 직관적으로 보여줍니다.
    모표준편차: $\sigma = \sqrt{\sigma^2}$
    표본표준편차: $s = \sqrt{s^2}$
* **범위 (Range):** 데이터의 최댓값과 최솟값의 차이입니다. 계산이 간단하지만, 데이터 양 끝의 이상치에 크게 영향을 받습니다.
    $\text{Range} = \text{Max}(x) - \text{Min}(x)$
* **사분위수 범위 (Interquartile Range, IQR):** 데이터를 크기 순으로 정렬했을 때, 제3사분위수(Q3, 상위 25%)와 제1사분위수(Q1, 하위 25%)의 차이입니다. 데이터의 중간 50%가 포함되는 범위로, 이상치에 덜 민감합니다.
    $\text{IQR} = Q3 - Q1$

**3. 분포의 형태 (Shape of Distribution):**

* **왜도 (Skewness):** 데이터 분포의 비대칭성을 나타내는 지표입니다.
    * **정규분포의 왜도 = 0:** 좌우 대칭입니다.
    * **양의 왜도 (Positive Skew, 오른쪽 꼬리 분포):** 분포의 오른쪽 꼬리가 왼쪽보다 깁니다. 평균 > 중앙값 > 최빈값 순서일 가능성이 높습니다.
    * **음의 왜도 (Negative Skew, 왼쪽 꼬리 분포):** 분포의 왼쪽 꼬리가 오른쪽보다 깁니다. 최빈값 > 중앙값 > 평균 순서일 가능성이 높습니다.
* **첨도 (Kurtosis):** 데이터 분포의 뾰족한 정도와 꼬리의 두께를 나타내는 지표입니다.
    * **정규분포의 첨도 = 3 (또는 초과 첨도(Excess Kurtosis) = 0):** 표준적인 뾰족함을 가집니다. `scipy.stats.kurtosis()`는 초과 첨도를 기준으로 계산하며, 정규분포일 경우 0이 나옵니다.
    * **고첨도 (Leptokurtic, 초과 첨도 > 0):** 분포의 중심이 더 뾰족하고 꼬리가 두껍습니다 (이상치가 많을 수 있음).
    * **저첨도 (Platykurtic, 초과 첨도 < 0):** 분포의 중심이 더 평평하고 꼬리가 얇습니다.

**4. 데이터 시그니처 해석:**

기술 통계량과 시각화 도구(히스토그램, 박스플롯 등)를 함께 사용하여 데이터에 숨겨진 패턴, 경향성, 이상치 등을 종합적으로 파악합니다. 예를 들어, 평균과 중앙값이 크게 차이 나면 데이터가 한쪽으로 치우쳐 있을 가능성을 시사합니다.

#### 💻 예시 코드 (Example Code)

가상의 데이터셋 `단다컴퍼니_매출.csv` (날짜, 상품ID, 카테고리, 매출액, 판매량 컬럼 포함 가정)를 사용합니다.

In [9]:
import os
os.sys.path.append(os.path.dirname(os.path.abspath(os.getcwd())))
from lib.slide import show_html_slides

In [51]:
slides_data = [
    {
        'title': '1. 중심 경향치 (Central Tendency)',
        'items': [
            '평균 (Mean): 모든 데이터 값을 더한 후 데이터의 총개수로 나눈 값<br><span style="color:#555;">이상치(outlier)에 민감하게 반응</span><br><span style="font-size:0.95em;">$\\mu = \\dfrac{\\sum_{i=1}^{N} x_i}{N}$<br>$\\bar{x} = \\dfrac{\\sum_{i=1}^{n} x_i}{n}$ (표본 평균)</span>',
            '중앙값 (Median): 데이터를 크기 순으로 정렬했을 때 가운데에 위치하는 값<br><span style="color:#555;">짝수개면 가운데 두 값의 평균, 이상치에 덜 민감(robust)</span>',
            '최빈값 (Mode): 데이터에서 가장 빈번하게 나타나는 값<br><span style="color:#555;">범주형/이산형 데이터에 주로 사용, 여러 개 또는 없을 수도 있음</span>'
        ]
    },
    {
        'title': '2. 산포도 (Dispersion/Variability)',
        'items': [
            '분산 (Variance): 각 데이터가 평균에서 얼마나 떨어져 있는지의 제곱 평균<br><span style="font-size:0.95em;">모분산: $\\sigma^2 = \\dfrac{\\sum_{i=1}^{N} (x_i - \\mu)^2}{N}$<br>표본분산: $s^2 = \\dfrac{\\sum_{i=1}^{n} (x_i - \\bar{x})^2}{n-1}$</span>',
            '표준편차 (Standard Deviation): 분산의 제곱근, 원래 단위와 동일<br><span style="font-size:0.95em;">$\\sigma = \\sqrt{\\sigma^2}$, $s = \\sqrt{s^2}$</span>',
            '범위 (Range): 최댓값 - 최솟값<br><span style="font-size:0.95em;">$\\text{Range} = \\text{Max}(x) - \\text{Min}(x)$</span>',
            '사분위수 범위 (IQR): Q3(상위25%) - Q1(하위25%)<br><span style="font-size:0.95em;">$\\text{IQR} = Q3 - Q1$</span>'
        ]
    },
    {
        'title': '3. 분포의 형태 (Shape of Distribution)',
        'items': [
            '왜도 (Skewness): 분포의 비대칭성<ul><li>정규분포: 왜도=0 (좌우 대칭)</li><li>양의 왜도: 오른쪽 꼬리, 평균 &gt; 중앙값 &gt; 최빈값</li><li>음의 왜도: 왼쪽 꼬리, 최빈값 &gt; 중앙값 &gt; 평균</li></ul>',
            '첨도 (Kurtosis): 분포의 뾰족함과 꼬리 두께<ul><li>정규분포 첨도=3 (초과첨도=0)</li><li>고첨도(Leptokurtic): 중심 뾰족, 꼬리 두꺼움 (이상치 많음)</li><li>저첨도(Platykurtic): 중심 평평, 꼬리 얇음</li></ul>'
        ]
    },
    {
        'title': '4. 데이터 시그니처 해석',
        'items': [
            '기술 통계량과 <b>시각화 도구(히스토그램, 박스플롯 등)</b>를 함께 사용',
            '데이터의 패턴, 경향성, 이상치 등을 종합적으로 파악',
            '예시: 평균과 중앙값이 크게 차이 나면 데이터가 한쪽으로 치우쳐 있을 가능성',
        ]
    }
]

show_html_slides(slides_data)

라이브러리 로드

In [62]:
import pandas as pd
import numpy as np
from scipy import stats
import plotly.express as px
import plotly.graph_objects as go
import plotly.io as pio
from plotly.subplots import make_subplots
from ipywidgets import widgets
from IPython.display import display

In [63]:
# 가상 데이터 생성 (실제로는 pd.read_csv() 사용)
data = {
    'date': pd.to_datetime(['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02', '2023-01-03', '2023-01-03', '2023-01-04', '2023-01-04', '2023-01-05', '2023-01-05'] * 10),
    'product_id': [f'P{100+i}' for i in range(10)] * 10,
    'category': ['Electronics', 'Books', 'Clothing', 'Electronics', 'Books', 'Clothing', 'Home Goods', 'Beauty', 'Sports', 'Electronics'] * 10,
    'revenue': np.random.lognormal(mean=np.log(100), sigma=0.8, size=100).round(2) + np.random.randint(10, 500, size=100), # 매출액 (양의 왜도를 가지도록)
    'quantity': np.random.randint(1, 15, size=100)
}
df = pd.DataFrame(data)


데이터 확인

In [64]:
# 데이터 불러오기 (실제 경우)
# df = pd.read_csv('단다컴퍼니_매출.csv')
# 기본 정보 확인
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   date        100 non-null    datetime64[ns]
 1   product_id  100 non-null    object        
 2   category    100 non-null    object        
 3   revenue     100 non-null    float64       
 4   quantity    100 non-null    int64         
dtypes: datetime64[ns](1), float64(1), int64(1), object(2)
memory usage: 4.0+ KB


In [65]:
df.head()

Unnamed: 0,date,product_id,category,revenue,quantity
0,2023-01-01,P100,Electronics,476.36,4
1,2023-01-01,P101,Books,593.18,1
2,2023-01-02,P102,Clothing,242.57,4
3,2023-01-02,P103,Electronics,740.19,4
4,2023-01-03,P104,Books,486.3,14


In [66]:
# 데이터 형태 확인
df.shape

(100, 5)

주요 기술 통계량 계산

In [67]:
# 매출액(revenue) 기술 통계량 (Pandas)
df['revenue'].describe()

count     100.000000
mean      376.095400
std       198.721902
min        32.730000
25%       235.355000
50%       361.630000
75%       492.790000
max      1076.550000
Name: revenue, dtype: float64

In [None]:
# 판매량(quantity) 기술 통계량 (Pandas)
df['quantity'].describe()

count    100.000000
mean       7.520000
std        3.970803
min        1.000000
25%        4.000000
50%        7.500000
75%       11.000000
max       14.000000
Name: quantity, dtype: float64

In [24]:
# 매출액(revenue)와 판매량(quantity) 분포 시각화 (바이올린 플롯, 1x2 서브플롯)
from plotly.subplots import make_subplots
import plotly.graph_objects as go

fig = make_subplots(
    rows=1, cols=2,
    subplot_titles=("매출액 분포", "판매량 분포"),
    horizontal_spacing=0.15
)

# 매출액 바이올린 플롯
fig.add_trace(
    go.Violin(
        y=df['revenue'],
        name='매출액',
        box_visible=True,
        meanline_visible=True,
        line_color='rgba(0,123,255,1)',
        fillcolor='rgba(0,123,255,0.4)',
        marker=dict(color='rgba(0,123,255,0.7)'),
        points='outliers',
        showlegend=False
    ),
    row=1, col=1
)

# 판매량 바이올린 플롯
fig.add_trace(
    go.Violin(
        y=df['quantity'],
        name='판매량',
        box_visible=True,
        meanline_visible=True,
        line_color='rgba(40,167,69,1)',
        fillcolor='rgba(40,167,69,0.4)',
        marker=dict(color='rgba(40,167,69,0.7)'),
        points='outliers',
        showlegend=False
    ),
    row=1, col=2
)

fig.update_layout(
    title_text="매출액, 판매량 분포 시각화",
    height=500,
    width=900
)

fig.update_yaxes(title_text="매출액", row=1, col=1)
fig.update_yaxes(title_text="판매량", row=1, col=2)
fig.update_xaxes(showticklabels=False, row=1, col=1)
fig.update_xaxes(showticklabels=False, row=1, col=2)


fig.show()


개별 통계량 계산


| 통계량         | 메서드                                              |
|:--------------|:---------------------------------------------------|
| 평균          | df['revenue'].mean()                               |
| 중앙값        | df['revenue'].median()                             |
| 최빈값        | df['revenue'].mode().iloc[0]                       |
| 분산          | df['revenue'].var()                                |
| 표준편차      | df['revenue'].std()                                |
| 최솟값        | df['revenue'].min()                                |
| 최댓값        | df['revenue'].max()                                |
| 범위          | df['revenue'].max() - df['revenue'].min()          |
| IQR(사분위범위)| df['revenue'].quantile(0.75) - df['revenue'].quantile(0.25) |
| 왜도          | stats.skew(df['revenue'])                          |
| 첨도          | stats.kurtosis(df['revenue'])                      |



In [41]:
# 매출액 평균: {df['revenue'].mean():.2f}
float(df['revenue'].mean())

417.0987

In [42]:
# 매출액 중앙값: {df['revenue'].median():.2f}
float(df['revenue'].median())

415.58500000000004

In [44]:
# 매출액 최빈값: {df['revenue'].mode().iloc[0] if not df['revenue'].mode().empty else 'N/A'} # 최빈값이 여러 개일 수 있음
float(df['revenue'].mode().iloc[0]) if not df['revenue'].mode().empty else 'N/A'

90.22

#### 분산 개념
> 분산(Variance)은 데이터가 평균으로부터 얼마나 퍼져있는지를 나타내는 지표입니다.
> 
> 각 데이터 포인트와 평균의 차이를 제곱한 값의 평균으로 계산됩니다.
> 
> 공식: σ² = Σ(xᵢ - μ)² / N
>   - σ²: 분산
>   - xᵢ: 개별 데이터 포인트
>   - μ: 평균
>   - N: 데이터 포인트 수
> 
> 값이 클수록 데이터가 평균에서 멀리 퍼져있음을 의미합니다.
> 
> 제곱 단위이므로 해석이 어려울 수 있습니다.

In [None]:
# 매출액 분산: {df['revenue'].var():.2f}
float(df['revenue'].var())

31434.450340717165

#### 표준편차 개념
> 표준편차(Standard Deviation)는 분산의 제곱근으로, 데이터의 분산 정도를 원래 단위로 표현한 것입니다.
> 
> 공식: σ = √(Σ(xᵢ - μ)² / N)
>   - σ: 표준편차
>   - xᵢ: 개별 데이터 포인트
>   - μ: 평균
>   - N: 데이터 포인트 수
> 
> 분산보다 직관적으로 해석하기 쉬우며, 같은 단위를 사용합니다.
> 
> 작을수록 데이터가 평균에 모여있고, 클수록 퍼져있음을 의미합니다.

In [47]:
# 매출액 표준편차: {df['revenue'].std():.2f}
float(df['revenue'].std())

177.29763207870872

In [51]:
# 매출액 범위: {df['revenue'].max() - df['revenue'].min():.2f}
float(df['revenue'].max() - df['revenue'].min())

900.81

#### 왜도(Skewness) 개념
> 왜도는 데이터 분포의 비대칭 정도를 나타내는 통계량입니다.
> 
> 양의 왜도: 오른쪽 꼬리가 길어지고 평균 > 중앙값 (오른쪽으로 치우침)
> 음의 왜도: 왼쪽 꼬리가 길어지고 평균 < 중앙값 (왼쪽으로 치우침)
> 0에 가까울수록 대칭에 가까운 분포
> 
> 일반적으로 절대값이 1보다 크면 심한 비대칭으로 간주합니다.
> 
> 수식: γ₁ = [Σ(xᵢ - μ)³/N] / σ³
>   - γ₁: 왜도
>   - xᵢ: 개별 데이터 포인트
>   - μ: 평균
>   - σ: 표준편차
>   - N: 데이터 포인트 수


#### 첨도(Kurtosis) 개념
> 첨도는 분포의 꼬리 두께와 뾰족함을 나타내는 통계량입니다.
> 
> 양의 첨도: 정규분포보다 뾰족하고 꼬리가 두꺼움 (극단값 가능성 높음)
> 음의 첨도: 정규분포보다 평평하고 꼬리가 얇음
> 정규분포 첨도: 0 (Fisher 정의 기준)
> 
> 수식: γ₂ = [Σ(xᵢ - μ)⁴/N] / σ⁴ - 3
>   - γ₂: 첨도
>   - xᵢ: 개별 데이터 포인트
>   - μ: 평균
>   - σ: 표준편차
>   - N: 데이터 포인트 수
> 
> 리스크 분석에서 유용하게 사용되며, 극단값 가능성을 평가하는 지표입니다.


In [None]:
from scipy import stats
skewness = stats.skew(df['revenue'])
kurtosis = stats.kurtosis(df['revenue']) # Fisher's definition (정규분포 = 0)

print(f"왜도(Skewness): {skewness:.2f}")
print(f"첨도(Kurtosis): {kurtosis:.2f}")

왜도(Skewness): 0.24
첨도(Kurtosis): -0.62


#### IQR(사분위 범위) 개념
> IQR(Interquartile Range)은 데이터의 중간 50%가 분포하는 범위를 나타냅니다.
> 
> 제1사분위수(Q₁, 25% 위치)와 제3사분위수(Q₃, 75% 위치)의 차이로 계산됩니다.
> 
> IQR = Q₃ - Q₁
> 
> 이상치 탐지에 유용하게 사용되며, 일반적으로 `Q₁ - 1.5 × IQR` 미만 또는 `Q₃ + 1.5 × IQR` 초과인 값을 이상치로 판단합니다.
> 
> 데이터의 분포가 치우쳐져 있을 때 유용한 통계량입니다.


In [63]:
# 샘플 데이터 로드 : 미국 주택 가격 데이터
from sklearn.datasets import fetch_openml
housing = fetch_openml(name="house_prices", as_frame=True)
df = housing.frame
df.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


In [65]:
# 주택가격 데이터의 이상치 간략 확인 (IQR rule)
Q1 = df['SalePrice'].quantile(0.25)
Q3 = df['SalePrice'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = df[(df['SalePrice'] < lower_bound) | (df['SalePrice'] > upper_bound)]
print(f"주택가격(SalePrice) 이상치 (IQR rule) 개수: {len(outliers)}")

주택가격(SalePrice) 이상치 (IQR rule) 개수: 61


In [67]:
# plotly.express를 사용하여 주택 가격(SalePrice)의 가로 박스플롯 생성
fig = px.box(
    df,
    x='SalePrice',  # y 대신 x를 사용하여 가로 방향으로 변경
    title='주택 가격 분포 및 이상치 시각화',
    labels={'SalePrice': '주택 가격($)'},
    color_discrete_sequence=['royalblue']
)

# 이상치 포인트 강조 설정
fig.update_traces(
    boxpoints='outliers',  # 이상치만 표시
    marker=dict(
        size=5,
        color='red',
        opacity=0.7
    ),
    line=dict(color='darkblue')
)

fig.update_layout(
    showlegend=False,
    xaxis=dict(  # yaxis 대신 xaxis로 변경
        title='주택 가격($)',
        gridcolor='lightgray'
    ),
    plot_bgcolor='white'
)

fig.show()


### 변동계수(Coefficient of Variation) 개념
> 변동계수(CV)는 표준편차를 평균으로 나눈 값으로, 데이터의 상대적인 변동성을 측정하는 지표입니다.

> - 단위가 다른 데이터셋 간의 변동성 비교 가능  
> - 백분율로 표현되며, 값이 클수록 상대적 변동성이 큼  
> - 평균이 0인 경우 정의되지 않음  

> 수식: CV = (σ / μ) × 100%  
>   - σ: 표준편차  
>   - μ: 평균  

> 활용 예시:  
> - 주식 수익률의 변동성 측정  
> - 제조 공정의 품질 변동성 비교  
> - 서로 다른 단위를 가진 데이터셋의 변동성 비교  

In [None]:
# 맞춤 지표 함수 작성 예시
def coefficient_of_variation(data_series):
    """변동 계수 (CV)를 계산합니다."""
    mean_val = data_series.mean()
    std_val = data_series.std()
    if mean_val == 0:
        return np.nan # 평균이 0이면 정의되지 않음
    return (std_val / mean_val) * 100 # 백분율로 표시

print(f"\n주택가격(SalePrice) 변동 계수 (CV): {coefficient_of_variation(df['SalePrice']):.2f}%")

In [None]:
# 히스토그램과 박스플롯을 한 화면에 표시
fig = make_subplots(rows=1, cols=2, subplot_titles=('매출액 분포 (Histogram)', '매출액 분포 (Boxplot)'))

# 히스토그램 추가
fig.add_trace(
    go.Histogram(x=df['revenue'], nbinsx=30, name='매출액'),
    row=1, col=1
)
fig.update_xaxes(title_text="매출액", row=1, col=1)
fig.update_yaxes(title_text="빈도", row=1, col=1)

# 박스플롯 추가
fig.add_trace(
    go.Box(y=df['revenue'], name='매출액'),
    row=1, col=2
)
fig.update_yaxes(title_text="매출액", row=1, col=2)

fig.update_layout(height=500, width=1000, showlegend=False)
fig.show()

In [None]:
df = pd.read_csv('../datasets/sample_superstore.csv') # 분석 환경(Docker, Local) 에 따라 경로 설정을 변경하세요.
df.head()

Unnamed: 0,Ship Mode,Segment,Country,City,State,Postal Code,Region,Category,Sub-Category,Sales,Quantity,Discount,Profit
0,Second Class,Consumer,United States,Henderson,Kentucky,42420,South,Furniture,Bookcases,261.96,2,0.0,41.9136
1,Second Class,Consumer,United States,Henderson,Kentucky,42420,South,Furniture,Chairs,731.94,3,0.0,219.582
2,Second Class,Corporate,United States,Los Angeles,California,90036,West,Office Supplies,Labels,14.62,2,0.0,6.8714
3,Standard Class,Consumer,United States,Fort Lauderdale,Florida,33311,South,Furniture,Tables,957.5775,5,0.45,-383.031
4,Standard Class,Consumer,United States,Fort Lauderdale,Florida,33311,South,Office Supplies,Storage,22.368,2,0.2,2.5164


#### ✏️ 연습 문제 - sample_superstore
* 데이터 설명 : 기업이 손실을 최소화하면서 이익을 증가시킬 수 있는 방법에 대한 통찰력을 제공하기 위해 광범위한 데이터 분석을 수행하는 시뮬레이션입니다.

Q1. sample_superstore 데이터에서 매출액와 이익 컬럼의 평균, 중앙값, 표준편차, 왜도, 첨도를 각각 구하고, 각 통계량이 의미하는 바를 간단히 설명하세요.

In [13]:
# 매출액(revenue) 기술 통계량 계산
revenue_stats = {
    '평균': df['Sales'].mean(),
    '중앙값': df['Sales'].median(),
    '표준편차': df['Sales'].std(),
    '왜도': df['Sales'].skew(),
    '첨도': df['Sales'].kurtosis()
}

# 이익(profit) 기술 통계량 계산 
profit_stats = {
    '평균': df['Profit'].mean(),
    '중앙값': df['Profit'].median(),
    '표준편차': df['Profit'].std(),
    '왜도': df['Profit'].skew(),
    '첨도': df['Profit'].kurtosis()
}

# 결과 출력
print("매출액(Sales) 통계량:")
for stat, value in revenue_stats.items():
    print(f"{stat}: {value:.2f}")

print("\n이익(Profit) 통계량:")
for stat, value in profit_stats.items():
    print(f"{stat}: {value:.2f}")


매출액(Sales) 통계량:
평균: 229.86
중앙값: 54.49
표준편차: 623.25
왜도: 12.97
첨도: 305.31

이익(Profit) 통계량:
평균: 28.66
중앙값: 8.67
표준편차: 234.26
왜도: 7.56
첨도: 397.19


Q2. 카테고리별로 평균 매출액과 평균 이익을 구하고, 가장 높은 값을 기록한 카테고리를 각각 찾으세요.

In [16]:
# 카테고리별 평균 매출액과 평균 이익 계산
category_stats = df.groupby('Category').agg({
    'Sales': 'mean',
    'Profit': 'mean'
}).reset_index()

# 가장 높은 평균 매출액을 기록한 카테고리
max_sales_category = category_stats.loc[category_stats['Sales'].idxmax(), 'Category']
max_sales_value = category_stats['Sales'].max()

# 가장 높은 평균 이익을 기록한 카테고리 
max_profit_category = category_stats.loc[category_stats['Profit'].idxmax(), 'Category']
max_profit_value = category_stats['Profit'].max()

# 결과 출력
print("카테고리별 평균 매출액과 이익:")
category_stats


카테고리별 평균 매출액과 이익:


Unnamed: 0,Category,Sales,Profit
0,Furniture,349.834887,8.699327
1,Office Supplies,119.324101,20.32705
2,Technology,452.709276,78.752002


In [44]:
print(f"가장 높은 평균 매출액 카테고리: {max_sales_category} (${max_sales_value:.2f})")
print(f"가장 높은 평균 이익 카테고리: {max_profit_category} (${max_profit_value:.2f})")


가장 높은 평균 매출액 카테고리: Technology ($452.71)
가장 높은 평균 이익 카테고리: Technology ($78.75)


Q3. 판매량 컬럼의 분포를 plotly로 히스토그램과 박스플롯으로 시각화하고, 분포의 특징(대칭성, 이상치 등)을 해석해보세요.

In [20]:
# 판매량(quantity) 분포 시각화
import plotly.express as px

# 히스토그램 생성
fig1 = px.histogram(df, x='Quantity', 
                   title='판매량(Quantity) 분포 히스토그램',
                   labels={'Quantity': '판매량'},
                   nbins=20,
                   color_discrete_sequence=['#636EFA'])
fig1.update_layout(bargap=0.1)
fig1.show()

In [24]:
# 박스플롯 생성
fig2 = px.box(df, x='Quantity',
             title='판매량(Quantity) 박스플롯',
             labels={'Quantity': '판매량'},
             color_discrete_sequence=['#00CC96'])
fig2.show()

판매량(Quantity) 분포 특징:
1. 대칭성: 데이터가 왼쪽(작은 값)에 더 많이 몰려 있고, 오른쪽(큰 값)으로 꼬리가 긴 비대칭(오른쪽으로 긴 꼬리, 양의 왜도) 분포를 보임
2. 이상치: 박스플롯에서 9개 이상(10, 11, 12, 13, 14)의 값에서 이상치가 명확히 관찰됨
3. 범위: 대부분의 판매량은 2~7개 사이에 분포
4. 중앙값: 약 4~5개로, 평균보다 작으며, 이는 오른쪽 꼬리(큰 값)로 인해 평균이 중앙값보다 커진 결과임

Q4. State(주)별 총 매출액을 계산하고, 상위 5개 주를 시각화하세요.

In [26]:
# 주(State)별 총 매출액 계산 (데이터에 'Revenue' 컬럼이 없으므로 'Sales' 컬럼 사용)
state_revenue = df.groupby('State')['Sales'].sum().reset_index()

# 상위 5개 주 정렬
top5_states = state_revenue.sort_values('Sales', ascending=False).head(5)

# 바 차트로 시각화
fig = px.bar(top5_states, 
             x='State', 
             y='Sales',
             title='상위 5개 주(State)별 총 매출액',
             labels={'State': '주', 'Sales': '총 매출액($)'},
             color='State',
             text_auto='.2s')
fig.update_layout(showlegend=False)
fig.show()


Q5. 할인율 컬럼의 평균, 표준편차, 최소값, 최대값을 구하고, 할인율이 0이 아닌 주문의 비율을 구하세요.

In [28]:
# 할인율 통계 계산
discount_stats = df['Discount'].agg(['mean', 'std', 'min', 'max'])
discount_stats

할인율 통계:


mean    0.156203
std     0.206452
min     0.000000
max     0.800000
Name: Discount, dtype: float64

In [46]:
# 할인율이 0이 아닌 주문 비율 계산
non_zero_discount_ratio = (df['Discount'] > 0).mean() * 100
print(f"할인율이 0이 아닌 주문 비율: {non_zero_discount_ratio:.2f}%")

할인율이 0이 아닌 주문 비율: 51.99%


Q6. Segment(고객 세그먼트)별로 평균 이익을 비교하고, 어떤 세그먼트가 가장 높은 이익을 내는지 찾으세요.

In [47]:
# 고객 세그먼트별 평균 이익 계산
segment_profit = df.groupby('Segment')['Profit'].mean().reset_index()

# 평균 이익을 기준으로 내림차순 정렬
segment_profit = segment_profit.sort_values('Profit', ascending=False)
segment_profit


Unnamed: 0,Segment,Profit
2,Home Office,33.818664
1,Corporate,30.456667
0,Consumer,25.836873


In [48]:
# 가장 높은 이익을 내는 세그먼트 찾기
top_segment = segment_profit.iloc[0]
print(f"가장 높은 이익을 내는 세그먼트: {top_segment['Segment']} (평균 이익: {top_segment['Profit']:.2f})")

가장 높은 이익을 내는 세그먼트: Home Office (평균 이익: 33.82)


In [33]:
# 시각화
fig = px.bar(segment_profit,
             x='Segment',
             y='Profit',
             title='고객 세그먼트별 평균 이익',
             labels={'Segment': '고객 세그먼트', 'Profit': '평균 이익($)'},
             color='Segment',
             text_auto='.2f')
fig.update_layout(showlegend=False)
fig.show()

Q7. 매출액와 이익 간의 상관계수를 구하고, 두 변수의 관계를 해석하세요.

In [49]:
# 매출액(Sales)과 이익(Profit) 간의 상관계수 계산
correlation = df['Sales'].corr(df['Profit'])
    
# 결과 출력
print(f"매출액과 이익 간의 상관계수: {correlation:.3f}")

매출액과 이익 간의 상관계수: 0.479


In [36]:
# 상관관계 해석
if correlation > 0.7:
    print("매출액과 이익은 강한 양의 상관관계가 있습니다.")
elif correlation > 0.3:
    print("매출액과 이익은 중간 정도의 양의 상관관계가 있습니다.")
elif correlation > -0.3:
    print("매출액과 이익은 거의 상관관계가 없습니다.")
elif correlation > -0.7:
    print("매출액과 이익은 중간 정도의 음의 상관관계가 있습니다.")
else:
    print("매출액과 이익은 강한 음의 상관관계가 있습니다.")

매출액과 이익은 중간 정도의 양의 상관관계가 있습니다.


Q8. Sub-Category(소분류)별로 판매량의 평균과 표준편차를 구하고, 가장 변동성이 큰 소분류를 찾으세요.

In [38]:
# 소분류별 판매량 평균과 표준편차 계산
subcategory_stats = df.groupby('Sub-Category')['Quantity'].agg(['mean', 'std']).reset_index()
subcategory_stats = subcategory_stats.sort_values('std', ascending=False)
subcategory_stats

Unnamed: 0,Sub-Category,mean,std
16,Tables,3.890282,2.446381
8,Fasteners,4.211982,2.413551
10,Labels,3.846154,2.349248
3,Binders,3.922521,2.291913
0,Accessories,3.84,2.284698
4,Bookcases,3.807018,2.283352
5,Chairs,3.818476,2.282652
12,Paper,3.779562,2.23156
14,Storage,3.732861,2.192409
13,Phones,3.699663,2.189453


In [50]:
# 가장 변동성이 큰 소분류 찾기
most_variable = subcategory_stats.iloc[0]
print(f"가장 변동성이 큰 소분류: {most_variable['Sub-Category']} (표준편차: {most_variable['std']:.2f})")

가장 변동성이 큰 소분류: Tables (표준편차: 2.45)


In [40]:
# 시각화
fig = px.bar(subcategory_stats,
             x='Sub-Category',
             y='std',
             title='소분류별 판매량 표준편차',
             labels={'Sub-Category': '소분류', 'std': '판매량 표준편차'},
             color='Sub-Category',
             text_auto='.2f')
fig.update_layout(showlegend=False)
fig.show()

Q9. 'region'(지역)별로 주문 건수(행 개수)를 구하고, pie chart로 시각화하세요.

In [41]:
# 지역별 주문 건수 계산
region_counts = df['Region'].value_counts()

# plotly를 사용한 파이 차트 시각화
fig = px.pie(
    values=region_counts.values,
    names=region_counts.index,
    title='지역별 주문 건수 분포',
    labels={'names': '지역', 'values': '주문 건수'},
    hole=0.3
)

# 차트 레이아웃 조정
fig.update_traces(
    textposition='inside',
    textinfo='percent+label',
    pull=[0.1 if i == region_counts.idxmax() else 0 for i in region_counts.index]
)

# 차트 출력
fig.show()


Q10. 매출액 대비 이익의 비율(이익률)을 계산하여, 이익률이 가장 높은 상위 5개 주문의 정보를 출력하세요.

In [43]:
# 이익률 계산 (profit/revenue)
df['profit_ratio'] = df['Profit'] / df['Sales']

# 이익률이 가장 높은 상위 5개 주문 정렬 및 출력
top5_profit_ratio = df.sort_values('profit_ratio', ascending=False).head(5)
top5_profit_ratio[['Category', 'Sub-Category', 'Sales', 'Profit', 'profit_ratio']]


Unnamed: 0,Category,Sub-Category,Sales,Profit,profit_ratio
2323,Office Supplies,Binders,76.3,38.15,0.5
1708,Office Supplies,Paper,7.42,3.71,0.5
4578,Office Supplies,Binders,113.1,56.55,0.5
4584,Office Supplies,Envelopes,76.58,38.29,0.5
6463,Office Supplies,Labels,74.0,37.0,0.5


#### ✏️ 실습 과제
> sample_superstore.csv 파일을 사용하여 다음 문제를 풀어보세요.
>
> 시각화는 plotly.express 라이브러리를 사용하세요.

1. 'Quantity' 컬럼의 분포를 히스토그램과 박스플롯으로 시각화하고 분포 특성을 설명하세요.


   2. 'Category'별 평균 매출액('Sales')을 계산하고, 가장 높은 매출을 기록한 카테고리를 찾으세요.

3. 'Sales'와 'Quantity'의 상관계수를 계산하고, 그 결과를 해석하세요.


4. 'Sales' 컬럼의 기초 통계량(평균, 중앙값, 표준편차, 왜도, 첨도)을 계산하고 각 지표의 의미를 설명하세요.


5. 평균이 50, 표준편차가 10인 정규분포에서 100개 샘플을 생성한 후, x=60일 때의 누적분포함수(CDF)와 생존함수(SF) 값을 계산하고 그 의미를 설명하세요.


6. 'Quantity' 컬럼의 이상치를 IQR 기준으로 식별하고, 이상치가 포함된 주문 건수를 출력하세요.


7. 'Category'별 매출액('Sales') 분포를 바이올린 플롯으로 시각화하고 비교하세요. (plotly 사용)
