# **👑DATA SCHOOL PROJECT01**  
**┗ 매출/수익분석 및 대시보드 기획**
---
> **목차(Context)**

* 프로젝트 Summary
* 문제상황 Introduction

## **프로젝트 Summary**
---

> **프로젝트명**

```
▶ 매출/수익분석 및 대시보드 기획
```  

> **프로젝트유형**

```
▶ 데이터 EDA 및 대시보드 화면 설계
▶ 지표 기획 및 개발
```

> **학습목표**

```
▶ 데이터 분석을 통한 핵심 매출/수익 패턴과 인사이트 도출 능력 향상
▶ 대시보드 화면 설계 및 지표 기획의 기본 원칙과 효과적인 전략 습득
▶ 다양한 데이터 소스로부터 유용한 정보를 추출하고, 그 정보를 시각화하여 의사결정에 활용할 수 있는 능력 개발
```

> **예상 결과물**

```
▶ 매출/수익을 확인할 수 있는 다양한 지표
▶ 개발한 지표를 활용한 화면설계(대시보드) 구성안
▶ 다양한 시각화 기법을 활용한 대시보드 구축
```


## **문제상황 Introduction**
---
> **시나리오**

```
회사 A는 최근 몇 달 동안 예상보다 더디게 매출과 수익 증가를 경험하였다. 이 변화의 원인을 파악하고 전략을 세우기 위해, 경영진은 여러 부서의 데이터를 통합하여  
분석할 수 있는 대시보드의 필요성을 느끼게 되었다. 따라서, 데이터 분석 팀은 "매출/수익분석 및 대시보드 기획" 프로젝트를 시작하여 데이터 EDA, 대시보드
화면 설계 및 핵심 지표의 기획과 개발 작업을 진행하고자 한다.
```  

> **문제정의**

```
- 예상보다 더디게 증가하는 매출/수익과 이러한 추세의 원인에 대한 정보 부족
```  

> **기대효과**

```
- 효과적인 마케팅 전략 수립을 통한 매출 증대
```

> **해결방안**

```
- 매출/수익과 관련된 지표 확인 및 정체 원인 분석

```

> **성과측정**  

```
- 마케팅 전략 설정 전/후 매출/수익 관련 지표 비교
```

> **운영**  

```
- 분석된 데이터와 인사이트를 경영 부서와 공유하여 마케팅 전략 수립
```

> **데이터 살펴보기**

|Column|Description|
|:---|:---|
|Ship mode|배송유형|
|Segment|고객유형|
|Country|국가|
|City|도시|
|State|주|
|Postal Code|우편번호|
|Region|지역|
|Category|카테고리|
|Sub-Category|서브카테고리|
|Sales|판매가격|
|Quantity|수량|
|Discount|할인|
|Profit|이익|




In [1]:
#  Warnings 제거
import warnings
warnings.filterwarnings('ignore')

#  Google drive mount or 폴더 클릭 후 구글드라이브 연결
from google.colab import drive
drive.mount('/content/drive')

#  경로 설정 (※강의자료가 위치에 있는 경로 확인)
import os
os.chdir('/content/drive/MyDrive/zerobase/projects/project1')
os.getcwd()

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


'/content/drive/MyDrive/zerobase/projects/project1'

In [2]:
#  Data read
import pandas as pd
df = pd.read_csv('P_PJT01_DATA.csv')
df.head()

Unnamed: 0,Ship Mode,Segment,Country,City,State,Postal Code,Region,Category,Sub-Category,Sales,Quantity,Discount,Profit
0,Second Class,Consumer,United States,Henderson,Kentucky,42420,South,Furniture,Bookcases,261.96,2,0.0,41.9136
1,Second Class,Consumer,United States,Henderson,Kentucky,42420,South,Furniture,Chairs,731.94,3,0.0,219.582
2,Second Class,Corporate,United States,Los Angeles,California,90036,West,Office Supplies,Labels,14.62,2,0.0,6.8714
3,Standard Class,Consumer,United States,Fort Lauderdale,Florida,33311,South,Furniture,Tables,957.5775,5,0.45,-383.031
4,Standard Class,Consumer,United States,Fort Lauderdale,Florida,33311,South,Office Supplies,Storage,22.368,2,0.2,2.5164


# Process 01 - 매출, 수익 현황 파악


## 데이터 전처리
---


- 수집된 데이터의 기본 정보들을 확인

  (1) Data shape(형태) 확인

  (2) Data type 확인

  (3) Null값 확인 (※ 빈 값의 Data)

  (4) Outlier 확인 (※ 정상적인 범주를 벗어난 Data)


In [3]:
# 데이터 형태 확인

print("데이터 행 수 : ", df.shape[0], '\n')
print("데이터 열 수 : ", df.shape[1])

데이터 행 수 :  9993 

데이터 열 수 :  13


In [4]:
# Data type 확인

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9993 entries, 0 to 9992
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Ship Mode     9993 non-null   object 
 1   Segment       9993 non-null   object 
 2   Country       9993 non-null   object 
 3   City          9993 non-null   object 
 4   State         9993 non-null   object 
 5   Postal Code   9993 non-null   int64  
 6   Region        9993 non-null   object 
 7   Category      9993 non-null   object 
 8   Sub-Category  9993 non-null   object 
 9   Sales         9993 non-null   float64
 10  Quantity      9993 non-null   int64  
 11  Discount      9993 non-null   float64
 12  Profit        9993 non-null   float64
dtypes: float64(3), int64(2), object(8)
memory usage: 1015.0+ KB


In [5]:
# Null 값 확인

df.isnull().sum()

Unnamed: 0,0
Ship Mode,0
Segment,0
Country,0
City,0
State,0
Postal Code,0
Region,0
Category,0
Sub-Category,0
Sales,0


In [6]:
# 중복값 확인

df.duplicated().sum()

17

In [7]:
df.drop_duplicates(inplace=True)
df.duplicated().sum()

0

In [8]:
# Data type 확인

df.describe()

Unnamed: 0,Postal Code,Sales,Quantity,Discount,Profit
count,9976.0,9976.0,9976.0,9976.0,9976.0
mean,55151.202285,230.147597,3.790898,0.156294,28.685693
std,32057.671463,623.752659,2.226696,0.20646,234.469173
min,1040.0,0.444,1.0,0.0,-6599.978
25%,23223.0,17.295,2.0,0.0,1.72585
50%,55901.0,54.804,3.0,0.2,8.6665
75%,90008.0,209.97,5.0,0.2,29.366
max,99301.0,22638.48,14.0,0.8,8399.976


```
Profit 컬럼에 음수 값이 존재하지만, 여기서는 더디게 발생하는 매출/수익에 이러한 음수 값 또한 영향을 줄 수 있을 것이라고 판단하여
따로 분류하여 추가 분석을 진행하였습니다.
```

In [9]:
# Profit = 0을 기준으로 데이터 분류

data_positive = df[df['Profit'] >= 0]
data_negative = df[df['Profit'] < 0]

In [10]:
# 데이터 형태 확인

print("데이터 행 수 : ", data_positive.shape[0], '\n')
print("데이터 열 수 : ", data_positive.shape[1])

데이터 행 수 :  8107 

데이터 열 수 :  13


In [11]:
# 데이터 형태 확인

print("데이터 행 수 : ", data_negative.shape[0], '\n')
print("데이터 열 수 : ", data_negative.shape[1])

데이터 행 수 :  1869 

데이터 열 수 :  13


In [12]:
data_negative.shape[0] / df.shape[0]

0.18734963913392141

## 매출 / 수익 현황 파악 (영업이익률)
---

요약

- 상위 항목별

  Technology 카테고리에서 가장 많은 매출이 발생하였고, Office Supplies 항목에서 가장 높은 이익률이 나타남에 따라 Office Supplies 항목에서 가장 높은 이익이 발생하였습니다.

- 하위 항목별

  Phones, Chairs, Storage 순으로 높은 매출을 보이고 있습니다. Office Supplies 항목에 속한 하위 항목들이 높은 이익률을 보이고 있습니다.

- 고객 유형별

  매출은 Consumer, Corporate, Home Office 순으로 매출이 높게 나타났으며, 그 중 일반 개인 고객(Consumer)에서 총 매출의 50%에 해당하는 매출이 발생하였습니다.

- 주 별

  California, New York, Washington, Michigan 순으로 매출이 높게 나타났으며, 이 상위 4개의 주에서 총 매출의 50%에 해당하는 매출이 발생하였습니다.

- 도시별
  
  New York City, Los Angeles, Seattle 순으로 매출이 높게 나타났으며, 상위 10개의 도시에서 총 매출의 44%에 해당하는 매출이 발생하였습니다.

In [13]:
# 주문당 총 판매액

data_positive['Total Sales'] = (1 - data_positive['Discount']) * data_positive['Quantity'] * data_positive['Sales']

# 주문당 총 이익

data_positive['Total Profit'] = data_positive['Quantity'] * data_positive['Profit']

# 주문당 이익률을 보기 위해 Operating Profit Margin (영업이익률) 활용

In [14]:
data_positive.head(3)

Unnamed: 0,Ship Mode,Segment,Country,City,State,Postal Code,Region,Category,Sub-Category,Sales,Quantity,Discount,Profit,Total Sales,Total Profit
0,Second Class,Consumer,United States,Henderson,Kentucky,42420,South,Furniture,Bookcases,261.96,2,0.0,41.9136,523.92,83.8272
1,Second Class,Consumer,United States,Henderson,Kentucky,42420,South,Furniture,Chairs,731.94,3,0.0,219.582,2195.82,658.746
2,Second Class,Corporate,United States,Los Angeles,California,90036,West,Office Supplies,Labels,14.62,2,0.0,6.8714,29.24,13.7428


In [15]:
print("총 매출액 : ", round(data_positive['Total Sales'].sum(),2), '\n')
print("총 이익 : ", round(data_positive['Total Profit'].sum(),2), '\n')
print("이익률 : ", round((data_positive['Total Profit'].sum() / data_positive['Total Sales'].sum()) * 100,2))

총 매출액 :  8456414.87 

총 이익 :  2212641.79 

이익률 :  26.17


In [16]:
import plotly.graph_objects as go

# 테이블 데이터 생성
table_data = go.Table(
    header=dict(values=["항목", "금액"]),
    cells=dict(
        values=[
            ["총 매출액(단위:만 달러)", "총 이익(단위:만 달러)", "이익률(%)"],
            [round(data_positive['Total Sales'].sum() / 10000,2),
             round(data_positive['Total Profit'].sum()/10000,2),
             round((data_positive['Total Profit'].sum() / data_positive['Total Sales'].sum()) * 100,2)]
        ]
    )
)


fig = go.Figure(data=[table_data])

fig.show()

In [17]:
# 상위 카테고리별 매출 및 이익률 추출

gp_Category = data_positive.groupby('Category')[['Total Sales', 'Total Profit']].sum().sort_values(by='Total Sales', ascending=False)

gp_Category['Total Profit'] = round(gp_Category['Total Profit'] / 10000, 2)
gp_Category['Total Sales'] = round(gp_Category['Total Sales'] / 10000, 2)

gp_Category['OPM'] = round(gp_Category['Total Profit'] / gp_Category['Total Sales'] * 100,2)
gp_Category

Unnamed: 0_level_0,Total Sales,Total Profit,OPM
Category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Technology,317.05,88.78,28.0
Office Supplies,292.47,89.81,30.71
Furniture,236.13,42.68,18.07


In [18]:
gp_Category.index

Index(['Technology', 'Office Supplies', 'Furniture'], dtype='object', name='Category')

In [19]:
# 상위 카테고리별 매출 및 이익률 시각화

import plotly.graph_objects as go
from plotly.subplots import make_subplots


fig = make_subplots(
    rows=1,
    cols=2
)


fig.add_trace(go.Bar(name='매출(단위: 만 달러)', x=gp_Category.index,
                     y=gp_Category['Total Sales'], textposition='outside', text=gp_Category['Total Sales']),
              row=1, col=1)


fig.add_trace(go.Bar(name='이익률(%)', x=gp_Category.index,
                     y=gp_Category['OPM'], textposition='outside', text=gp_Category['OPM']),
              row=1, col=2)

fig.update_layout(
    title=dict(
        text="상위 카테고리별 매출(단위: 만 달러) / 이익률(%)",
        x=0.5,
        xanchor="center",
        y=0.95,
        yanchor="top",
        font=dict(
            family="Arial",
            size=24,
            color="black"
        )
    ))

```
Technology 카테고리에서 가장 많은 매출이 발생하였고 Office Supplies, Funiture 순으로 매출이 많이 발생하였습니다.
이익률을 함께 살펴본 결과, Office Supplies 카테고리에서 가장 높은 이익률이 나타남에 따라 근소한 차이로 Office Supplies 카테고리에서 가장 높은 이익이 발생하였습니다.
Furniture 카테고리는 매출, 수익에서 모두 가장 낮은 모습을 보이고 있습니다.
```

In [20]:
# 하위 카테고리별 매출 및 이익률 추출

gp_Subcategory = data_positive.groupby(['Category', 'Sub-Category'])[['Total Sales', 'Total Profit']].sum().sort_values(by='Total Sales', ascending=False)

gp_Subcategory['Total Profit'] = round(gp_Subcategory['Total Profit'] / 10000, 2)
gp_Subcategory['Total Sales'] = round(gp_Subcategory['Total Sales'] / 10000, 2)

gp_Subcategory['OPM'] = round(gp_Subcategory['Total Profit'] / gp_Subcategory['Total Sales'] * 100,2)

gp_Subcategory = gp_Subcategory.reset_index().sort_values(by='Total Sales',ascending=True)
gp_Subcategory

Unnamed: 0,Category,Sub-Category,Total Sales,Total Profit,OPM
16,Office Supplies,Fasteners,1.48,0.54,36.49
15,Office Supplies,Labels,6.69,3.13,46.79
14,Office Supplies,Envelopes,6.83,3.09,45.24
13,Office Supplies,Art,12.67,3.27,25.81
12,Office Supplies,Supplies,13.98,0.81,5.79
11,Furniture,Bookcases,31.72,4.43,13.97
10,Office Supplies,Paper,36.26,16.76,46.22
9,Furniture,Furnishings,38.1,10.23,26.85
8,Office Supplies,Appliances,50.86,13.78,27.09
7,Technology,Machines,51.02,16.43,32.2


In [21]:
# 하위 카테고리별 매출 및 이익률 시각화

fig = make_subplots(
    rows=1,
    cols=2,
    specs=[[{"type": "xy"}, {"type": "table"}]]
)
avg_sales = gp_Subcategory['Total Sales'].mean()


fig.add_trace(go.Bar(name='매출(단위: 만 달러)', y=gp_Subcategory['Sub-Category'],
                     x=gp_Subcategory['Total Sales'], orientation='h', textposition='outside', text=gp_Subcategory['Total Sales']), row=1, col=1)
fig.add_shape(
    type="line",
    x0=avg_sales, x1=avg_sales,
    y0=-0.5, y1=len(gp_Subcategory),
    line=dict(color="red", width=2, dash="dash"),
    row=1, col=1
)

fig.add_annotation(
    x=avg_sales,
    y=-1.5,
    text="평균",
    font=dict(color="red", size=14, family="Arial"),
    textangle=90,
    xanchor="left",
    yanchor="middle",
    row=1, col=1
)

fig.add_trace(go.Table(
    header=dict(values=["상위항목","항목", "이익률"]),
    cells=dict(
        values=[
            gp_Subcategory.reset_index().sort_values(by='OPM',ascending=False)['Category'],
            gp_Subcategory.reset_index().sort_values(by='OPM',ascending=False)['Sub-Category'],
            gp_Subcategory.reset_index().sort_values(by='OPM',ascending=False)['OPM']
        ]
    )
), row=1, col=2)



fig.update_layout(
    title=dict(
        text="하위 카테고리별 매출(단위: 만 달러) / 이익률(%)",
        x=0.5,
        xanchor="center",
        y=0.95,
        yanchor="top",
        font=dict(
            family="Arial",
            size=24,
            color="black"
        )
    ))
fig.show()

```
하위 항목별 매출에서는 Phones, Chairs, Storage 순으로 높은 매출을 보이고 있습니다.
이익률에서는 Office Supplies 항목에 속한 Labels, Paper, Binders 순으로 높은 이익률을 보이고 있습니다.
```

In [22]:
# 고객 유형별 매출 추출

gp_segment= data_positive.groupby(['Segment'])[['Total Sales', 'Total Profit']].sum().sort_values(by='Total Sales', ascending=False)

gp_segment['Total Profit'] = round(gp_segment['Total Profit'] / 10000, 2)
gp_segment['Total Sales'] = round(gp_segment['Total Sales'] / 10000, 2)

gp_segment['OPM'] = round(gp_segment['Total Profit'] / gp_segment['Total Sales'] * 100,2)

gp_segment = gp_segment.reset_index().sort_values(by='Total Sales',ascending=False)
gp_segment

Unnamed: 0,Segment,Total Sales,Total Profit,OPM
0,Consumer,422.92,109.46,25.88
1,Corporate,266.71,69.33,25.99
2,Home Office,156.02,42.47,27.22


In [23]:
gp_segment[gp_segment['Segment']=='Consumer']['Total Sales'] / gp_segment['Total Sales'].sum()

Unnamed: 0,Total Sales
0,0.500112


```
일반 개인 고객 (Consumer) 군에서 총 매출의 50%에 해당하는 매출이 발생하고 있습니다.
```

In [24]:
# 주 별 매출 추출

gp_State= data_positive.groupby(['State'])[['Total Sales', 'Total Profit']].sum().sort_values(by='Total Sales', ascending=False)

gp_State['Total Profit'] = round(gp_State['Total Profit'] / 10000, 2)
gp_State['Total Sales'] = round(gp_State['Total Sales'] / 10000, 2)

gp_State['OPM'] = round(gp_State['Total Profit'] / gp_State['Total Sales'] * 100,2)


gp_State = gp_State.reset_index().sort_values(by='Total Sales',ascending=False)
gp_State_total = gp_State.copy()
gp_State = gp_State.head(10)
gp_State

Unnamed: 0,State,Total Sales,Total Profit,OPM
0,California,188.81,39.67,21.01
1,New York,134.46,38.84,28.89
2,Washington,63.44,16.7,26.32
3,Michigan,40.68,14.68,36.09
4,Virginia,37.65,9.91,26.32
5,Indiana,26.7,8.91,33.37
6,Texas,25.6,5.44,21.25
7,Georgia,24.23,7.86,32.44
8,Kentucky,19.72,5.89,29.87
9,Florida,18.73,2.65,14.15


In [25]:
gp_State.iloc[:4]['Total Sales'].sum() / gp_State_total['Total Sales'].sum()

0.5054041909086608

In [26]:
gp_State.iloc[:4]

Unnamed: 0,State,Total Sales,Total Profit,OPM
0,California,188.81,39.67,21.01
1,New York,134.46,38.84,28.89
2,Washington,63.44,16.7,26.32
3,Michigan,40.68,14.68,36.09


```
매출 상위 4개의 주에서 총 매출의 50%에 해당하는 매출이 발생하고 있습니다.
```

In [27]:
# 고객 유형별, 주 별 매출 시각화
fig = make_subplots(
    rows=1,
    cols=2
)


fig.add_trace(go.Bar(name='매출(단위: 만 달러)', x=gp_segment['Segment'],
                     y=gp_segment['Total Sales'], textposition='outside', text=gp_segment['Total Sales']),
              row=1, col=1)

fig.add_trace(go.Bar(name='매출(단위: 만 달러)', y=gp_State.sort_values(by='Total Sales',ascending=True)['State'],
                     x=gp_State.sort_values(by='Total Sales',ascending=True)['Total Sales'],
                     orientation='h', textposition='outside', text=gp_State.sort_values(by='Total Sales',ascending=True)['Total Sales']), row=1, col=2)

fig.update_layout(
    title=dict(
        text="고객 유형별 / 주 별 매출(단위: 만 달러)",
        x=0.5,
        xanchor="center",
        y=0.95,
        yanchor="top",
        font=dict(
            family="Arial",
            size=24,
            color="black"
        )
    ))

```
고객유형별)
매출은 Consumer, Corporate, Home Office 고객군 순으로 매출이 높게 나타났으며,
그 중 일반 개인 고객군(Consumer)에서 총 매출의 50%에 해당하는 매출이 발생하고 있습니다.

주 별)
Califonia, New York, Washington, Michigan 순으로 매출이 높게 나타났으며,
상위 4개의 주에서 총 매출의 50%에 해당하는 매출이 발생하고 있습니다.

```

In [28]:
# 도시별 매출 추출

gp_city= data_positive.groupby(['State','City'])[['Total Sales', 'Total Profit']].sum().sort_values(by='Total Sales', ascending=False)

gp_city['Total Profit'] = round(gp_city['Total Profit'] / 10000, 2)
gp_city['Total Sales'] = round(gp_city['Total Sales'] / 10000, 2)

gp_city['OPM'] = round(gp_city['Total Profit'] / gp_city['Total Sales'] * 100,2)

gp_city = gp_city.reset_index().sort_values(by='Total Sales',ascending=False)
gp_city_total = gp_city.copy()
gp_city = gp_city.head(10)
gp_city

Unnamed: 0,State,City,Total Sales,Total Profit,OPM
0,New York,New York City,111.17,32.18,28.95
1,California,Los Angeles,72.49,15.63,21.56
2,Washington,Seattle,54.39,14.67,26.97
3,California,San Francisco,43.22,9.07,20.99
4,Michigan,Detroit,26.77,10.06,37.58
5,California,San Diego,20.92,3.54,16.92
6,Pennsylvania,Philadelphia,13.69,2.87,20.96
7,Illinois,Chicago,11.06,2.13,19.26
8,Texas,Houston,10.68,2.49,23.31
9,Rhode Island,Providence,9.94,3.8,38.23


In [29]:
gp_city.iloc[:10]['Total Sales'].sum() / gp_city_total['Total Sales'].sum()

0.4426012415016258

```
상위 10개의 도시에서 총 매출의 50%에 해당하는 매출이 발생하고 있습니다.
```

In [30]:
gp_State = gp_State.reset_index().sort_values(by='Total Sales',ascending=False)
gp_State_total = gp_State.copy()
gp_State = gp_State.head(10)
gp_State

Unnamed: 0,index,State,Total Sales,Total Profit,OPM
0,0,California,188.81,39.67,21.01
1,1,New York,134.46,38.84,28.89
2,2,Washington,63.44,16.7,26.32
3,3,Michigan,40.68,14.68,36.09
4,4,Virginia,37.65,9.91,26.32
5,5,Indiana,26.7,8.91,33.37
6,6,Texas,25.6,5.44,21.25
7,7,Georgia,24.23,7.86,32.44
8,8,Kentucky,19.72,5.89,29.87
9,9,Florida,18.73,2.65,14.15


In [31]:
# 도시별 매출 시각화

fig = make_subplots(
    rows=1,
    cols=2,
    specs=[[{"type": "xy"}, {"type": "table"}]]
)


fig.add_trace(go.Bar(name='매출(단위: 만 달러)', y=gp_city.sort_values(by='Total Sales',ascending=True)['City'],
                     x=gp_city.sort_values(by='Total Sales',ascending=True)['Total Sales'], orientation='h',
                     textposition='outside', text=gp_city.sort_values(by='Total Sales',ascending=True)['Total Sales']), row=1, col=1)

fig.add_trace(go.Table(
    header=dict(values=["주","도시", "매출"]),
    cells=dict(
        values=[
            gp_city.sort_values(by='Total Sales',ascending=False)['State'],
            gp_city.sort_values(by='Total Sales',ascending=False)['City'],
           gp_city.sort_values(by='Total Sales',ascending=False)['Total Sales']
        ]
    )
), row=1, col=2)


fig.update_layout(
    title=dict(
        text="도시별 매출(단위: 만 달러)",
        x=0.5,
        xanchor="center",
        y=0.95,
        yanchor="top",
        font=dict(
            family="Arial",
            size=24,
            color="black"
        )
    ))
fig.show()

```
도시별)

New York City, Los Angeles, Seattle 순으로 매출이 높게 나타났으며, 상위 10개의 도시에서 총 매출의 44%에 해당하는 매출이 발생하고 있습니다.
```

## 반품 및 환불 / 취소 현황 파악
---
요약

- 주문 데이터 중 Profit이 음수로 나타나는 건에 대해 반품 및 환불 / 취소로 인한 이익 손실로 정의하고 분석을 진행하였습니다.

- 상위 항목별 이익 손실은 Furniture, Office Supplies 순으로 높게 나타났습니다.
- Furniture의 경우 운반 과정에서의 파손 등으로 인한 반품 및 환불 가능성이 있기에 이익 손실이 많이 발생하는 운반 경로에 대한 추가 분석을 진행하고자 하였습니다.
- Furniture의 하위 항목 중 Tables의 운반 루트를 City-State-Region으로 정의하고 분석한 결과, 상위 10개의 루트에서 Tables 운반 루트의 총 이익 손실의 50%에 해당하는 손실이 발생하였습니다.

In [32]:
data_negative['Profit'] = (-1) * data_negative['Profit']
data_negative['Profit']

Unnamed: 0,Profit
3,383.0310
14,123.8580
15,3.8160
23,1.0196
27,1665.0522
...,...
9920,35.8176
9921,4.5936
9931,40.1960
9937,1.7772


In [33]:
# 상위 항목별 이익 손실 추출

negative_cat = data_negative.groupby('Category')['Profit'].sum().reset_index().sort_values(by=['Profit'],ascending=False)
negative_cat['Profit Loss'] = round(negative_cat['Profit'] / 10000,2)
negative_cat['Profit Loss']

Unnamed: 0,Profit Loss
0,6.09
1,5.66
2,3.86


In [34]:
# 상위 항목 중 Funiture의 하위 항목별 이익 손실 추출

negative_subcat = data_negative[data_negative['Category']=='Furniture'].groupby('Sub-Category')['Profit'].sum()
negative_subcat = negative_subcat.reset_index().sort_values(by=['Profit'],ascending=False)
negative_subcat['Profit Loss'] = round(negative_subcat['Profit'] / 10000,2)

In [35]:
negative_subcat

Unnamed: 0,Sub-Category,Profit,Profit Loss
3,Tables,32412.1483,3.24
0,Bookcases,12152.206,1.22
1,Chairs,9868.7825,0.99
2,Furnishings,6490.9134,0.65


In [36]:
# 상위 항목별 이익 손실 시각화
# 상위 항목 중 Funiture의 하위 항목별 이익 손실 시각화


fig = make_subplots(
    rows=1,
    cols=2
)


fig.add_trace(go.Bar(name='손실(단위: 만 달러)', x=negative_cat['Category'],
                     y=negative_cat['Profit Loss'], textposition='outside', text=negative_cat['Profit Loss']),
              row=1, col=1)


fig.add_trace(go.Bar(name='손실(단위: 만 달러)', y=negative_subcat.sort_values(by='Profit Loss',ascending=True)['Sub-Category'],
                     x=negative_subcat.sort_values(by='Profit Loss',ascending=True)['Profit Loss'],
                     orientation='h', textposition='outside', text=negative_subcat.sort_values(by='Profit Loss',ascending=True)['Profit Loss']), row=1, col=2)

fig.update_layout(
    title=dict(
        text="카테고리별 손실(단위: 만 달러)",
        x=0.5,
        xanchor="center",
        y=0.95,
        yanchor="top",
        font=dict(
            family="Arial",
            size=24,
            color="black"
        )
    ))

```
반품, 취소 등의 이유로 이익이 음수로 기록된 주문 건에 대한 분석을 진행한 결과,
Furniture, Office Supplies 순으로 손실이 발생하였습니다.
Furniture의 경우 운반 과정에서 파손 등으로 인한 반품 및 환불 처리가 발생 가능하기에 Furniture의 하위 항목과 운반 과정에 대한 추가 분석을 진행하였습니다.
Furniture의 하위 항목 중 Tables에서 가장 많은 손실이 발생한 것으로 나타났습니다.
```

In [37]:
# Tables 항목에 대한 데이터를 추출
# 운반 경로를 도시-주-지역으로 정의

negative_tables = data_negative[data_negative['Sub-Category']=='Tables']
negative_tables['Route'] = negative_tables['City'] + '-' + negative_tables['State'] + '-' + negative_tables['Region']

In [38]:
# 정의된 운반 경로별 이익 손실을 추출

negative_tables_route = negative_tables.groupby('Route')['Profit'].sum().sort_values(ascending=False).reset_index()
negative_tables_route['Profit Loss'] = round(negative_tables_route['Profit'] / 10000, 2)
negative_tables_route_total = negative_tables_route.copy()
negative_tables_route = negative_tables_route.head(10)
negative_tables_route

Unnamed: 0,Route,Profit,Profit Loss
0,New York City-New York-East,3542.7216,0.35
1,Philadelphia-Pennsylvania-East,2588.7538,0.26
2,Concord-North Carolina-South,1862.3124,0.19
3,Phoenix-Arizona-West,1491.9276,0.15
4,Chicago-Illinois-Central,1446.9305,0.14
5,Aurora-Illinois-Central,1255.8546,0.13
6,Knoxville-Tennessee-South,1150.6491,0.12
7,Jacksonville-Florida-South,1045.4652,0.1
8,Columbia-Tennessee-South,968.8833,0.1
9,Burlington-North Carolina-South,852.791,0.09


In [39]:
negative_tables_route['Profit Loss'].sum()/negative_tables_route_total['Profit Loss'].sum()

0.5046439628482972

In [40]:
# 상위 항목 중 Office Supplies의 하위 항목 별 이익 손실을 추출

negative_subcat_os = data_negative[data_negative['Category']=='Office Supplies'].groupby('Sub-Category')['Profit'].sum()
negative_subcat_os = negative_subcat_os.reset_index().sort_values(by=['Profit'],ascending=False)
negative_subcat_os['Profit Loss'] = round(negative_subcat_os['Profit'] / 10000,2)
negative_subcat_os

Unnamed: 0,Sub-Category,Profit,Profit Loss
1,Binders,38504.2594,3.85
0,Appliances,8629.6412,0.86
3,Storage,6426.3038,0.64
4,Supplies,3015.6219,0.3
2,Fasteners,33.1952,0.0


In [41]:
# Tables 항목의 운반 경로별 이익 손실 시각화
# 상위 항목 중 Office Supplies의 하위 항목 별 이익 손실 시각화

fig = make_subplots(
    rows=1,
    cols=2
)


fig.add_trace(go.Bar(name='손실(단위: 만 달러)', x=negative_tables_route['Route'],
                     y=negative_tables_route['Profit Loss'], textposition='outside', text=negative_tables_route['Profit Loss']),
              row=1, col=1)

fig.add_trace(go.Bar(name='손실(단위: 만 달러)', x=negative_subcat_os['Sub-Category'],
                     y=negative_subcat_os['Profit Loss'], textposition='outside', text=negative_subcat_os['Profit Loss']),
              row=1, col=2)

```
Funiture - Tables의 운반 루트를 도시-주-지역으로 정의하고, 손실이 많이 나타나는 운반 루트에 대한 분석을 진행하였습니다.
그 결과, 위의 10개의 루트에서 Tables의 운반 루트에 대한 손실 중 50%에 해당하는 손실이 발생하였습니다.
고객 단순 변심으로 인한 환불일 수도 있지만, 가구의 경우 파손으로 인한 환불일 가능성도 있기에 위 루트에 대한 추가 분석이 필요할 것으로 보입니다.

또, 상위 항목 중 2번째로 손실이 높게 나타난 Office Supplies 항목에서는 Binders 제품에서 가장 높은 손실이 발생하였습니다.
Binders 제품에 대한 추가 분석 또한 필요할 것으로 생각되며, 해당 제품의 질 향상 등으로 손실을 줄일 수 있을 것이라 생각됩니다.
```

# Process 02 -  가설 수립 및 검증


## 사용 지표
---

- 객단가(AOV, Average Order Value)를 아래의 두 지표로 분류하였습니다.

  (1) 주문당 평균 구매 수량 (Unit Per Transaction)

  (2) 평균 가격 (Average Selling Price)



## 가설 설정
---

- 고객 유형별로 위의 두 지표를 활용하여 아래의 가설을 설정하였습니다.

  (1) **일반 개인 고객**(Consumer)일수록 **평균 가격**(Average Selling Price, 총 매출(개인 고객) / 총 판매 상품 수(개인 고객) 이 높을 것이다.

  - 개인 고객이 가격이 비교적 높은 휴대폰 관련 상품을 많이 구매하고, 기업 고객이 가격이 비교적 낮은 사무용품을 많이 구매할 것이라 생각하여 이러한 가설을 채택하였습니다.

  (2) **기업 고객일**수록 **주문당 평균 구매 수량**(Unit Per Transaction, 총 판매 상품 수(기업 고객) / 주문 건수(기업 고객)이 높을 것이다.
  - 개인 고객보다는 기업 고객이 한 주문에 더 많은 상품을 구매할 것이라 생각하여 이러한 가설을 채택하였습니다.


In [42]:
# 객단가(AOV, Average Order Value)

# 평균 구매 수량 = Unit Per Transaction (Order)
# 평균 가격 = Average Selling Price

# 고객 유형별 판매 금액
segment = data_positive.groupby('Segment')['Total Sales'].agg(['count','sum'])
segment.rename(columns={"sum": "Sales"}, inplace=True)
segment = segment.reset_index()
segment

Unnamed: 0,Segment,count,Sales
0,Consumer,4179,4229164.0
1,Corporate,2460,2667060.0
2,Home Office,1468,1560191.0


In [43]:
# 고객 유형별 주문 건수

quantity = data_positive.groupby('Segment')['Quantity'].agg(['sum'])
quantity.rename(columns={"sum": "quantity"}, inplace=True)
quantity = quantity.reset_index()
quantity

Unnamed: 0,Segment,quantity
0,Consumer,15844
1,Corporate,9403
2,Home Office,5536


In [44]:
segment = segment.merge(quantity, how='left', on='Segment')
segment

Unnamed: 0,Segment,count,Sales,quantity
0,Consumer,4179,4229164.0,15844
1,Corporate,2460,2667060.0,9403
2,Home Office,1468,1560191.0,5536


In [45]:
# 평균 구매 수량 = Unit Per Transaction (Order)
## 총 판매 상품 수 / 주문 건수
segment['UPT'] = segment['quantity'] / segment['count']

# 평균 가격 = Average Selling Price
## 매출 / 총 판매 상품 수

segment['ASP'] = segment['Sales'] / segment['quantity']


# 객단가(AOV, Average Order Value)
segment['AOV'] = segment['Sales'] / segment['count']
segment

Unnamed: 0,Segment,count,Sales,quantity,UPT,ASP,AOV
0,Consumer,4179,4229164.0,15844,3.791338,266.925269,1012.003819
1,Corporate,2460,2667060.0,9403,3.822358,283.639272,1084.170761
2,Home Office,1468,1560191.0,5536,3.771117,281.826379,1062.800297


```
주문당 평균 구매 수량(UPT)에서는 기업 고객이 일반 개인 고객보다 높은 수치를 보이고 있지만,
큰 차이가 없어 기업 고객이 일반 개인 고객 보다 평균 구매 수량이 높다고 보기는 어렵다고 생각됩니다.

주문당 평균 가격(ASP)에서는 기업 고객이 일반 개인 고객보다 비교적 높은 수치를 보이고 있습니다.
이러한 이유는 일반 개인 고객이 가격대가 낮은 Paper, Label, Art, Fasteners 품목에서 더 많은 구매를 하고 있기 때문이라고 생각됩니다.
```

In [46]:
segment['UPT'] = round(segment['UPT'],2)
segment['ASP'] = round(segment['ASP'],2)

In [47]:
# 고객 유형별 UPT / ASP 시각화

fig = make_subplots(
    rows=1,
    cols=2
)
avg_sales = gp_Subcategory['Total Sales'].mean()


fig.add_trace(go.Bar(name='주문당 평균 구매 수량', y=segment['UPT'],
                     x=segment['Segment'], textposition='outside', text=segment['UPT']), row=1, col=1)


fig.add_trace(go.Bar(name='평균 가격', y=segment['ASP'],
                     x=segment['Segment'], textposition='outside', text=segment['ASP']), row=1, col=2)

fig.update_layout(
    title=dict(
        text="고객 유형별 UPT / ASP ",
        x=0.5,
        xanchor="center",
        y=0.95,
        yanchor="top",
        font=dict(
            family="Arial",
            size=24,
            color="black"
        )
    ))
fig.show()

In [48]:
# 상품 평균 판매 가격
Sales_price = data_positive[['Sub-Category','Sales']].groupby('Sub-Category')['Sales'].mean()
Sales_price = Sales_price.reset_index()

# 일반 개인 고객 하위 카테고리 품목별 구매 수량
Consumer = data_positive[data_positive['Segment'] == 'Consumer'][['Sub-Category','Quantity']].groupby(['Sub-Category'])['Quantity'].sum().reset_index()

# 기업 고객 하위 카테고리 품목별 구매 수량
Corporate = data_positive[data_positive['Segment'] == 'Corporate'][['Sub-Category','Quantity']].groupby(['Sub-Category'])['Quantity'].sum().reset_index()

segment_quantity = Sales_price.merge(Consumer, how='left', on='Sub-Category')
segment_quantity.rename(columns={"Quantity": "Consumer"}, inplace=True)

segment_quantity = segment_quantity.merge(Corporate, how='left', on='Sub-Category')
segment_quantity.rename(columns={"Quantity": "Corporate"}, inplace=True)

segment_quantity.sort_values(by='Sales',ascending=False)

Unnamed: 0,Sub-Category,Sales,Consumer,Corporate
6,Copiers,2198.941618,117,70
11,Machines,1644.822225,146,82
16,Tables,879.198155,236,150
5,Chairs,619.608076,788,456
4,Bookcases,561.405508,238,144
13,Phones,390.716088,1441,862
14,Storage,271.495673,1292,835
1,Appliances,261.071525,773,500
0,Accessories,228.68643,1376,810
15,Supplies,207.683834,307,162


In [49]:
# 일반 개인 고객의 구매 품목

Consumer = data_positive[data_positive['Segment'] == 'Consumer'][['Sub-Category','Quantity']].groupby(['Sub-Category'])['Quantity'].sum().reset_index()
Consumer = Consumer.sort_values(by=['Quantity'],ascending=True)
Consumer

Unnamed: 0,Sub-Category,Quantity
6,Copiers,117
11,Machines,146
16,Tables,236
4,Bookcases,238
15,Supplies,307
7,Envelopes,442
8,Fasteners,449
10,Labels,715
1,Appliances,773
5,Chairs,788


In [50]:
# 매출이 높은 상위 4개의 주

state = data_positive[(data_positive['State']=='California') | (data_positive['State']=='New York')|
                      (data_positive['State']=='Washington')| (data_positive['State']=='Michigan')]

state = state.groupby(['State','Segment'])['Total Sales'].count().reset_index()
state_count = state.groupby(['State'])['Total Sales'].sum()

state = state.merge(state_count, how='left',on='State')
state.rename(columns={"Total Sales_x": "count","Total Sales_y": "total_count" }, inplace=True)

# 상위 4개의 주에서의 일반 고객 비중
state['ratio'] = round(state['count'] / state['total_count'],2)
state_consumer = state[state['Segment']=='Consumer'].sort_values(by='ratio')
state_consumer

Unnamed: 0,State,Segment,count,total_count,ratio
0,California,Consumer,984,1890,0.52
3,Michigan,Consumer,131,254,0.52
9,Washington,Consumer,267,485,0.55
6,New York,Consumer,615,1080,0.57


In [51]:
# 일반 개인 고객 구매 품목
# 매출 상위 4개의 주에서의 일반 고객 비중 시각화

fig = make_subplots(
    rows=1,
    cols=2
)

fig.add_trace(go.Bar(name='일반 개인 고객 구매 품목(단위: 개)', y=Consumer['Sub-Category'],
                     x=Consumer['Quantity'], orientation='h', textposition='outside', text=Consumer['Quantity']), row=1, col=1)


fig.add_trace(go.Bar(name='매출 상위 4개 주 일반 개인 고객 비중', y=state_consumer['State'],
                     x=state_consumer['ratio'], orientation='h', textposition='outside', text=state_consumer['ratio']), row=1, col=2)

fig.update_layout(
    title=dict(
        text="일반 개인 고객 구매 품목 / 상위 4개 주 일반 고객 비중",
        x=0.5,
        xanchor="center",
        y=0.95,
        yanchor="top",
        font=dict(
            family="Arial",
            size=24,
            color="black"
        )
    ))
fig.show()

# Process 03 -  대시보드


## 매출/수익 현황
---

In [52]:
import plotly.graph_objects as go
from plotly.subplots import make_subplots

fig = make_subplots(
    rows=3,
    cols=2,
    specs=[[{"type": "table", "colspan": 2}, None],
           [{"type": "xy"}, {"type": "xy"}],
           [{"type": "xy"}, {"type": "table"}]],
    subplot_titles=("총 매출,이익(단위: 만 달러) / 이익률(%)", "상위 항목별 매출(단위: 만 달러)", "상위 항목별 이익률(%)","하위 항목별 매출(단위: 만 달러)","하위 항목별 이익률(%)"),
    vertical_spacing=0.1,
    row_heights=[0.2, 0.35, 0.35]
)


fig.add_trace(go.Table(
    header=dict(values=["항목", "금액"]),
    cells=dict(
        values=[
            ["총 매출액(단위:만 달러)", "총 이익(단위:만 달러)", "이익률(%)"],
            [round(data_positive['Total Sales'].sum() / 10000,2),
             round(data_positive['Total Profit'].sum()/10000,2),
             round((data_positive['Total Profit'].sum() / data_positive['Total Sales'].sum()) * 100,2)]
        ]
    )
), row=1, col=1)


fig.add_trace(go.Bar(name='상위 항목별 매출(단위: 만 달러)', x=gp_Category.index,
                     y=gp_Category['Total Sales'], textposition='inside', text=gp_Category['Total Sales']),
              row=2, col=1)


fig.add_trace(go.Bar(name='상위 항목별 이익률(%)', x=gp_Category.index,
                     y=gp_Category['OPM'], textposition='inside', text=gp_Category['OPM']),
              row=2, col=2)



avg_sales = gp_Subcategory['Total Sales'].mean()


fig.add_trace(go.Bar(name='하위 항목별 매출 매출(단위: 만 달러)', y=gp_Subcategory['Sub-Category'],
                     x=gp_Subcategory['Total Sales'], orientation='h', textposition='inside', text=gp_Subcategory['Total Sales']), row=3, col=1)
fig.add_shape(
    type="line",
    x0=avg_sales, x1=avg_sales,
    y0=-0.5, y1=len(gp_Subcategory),
    line=dict(color="red", width=2, dash="dash"),
    row=3, col=1
)

fig.add_annotation(
    x=avg_sales,
    y=-1.5,
    text="평균",
    font=dict(color="red", size=14, family="Arial"),
    textangle=90,
    xanchor="left",
    yanchor="middle",
    row=3, col=1
)

fig.add_trace(go.Table(
    header=dict(values=["상위항목","항목", "이익률"]),
    cells=dict(
        values=[
            gp_Subcategory.reset_index().sort_values(by='OPM',ascending=False)['Category'],
            gp_Subcategory.reset_index().sort_values(by='OPM',ascending=False)['Sub-Category'],  # 항목들
            gp_Subcategory.reset_index().sort_values(by='OPM',ascending=False)['OPM']
        ]
    )
), row=3, col=2)

fig.update_layout(
    height=900,  # 대시보드 높이
    title=dict(
        text="매출 / 수익 현황",
        x=0.5,
        xanchor="center",
        y=0.95,
        yanchor="top",
        font=dict(
            family="Arial",
            size=24,
            color="black"
        )
    ),
    legend=dict(
         orientation="h",
        yanchor="bottom",
        y=-0.2,
        xanchor="center",
        x=0.5
    ),
    margin=dict(t=100, b=50, l=50, r=50)  # 여백 조정
)

# 테이블을 그래프에 추가
# 그래프 보여주기
fig.show()

```
Technology 카테고리에서 가장 많은 매출이 발생하였고 Office Supplies, Funiture 순으로 매출이 많이 발생하였습니다.
이익률을 함께 살펴본 결과, Office Supplies 카테고리에서 가장 높은 이익률이 나타남에 따라 근소한 차이로 Office Supplies 카테고리에서 가장 높은 이익이 발생하였습니다.
Furniture 카테고리는 매출, 수익에서 모두 가장 낮은 모습을 보이고 있습니다.

하위 항목별 매출에서는 Phones, Chairs, Storage 순으로 높은 매출을 보이고 있습니다.
이익률에서는 Office Supplies 항목에 속한 Labels, Paper, Binders 순으로 높은 이익률을 보이고 있습니다.
```

In [53]:
fig = make_subplots(
    rows=2,
    cols=2,
    specs=[[{"type": "xy"}, {"type": "xy"}],
           [{"type": "xy"}, {"type": "table"}]],
    subplot_titles=("고객 유형별 매출(단위: 만 달러)", "주별 매출(단위: 만 달러)", "도시별 매출(단위: 만 달러)","도시별 매출(단위: 만 달러) 테이블"),
    vertical_spacing=0.1,
    row_heights=[0.3, 0.3]
)


fig.add_trace(go.Bar(name='고객 유형별 매출(단위: 만 달러)', x=gp_segment['Segment'],
                     y=gp_segment['Total Sales'], textposition='inside', text=gp_segment['Total Sales']),
              row=1, col=1)


fig.add_trace(go.Bar(name='주별 매출(단위: 만 달러)', y=gp_State.sort_values(by='Total Sales',ascending=True)['State'],
                     x=gp_State.sort_values(by='Total Sales',ascending=True)['Total Sales'],
                     orientation='h', textposition='inside', text=gp_State.sort_values(by='Total Sales',ascending=True)['Total Sales']), row=1, col=2)

fig.add_trace(go.Bar(name='도시별 매출(단위: 만 달러)', y=gp_city.sort_values(by='Total Sales',ascending=True)['City'],
                     x=gp_city.sort_values(by='Total Sales',ascending=True)['Total Sales'], orientation='h',
                     textposition='inside', text=gp_city.sort_values(by='Total Sales',ascending=True)['Total Sales']), row=2, col=1)

fig.add_trace(go.Table(
    header=dict(values=["주","도시", "매출"]),
    cells=dict(
        values=[
            gp_city.sort_values(by='Total Sales',ascending=False)['State'],
            gp_city.sort_values(by='Total Sales',ascending=False)['City'],
           gp_city.sort_values(by='Total Sales',ascending=False)['Total Sales']
        ]
    )
), row=2, col=2)

fig.update_layout(
    height=900,
    title=dict(
        text="매출 / 수익 현황",
        x=0.5,
        xanchor="center",
        y=0.95,
        yanchor="top",
        font=dict(
            family="Arial",
            size=24,
            color="black"
        )
    ),
    legend=dict(
         orientation="h",
        yanchor="bottom",
        y=-0.2,
        xanchor="center",
        x=0.5
    ),
    margin=dict(t=100, b=50, l=50, r=50)
)

fig.show()

```
고객 유형별 매출 분석 결과 매출은 Consumer, Corporate, Home Office 고객군 순으로 매출이 높게 나타났으며,
그 중 일반 개인 고객군(Consumer)에서 총 매출의 50%에 해당하는 매출이 발생하고 있습니다.

주 별 매출 분석 결과 Califonia, New York, Washington, Michigan 순으로 매출이 높게 나타났으며,
상위 4개의 주에서 총 매출의 50%에 해당하는 매출이 발생하고 있습니다.

도시 별 매출 분석 결과 New York City, Los Angeles, Seattle 순으로 매출이 높게 나타났으며,
상위 10개의 도시에서 총 매출의 44%에 해당하는 매출이 발생하고 있습니다.
```
```

## 반품 및 환불 / 취소 현황
---


In [54]:
fig = make_subplots(
    rows=2,
    cols=2,
    specs=[[{"type": "xy"}, {"type": "xy"}],
           [{"type": "xy"}, {"type": "xy"}]],
    subplot_titles=("상위 항목별 손실(단위: 만 달러)", "Funiture 하위 항목별 손실(단위: 만 달러)", "Tables(Funiture)에 대한 경로별 손실(단위: 만 달러)","Office Supplies 하위 항목별 손실(단위: 만 달러)"),
    vertical_spacing=0.1,
    row_heights=[0.3, 0.3]
)



fig.add_trace(go.Bar(name='상위 항목별 손실(단위: 만 달러)', x=negative_cat['Category'],
                     y=negative_cat['Profit Loss'], textposition='inside', text=negative_cat['Profit Loss']),
              row=1, col=1)


fig.add_trace(go.Bar(name='Funiture 하위 항목별 손실(단위: 만 달러)', y=negative_subcat.sort_values(by='Profit Loss',ascending=True)['Sub-Category'],
                     x=negative_subcat.sort_values(by='Profit Loss',ascending=True)['Profit Loss'],
                     orientation='h', textposition='inside', text=negative_subcat.sort_values(by='Profit Loss',ascending=True)['Profit Loss']), row=1, col=2)

fig.add_trace(go.Bar(name='Tables(Funiture)에 대한 경로별 손실(단위: 만 달러)', x=negative_tables_route['Route'],
                     y=negative_tables_route['Profit Loss'], textposition='inside', text=negative_tables_route['Profit Loss']),
              row=2, col=1)

fig.add_trace(go.Bar(name='Office Supplies 하위 항목별 손실(단위: 만 달러)', x=negative_subcat_os['Sub-Category'],
                     y=negative_subcat_os['Profit Loss'], textposition='inside', text=negative_subcat_os['Profit Loss']),
              row=2, col=2)

fig.update_layout(
    height=900,
    title=dict(
        text="반품 및 환불 / 취소 현황",
        x=0.5,
        xanchor="center",
        y=0.95,
        yanchor="top",
        font=dict(
            family="Arial",
            size=24,
            color="black"
        )
    ),
    legend=dict(
         orientation="h",
        yanchor="bottom",
        y=-0.2,
        xanchor="center",
        x=0.5
    ),
    margin=dict(t=100, b=50, l=50, r=100)
)

fig.show()

```
반품, 취소 등의 이유로 이익이 음수로 기록된 주문 건에 대한 분석을 진행한 결과,
Furniture, Office Supplies 순으로 손실이 발생하였습니다.

Furniture의 경우 운반 과정에서 파손 등으로 인한 반품 및 환불 처리가 발생 가능하기에 Furniture의 하위 항목과 운반 과정에 대한 추가 분석을 진행하였습니다.
Furniture의 하위 항목 중 Tables에서 가장 많은 손실이 발생한 것으로 나타났습니다.

Funiture - Tables의 운반 루트를 도시-주-지역으로 정의하고, 손실이 많이 나타나는 운반 루트에 대한 분석을 진행하였습니다.
그 결과, 위의 10개의 루트에서 Tables의 운반 루트에 대한 손실 중 50%에 해당하는 손실이 발생하였습니다.
고객 단순 변심으로 인한 환불일 수도 있지만, 가구의 경우 파손으로 인한 환불일 가능성도 있기에 위 루트에 대한 추가 분석이 필요할 것으로 보입니다.

또, 상위 항목 중 2번째로 손실이 높게 나타난 Office Supplies 항목에서는 Binders 제품에서 가장 높은 손실이 발생하였습니다.
Binders 제품에 대한 추가 분석 또한 필요할 것으로 생각되며, 해당 제품의 질 향상 등으로 손실을 줄일 수 있을 것이라 생각됩니다.
```



## 고객 유형별 UPT / ASP 및 일반 개인 고객 주요 구매 품목
---

In [55]:
fig = make_subplots(
    rows=2,
    cols=2,
    specs=[[{"type": "xy"}, {"type": "xy"}],
           [{"type": "xy"}, {"type": "xy"}]],
    subplot_titles=("고객 유형별 UPT", "고객 유형별 ASP", "일반 개인 고객 구매 품목","매출 상위 4개 주 일반 개인 고객 비중"),
    vertical_spacing=0.1,
    row_heights=[0.3, 0.3]
)

fig.add_trace(go.Bar(name='주문당 평균 구매 수량', y=segment['UPT'],
                     x=segment['Segment'], textposition='inside', text=segment['UPT']), row=1, col=1)


fig.add_trace(go.Bar(name='평균 가격', y=segment['ASP'],
                     x=segment['Segment'], textposition='inside', text=segment['ASP']), row=1, col=2)

fig.add_trace(go.Bar(name='일반 개인 고객 구매 품목(단위: 개)', y=Consumer['Sub-Category'],
                     x=Consumer['Quantity'], orientation='h', textposition='inside', text=Consumer['Quantity']), row=2, col=1)


fig.add_trace(go.Bar(name='매출 상위 4개 주 일반 개인 고객 비중', y=state_consumer['State'],
                     x=state_consumer['ratio'], orientation='h', textposition='inside', text=state_consumer['ratio']), row=2, col=2)




fig.update_layout(
    height=900,
    title=dict(
        text="고객 유형별 UPT / ASP 및 일반 개인 고객 주요 구매 품목",
        x=0.5,
        xanchor="center",
        y=0.95,
        yanchor="top",
        font=dict(
            family="Arial",
            size=24,
            color="black"
        )
    ),
    legend=dict(
         orientation="h",
        yanchor="bottom",
        y=-0.2,
        xanchor="center",
        x=0.5
    ),
    margin=dict(t=100, b=50, l=50, r=100)
)

fig.show()

```
일반 개인 고객(Consumer), 기업 고객(Corporate) 간의 주문당 평균 구매 수량(UPT)는 큰 차이가 나타나지 않으며,
평균 가격(ASP)에서는 기업 고객이 일반 개인 고객보다 비교적 높은 수치를 보이고 있습니다.
이러한 이유는 일반 개인 고객이 가격대가 낮은 Paper, Label, Art, Fasteners 품목에서 더 많은 구매를 하고 있기 때문이라고 생각됩니다.


마케팅 전략 제안)
- 총 매출의 50%에 해당하는 일반 개인 고객 중심의 마케팅
- 일반 고객의 비중이 절반 이상인 매출 상위 4개의 주에 대한 마케팅
- Office Supplies의 하위 항목 중 Binders 품목의 질 향상

  Binders 품목은 현재 Office Supplies 항목 중 가장 많은 반품 및 환불 / 취소가 발생하는 항목입니다.
  또한, 일반 개인 고객이 구매하는 품목 중 Binders 품목은 2위 품목에 해당합니다.
  따라서, 다소 가격이 향상되더라도 Binders 품목의 질을 향상시킨다면 일반 고객 외 다른 고객의 만족도를 높일 수 있음과 동시에
  일반 개인 고객의 평균 가격(ASP)을 높일 수 있을 것이라 생각됩니다.

- Offices Supplies

  일반 개인 고객의 구매 품목에서 Office Supplies에 속한 몇 개의 품목들이 상위권에 위치하고 있습니다.
  그러나 같은 Office Supplies에 속하는 Supplies 품목은 하위권에 위치하고 있습니다.
  Office Supplies 항목 내 품목들에 대한 세트 판매를 진행한다면  
  일반 개인 고객(Consumer)의 주문당 평균 구매 수량(UPT)을 높일 수 있을 것이라 생각됩니다.


```

# 배운 점과 느낀 점
---

- 배운 점

  매출 / 수익과 관련된 지표가 정말 많았고, 분석하려는 목적과 맞는 지표를 찾고 적절히 활용하는 것이 정말 중요하다는 생각이 들었습니다. 객단가(AOV)에서 또 세부적으로 지표를 나눌 수 있고, 그에 따라 마케팅 전략 등이 달라질 수 있음을 배웠습니다.

- 느낀 점

  먼저, 데이터에서 Sales와 Profit이 이미 집계된 결과인지 혹은 수량과 곱해서 다시 Total Sales와 Total Profit을 구해야 하는 건지에 대한 부분이 헷갈리고 어려웠던 것 같습니다. 지표 같은 경우에는 이렇게 활용하는 것이 맞는지, 불필요한 지표 사용으로 분석을 흐리게 하고 있는 것은 아닌지와 같은 생각이 들었고,  앞으로 지표를 공부할 때는 언제 어디서 적절히 사용할 수 있을까에 대한 더 많은 고민을 해야겠다고 느꼈던 것 같습니다.


- 멘토님께 드리는 질문

  1. 일반적으로 데이터 내에 Sales와 Profit이 있다면, 일반적으로 이미 집계된 결과인지 궁금합니다.
  2. Profit이라고 되어 있다면, 보통 매출에서 매출 원가를 제외한 금액인지 혹은 매출 원가와 영업 비용을 제외한 금액인지 궁금합니다.
  3. 저는 profit을 이익률로 나타내어 분석을 진행하였는데, 비율이 아닌 매출과 같이 달러로 나타내는 것이 더 적절한지 궁금합니다.
  4. 매출 / 이익이 더디게 증가는 것이 프로젝트의 문제였는데, 이러한 경우에 반품 및 환불 / 취소 건에 대해서 추가적 분석을 실제로 진행하는지 궁금합니다.