### 라이브러리 호출

In [1]:
import pandas as pd
import numpy as np

### 데이터 호출

In [2]:
# 상위 폴더로 이동 후 data 폴더로 이동
path = '../data/'

In [3]:
# 데이터 호출
df = pd.read_csv(path + 'Sales data/Data.csv')

### 데이터 변수 생성 및 정렬

In [4]:
# 연도, 월 변수 생성
df['year'] = df['OrderDate'].str.slice(start = 0, stop = 4)
df['month'] = df['OrderDate'].str.slice(start = 5, stop = 7)
# 데이터 정렬
df = df.sort_values(by = ['Region','Channel','Category','Item Type','year','month','Gender'])

### 데이터 구조 파악

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 27657 entries, 3864 to 18422
Data columns (total 21 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   OrderID    27657 non-null  int64  
 1   OrderDate  27657 non-null  object 
 2   Gender     27657 non-null  object 
 3   AgeGroup   27657 non-null  object 
 4   Channel    27657 non-null  object 
 5   ShipDate   19163 non-null  object 
 6   ItemCode   27657 non-null  object 
 7   MapCode    27657 non-null  int64  
 8   Quantity   27657 non-null  int64  
 9   Revenue    27657 non-null  float64
 10  Cost       27657 non-null  float64
 11  Category   27657 non-null  object 
 12  Item Type  27657 non-null  object 
 13  Region     27657 non-null  object 
 14  Country    27657 non-null  object 
 15  Code2      27657 non-null  object 
 16  Code3      27657 non-null  object 
 17  Latitude   27657 non-null  float64
 18  Longitude  27657 non-null  float64
 19  year       27657 non-null  object 
 20  mon

#### 소수점 출력 설정

In [6]:
# display 옵션을 이용하여 실수(소수점 2자리) 설정 - 지수표현식 해제
pd.options.display.float_format = '{:.2f}'.format

### 시각화를 위한 데이터 가공

In [7]:
# 2020년도 이익 변수 생성
d20 = df[df['year'] == '2020'].copy()
d20['Margin'] = d20['Revenue'] - d20['Cost']

In [8]:
# Country 별 매출 및 이익 합계 산출
df_g = d20.loc[:,['Country','Revenue','Margin']].groupby(by = ['Country'], as_index = False).sum()
df_g = df_g.sort_values(by = ['Revenue'], ascending=False)

In [9]:
# 매출 순위 변수 (rank) 생성 후, 매출 상위 10개 Country 추출
df_g['rank'] = list(range(1, len(df_g['Country'])+1))
df_g1 = df_g[df_g['rank'] <= 10].reset_index(drop = True)
df_g1

Unnamed: 0,Country,Revenue,Margin,rank
0,China,35419012.93,11433231.09,1
1,United States of America,30921686.0,10058265.87,2
2,Australia,17937580.1,5998658.34,3
3,Canada,12659751.7,3981548.49,4
4,Japan,11144287.4,3429964.29,5
5,Russia,10409143.0,3230082.9,6
6,Sweden,9347376.63,3072071.39,7
7,South Korea,9333921.7,3062749.61,8
8,Spain,9294640.6,3052992.63,9
9,Iceland,8828988.9,3032787.99,10


In [None]:
# https://plotly.com/python/bar-charts/

In [10]:
import plotly.graph_objects as go

In [17]:
trace = go.Bar(x = df_g1['Country'], # x축 - 국가별
               y = df_g1['Revenue'], # y축 - 매출액
               text = round(df_g1['Revenue'],2), # text 내용(소수점 2자리 반올림)
              )
data = [trace] # data 객체에 리스트로 저장
layout = go.Layout(title = 'Chapter 2.1 - Bar Chart', width=1000, height=600) # 제목 지정
fig = go.Figure(data, layout)
fig.show()

# 참고) 입력방식 비교

### Data 객체 입력 방식1. add_trace( ) 함수 이용

In [None]:
fig = go.Figure()
fig.add_trace(go.Bar(x = df_g1['Country'], # x축
                     y = df_g1['Revenue'], # y축
                     text = df_g1['Revenue'], # 값
                    ))
fig.update_layout(title = 'Chapter 2.1 - Bar Chart')
fig.show()

### Data 객체 입력 방식2. Figure( )에 직접적으로 data 객체를 정의 

In [None]:
fig = go.Figure(data=[
    go.Bar(x = df_g1['Country'], # x축
           y = df_g1['Revenue'], # y축
           text = round(df_g1['Revenue'],2), # 값
          )
])
fig.update_layout(title = 'Chapter 2.1 - Bar Chart')
fig.show()

### Data 객체 입력 방식3. data 객체를 정의한 뒤 Figure( )에 입력 

In [14]:
trace = go.Bar(x = df_g1['Country'], # x축
               y = df_g1['Revenue'], # y축
               text = round(df_g1['Revenue'],2), # 값
              )
data = [trace] # data 객체에 리스트로 저장
layout = go.Layout(title = 'Chapter 2.1 - Bar Chart') # 제목 지정
fig = go.Figure(data, layout)
fig.show()

# 참고) 그래프 중첩 입력방법 비교

### Data 객체 입력 방식1.

In [None]:
fig = go.Figure()
fig.add_trace(go.Bar(y = df_g1['Country'], # y축
                     x = df_g1['Revenue'], # x축
                     name = 'Revenues',
                     orientation = 'h'
                    ))
fig.add_trace(go.Bar(y = df_g1['Country'], # y축
                     x = df_g1['Margin'], # x축
                     name = 'Margins',
                     orientation = 'h'
                    ))
# Change the bar mode
fig.update_layout(title = 'Chapter 2.1 - Bar Chart', 
                  barmode = 'group',
                  yaxis = dict(autorange='reversed'))
fig.show()

### Data 객체 입력 방식2.

In [None]:
fig = go.Figure(data = [
    go.Bar(y = df_g1['Country'], # y축
           x = df_g1['Revenue'], # x축
           name = 'Revenues',
           orientation = 'h'
          ),
    go.Bar(y = df_g1['Country'], # y축
           x = df_g1['Margin'], # x축
           name = 'Margins',
           orientation = 'h'
          )
])
# Change the bar mode
fig.update_layout(title = 'Chapter 2.1 - Bar Chart', 
                  barmode = 'group',
                  yaxis = dict(autorange='reversed')) 
fig.show()

### Data 객체 입력 방식3.

In [15]:
trace1 = go.Bar(y = df_g1['Country'], # y축
                x = df_g1['Revenue'], # x축
                name = 'Revenues',
                orientation = 'h'
               )
trace2 = go.Bar(y = df_g1['Country'], # y축
                x = df_g1['Margin'], # x축
                name = 'Margins',
                orientation = 'h'
               )
data = [trace1, trace2]
# Change the bar mode
layout = go.Layout(title = 'Chapter 2.1 - Bar Chart', 
                   barmode = 'group',
                   yaxis = dict(autorange='reversed'),
#                    yaxis = {'autorange':'reversed'}
                  )
fig = go.Figure(data, layout)
fig.show()