# 라이브러리 임포트

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

plt.rcParams['font.family'] = ['NanumBarunGothic', 'Malgun Gothic', 'AppleGothic']  # 한글 출력을 위한 글꼴 설정
plt.rcParams['axes.unicode_minus'] = False    # 문자 - (마이너스) 정상 출력을 위한 코드

# 데이터 불러오기

In [None]:
rawdata_df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/DataVisualization_python/data/CONFIDENTIAL.TV_shipment_20210716.csv', index_col=0)

In [None]:
rawdata_df

# 데이터 전처리

In [None]:
shipment_graph_df = rawdata_df.drop(index='Total')
shipment_graph_df

# 문제1

원래의 데이터에서 각 연도별로 각 지역별 판매량을 파악하고자 한다. 어떤 그래프가 시각적으로 가장 표현이 잘 되는가? 다양한 파라메터를 적용하여 시각화하시오.

In [None]:
shipment_graph_df.columns

In [None]:
shipment_graph_df.index

In [None]:
shipment_graph_df['2016']['Japan']

## 연도별 지역 판매량

In [None]:
figure, ax_list_list = plt.subplots(nrows=4, ncols=2);
figure.set_size_inches(20,20)

ax_list = ax_list_list.reshape(8)
cols = shipment_graph_df.columns #데이터프레임의 행(columns)을 cols에 assign

for i in range(len(cols)): #for문으로 그래프 반복 제작 #행의 개수만큼 반복
    col = cols[i] #col에다가 cols의 [i]를 assign
    g = sns.barplot(data=shipment_graph_df, x=shipment_graph_df.index, y=shipment_graph_df[col], ax=ax_list[i])
    g.set_title(col) 
    g.set_xticklabels(g.get_xticklabels(), rotation=45) #x축 라벨 비틀기
    g.set_ylim(0, 60000)
    # 막대그래프 색상 변경
    
plt.tight_layout()

## treemap

In [None]:
pip install squarify

In [None]:
import squarify 

In [None]:
shipment_graph_df['2016']

In [None]:
shipment_graph_df.index

In [None]:
regions = ['Japan', 'North America', 'Western Europe', 'Eastern Europe', 'China',
       'Asia & Oceania', 'Latin America\n& the Caribbean',
       '      Middle East\n&      Africa']
squarify.plot(shipment_graph_df['2016'], label=regions,alpha=0.5)
#plt.figure(figsize=(10,20))
plt.show()

# 문제2

shipment_graph_df에서 각 데이터는 소숫점 이하를 포함하는 실수로 표현되어 있으므로 각 데이터 값을 정수로 변환하여 “shipment_graph_df_int”라는 이름으로 저장하고, 각 지역별로 연도별 판매량을 누적 bar chart로 표현하고 파라미터를 추가하여 시각화하시오.

In [None]:
shipment_graph_df

In [None]:
# dataframe의 astype(자료형) 함수 사용
# 데이터 프레임의 소숫점 이하를 포함하는 실수를 정수로 변환한다
shipment_graph_df.astype(int)

In [None]:
# 변환된 데이터를 새로운 이름의 데이터 프레임에 저장
# 이제부터 이 데이터 프레임을 활용한다
shipment_graph_df_int = shipment_graph_df.astype(int)

In [None]:
# 수직 막대 그래프를 그린다
# x축은 총 sales
# y축은 지역
# 막대 그래프는 연도별 누적량을 보여준다
#x= [1, 2, 3, 4, 5, 6]
#y= [44793,353903,240664,128010,411357,288226,193092,105363]
chart=shipment_graph_df_int.plot.barh(stacked=True, cmap='cool', figsize=(13,6)) #색입히기
plt.xlabel("region")
plt.ylabel("sales")
plt.xticks(rotation=45)
plt.title("Cumulative sales by region", fontsize='15')
plt.legend(title='year', bbox_to_anchor=(1.0,1.0,0.25,0.25))
plt.text(44793+10000,-0.1,44793) #노가다로 수치 입력한듯
plt.text(353903+10000,1,353903)
plt.text(240664+10000,2,240664)
plt.text(128010+10000,3,128010)
plt.text(288226+10000,5,288226)
plt.text(193092+10000,6,193092)
plt.text(105363+10000,7,105363)

#문제3

##감소량 비교

**문제 3번 접근 방법**


코로나의 영향으로 TV 판매량이 감소했을 것 같다. 연도별 TV 판매량의 감소율을 시각화해서 2020년 기점으로 TV 판매량의 감소율을 관찰해본다. 아마 2020년을 기점으로 감소율이 증가한 지역이 많을 것이라고 추측하였다.

In [None]:
# 데이터 프레임을 인덱스 기준으로 역으로 뒤집는다
# 2016년, 2017년, ... , 2023E 순서가
# 2023E, 2022E, ... , 2016년으로 바뀌었다
reversed_df = shipment_graph_df.T.iloc[::-1]
reversed_df

In [None]:
# 각 연도별로 차이(절대량)를 구한다
# 양수이면 감소한 것이고, 음수이면 증가한 것이다
reversed_df.diff()

In [None]:
# 각 연도별로 감소율(%)을 구한다
# 양수이면 감소한 것이고, 음수이면 증가한 것이다
reversed_df.pct_change()

In [None]:
# 각 연도별 감소율의 변화를 그린다
# 그런데 x축을 보면 연도가 최신순으로 되어있다
# x축을 역순으로 정렬해 감소율을 시간순으로 살펴보자
reversed_df.pct_change().plot(figsize=(14,7), kind='bar');

In [None]:
# 역순으로 뒤집기 위해 기존 변화율 데이터에 [::-1]를 붙였다
# 다시 그래프를 그려서 감소율 변화를 관찰해보자
reversed_df.pct_change()[::-1].plot(figsize=(14,7), kind='bar');

코로나로 인한 영향이 2020년부터 시작되었을 것이다. 2019년 이전에 비해 2020년부터 감소율이 증가한 지역들이 많아졌으며, 반대로 증가율은 줄어들었다. 코로나로 인해 매출에 악영향이 있었음을 알 수 있다. 2021년에는 감소율이 더 증가하는 것을 보아 코로나로 인한 영향이 2021년에도 있음을 알 수 있다. 반면 2022년에는 감소율이 이전보다 감소한 지역들이 여러 곳 있다. 이를 보아 코로나로 인한 매출의 악영향이 2022년에 감소할 것으로 보인다. 코로나의 영향이 감소할 것을 기대해볼 수 있다.

In [None]:
shipment_graph_df

## 대륙별 총량

In [None]:
regionsByContinent = {'Europe':['Western Europe','Eastern Europe'], 'North Asia':['Japan','China'], 'America':['North America','Latin America & the Caribbean'],
             'Asia & Oceania':['Asia & Oceania'], 'Middle East & Africa':['Middle East & Africa']}

In [None]:
years = shipment_graph_df.columns
years

In [None]:
regions = shipment_graph_df.index
regions

In [None]:
amountByContient = {}
amount=0
for continent in regionsByContinent:
  for region in regionsByContinent[continent]:
    amount=0
    for year in years:
      amount += shipment_graph_df[year][region]
  amountByContient[continent] = amount

for i in amountByContient:
  print(amountByContient[i])

In [None]:
amountByContient

In [None]:
df = pd.DataFrame(amountByContient, index=[0])
df

대륙의 크기가 가장 큰 아메리카의 총량이 많지 않을까 생각했으나, 실제 대륙별로 총량을 구해보니 북아시아가 가장 많았다. 중국의 구매량이 아주 센 것을 확인할 수 있다.

In [None]:
sns.barplot(data=df)