## [EI-DA 전자산업 데이터분석]  TV Shipment Analysis

**<div style="text-align: right">Update date: June 1, 2023.</div>**
**<div style="text-align: right">Copyright(c) 2018-2023 Youngmin Park All rights reserved.</div>**

**"CONFIDENTIAL.TV_shipment_20210716.csv" : 지역별 TV 선적 실적에 대한 데이터**

## 라이브러리 임포트

In [1]:
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

plt.rcParams['font.family'] = ['NanumBarunGothic', 'Malgun Gothic', 'AppleGothic']  # 한글 출력을 위한 글꼴 설정
plt.rcParams['axes.unicode_minus'] = False    # 문자 - (마이너스) 정상 출력을 위한 코드

## 데이터 불러오기 

In [3]:
# from google.colab import drive
# drive.mount('/content/drive')

In [5]:
rawdata_df = pd.read_csv('/data/CONFIDENTIAL.TV_shipment_20210716.csv', index_col=0)

FileNotFoundError: [Errno 2] No such file or directory: '/data/CONFIDENTIAL.TV_shipment_20210716.csv'

In [None]:
rawdata_df

## EDA 탐색적 데이터 분석 수행하기

In [None]:
# 데이터의 형태
rawdata_df.shape

In [None]:
# 데이터 컬럼 정보
rawdata_df.info()

In [None]:
# 데이터 통계 정보
rawdata_df.describe()

## 데이터 시각화 해보기

우선 Pie Chart를 빠르게 하나 그려봅니다

In [None]:
rawdata_df['2016'].plot(figsize=(12,6), kind='pie');

Total이 포함되어 있어, 그래프가 왜곡됩니다.  
Total을 제거한 후, 그래프를 그려야 의도대로 점유율을 볼 수 있습니다.

In [None]:
# .drop 함수를 이용하여 index 혹은 column을 제거할 수 있습니다.
# 제거할 대상으로 인덱스를 하나 넣어주어도 되고, 리스트로 여러개를 넣을 수 있습니다.
rawdata_df.drop(index=['Japan', 'Total'])

In [None]:
# Total 행을 제거한 dataframe을 새로 할당
shipment_graph_df = rawdata_df.drop(index='Total')
shipment_graph_df

Total이 제거된 graph df로 차트를 다시 그려봅니다

In [None]:
shipment_graph_df['2016'].plot(figsize=(12,6), kind='pie');

In [None]:
# 정렬이 되어있으면 좋겠습니다. sort_values()를 사용합니다.
shipment_graph_df['2016'].sort_values(ascending=False).plot(figsize=(12,6), kind='pie', autopct='%.2f %%');
plt.title('2016 TV Shipment')
plt.show()

Pie 그래프를 그리는 부분을 함수화 해봅니다

In [None]:
def draw_yearly_pie_chart(shipment_graph_df, column_name='2016'):
    shipment_graph_df[column_name].sort_values(ascending=False).plot(figsize=(12,6), kind='pie', autopct='%.2f %%');
    plt.title(f'{column_name} TV Shipment')
    plt.show()

만든 함수를 이용하여 그래프를 쉽게 그려봅시다.

In [None]:
# 2016
draw_yearly_pie_chart(shipment_graph_df, '2016')

In [None]:
# 2018
draw_yearly_pie_chart(shipment_graph_df, '2018')

In [None]:
# 2022E
draw_yearly_pie_chart(shipment_graph_df, '2022E')

시계열로 년도에 따라 변화하는 것을 보기 위해 다른 그래프를 그려봅니다

In [None]:
shipment_graph_df.plot(figsize=(14,7));

우리가 원하는 그래프는 년도에 따른 shipment 그래프이므로, DataFrame의 모양을 반전하여야 합니다.

```.T``` 코드를 통해 행렬을 뒤집을 수 있습니다. (Transpose)

In [None]:
shipment_graph_df

In [None]:
shipment_graph_df_T = shipment_graph_df.T
shipment_graph_df_T

.T를 통해 시계열이 인덱스축으로 오게 만든 shipment_graph_df_T로 다시 plot해봅시다

In [None]:
shipment_graph_df_T.plot(figsize=(14,7));
plt.title('Yearly TV shipment')
plt.show()

누적 값으로 Area Plot을 그려봅시다

In [None]:
shipment_graph_df_T.plot(figsize=(14,7), kind='area');
plt.title('Yearly TV shipment (Stacked Area)')
plt.show()

## 데이터 분석 해보기

데이터 분석을 본격적으로 진행해보겠습니다.  
데이터 분석에서는 기존의 데이터를 가공하여 새로운 관찰을 하고는 합니다.  
각 지역의 시장 성장을 비교하기 위해 시계열 수치들을 첫 년도의 수치로 나누어봅니다.

In [None]:
shipment_graph_df_T / shipment_graph_df_T.loc['2016']

첫 년도 (2016) 대비 선적 수치의 비율 (성장률)을 그려봅니다

In [None]:
(shipment_graph_df_T / shipment_graph_df_T.loc['2016']).plot(figsize=(14,7));
plt.title("TV Shipment Market Size to 2016's")
plt.show()

2016년도의 수치를 1로 하여, 각 시장별로 어떠한 성장 그래프를 그려왔는지 볼 수 있습니다.  
- 2021년까지 가장 큰 성장을 보여준 시장은 Japan 입니다.  (2016년 대비 +30% 이상)
- 반면, 2021년까지 가장 크게 역성장한 시장은 China 입니다.  (2016년 대비 -20% 이하)

이번에는 각 년도별 Shipment의 변화량을 살펴보겠습니다.  
```.diff()``` 함수로 row와 직전 row의 차이 값을 구할 수 있습니다.

In [None]:
shipment_graph_df_T

In [None]:
shipment_graph_df_T.diff()

diff를 년도별 막대그래프로 그려봅시다

In [None]:
shipment_graph_df_T.diff().plot(figsize=(14,6), kind='bar');
plt.title('yearly regional diff of shipment');

In [None]:
shipment_graph_df_T.diff().plot(figsize=(14,14), kind='barh');

- 2020년에 North America에서 엄청난 수요 폭증이 있었습니다.
- 반면 North America 에서 2021E 및 2022E에 크게 수요가 감소할 것으로 예측됩니다.
- 이는 어느정도 수요를 '땡겨 쓴'것으로 추측해볼 수 있습니다.
- TV는 교체 후 최소 몇년 간은 사용하는 경향이 있을 것이기 때문입니다.

마지막으로 ```.pct_change()``` 함수를 이용하여 절대 수치의 차이가 아닌, 직전 년도 대비 성장률을 보겠습니다

In [None]:
shipment_graph_df_T

In [None]:
shipment_graph_df_T.pct_change()

In [None]:
shipment_graph_df_T.pct_change().plot(figsize=(14,7), kind='bar');

차이의 절대 값이 아닌 비율 값으로 성장률로 본 경우, 성장률을 %로 비교할 수 있습니다.