## 빅데이터 실습

### COVID19, 코로나 바이러스의 영향으로 중국인 관광객수 감소 분석



In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

In [None]:
from matplotlib import rcParams, font_manager, rc

font_path = 'C:/Windows/Fonts/malgun.ttf'
font = font_manager.FontProperties(fname=font_path).get_name()
rc('font',family=font)
rcParams['axes.unicode_minus'] = False

In [None]:
df_total = pd.read_excel('../day03/data/kto_total.xlsx')


In [None]:
condition = df_total['국적'] == '중국'

In [None]:
df_china = df_total[condition]
df_china.reset_index(inplace=True)
df_china

In [None]:
day1 = [f'{i}-01' for i in range(2010,2021)]

In [None]:
plt.figure(figsize=(12,4))
plt.plot(df_china['기준년월'],df_china['관광'],label = '중국 관광객', color ='b', marker='*')
plt.title('중국 관광객 추이(2010-01~2020-05)')
plt.xlabel('기준년월')
plt.ylabel('관광객수')
plt.legend(loc='upper left')
plt.xticks(day1)
plt.show()


### 관광객수 top5 나라 시각화

In [None]:
con = ['중국','일본','대만','미국','홍콩']

In [None]:
for con in ['중국','일본','대만','미국','홍콩']:
    condition = df_total['국적'] == con
    df_filter = df_total[condition]

    plt.figure(figsize=(18,5))
    plt.plot(df_filter['기준년월'],df_filter['관광'],label = f'{con}관광객', color ='b', marker='o')
    plt.title(f'{con} 관광객 추이(2010-01~2020-05)')
    plt.xlabel('기준년월')
    plt.ylabel('관광객수')
    plt.legend(loc='upper left')
    plt.xticks(day1)
    plt.show()

In [None]:
import warnings
warnings.filterwarnings("ignore")

In [None]:
# 관광객수 TOP 5
var2 = df_total.sort_values(by='관광', ascending= False)
var2.drop_duplicates(['국적']).head(5)
# .drop_duplicates(['']) 인덱스 중복 제외

In [None]:
plt.figure(figsize=(18,5))
for con in ['중국','일본','대만','미국','홍콩']:
    condition = df_total['국적'] == con
    df_filter = df_total[condition]

    
    plt.plot(df_filter['기준년월'],df_filter['관광'],label = f'{con}관광객', marker='o')
    plt.xlabel('기준년월')
    plt.ylabel('관광객수')
    plt.legend(loc='upper left')
    plt.xticks(day1)
    
plt.gca().set_yticklabels([f'{x:,.0f}'for x in plt.gca().get_yticks()])
plt.title(f'TOP 5 국가별 관광객 추이(2010-01 ~ 2020-01)')
plt.show()

### 히트맵

년도와 월을 하나의 컬럼에서 분리

In [None]:
## 년도, 월 분리
df_total['년도'] = df_total['기준년월'].str.slice(0,4)
df_total['월'] = df_total['기준년월'].str.slice(5,7)
df_total.drop(labels='기준년월',axis=1)

In [None]:
condition = df_total['국적'] == '중국'
df_china = df_total[condition]

In [None]:
# 피벗테이블로 구성
df_chinaPivot = df_china.pivot_table(values=['관광'],index=['년도'], columns=['월'], aggfunc='sum')

In [None]:
# 히트맵
plt.figure(figsize=(12,5))
ax = sns.heatmap(df_chinaPivot, annot=True, fmt='.0f',cmap='BrBG')
plt.title('중국 관광객 히트맵')

for t in ax.texts:  # 1000 단위마다 쉼표
    t.set_text(f'{int(t.get_text()):,d}')   
plt.show()

In [None]:
for con in ['중국','일본','대만','미국','홍콩']:
    condition = df_total['국적'] == con
    df_filter = df_total[condition]

    plt.figure(figsize=(18,5))
    df_pivoit = df_filter.pivot_table(values='관광', index='년도', columns='월',aggfunc='sum')

    ax=sns.heatmap(df_pivoit, annot=True, fmt='.0f', cmap='Greens')
    plt.title(f'{con} 관광객 히트맵')

    for t in ax.texts:
        t.set_text(f'{int(t.get_text()):,d}')

plt.show()

##### 시각화 차트, 히트맵으로 분석

- 2010년 이후로 꾸준히 증가
- 2017년 초 큰폭으로 감소
- 여름에 관광객이 몰림, 하지만 2015년 관광객 크게 감소
- 2020년 초 관광객 0에 가깝게 떨어짐

##### 이벤트 발생이유 검색
- 2015년 메르스 관광객 감소
- 2016년 중국인방문의해 크게 증가
- 2017년 사드보복 중국인 관광객 크게 감소
- 2020년 코로나 창궐 > 모든나라 동일 관광객 감소