<a href="https://colab.research.google.com/github/solee328/RiseAndFall_EDA/blob/main/COVID19_Small_Business_EDA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# COVID19_Small_Business_EDA.ipynb
Description   : 코로나19로 인한 소상공인 점포 흥망성쇠 분석<br>
Date : 2021.04.06 ~ 2021.04.09<br>
Author : 곽희원, 김아현, 박민춘, 이현지, 최디도 

#1. 도입
지금 전 세계는 코로나19가 세계적으로 펜데믹 상태에 빠져 손씻기, 기침, 사회적 거리두기 등의 방법을 통해 헤쳐나가고 있습니다. 그중 사회 전반에 걸쳐 지지대 역할을 하고 있는 소상공인은 코로나 19 영향으로 폐업과 업종 축소를 하고 있다는 것은 뉴스에서 심심치않게 확인할 수 있는 이슈입니다.<br>
<br>
2020년 4월 9일 소상공인연합회가 전국 소상공 업체 1392개사를 토대로 실시한 조사 결과 99.5%인 1385개사는 코로나 19사태가 6개월 지속될 경우 경영 상황이 악화될 것이라고 답했습니다. 73%인 997개 소상공 업체들은 6개월 뒤에도 지금의 사태가 지속되면 폐업을 면치 못할 것이라고 답했습니다.<br>
<br>
본 사안에 대해 '흥망성쇠'팀은 코로나19로 인한 확진자 현황, 정책, 사회 전반에 걸친 이동 자료, 배달앱 사용 횟수 자료 등을 분석하여 실제 폐업과 코로나가 영향을 주었는지, 앞으로 어떤 방향으로 시장이 변할지 분석해보기로 했습니다.

In [None]:
from google.colab import drive
drive.mount('/content/drive/')

Drive already mounted at /content/drive/; to attempt to forcibly remount, call drive.mount("/content/drive/", force_remount=True).


In [None]:
# 필요 라이브러리 로드
import matplotlib.pyplot as plt
import matplotlib.dates as dt
import seaborn as sns
import pandas as pd
import numpy as np
import missingno as msno
from datetime import datetime
from matplotlib import rcParams
import plotly.io as pio
import plotly.express as px
import plotly.graph_objects as go
from datetime import datetime, timedelta, date

# 2. 거리두기 효과 분석

## 2.1. 코로나19 현황  
코로나19가 점차 유행함에 따라 정부는 국내에서의 관련 확진, 격리해제, 사망 수에 대해 촉각을 곤두세우고 있습니다. 따라서 매일 업데이트 되는 해당 데이터를 분석하고자 하였으며, 시각화를 통해 우리나라에 코로나19 대유행 시기가 언제였는지, 이후에 진행된 정부의 방역 정책에 의해 효과가 있었는지 확인하고자 합니다.

In [None]:
# DAYCON TIme 데이터 로드
time = pd.read_csv('/content/Time.csv')

In [None]:
time.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102 entries, 0 to 101
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   date       102 non-null    object
 1   time       102 non-null    int64 
 2   test       102 non-null    int64 
 3   negative   102 non-null    int64 
 4   confirmed  102 non-null    int64 
 5   released   102 non-null    int64 
 6   deceased   102 non-null    int64 
dtypes: int64(6), object(1)
memory usage: 5.7+ KB


위의 'Time.csv' 파일의 정보에 따르면 약 100개의 데이터, 즉 약 3달간의 데이터를 보유하고 있음을 확인할 수 있습니다. 저희 팀에서는 보다 큰 범위의 최신화된 코로나19의 현황을 살펴보고자 kaggle의 **Real-time Covid 19 Data** 데이터 셋을 확보해 이를 분석하기로 하였습니다.


In [None]:
# Kaggle 'Real-time Covid 19 Data' 데이터 로드
time_series = pd.read_csv('/content/time-series-19-covid-KR.csv')

In [None]:
# 전부 한국에 관한 데이터이므로, 국가 관련 열을 삭제
time_series = time_series.drop('Country/Region',axis = 1)

In [None]:
time_series.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 439 entries, 0 to 438
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Date       345 non-null    object 
 1   Confirmed  345 non-null    float64
 2   Recovered  345 non-null    float64
 3   Deaths     345 non-null    float64
dtypes: float64(3), object(1)
memory usage: 13.8+ KB


In [None]:
# 확진자를 기준으로 회복율 / 사망율 추가
time_series_ratio = time_series.assign(RatioOfRecovered = lambda x :(x['Recovered']/x['Confirmed'])*100,
                          RatioOfDeaths = lambda x :(x['Deaths']/x['Confirmed'])*100)
print(time_series_ratio.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 439 entries, 0 to 438
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Date              345 non-null    object 
 1   Confirmed         345 non-null    float64
 2   Recovered         345 non-null    float64
 3   Deaths            345 non-null    float64
 4   RatioOfRecovered  345 non-null    float64
 5   RatioOfDeaths     345 non-null    float64
dtypes: float64(5), object(1)
memory usage: 20.7+ KB
None


In [None]:
# 회복율에 관한 그래프
fig = go.Figure()
fig.add_trace(go.Scatter(x = time_series_ratio['Date'],y = time_series_ratio['RatioOfRecovered'],mode = 'lines', name = 'Ratio of Recovered'))
fig.update_layout(title = '<b>확진자 대비 회복 비율<b>',title_x = 0.5,xaxis_title = '연간 날짜',yaxis_title = '비율(%)')

fig.show()

확진자 대비 회복율에 대한 그래프입니다.  
위의 그래프로 보아, 20년 2월 말, 20년 9월 초, 20년 12월 부분에서 큰 폭으로 감소했음을 확인할 수 있습니다.  
이는 우리나라에서 발생한 대유행시기와 일치하고 있음을 알 수 있습니다.

In [None]:
# 사망율에 관한 그래프
fig = go.Figure()
fig.add_trace(go.Scatter(x = time_series_ratio['Date'],y = time_series_ratio['RatioOfDeaths'],mode = 'lines', name = 'Ratio of Recovered'))
fig.update_layout(title = '<b>확진자 대비 사망 비율<b>',title_x = 0.5,xaxis_title = '연간 날짜',yaxis_title = '비율(%)')

fig.show()

확진자 대비 사망율에 대한 그래프로, 위와 동일한 시기에서 큰 폭으로 변화하고 있음을 확인할 수 있습니다. 다만 이 경우 감소하고 있음을 보이고 있는데, 이는 확진자가 급격히 증가했기 때문에 일어난 현상이라고 분석할 수 있겠습니다.

## 2.2 **거리두기 정책 데이터**

 거리두기 정책 데이터를 사용하기 위해 DACON의 Policy.csv 파일을 판다스를 이용하여 불러왔습니다.

In [None]:
# Policy data 호출
policy = pd.read_csv('/content/Policy.csv')

In [None]:
# Policy data shape 확인
print(policy.shape, len(policy.policy_id.unique())) 

(48, 7) 48


In [None]:
# Policy data의 INdex 값 확인
policy.head()

Unnamed: 0,policy_id,country,type,gov_policy,detail,start_date,end_date
0,1,Korea,Alert,Infectious Disease Alert Level,Level 1 (Blue),2020-01-03,2020-01-19
1,2,Korea,Alert,Infectious Disease Alert Level,Level 2 (Yellow),2020-01-20,2020-01-27
2,3,Korea,Alert,Infectious Disease Alert Level,Level 3 (Orange),2020-01-28,2020-02-22
3,4,Korea,Alert,Infectious Disease Alert Level,Level 4 (Red),2020-02-23,
4,5,Korea,Immigration,Special Immigration Procedure,from China,2020-02-04,


gov_policy에는 17개의 변수가 존재합니다. 우리 조는 거리두기 정책 데이터에 집중하기 때문에 'Social Distancing Campaign' 변수에 집중했습니다.

In [None]:
# gov_policy의 변수의 개수와 변수들 출력
print('the number of unique values in gov_policy:',len(policy['gov_policy'].unique())) 
policy['gov_policy'].unique()

the number of unique values in gov_policy: 17


array(['Infectious Disease Alert Level', 'Special Immigration Procedure',
       'Mandatory 14-day Self-Quarantine',
       'Mandatory Self-Quarantine & Diagonostic Tests',
       'Emergency Use Authorization of Diagnostic Kit',
       'Drive-Through Screening Center', 'Mask Distribution',
       'Social Distancing Campaign', 'Thanks to Challenge korea',
       'School Closure', 'School Opening Delay',
       'School Opening with Online Class', 'Open Data ', 'Open API',
       'Self-Diagnosis App', 'Self-Quarantine Safety Protection App',
       'Electronic Wristbands'], dtype=object)

gov_policy 인덱스에서 Social Distancing Campaign 변수를 갖는 모든 행을 출력했습니다. detail 인덱스값을 보면 거리 두기의 대한 강도를 Strong과 Weak 변수들로 표현한 것을 확인할 수 있습니다.

In [None]:
# Social Distancing Campaign 변수를 가지는 모든 행 출력
policy.loc[[28,29,30]]

Unnamed: 0,policy_id,country,type,gov_policy,detail,start_date,end_date
28,29,Korea,Social,Social Distancing Campaign,Strong,2020-03-22,2020-04-05
29,30,Korea,Social,Social Distancing Campaign,Strong,2020-04-06,2020-04-19
30,31,Korea,Social,Social Distancing Campaign,Weak,2020-04-20,2020-05-05


2020년 6월 28일부터 정부는 사회적 거리두기 체계를 3단계로 정비하고, 단계별 전환 기준 및 실행 방안을 제시하였습니다. 이 방안에 맞춰 detail 인덱스의 Strong과 Weak 변수를 각각 거리두기 단계 2와 1로 변경했습니다.

또한 detail 인덱스의 정보를 새롭게 만든 Level 인덱스에 저장했습니다.

In [None]:
for i in range (28,31):
  if policy.loc[i,'detail'] =='Strong':
    policy.loc[i,'detail'] = 2
  else:
    policy.loc[i,'detail'] = 1
    
policy['Level'] = policy['detail']

필요한 정보인 정책 이름, 거리두기 단계, 시작 날짜와 끝날짜를 인덱스로 정하여 policy data를 갱신했습니다.

In [None]:
policy = policy.loc[28:30, ['gov_policy', 'Level', 'start_date', 'end_date']]

In [None]:
policy.reset_index(drop =True)

Unnamed: 0,gov_policy,Level,start_date,end_date
0,Social Distancing Campaign,2,2020-03-22,2020-04-05
1,Social Distancing Campaign,2,2020-04-06,2020-04-19
2,Social Distancing Campaign,1,2020-04-20,2020-05-05


경기도 공식 블로그를 참고하여 DACON 데이터에 없는 2020년 거리두기 데이터를 인덱스에 맞게 추가했습니다.

In [None]:
policy.loc[3] = [ 'Distancing in daily life', 1 , '2020-05-06', '2020-06-27'] # 생활속 거리두기 20.5.6-20.6.27
policy.loc[4] = [ 'Social Distancing Campaign', 1, '2020-06-28', '2020-08-15'] # 단계별 적응 - 1단계 거리두기 20.6.28-20.8.15
policy.loc[5] = [ 'Social Distancing Campaign', 2, '2020-08-16', '2020-08-29'] # 2단계 거리두기 20.8.16-20.8.29/ 8월 19일부터터터 완전한 거리두기
policy.loc[6] = [ 'Social Distancing Campaign', 2.5, '2020-08-30', '2020-09-13'] # 강화 2단계 거리두기 20.8.30-20.9.13
policy.loc[7] = [ 'Social Distancing Campaign', 2, '2020-09-14', '2020-10-11'] # 2단계 거리두기 20.9.14-20.10.11
policy.loc[8] = [ 'Social Distancing Campaign', 1, '2020-10-12', '2020-11-18'] # 1단계 거리두기 20.10.12-20.11.23
policy.loc[9] = [ 'Social Distancing Campaign', 1.5, '2020-11-19', '2020-11-23']
policy.loc[10] = [ 'Social Distancing Campaign', 2, '2020-11-24', '2020-12-07'] # 2단계 거리두기 20.11.24-20.12.07
policy.loc[11] = [ 'Social Distancing Campaign', 2.5, '2020-12-08', '2020-12-23'] # 2단계 거리두기 20.12.8-20.12.23 수도권은 2.5 비수도권 2
policy.loc[12] = [ 'Social Distancing Campaign', 2.5, '2020-12-24', '2021-01-03'] # 5인이상 집합금지 시작

새롭게 인덱스를 정렬하였습니다.

In [None]:
policy.reset_index(drop =True)

Unnamed: 0,gov_policy,Level,start_date,end_date
0,Social Distancing Campaign,2.0,2020-03-22,2020-04-05
1,Social Distancing Campaign,2.0,2020-04-06,2020-04-19
2,Social Distancing Campaign,1.0,2020-04-20,2020-05-05
3,Distancing in daily life,1.0,2020-05-06,2020-06-27
4,Social Distancing Campaign,1.0,2020-06-28,2020-08-15
5,Social Distancing Campaign,2.0,2020-08-16,2020-08-29
6,Social Distancing Campaign,2.5,2020-08-30,2020-09-13
7,Social Distancing Campaign,2.0,2020-09-14,2020-10-11
8,Social Distancing Campaign,1.0,2020-10-12,2020-11-18
9,Social Distancing Campaign,1.5,2020-11-19,2020-11-23


In [None]:
policy = policy.reset_index(drop =True)

시간이 지남에 따라 거리두기 단계가 어떻게 변했는지 시각화를 하기 위하여 거리두기 단계가 변하는 날짜를 xlabel 변수에 저장했습니다.

In [None]:
# x축 표시 데이터
xlabel = []
level =[]
xlabel.append(policy.loc[0,'start_date'])
level.append(policy.loc[0,'Level'])
for i in range (len(policy['Level'])-1):
  if policy.loc[i,'Level'] != policy.loc[i+1,'Level']:
    xlabel.append(policy.loc[i,'end_date'])
    level.append(policy.loc[i,'Level'])
xlabel.append(policy.loc[len(policy['Level'])-1,'end_date'])
level.append(policy.loc[len(policy['Level'])-1,'Level'])

시각화 하기 위하여 거리두기 시작 날짜와 끝나는 날짜를 같은 리스트에 저장했습니다.

In [None]:
# x데이터(start_date + end_date)
all_date = []
all_date_level = []
for i in range (len(policy["start_date"])):
  all_date.append(policy["start_date"][i])
  all_date.append(policy["end_date"][i])
  all_date_level.append(policy["Level"][i])
  all_date_level.append(policy["Level"][i])

x축에는 거리두기 단계가 변하는 날짜를 표시하고 y축은 거리두기 단계를 표시했습니다.

In [None]:
# 그래프 시각화
fig = go.Figure()

fig.add_trace(go.Scatter(x=all_date, y=all_date_level ))
fig.update_layout(title='<b>코로나 기간 동안의 거리두기 단계 변화<b>',
                  title_x=0.5,
                  autosize=False,
                  width=800,
                  height=500,
                  xaxis_tickangle=-45,
                  xaxis_title='정책 시행 후 경과일',
                  yaxis_title='추가 확진자 수')
fig.update_xaxes(tickvals=xlabel,
                 tickfont_size=8)
fig.update_yaxes(tickvals=[1, 1.5, 2, 2.5])   

fig.show()

## 2.3 거리두기 정책 효과 확인


### 2.3.1 2020.04월까지

DACON의 데이터는 2020년 1월부터 4월까지의 확진자 데이터를 포함하고 있습니다.
<br><br>
1월에서 4월까지는 총 3번의 거리두기 정책이 시행되었으며 각각 2단계, 2단계, 1단계 수준의 거리두기 정책이였습니다.  
각각 거리두기 정책에 따라 확진자 수가 감소하는 양상을 보였습니다.


In [None]:
# DACON patientInfo 데이터 
patient_info = pd.read_csv('/content/PatientInfo.csv')

In [None]:
# 결측치 개수 확인
print('province null count: ', patient_info['province'].isnull().sum())
print('confirmed_date null count', patient_info['confirmed_date'].isnull().sum())

province null count:  0
confirmed_date null count 3


In [None]:
# confirmed_date에 Null 값이 있는 3 row 데이터 삭제
patient_info.dropna(subset=['confirmed_date'], inplace=True)

In [None]:
def extract_by_date(df, date, name_column):
  start, end = date
  mask = (start <= df[name_column]) & (df[name_column]<=end)

  ds = list(map(int, date[0].split('-')))
  de = list(map(int, date[1].split('-')))
  date = pd.Timestamp(de[0], de[1], de[2]) - pd.Timestamp(ds[0], ds[1], ds[2])

  return df.loc[mask]

def count_days(df, name_column):
  ds = pd.to_datetime(min(df[name_column]), format='%Y-%m-%d')
  de = pd.to_datetime(max(df[name_column]), format='%Y-%m-%d')
  date = de - ds

  return date.days

In [None]:
# 기존 DACON의 policy 데이터에 있던 거리두기 정책 3개에 대한 확진자 dataframe 생성
df_campaign1 = extract_by_date(patient_info, [policy.loc[0]['start_date'], policy.loc[0]['end_date']], 'confirmed_date')
df_campaign2 = extract_by_date(patient_info, [policy.loc[1]['start_date'], policy.loc[1]['end_date']], 'confirmed_date')
df_campaign3 = extract_by_date(patient_info, [policy.loc[2]['start_date'], policy.loc[2]['end_date']], 'confirmed_date')

In [None]:
# 정책 기간 경과에 따른 확진자 수를 계산한 dataframe 생성
df_campaign1_count = df_campaign1.groupby(['confirmed_date']).size().reset_index(name='campaign1')
df_campaign2_count = df_campaign2.groupby(['confirmed_date']).size().reset_index(name='campaign2')
df_campaign3_count = df_campaign3.groupby(['confirmed_date']).size().reset_index(name='campaign3')

In [None]:
# 시각화를 위해 하나의 dataframe으로 합함
df_campaign = pd.concat([df_campaign1_count['campaign1'], df_campaign2_count['campaign2'], df_campaign3_count['campaign3']], axis=1)

In [None]:
fig = go.Figure()
date = [i for i in range(0, 15)]
fig.add_trace(go.Scatter(x=date, y=df_campaign1_count['campaign1'].values, name='03-22 ~ 04-05 (strong)'))
fig.add_trace(go.Scatter(x=date, y=df_campaign2_count['campaign2'].values, name='04-06 ~ 04-19 (strong)'))
fig.add_trace(go.Scatter(x=date, y=df_campaign3_count['campaign3'].values, name='04-20 ~ 05-05 (weak)'))
fig.update_layout(title='<b>2월부터 4월까지 시행된 거리 두기 정책에 따른 확진자 수<b>',
                  title_x=0.3,
                  xaxis_title='정책 시행 후 경과일',
                  yaxis_title='추가 확진자 수(명)')
fig.show()

첫 2주간 실행된 2단계 거리두기에서는 초반 9일간은 확진자 수 상승세를 보이다 10일부터 급격히 줄어듦을 볼 수 있습니다.  
이후 연장된 2단계 거리두기 정책에서는 꾸준히 확진자가 줄어듬을 볼 수 있으며 약화된 1단계 거리두기 정책시기에도 확진자 수가 줄어듬을 볼 수 있습니다.

In [None]:
# 정책 별 기간이 달라 정책 별 기간 dataframe 생성
day_campaign1 = count_days(df_campaign1_count, 'confirmed_date')
day_campaign2 = count_days(df_campaign2_count, 'confirmed_date')
day_campaign3 = count_days(df_campaign3_count, 'confirmed_date')

In [None]:
df_campaign = df_campaign.sum().div([day_campaign1, day_campaign2, day_campaign3]).to_frame()

In [None]:
campaign_name=['03-22 ~ 04-05 (strong)', '04-06 ~ 04-19 (strong)', '04-20 ~ 05-05 (weak)']
counts = [round(i, 2) for i in df_campaign.T.values[0]]
colors = px.colors.qualitative.Plotly[:3]
fig = go.Figure([go.Bar(x=campaign_name, y=counts,
                        text=counts, textposition='outside',
                        marker_color=colors)])
fig.update_layout(title='<b>2월부터 4월까지 시행된 거리 두기 정책에 따른 1일 당 추가 확진자 수<b>',
                  title_x=0.5,
                  xaxis_title='시행 정책 기간 및 강도',
                  yaxis_title='1일 당 추가 확진자 수(명)')
fig.show()

거리두기 정책 기간이 모두 같지는 않아 1일 당 확진자 수 평균을 확인해본 결과 거리두기 시행에 따라 확진자 수가 줄어듦을 확인할 수 있습니다.  
따라서, 4월까지의 거리두기 정책은 효과적이였다 볼 수 있습니다.

### 2.3.2 2020.12월까지
DACON 데이터로는 거리두기 정책의 효과를 약 2달만 확인할 수 있습니다.
<br><br>
2020년 하반기에는 코로나 확산 정도가 심해지며 정부의 거리두기 정책이 세분화되며 전국적 유행 단계인 2.5단계를 시행하기에 이릅니다.  
DACON의 데이터만으로는 하반기의 거리두기 단계에 따른 정책의 효율성을 볼 수 없어 서울 열린 데이터 광장의 **서울시 코로나 19 확진자 현황** 데이터와 kaggle의 **Real-time Covid 19 Data**를 추가 확보하여 정책의 효율성을 파악해보았습니다.

In [None]:
# 2020년 서울시 코로나19 확진자 데이터
patient_seoul = pd.read_csv('/content/seoul_covid19.csv', encoding='utf-8')

In [None]:
# 확진일에 결측치가 없어 결측치 처리X
patient_seoul.isnull().sum()

연번          0
확진일         0
환자번호    33197
국적      33197
환자정보    33197
지역          0
여행력     32173
접촉력         0
조치사항    33197
상태       2365
이동경로    33197
등록일         0
수정일         0
노출여부        0
dtype: int64

In [None]:
list_campaigns = list()
list_names = list()
list_days = list()

# policy dataframe의 기간을 이용해 campaign 별 확진자 dataframe 생성 
for index, campaign in enumerate(policy.iterrows()):
  name = '/'.join(campaign[1]['start_date'].split('-')[-2:]) + '~' + '/'.join(campaign[1]['end_date'].split('-')[-2:])
  list_names.append(name + '(' + str(campaign[1]['Level']) + ')')

  campaign = extract_by_date(patient_seoul, [campaign[1]['start_date'], campaign[1]['end_date']], '확진일')
  campaign = campaign.groupby(['확진일']).size().reset_index(name='count'+str(index))

  list_campaigns.append(campaign)
  list_days.append(count_days(campaign, '확진일'))

In [None]:
df_campaign = pd.concat([campaign['count'+str(index)] for index, campaign in enumerate(list_campaigns)], axis=1)

In [None]:
df_campaign = pd.DataFrame({'sum': df_campaign.sum(), 
                            'a day': df_campaign.sum().div(list_days)})

In [None]:
fig = go.Figure()
fig.add_trace(go.Bar(x=list_names,
                     y=df_campaign['sum'].values,
                     name='정책 내 확진자 수 총합'))
fig.add_trace(go.Bar(x=list_names,
                     y=df_campaign['a day'].values,
                     name='정책 내 1일 당 확진자 수'))
fig.update_layout(barmode='group', 
                  xaxis_tickangle=-45,
                  xaxis_title='기간(거리두기 강도)',
                  yaxis_title='확진자 수(명)')
fig.update_layout(title='<b>거리두기 정책에 따른 확진자 수 변동<b>',
                  title_x=0.3)
fig.show()

sum(파란색)의 경우 해당 정책 기간 동안 추가 확진된 확진자 수의 총합을 의미하며, a day(주황색)은 해당 정책 기간 동안 발생한 확진자 수를 정책 기간으로 나누어 1일 당 추가 확진된 확진자 수를 의미합니다.  
a day를 기준으로 보았을 때 거리두기 2단계에서 1단계로 바꾸면 확진자수가 바로 늘어남을 볼 수 있습니다.  
(2020-08-15 이후 확진자 증가, 2020-11-18 이후 확진자 증가로 거리 두기 정책 단계 강화 시행)  

In [None]:
xlabel = pd.to_datetime(xlabel)
xlabel_new = xlabel.fillna(0)

In [None]:
# 사회적 거리두기 시행에 따른 회복율
fig = go.Figure()
fig.add_trace(go.Scatter(x = time_series_ratio['Date'],y = time_series_ratio['RatioOfRecovered'],mode = 'lines', name = 'Ratio of Recovered'))

for i in range(len(xlabel_new)):
  if xlabel_new[i] != 0:
    for j in time_series_ratio['Date']:
      if xlabel_new[i] == pd.to_datetime(j):
        fig.add_shape(type = 'line',x0=xlabel_new[i],x1 = xlabel_new[i],y0 =0,y1 = 100,line = dict(color = "red",width = 2,dash = 'dot'))
        fig.add_annotation(x=xlabel_new[i],y=100,text = level[i],showarrow=False,yshift=10)
fig.update_layout(title = '<b>확진자 대비 회복 비율 + 거리두기 시행 단계<b>',title_x = 0.5,xaxis_title = '연간 날짜',yaxis_title = '비율(%)',)

fig.show()

앞서 보았던 확진자 대비 회복율에 대한 그래프에 2020년에 시행되었던 사회적 거리두기 시점을 더하여 분석해보고자 합니다.  
2020년 3월 말에 거리두기 2단계가 시행된 후, 점차 회복세를 보이고 있음을 확인할 수 있으며, 이후 4월 말에 1단계로 낮춰 유지하게 됩니다.  
8월말에 다시 유행함에 따라, 거리두기 2단계를 시행했으나 큰 효과를 보지 못한채 확진자가 더욱 증가함에 따라 회복율은 감소하고 있음을 확인할 수 있습니다. 따라서 더욱 강화된 2.5 단계를 시행하게 되었으며, 이는 다시 회복세로 들어서게 된 계기가 되었음을 확인할 수 있습니다. 이로써 정부의 거리두기 관련 방역 정책이 효과를 보이고 있음을 확인할 수 있습니다.

#3. 모빌리티 보고서 분석

앞에서 살펴본 정책이 사람들에게 영향을 미쳤는지 코로나19 지역사회 이동성 데이터를 통해서 확인해보고자 합니다. 2020~2021년 이동성 데이터를 통해 분석했으며 기준값 0%는 코로나 이전 2020년 1월 3일부터 2020년 2월 6일의 중앙 값을 기준으로 나온 데이터입니다.<br>
<br>
또한 해당 데이터는 서울 기준(Seoul Metropolitan)으로 작성하였습니다. 데이터에서 NaN값이 증감률에는 존재하지 않으므로 전처리를 할 필요는 없다고 판단했습니다.

In [None]:
google_2020_df = pd.read_csv("/content/2020_KR_Region_Mobility_Report.csv")
google_2021_df = pd.read_csv("/content/2021_KR_Region_Mobility_Report.csv")
print(google_2020_df.shape)
display(google_2020_df.head())

(642, 15)


Unnamed: 0,country_region_code,country_region,sub_region_1,sub_region_2,metro_area,iso_3166_2_code,census_fips_code,place_id,date,retail_and_recreation_percent_change_from_baseline,grocery_and_pharmacy_percent_change_from_baseline,parks_percent_change_from_baseline,transit_stations_percent_change_from_baseline,workplaces_percent_change_from_baseline,residential_percent_change_from_baseline
0,KR,South Korea,,,,,,ChIJm7oRy-tVZDURS9uIugCbJJE,2020-02-15,-4,0,3,-6,1,3
1,KR,South Korea,,,,,,ChIJm7oRy-tVZDURS9uIugCbJJE,2020-02-16,-11,0,-31,-15,-3,4
2,KR,South Korea,,,,,,ChIJm7oRy-tVZDURS9uIugCbJJE,2020-02-17,-7,-6,-17,-6,0,5
3,KR,South Korea,,,,,,ChIJm7oRy-tVZDURS9uIugCbJJE,2020-02-18,-1,-3,-5,-3,2,2
4,KR,South Korea,,,,,,ChIJm7oRy-tVZDURS9uIugCbJJE,2020-02-19,-5,-1,14,-4,1,2


해당 자료는 2020 년의 모빌리티 데이터입니다. 자료의 시작을 보면 2020년 2월 15일부터이므로 이에 유의하여 데이터 전처리를 진행했습니다. 서울 데이터는 index가 321부터 시작됐기 때문에 이에 유의하여 시작 index를 잡았습니다. 또한 행이 642인 이유는 서울과 외곽 도시를 나타내는 자료였기 때문입니다. 따라서, sub_region_1에서 서울 자료가 나오는 구간의 index는 321부터였기 이를 기준으로 전처리하였습니다.

In [None]:
print(google_2021_df.shape)
display(google_2021_df.head())

(164, 15)


Unnamed: 0,country_region_code,country_region,sub_region_1,sub_region_2,metro_area,iso_3166_2_code,census_fips_code,place_id,date,retail_and_recreation_percent_change_from_baseline,grocery_and_pharmacy_percent_change_from_baseline,parks_percent_change_from_baseline,transit_stations_percent_change_from_baseline,workplaces_percent_change_from_baseline,residential_percent_change_from_baseline
0,KR,South Korea,,,,,,ChIJm7oRy-tVZDURS9uIugCbJJE,2021-01-01,-42,0,12,-46,-75,31
1,KR,South Korea,,,,,,ChIJm7oRy-tVZDURS9uIugCbJJE,2021-01-02,-34,1,-17,-34,-32,15
2,KR,South Korea,,,,,,ChIJm7oRy-tVZDURS9uIugCbJJE,2021-01-03,-35,3,-18,-32,-23,11
3,KR,South Korea,,,,,,ChIJm7oRy-tVZDURS9uIugCbJJE,2021-01-04,-18,7,3,-14,-10,9
4,KR,South Korea,,,,,,ChIJm7oRy-tVZDURS9uIugCbJJE,2021-01-05,-20,1,-12,-16,-11,8


해당 자료는 2021년 모빌리티 데이터이고, 2021년은 날짜가 진행중이므로 축적된 데이터가 비교적 짧았습니다.

In [None]:
# 특정 데이터 추출(2020년 2월 15일 ~ 2020년 12월 31일)

seoul_start_index = 321
google_2020_df1 = google_2020_df.loc[seoul_start_index:, ['date','retail_and_recreation_percent_change_from_baseline']]
google_2020_df2 = google_2020_df.loc[seoul_start_index:, ['date','grocery_and_pharmacy_percent_change_from_baseline']]
google_2020_df3 = google_2020_df.loc[seoul_start_index:, ['date','transit_stations_percent_change_from_baseline']]
google_2020_df4 = google_2020_df.loc[seoul_start_index:, ['date','workplaces_percent_change_from_baseline']]
google_2020_df5 = google_2020_df.loc[seoul_start_index:, ['date','residential_percent_change_from_baseline']]

따라서 위처럼 전처리하였습니다. 특히 소상공인과 가장 밀접한 관련이 있는 식당, 카페 데이터를 포함해 아래와 같이 정리했습니다.<br>
- retail_and_recreation : **식당, 카페 데이터**
- grocery_and_pharamacy : 식료품 매장, 식자재 창고, 농산물 시장 데이터
- transit_stations : 지하철, 버스, 기차역 데이터
- workplaces : 직장 데이터
- residential : 거주지 근처 데이터

In [None]:
# 모든 데이터 legend 처리 후 시각화

fig = go.Figure()
fig.add_trace(go.Scatter(x=google_2020_df1['date'], y=google_2020_df1['retail_and_recreation_percent_change_from_baseline'], name='식당, 카페 등', mode='lines+markers'))
fig.add_trace(go.Scatter(x=google_2020_df2['date'], y=google_2020_df2['grocery_and_pharmacy_percent_change_from_baseline'], name='식료품 매장, 농산물 시장 등', mode='lines+markers'))
fig.add_trace(go.Scatter(x=google_2020_df3['date'], y=google_2020_df3['transit_stations_percent_change_from_baseline'], name='대중교통', mode='lines+markers'))
fig.add_trace(go.Scatter(x=google_2020_df4['date'], y=google_2020_df4['workplaces_percent_change_from_baseline'], name='출퇴근', mode='lines+markers'))
fig.add_trace(go.Scatter(x=google_2020_df5['date'], y=google_2020_df5['residential_percent_change_from_baseline'], name='거주지 근처', mode='lines+markers'))

fig.update_layout(title='<b>2020년 이동 추이 데이터</b>', title_x=0.5,
                  xaxis_title='연간 날짜',
                  yaxis_title='비율(%)')
fig.show()

2020년 모빌리티 데이터는 위와 같은 경향성을 보였습니다. 저희가 가장 중요하게 생각했던 식당, 카페는 2020년 전반에 걸쳐 저조한 방문 비율을 보이고 있습니다. 여기서 기준 비율 0%는 코로나 이전 2020년 1월 3일부터 2월 6일까지 5주 기간의 중앙값을 의미합니다.

In [None]:
# 특정 데이터 추출(2021년 1월 1일 ~ 2021년 3월 23일)

seoul_start_index = 82
google_2021_df1 = google_2021_df.loc[seoul_start_index:, ['date','retail_and_recreation_percent_change_from_baseline']]
google_2021_df2 = google_2021_df.loc[seoul_start_index:, ['date','grocery_and_pharmacy_percent_change_from_baseline']]
google_2021_df3 = google_2021_df.loc[seoul_start_index:, ['date','transit_stations_percent_change_from_baseline']]
google_2021_df4 = google_2021_df.loc[seoul_start_index:, ['date','workplaces_percent_change_from_baseline']]
google_2021_df5 = google_2021_df.loc[seoul_start_index:, ['date','residential_percent_change_from_baseline']]

In [None]:
# 모든 데이터 legend 처리 후 시각화

fig = go.Figure()
fig.add_trace(go.Scatter(x=google_2021_df1['date'], y=google_2021_df1['retail_and_recreation_percent_change_from_baseline'], name='식당, 카페 등', mode='lines+markers'))
fig.add_trace(go.Scatter(x=google_2021_df2['date'], y=google_2021_df2['grocery_and_pharmacy_percent_change_from_baseline'], name='식료품 매장, 농산물 시장 등', mode='lines+markers'))
fig.add_trace(go.Scatter(x=google_2021_df3['date'], y=google_2021_df3['transit_stations_percent_change_from_baseline'], name='대중교통', mode='lines+markers'))
fig.add_trace(go.Scatter(x=google_2021_df4['date'], y=google_2021_df4['workplaces_percent_change_from_baseline'], name='출퇴근', mode='lines+markers'))
fig.add_trace(go.Scatter(x=google_2021_df5['date'], y=google_2021_df5['residential_percent_change_from_baseline'], name='거주지 근처', mode='lines+markers'))

fig.update_layout(title='<b>2021년 이동 추이 데이터</b>', title_x=0.5,
                  xaxis_title='연간 날짜',
                  yaxis_title='비율(%)')
fig.show()

마찬가지로 2021년 이동량 역시 저조하다는 것을 확인할 수 있었습니다. 따라서 저희는 위의 모빌리티 자료를 통해 처음에 주목했던 소상공인들의 가게에 사람들의 방문량이 줄었다고 결론지을 수 있었습니다.

# 4. 코로나 전파로 인한 폐업 분석
2020년 02월의 대구 신천지 사태, 2020년 05월의 이태원 클럽 집단 확진 사태, 2020년 08월의 사랑 제일 교회 사태로 사회적 거리두기 정책이 강화되었으며, 모빌리티 보고서에 따르면 유동 인구 또한 적어짐을 확인할 수 있었습니다.
<br><br>
해당 기간에는 집단 확진 사건들이 있었던 대구와 서울을 중심으로 유동 인구 감소로 인한 소상공인들의 경영 악화 문제가 수면 위로 드러났습니다.
<br><br>
2020, 2021년 대구와 서울의 음식점 폐업을 이전 년도들과 비교해 코로나로 인한 음식점 폐업 정도를 살펴보겠습니다.

## 4.1 대구

In [None]:
# 대구 내 음식점 데이터
closed_daegu = pd.read_csv('/content/res_dague.csv', encoding='utf-8')

In [None]:
# 폐업일자에는 null 값이 없어 결측치 처리X
closed_daegu.isnull().sum()

인허가일자          0
폐업일자           0
소재지전체주소        0
도로명전체주소     1220
사업장명           0
좌표정보(x)        0
좌표정보(y)        0
위생업태명          1
영업장주변구분명     559
다중이용업소여부       0
dtype: int64

In [None]:
# 폐업일자의 format을 datetime으로 변경
closed_daegu['폐업일자'] = pd.to_datetime(closed_daegu['폐업일자'], format='%Y%m%d')

In [None]:
# 5개년도 비교를 위해 2017 이후 폐업 음식점들 추출
closed_daegu = closed_daegu[(closed_daegu['폐업일자'] >= '2017-01-01')]

In [None]:
# resample을 통해 각개년도 1월 1일 기준으로 년도 별 폐업으로 묶음
closed_year = closed_daegu.resample('YS', on='폐업일자').count()
closed_year

Unnamed: 0_level_0,인허가일자,폐업일자,소재지전체주소,도로명전체주소,사업장명,좌표정보(x),좌표정보(y),위생업태명,영업장주변구분명,다중이용업소여부
폐업일자,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2017-01-01,121,121,121,119,121,121,121,121,98,121
2018-01-01,102,102,102,102,102,102,102,101,82,102
2019-01-01,93,93,93,93,93,93,93,93,74,93
2020-01-01,88,88,88,88,88,88,88,88,69,88
2021-01-01,12,12,12,12,12,12,12,12,6,12


In [None]:
x = [i for i in range(2017, 2022)]
y = closed_year['인허가일자']
colors = px.colors.qualitative.Plotly[:5]

fig = go.Figure([go.Bar(x=x,
                        y=y,
                        text=y,
                        textposition='auto',
                        marker_color=colors)])
fig.update_layout(title='<b>대구 음식점 폐업 수</b>',
                  title_x=0.5,
                  xaxis_title='년도',
                  yaxis_title='음식점 폐업 수')
fig.show()

년도 별 대구 음식점 폐업 수는 예상과는 다르게 오히려 줄고 있습니다.  
2021년은 아직 3월까지 데이터만 있는 것을 고려해 4배를 곱해주어도 48건 밖에 되지 않는 것을 확인할 수 있습니다.  


In [None]:
closed_month_2017 = closed_daegu[closed_daegu['폐업일자'].dt.year == 2017]
closed_month_2018 = closed_daegu[closed_daegu['폐업일자'].dt.year == 2018]
closed_month_2019 = closed_daegu[closed_daegu['폐업일자'].dt.year == 2019]
closed_month_2020 = closed_daegu[closed_daegu['폐업일자'].dt.year == 2020]
closed_month_2021 = closed_daegu[closed_daegu['폐업일자'].dt.year == 2021]

In [None]:
closed_month_2017 = closed_month_2017.resample('MS', on='폐업일자').count()
closed_month_2018 = closed_month_2018.resample('MS', on='폐업일자').count()
closed_month_2019 = closed_month_2019.resample('MS', on='폐업일자').count()
closed_month_2020 = closed_month_2020.resample('MS', on='폐업일자').count()
closed_month_2021 = closed_month_2021.resample('MS', on='폐업일자').count()

In [None]:
closed_month = pd.DataFrame({"2017":closed_month_2017['인허가일자'].values,
                             "2018":closed_month_2018['인허가일자'].values,
                             "2019":closed_month_2019['인허가일자'].values,
                             "2020":closed_month_2020['인허가일자'].values,
                             "2021":np.append(closed_month_2021['인허가일자'].values, ['0']*9)})
closed_month.index = [str(i)+'월' for i in range(1, 13)]

In [None]:
closed_month

Unnamed: 0,2017,2018,2019,2020,2021
1월,11,6,6,10,3
2월,19,11,5,8,4
3월,7,7,5,8,5
4월,7,6,9,7,0
5월,9,7,14,7,0
6월,12,11,8,11,0
7월,14,13,9,2,0
8월,14,8,7,3,0
9월,10,6,4,7,0
10월,4,14,8,4,0


In [None]:
x = closed_month.index
fig = go.Figure()
fig.add_bar(x=x, y=closed_month['2017'].values ,name='2017')
fig.add_bar(x=x, y=closed_month['2018'].values ,name='2018')
fig.add_bar(x=x, y=closed_month['2019'].values ,name='2019')
fig.add_bar(x=x, y=closed_month['2020'].values ,name='2020')
fig.add_bar(x=x, y=closed_month['2021'].values ,name='2021')
fig.update_layout(barmode="relative",
                  title='<b>대구 음식점 폐업 수</b>',
                  title_x=0.5,
                  xaxis_title='월',
                  yaxis_title='확진자 수(명)')
fig.show()

월 별 데이터에서도 2021(주황색), 2020(보라색)년도의 폐업 수보다 2017(파란색), 2018(빨간색)년의 폐업 수가 더 많은 것을 확인할 수 있습니다.

## 4.2 서울

In [None]:
df_서울 = pd.read_csv("/content/res_seoul.csv", encoding='utf-8') # 서울데이터 읽어오기

df_서울.info() #서울의 데이터 정보
print()
df_서울.isnull().sum() # 결측치 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 62480 entries, 0 to 62479
Data columns (total 10 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   인허가일자     62480 non-null  int64  
 1   폐업일자      62480 non-null  int64  
 2   소재지전체주소   62471 non-null  object 
 3   도로명전체주소   13888 non-null  object 
 4   사업장명      62480 non-null  object 
 5   좌표정보(x)   62480 non-null  float64
 6   좌표정보(y)   62480 non-null  float64
 7   위생업태명     62480 non-null  object 
 8   영업장주변구분명  46352 non-null  object 
 9   다중이용업소여부  62480 non-null  object 
dtypes: float64(2), int64(2), object(6)
memory usage: 4.8+ MB



인허가일자           0
폐업일자            0
소재지전체주소         9
도로명전체주소     48592
사업장명            0
좌표정보(x)         0
좌표정보(y)         0
위생업태명           0
영업장주변구분명    16128
다중이용업소여부        0
dtype: int64

In [None]:
df_서울['인허가일자'] = pd.to_datetime(df_서울['인허가일자'], format='%Y%m%d', errors = 'coerce') #날짜형식변환
df_서울['폐업일자'] = pd.to_datetime(df_서울['폐업일자'], format='%Y%m%d', errors = 'coerce') #날짜형식변환

df_서울.drop(df_서울[(df_서울['폐업일자'].dt.year > 2021)].index, inplace=True) # 폐업일자 오타로 추정됨 2021년 이후 지우기
df_서울.drop(df_서울[(df_서울['폐업일자'].dt.year < 2017)].index, inplace=True) # 2017년 이전 data drop

df_서울['연도'], df_서울['월'] = df_서울['폐업일자'].dt.year, df_서울['폐업일자'].dt.month #연도와 월 분리

df_서울[['시도','시군구']] = df_서울['소재지전체주소'].str.split(' ', expand=True).iloc[:,[0,1]] #시도 시군구 분리

df_서울['영업기간'] = df_서울['폐업일자'] - df_서울['인허가일자'] #

df_서울 = df_서울.loc[:,['시도','시군구','위생업태명','폐업일자','연도','월','인허가일자','사업장명','소재지전체주소','영업기간','좌표정보(x)','좌표정보(y)']]

df_서울.drop(df_서울[df_서울['시도'].isnull() == True].index, inplace=True)


df_서울.head()
df_서울.tail()

Unnamed: 0,시도,시군구,위생업태명,폐업일자,연도,월,인허가일자,사업장명,소재지전체주소,영업기간,좌표정보(x),좌표정보(y)
62475,서울특별시,용산구,호프/통닭,2021-03-31,2021,3,2015-09-11,하나비,서울특별시 용산구 한강로2가 224-1 지상2층,2028 days,196993.2274,447261.1605
62476,서울특별시,중구,호프/통닭,2021-03-31,2021,3,2010-02-10,트레이지티브이,서울특별시 중구 태평로1가 60-15 1층,4067 days,197799.601,451730.7722
62477,서울특별시,서대문구,한식,2021-03-31,2021,3,2008-04-04,원당감자탕,서울특별시 서대문구 충정로2가 99-12 (지상1층),4744 days,196804.5921,451359.1737
62478,서울특별시,서대문구,한식,2021-03-31,2021,3,1988-12-15,고삼이 2호점,서울특별시 서대문구 창천동 31-20,11794 days,194377.3073,450674.2359
62479,서울특별시,종로구,한식,2021-04-01,2021,4,2016-01-20,호질,서울특별시 종로구 통인동 135-4 지상2층,1898 days,197312.2294,453002.7877


In [None]:
data = [dict(
  x = df_서울['폐업일자'],
  autobinx = False,
  autobiny = True,
  marker = dict(color = 'rgb(68, 68, 68)'),
  name = 'date',
  type = 'histogram',
  xbins = dict(
    end = '2021-04-01 12:00',
    size = 'D1',
    start = '2017-01-01 12:00'
  )
)]

layout = dict(
  paper_bgcolor = 'rgb(240, 240, 240)',
  plot_bgcolor = 'rgb(240, 240, 240)',
  title = '<b>2017~2021 폐업 수</b>',
  xaxis = dict(
    title = '',
    type = 'date'
  ),
  yaxis = dict(
    title = '폐업 수',
    type = 'linear'
  ),
  updatemenus = [dict(
        x = 0.1,
        y = 1.15,
        xref = 'paper',
        yref = 'paper',
        yanchor = 'top',
        active = 0,
        showactive = True,
        buttons = [
        dict(
            args = ['xbins.size', 'D1'],
            label = 'Day',
            method = 'restyle',
        ), dict(
            args = ['xbins.size', 'M1'],
            label = 'Month',
            method = 'restyle',
        ), dict(
            args = ['xbins.size', 'M3'],
            label = 'Quater',
            method = 'restyle',
        ), dict(
            args = ['xbins.size', 'M6'],
            label = 'Half Year',
            method = 'restyle',
        ), dict(
            args = ['xbins.size', 'M12'],
            label = 'Year',
            method = 'restyle',
        )]
  )]
)

fig_dict = dict(data=data, layout=layout)

pio.show(fig_dict, validate=False)

분기별 추세를 살펴보면 소폭 감소하는 것을 알 수 있습니다.


반기별 추세를 보면 아직 1/4밖에 지나지 않아 수치를 가산하더라도
앞 3년 대비 근 2년간은 음식점의 폐업수가 오히려 준 것을 볼 수 있습니다.



In [None]:
fig = go.Figure()

#####최근 6개월#####
fig.add_trace(go.Box(x = df_서울.loc[(df_서울['연도'] == 2020) & (df_서울['월'] == 10), '영업기간'].dt.days,
                     name="2020년 10월",
                     jitter=0.3,
                     pointpos=-1.8,
                     boxpoints='suspectedoutliers',
                     marker_color='rgb(7,40,89)',
                     line_color='#3D9970'
                    )
             )

fig.add_trace(go.Box(x = df_서울.loc[(df_서울['연도'] == 2020) & (df_서울['월'] == 11), '영업기간'].dt.days,
                     name="2020년 11월",
                     jitter=0.3,
                     pointpos=-1.8,
                     boxpoints='suspectedoutliers',
                     marker_color='rgb(7,40,89)',
                     line_color='#3D9970'
                    )
             )

fig.add_trace(go.Box(x = df_서울.loc[(df_서울['연도'] == 2020) & (df_서울['월'] == 12), '영업기간'].dt.days,
                     name="2020년 12월",
                     jitter=0.3,
                     pointpos=-1.8,
                     boxpoints='suspectedoutliers',
                     marker_color='rgb(7,40,89)',
                     line_color='#3D9970'
                    )
             )

fig.add_trace(go.Box(x = df_서울.loc[(df_서울['연도'] == 2021) & (df_서울['월'] == 1), '영업기간'].dt.days,
                     name="2021년 01월",
                     jitter=0.3,
                     pointpos=-1.8,
                     boxpoints='suspectedoutliers',
                     marker_color='rgb(7,40,89)',
                     line_color='#FF4136'
                    )
             )

fig.add_trace(go.Box(x = df_서울.loc[(df_서울['연도'] == 2021) & (df_서울['월'] == 2), '영업기간'].dt.days,
                     name="2021년 02월",
                     jitter=0.3,
                     pointpos=-1.8,
                     boxpoints='suspectedoutliers',
                     marker_color='rgb(7,40,89)',
                     line_color='#FF4136'
                    )
             )

fig.add_trace(go.Box(x = df_서울.loc[(df_서울['연도'] == 2021) & (df_서울['월'] == 3), '영업기간'].dt.days,
                     name="2021년 03월",
                     jitter=0.3,
                     pointpos=-1.8,
                     boxpoints='suspectedoutliers',
                     marker_color='rgb(7,40,89)',
                     line_color='#FF4136'
                    )
             )

#####2019년 1~3월 대비 2020년 1~3월 대비 2021년 1~3월 #####
fig.add_trace(go.Box(x = df_서울.loc[(df_서울['연도'] == 2019) & (df_서울['월'] == 1), '영업기간'].dt.days,
                     name="2019년 01월",
                     jitter=0.3,
                     pointpos=-1.8,
                     boxpoints='suspectedoutliers',
                     marker_color='rgb(7,40,89)',
                     line_color='rgb(7,40,89)'
                    )
             )

fig.add_trace(go.Box(x = df_서울.loc[(df_서울['연도'] == 2020) & (df_서울['월'] == 1), '영업기간'].dt.days,
                     name="2020년 01월",
                     jitter=0.3,
                     pointpos=-1.8,
                     boxpoints='suspectedoutliers',
                     marker_color='#FF4136',
                     line_color='#FF4136'
                    )
             )

fig.add_trace(go.Box(x = df_서울.loc[(df_서울['연도'] == 2021) & (df_서울['월'] == 1), '영업기간'].dt.days,
                     name="2021년 01월",
                     jitter=0.3,
                     pointpos=-1.8,
                     boxpoints='suspectedoutliers',
                     marker_color= 'rgb(7,40,89)',
                     line_color='#3D9970'
                    )
             )

fig.add_trace(go.Box(x = df_서울.loc[(df_서울['연도'] == 2019) & (df_서울['월'] == 2), '영업기간'].dt.days,
                     name="2019년 02월",
                     jitter=0.3,
                     pointpos=-1.8,
                     boxpoints='suspectedoutliers',
                     marker_color='rgb(7,40,89)',
                     line_color='rgb(7,40,89)'
                    )
             )

fig.add_trace(go.Box(x = df_서울.loc[(df_서울['연도'] == 2020) & (df_서울['월'] == 2), '영업기간'].dt.days,
                     name="2020년 02월",
                     jitter=0.3,
                     pointpos=-1.8,
                     boxpoints='suspectedoutliers',
                     marker_color='#FF4136',
                     line_color='#FF4136'
                    )
             )

fig.add_trace(go.Box(x = df_서울.loc[(df_서울['연도'] == 2021) & (df_서울['월'] == 2), '영업기간'].dt.days,
                     name="2021년 02월",
                     jitter=0.3,
                     pointpos=-1.8,
                     boxpoints='suspectedoutliers',
                     marker_color= 'rgb(7,40,89)',
                     line_color='#3D9970'
                    )
             )

fig.add_trace(go.Box(x = df_서울.loc[(df_서울['연도'] == 2019) & (df_서울['월'] == 3), '영업기간'].dt.days,
                     name="2019년 03월",
                     jitter=0.3,
                     pointpos=-1.8,
                     boxpoints='suspectedoutliers',
                     marker_color='rgb(7,40,89)',
                     line_color='rgb(7,40,89)'
                    )
             )

fig.add_trace(go.Box(x = df_서울.loc[(df_서울['연도'] == 2020) & (df_서울['월'] == 3), '영업기간'].dt.days,
                     name="2020년 03월",
                     jitter=0.3,
                     pointpos=-1.8,
                     boxpoints='suspectedoutliers',
                     marker_color='#FF4136',
                     line_color='#FF4136'
                    )
             )

fig.add_trace(go.Box(x = df_서울.loc[(df_서울['연도'] == 2021) & (df_서울['월'] == 3), '영업기간'].dt.days,
                     name="2021년 03월",
                     jitter=0.3,
                     pointpos=-1.8,
                     boxpoints='suspectedoutliers',
                     marker_color= 'rgb(7,40,89)',
                     line_color='#3D9970'
                    )
             )


fig.update_layout(
    updatemenus=[
        dict(
            type = 'buttons',
            active=0,
            buttons=list([
                dict(label="최근 6개월",
                     method="update",
                     args=[{"visible": [True, True, True, True, True, True, False, False, False, False, False, False, False, False, False]},
                           {"title": "영업기간 Boxplot - 최근 6개월",
                            "annotations": []}]),
                
                dict(label="최근 3년 비교",
                     method="update",
                     args=[{"visible": [False, False, False, False, False, False, True, True, True, True, True, True, True, True, True ]},
                           {"title": "영업기간 Boxplot - 2019년 대비 2020년 대비 2021년",
                            "annotations": []}]),
            ]),
        )
    ])


fig.update_layout(height = 800,
                  title = dict(text = '<b>영업기간 Boxplot<b>', font = dict(size = 25)),
                  title_x=0.5
                 )
fig.show()


최근 6개월: 중앙값의 변화는 크게 일어나지 않았지만, 조금씩 영업기간이 긴 업체의 폐업이 늘어났다는 것을 알 수 있습니다.

최근 3년 비교: 2019-2020년에는 폐업률이 감소했지만, 21년에는 소폭 증가했고, 특히 21년 3월이 전년의 같은 시점과 대비하여 늘었다는 것을 알 수 있습니다.

#5. 배달앱, 배달대행 사용 분석
폐업에 대한 데이터를 분석해본 결과, 많은 소상공인들이 폐업할 것이라는 예상과는 다르게 폐업하지 않았습니다. 그렇다면 왜 이러한 결과가 발생했을까요?<br>
<br>
저희는 모빌리티 데이터에서 다시 한번 그 이유를 추론할 수 있었습니다. 재택이나 거주지의 움직임이 제한되었고, 소상공인과 소비자들은 이에 적응할 필요가 있었습니다. 따라서 저희는 배달앱과 배달대행을 통해 소상공인들이 어려움을 극복해나가지 않았을까 유추했고 이를 분석하기 위해 국가 통계 포털의 배달 앱, 배달 대행 사용량 데이터를 분석했습니다.

In [None]:
# 배달 앱, 배달 대행 사용량 데이터, 한글 사용을 위해 CP949 사용
app_agent_use_df = pd.read_csv("/content/2018-2020_delivery.csv", encoding='CP949')

In [None]:
# 2018~2020 서울 데이터 전처리 후 추출
print(app_agent_use_df.shape)
display(app_agent_use_df.head())

(6, 6)


Unnamed: 0,Region,Year,Type,Usable(Y),Usable(N),Cost(Month)
0,Seoul,2018,App,5.6,94.4,256369.6
1,Seoul,2018,Agent,1.9,94.4,430653.5
2,Seoul,2019,App,9.7,90.3,338523.9
3,Seoul,2019,Agent,7.0,93.0,729198.3
4,Seoul,2020,App,19.9,80.1,729198.3


In [None]:
app_use_usable = app_agent_use_df.loc[0:6:2, ['Year','Usable(Y)']]
app_use_cost = app_agent_use_df.loc[0:6:2, ['Year','Cost(Month)']]

agent_use_usable = app_agent_use_df.loc[1:6:2, ['Year','Usable(Y)']]
agent_use_cost = app_agent_use_df.loc[1:6:2, ['Year','Cost(Month)']]

display(app_use_usable.head())
display(app_use_cost.head())

display(agent_use_usable.head())
display(agent_use_cost.head())

Unnamed: 0,Year,Usable(Y)
0,2018,5.6
2,2019,9.7
4,2020,19.9


Unnamed: 0,Year,Cost(Month)
0,2018,256369.6
2,2019,338523.9
4,2020,729198.3


Unnamed: 0,Year,Usable(Y)
1,2018,1.9
3,2019,7.0
5,2020,16.8


Unnamed: 0,Year,Cost(Month)
1,2018,430653.5
3,2019,729198.3
5,2020,2808205.0


In [None]:
# 데이터 시각화

fig = go.Figure(data=[
    go.Bar(name='배달앱 사용 여부', x=app_use_usable['Year'], y = app_use_usable['Usable(Y)']),
    go.Bar(name='배달대행 사용 여부', x=agent_use_usable['Year'], y = agent_use_usable['Usable(Y)'])
])

fig.update_layout(barmode='group', bargap=0.15, bargroupgap=0.1,
                  title='<b>2018~2020년 배달앱/배달대행 사용량</b>', title_x=0.5,
                  xaxis_title='연도',
                  yaxis_title='사용했다고 대답한 사람 비율(%)'
                  )
fig.show()

In [None]:
# 데이터 시각화

fig = go.Figure(data=[
    go.Bar(name='배달앱 월 평균 사용 비용', x=app_use_cost['Year'], y = app_use_cost['Cost(Month)']),
    go.Bar(name='배달대행 월 평균 사용 비용', x=agent_use_cost['Year'], y = agent_use_cost['Cost(Month)'])
])

fig.update_layout(barmode='group', bargap=0.15, bargroupgap=0.1,
                  title='<b>2018~2020년 배달앱/배달대행 월 평균 사용비용</b>', title_x=0.5,
                  xaxis_title='연도',
                  yaxis_title='사용한 비용(원)'
                  )
fig.show()

저희의 예상처럼 배달앱/배달대행 사용비용, 사용량이 증가했다는 결과를 얻을 수 있었습니다.

# 6. 결론
지금까지 저희는 코로나19가 소상공인들의 폐업에 실제 영향을 주었는지 확인하기 위해 코로나19 현황 분석, 거리두기 정책 분석, 모빌리티 분석, 폐업 데이터 분석, 배달앱/배달대행 사용량 분석해보았고, 배달앱/배달대행 사용량이 오히려 증가함으로써 폐업이 줄었다는 놀라운 결과를 얻었습니다. 이러한 결과는 단지 배달문화가 확산됐다는 것 뿐 아니라 정부의 소상공인 및 자영업자 경영안정을 위한 지원책들과 소비자들의 소비를 이끌기 위한 지원금 정책으로 폐업 위기를 어느 정도 완화했다고 예상해볼 수 있었습니다. 더 나아가, 오히려 해당 기사(http://newslabit.hankyung.com/article/202005071929G)를 확인해보면 폐업 비용이 더 많이 든다는 어려움 때문에 폐업을 결정하는 일 역시 쉽지 않다는 것을 파악할 수 있었습니다. 지금은 2021년이고 5인 이상 거리두기 정책이 시행된지 5개월이 되어가는 시점이며 백신 보급이 진행되고 있습니다. 하지만 여전히 집단 감염과 코로나 변종 바이러스 등장으로 코로나 확진자 수는 줄어들지 않고 있습니다.<br>
<br>
오랫동안 진행되고 있는 코로나 사태를 버티기 위해 사람들의 배달 앱 사용량은 늘고 있으며,  이러한 사람들의 요구를 빠르게 받아 들여 배달 서비스를 함께 제공하는 상인들이 있습니다.<br>
<br>
하지만 여전히 여건과 비용의 문제, 시스템 사용에 익숙하지 못한 문제들로 인해 많은 소상공인들은 코로나 19의 사각지대에 놓여있습니다. 이러한 소상공인들을 위해 정책적으로 배달 시스템을 이용할 수 있는 교육과 지원이 필요합니다.<br>
<br>
더 나아가, 저희의 분석이 단순 배달앱/배달대행 사용량으로 그치는 것이 아니라 올해, 의학적으로 코로나 19를 물리치기 위해 백신이 필요한것처럼 소상공인들에게서 코로나 19를 물리치기 위해 직접적인 정책이 펼쳐졌으면 좋겠습니다.

# 7. 출처
- 도입부 기사 통계 뉴스 : https://biz.chosun.com/site/data/html_dir/2020/04/10/2020041003722.html?utm_source=urlcopy&utm_medium=share&utm_campaign=biz
- 배달앱 및 배달대행 이용현황 : https://kosis.kr/statHtml/statHtml.do?orgId=114&tblId=DT_114054_016
- 구글 모빌리티 이동 보고서 : https://www.google.com/covid19/mobility/
- 서울시 코로나19 확진자 현황 : http://data.seoul.go.kr/dataList/OA-20279/S/1/datasetView.do
- 확진자 정보 데이터(DACON) : https://dacon.io/competitions/official/235590/data/ 
- Real-time Covid 19 Data(Kaggle) : https://www.kaggle.com/gauravduttakiit/covid-19
- 전국 일반음식점 업태 : https://www.localdata.go.kr/devcenter/dataDown.do?menuNo=20001#downcheckmodal