In [1]:
# essential libraries
import os
import math
import numpy as np
import pandas as pd
import datetime as dt

# prediction model
from scipy.optimize import curve_fit
from sklearn.linear_model import LinearRegression

# hide warnings
import warnings
warnings.filterwarnings('ignore')

# visualization
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
import plotly.figure_factory as ff
from plotly.subplots import make_subplots
from PIL import Image

# API, URL, DB
from bs4 import BeautifulSoup
import requests
from urllib.parse import urlencode
from urllib.parse import quote_plus
from urllib.request import urlopen
import sqlite3




# converter
from pandas.plotting import register_matplotlib_converters
register_matplotlib_converters()   

#pandas와 같이 plotly에서도 간단한 시각화 지원
import cufflinks as cf
cf.go_offline(connected=True)

# for offline ploting
import plotly
from plotly.offline import plot, iplot, init_notebook_mode
init_notebook_mode(connected=True)
import plotly.io as pio
pio.renderers.default = "notebook_connected"

In [2]:
print(px.colors.qualitative.Prism)

['rgb(95, 70, 144)', 'rgb(29, 105, 150)', 'rgb(56, 166, 165)', 'rgb(15, 133, 84)', 'rgb(115, 175, 72)', 'rgb(237, 173, 8)', 'rgb(225, 124, 5)', 'rgb(204, 80, 62)', 'rgb(148, 52, 110)', 'rgb(111, 64, 112)', 'rgb(102, 102, 102)']


In [3]:
# color pallette
cnf, dth, rec, act = '#393e46', '#ff2e63', '#21bf73', '#fe9801' 
DEFAULT_PLOTLY_COLORS=['#636EFA', '#EF553B', 
                       '#00CC96', '#AB63FA',
                       '#FFA15A', '#19D3F3',
                       '#FF6692', '#B6E880',
                       '#FF97FF', '#FECB52','rgb(57,105,172)']

DEFAULT_PLOTLY_COLORS2 = ['rgb(230,210,0)', 'rgb(241,105,19)','rgb(8,104,172)', 'rgb(0,109,44)', 'rgb(131,75,160)']
DEFAULT_PLOTLY_COLORS2_2 = ['rgb(230,210,0)', 'rgb(241,105,19)', 'rgb(241,105,19)', 'rgb(8,104,172)', 'rgb(8,104,172)', 'rgb(0,109,44)','rgb(0,109,44)', 'rgb(131,75,160)', 'rgb(131,75,160)', 'rgb(131,75,160)']

layout_setting = {'xaxis_title':'Date',
                  'yaxis_title':'Number',
                  'font':dict(size=18,color='#60606e',
                              family='Franklin Gothic')}

layout_font = {'font':dict(size=18,color='#60606e',
                           family='Franklin Gothic' )}

In [4]:
path = '../covid'
os.chdir('./data')
file_name_list = os.listdir()

In [5]:
file_name_list

['202003Korea_Population.csv',
 '20200428ncovProvince.csv',
 '20200428_Gender.csv',
 'avgAgeProvince.jpg',
 'Case.csv',
 'COVID-19 Cases.csv',
 'floating_data_2019_03.db',
 'floating_data_2020.db',
 'floating_data_Total.db',
 'NaverSearchTrend.csv',
 'PatientInfo.csv',
 'PatientRoute.csv',
 'PatientTrend_20200414_20200427.xlsx',
 'Policy.csv',
 'Region.csv',
 'SearchTrend.csv',
 'SeoulFloating.csv',
 'Time.csv',
 'TimeAge.csv',
 'TimeConfirmed_SCJ.csv',
 'TimeGender.csv',
 'TimeProvince.csv',
 'Weather.csv',
 'WHO-COVID-19-global-data.csv']

In [6]:
case = pd.read_csv("Case.csv")
region = pd.read_csv("Region.csv")
patientinfo = pd.read_csv("PatientInfo.csv")
route = pd.read_csv( 'PatientRoute.csv')
timeProve = pd.read_csv("TimeProvince.csv")
timeAge = pd.read_csv("TimeAge.csv")
timeGender = pd.read_csv("TimeGender.csv")
seoulFloating = pd.read_csv('SeoulFloating.csv')
population = pd.read_csv("202003Korea_Population.csv", encoding='ANSI') # 2020.03 한국 인구수 from 통계청
numProvince = pd.read_csv("20200428ncovProvince.csv", index_col=False) # 2020.04.28 질병관리본부데이터
# http://ncov.mohw.go.kr/tcmBoardView.do?brdId=&brdGubun=&dataGubun=&ncvContSeq=354256&contSeq=354256&board_id=140&gubun=BDJ

In [7]:
cnf, dth, rec, act = '#393e46', '#ff2e63', '#21bf73', '#fe9801' 
DEFAULT_PLOTLY_COLORS=['rgb(31, 119, 180)', 'rgb(255, 127, 14)',
                       'rgb(44, 160, 44)', 'rgb(214, 39, 40)',
                       'rgb(148, 103, 189)', 'rgb(140, 86, 75)',
                       'rgb(227, 119, 194)', 'rgb(127, 127, 127)',
                       'rgb(188, 189, 34)', 'rgb(23, 190, 207)']

layout_setting = {'xaxis_title':'Date','yaxis_title':'Number','font':dict(size=15,color='#60606e',family='Franklin Gothic' )}

In [8]:
# # essential libraries
# import os
# from datetime import datetime as dt

# # storing and anaysis
# import numpy as np
# import pandas as pd

# # hide warnings
# import warnings
# warnings.filterwarnings('ignore')

# # visualization
# # matplot and sns 나중에 안쓰면 지우기
# import matplotlib.pyplot as plt
# import seaborn as sns

# import plotly.express as px
# import plotly.graph_objects as go
# from plotly.subplots import make_subplots
# from PIL import Image

# # converter
# from pandas.plotting import register_matplotlib_converters
# register_matplotlib_converters()   

# #한글깨짐 방지(0420)
# from matplotlib import font_manager, rc
# font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
# rc('font', family=font_name)

# #pandas와 같이 plotly에서도 간단한 시각화 지원
# import cufflinks as cf
# cf.go_offline(connected=True)

# # for offline ploting
# # ===================
# from plotly.offline import plot, iplot, init_notebook_mode
# init_notebook_mode(connected=True)
# import plotly.io as pio
# pio.renderers.default = "notebook_connected"

In [9]:
cnf, dth, rec, act = '#393e46', '#ff2e63', '#21bf73', '#fe9801' 
DEFAULT_PLOTLY_COLORS=['rgb(31, 119, 180)', 'rgb(255, 127, 14)',
                       'rgb(44, 160, 44)', 'rgb(214, 39, 40)',
                       'rgb(148, 103, 189)', 'rgb(140, 86, 75)',
                       'rgb(227, 119, 194)', 'rgb(127, 127, 127)',
                       'rgb(188, 189, 34)', 'rgb(23, 190, 207)']

layout_setting = {'xaxis_title':'Date','yaxis_title':'Number','font':dict(size=15,color='#60606e',family='Franklin Gothic' )}

# Topic 3. 수도권과 영남 지역의 확진자 양상이 다른가?
> 기존 EDA를 통해서 지역별 누적 확지자 추이를 보면 수도권 지역이 확진자 수가 영남 지역과 달리 꾸준히 나오는 것을 확인했습니다. 그리하여, 왜 수도권과 영남지역이 확진자 추이가 다른지 알아보고자 하는 목적으로 진행하였습니다.

# 결론 및 요약
 
 수도권 지역이 영남지역에 비해서 신천지 관련 확진자가 적어 다른 지역에서 급격히 증가할때 다소 증가 폭이 작았습니다. 미국과 유럽등 코로나가 해외에 본격적으로 전파되기 시작한 3월 중순이후로 해외유입으로 인한 감염자가 늘어, 해외입국자가 많은 수도권이 다른 지역과 다르게 감염자가 감소하는 속도가 다른 것을 알 수 있었습니다. 
 최근 해외유입으로 인한 감염자가 신규 감염자 중 많은 비중을 차지하고 있으므로 해외에서 입국하는 사람들의 관리를 더욱 철저히 하여 2차 감염자가 발생하지 않도록 한다면 감염자을 줄일 수 있을 것이라고 생각합니다.
 
## 1. 영남 지역에서 2월 말 감염자 수가 급증한 이유는?

 31번 확진자 발생일인 2월 17일 이후, 영남 지역에서 감염자 수가 급격히 증가 하였습니다. 2월 말부터 3월 초까지의 감염자의 감염 경로를 보았을때, 영남 지역에서 신천지 관련 감염자 비율이 높은 것으로 보다 감염자의 급격한 증가 이유를 신천지로 볼 수 있었습니다.
 
## 2. 확진자 수 급증 후 급감하는 영남 지역과 다른 양상인 수도권, 그 이유는?

 수도권 지역에서 해외유입으로 인한 감염자 수가 3월 중순부터 뒤늦게 증가하여 영남 지역과 다르게 급감하지 않고 지속적으로 감염자가 나오는 것을 알 수 있었습니다. 태블로의 세계 코로나 발병을 보면 미주와 유럽의 확진자가 3월 중순이후로 급격히 증가하는 것으로 보아, 3월 중순부터 미주와 유럽 입국자 중 감염자가 많이 발생하였을 것으로 보입니다
 
 ---
 **이번 포스팅이 유익하고 재밌으셨다면 투표 한번씩 부탁드립니다.**

**분석 과정에 대한 질문과 피드백은 언제든 환영입니다. 감사합니다:)**

In [10]:
timeProvince = pd.read_csv('TimeProvince.csv',)

In [11]:
youngnam = ['Busan','Daegu','Gyeongsangbuk-do','Gyeongsangnam-do','Ulsan']
honam = ['Gwangju','Jeollabuk-do','Jeollanam-do']
hosae = ['Chungcheongbuk-do','Chungcheongnam-do','Daejeon','Sejong']
sudo = ['Gyeonggi-do','Incheon','Seoul']
gandong = ['Gangwon-do']

In [12]:
confirmed = pd.pivot_table(timeProvince, index='date',columns='province', values='confirmed')

sub_title = ['수도권 지역','영남 지역','호서 지역','호남 지역','관동 지역']
fig = make_subplots(rows=5,cols=1,
                    subplot_titles=([f'<b>{prov}</b>' for prov in sub_title]),
                    specs=[[{"secondary_y": True}],[{"secondary_y": True}],[{"secondary_y": True}],[{"secondary_y": True}],[{"secondary_y": True}]])

provinces = [sudo, youngnam, honam, hosae, gandong]
for i in range(5):
    legend=False
    if i==4:
        legend=True
        
    # 지역 추출
    df = pd.DataFrame(confirmed.loc[:,provinces[i]].sum(axis=1))
    
    # 그래프 만들기
    fig.add_trace(go.Bar(name='신규 확진자', x=df.index, y=df.diff().fillna(0).sum(axis=1),
                         marker=dict(color = DEFAULT_PLOTLY_COLORS[3]), showlegend=legend),
                  secondary_y=False, row=i+1, col=1)
    fig.add_trace(go.Scatter(name = '누적 확진자',x=df.index, y= df.sum(axis=1),
                             marker=dict(color = DEFAULT_PLOTLY_COLORS[9]), showlegend=legend),
                 secondary_y=True, row=i+1, col=1)

fig.update_layout(title ='<b>지역별 신규 확진자와 누적 확진자 수<b>',
                  height=1000,
                  legend=dict(x=1.1, y=1.00, traceorder="normal",font=dict(family="sans-serif", size=14)),
                  **layout_font)

fig.update_yaxes(title_text='<b>신규 확진자 수</b>', secondary_y=False, tickfont=dict(size=12))
fig.update_yaxes(title_text='<b>누적 확진자 수</b>', secondary_y=True, tickfont=dict(size=12))

n=17
fig.update_layout(xaxis=dict(showgrid=False, zeroline=False),
                  yaxis=dict(titlefont=dict(size=n)),
                  yaxis3=dict(titlefont=dict(size=n)),
                  yaxis5=dict(titlefont=dict(size=n)),
                  yaxis7=dict(titlefont=dict(size=n)),
                  yaxis9=dict(titlefont=dict(size=n)),
                  yaxis2=dict(titlefont=dict(size=n),showgrid=False, zeroline=False),
                  yaxis4=dict(titlefont=dict(size=n),showgrid=False, zeroline=False),
                  yaxis6=dict(titlefont=dict(size=n),showgrid=False, zeroline=False),
                  yaxis8=dict(titlefont=dict(size=n),showgrid=False, zeroline=False),
                  yaxis10=dict(titlefont=dict(size=n),showgrid=False, zeroline=False),)

fig.show()

수도권, 영남, 호서, 호남, 관동 지역에 대해서 신규 확진자와 누적 확진자 그래프를 그려 보았을때, 31번 확진자 발생일(2월 17일) 이후인 2월 말부터 3월 초까지 확진자 수가 크게 증가하였습니다. 하지만 수도권 지역에서는 2월 말부터 3월 초사이 기간보다는 3월 말부터 많아지기 시작하였습니다. 이후 분석에서는 확진자 수가 적은 호남, 호서, 관동 지역을 제외한 수도권 지역과 영남 지역을 중심으로 왜 확진사 수가 다르게 늘어나는지에 대하여 분석하겠습니다.

수도권에서 감염자 수가 급증한 2020.03.11은 03.08에 구로구 콜 센터 집단 감염 발생으로 인한 감염자(53명)가 생겼기기 때문입니다.

영남에서 감염자 수가 급증한 2020.02.29은 대구에서 신천지 관련으로 집단감염자(741명)가 생겼기때문입니다.

# 1. 영남 지역에서 2월 말 감염자 수가 급증한 이유는?

2월 말부터 3월 초 사이 감염자의 감염 경로를 살펴 본다면 왜 영남 지역에서 감염자가 급증하였는지 알 수 있을 것이라고 생각하였습니다. 또한, 수도권 지역과 영남 지역의 감염경로의 차이가 있다면, 수도권 지역이 영남 지역과 다르게 감염자가 급증하지 않는 이유가 될 수 있을 것이라고 생각하여 지역별 2월 25일부터 3월 9일까지의 PatientInfo를 사용하여 감염경로 비중을 알아보았습니다.

In [13]:
patientInfo = pd.read_csv('PatientInfo.csv')

# Nan으로 되어 있는 것 None으로 변경
patientInfo = patientInfo.fillna('None')

# 케이스 카테고리화
church=['Onchun Church','Dongan Church','River of Grace Community Church','Geochang Church','Pilgrimage to Israel']
nurshing=['Gyeongsan Seorin Nursing Home',"Eunpyeong St. Mary's Hospital",'Bonghwa Pureun Nursing Home','Milal Shelter','Suyeong-gu Kindergarten','Gyeongsan Jeil Silver Town','Cheongdo Daenam Hospital','Gyeongsan Cham Joeun Community Center']
gym=['gym facility in Sejong','gym facility in Cheonan']
etc=['Changnyeong Coin Karaoke','Seongdong-gu APT', 'etc']
work = ['Guro-gu Call Center','Ministry of Oceans and Fisheries']
shincheonji = ['Shincheonji Church', 'None']

category_name = ['Church related','Nurshing related', 'Gym related', 'ETC', 'Workplace related', 'Shincheonji Church']
for i,category in enumerate([church, nurshing, gym, etc, work, shincheonji]):
    patientInfo.infection_case = patientInfo.infection_case.replace(category, category_name[i])
    
# 지역별로 분류해서 그래프 만들기
sub_title=["수도권 지역", "영남 지역"]
fig = make_subplots(rows=1, cols=2,
                    specs=[[{'type':'domain'},{'type':'domain'}]],
                   subplot_titles=([f'<b>{prov}</b>' for prov in sub_title]))

province_name = [sudo, youngnam]
for i, province in enumerate(province_name):
    row=1
    if i==1:
        col=2
    else:
        col=1

    df = pd.DataFrame()
    for city_name in province:
        sub = patientInfo[(patientInfo.confirmed_date >='2020-02-25')&(patientInfo.confirmed_date <='2020-03-09')&
                          (patientInfo.province==city_name)]
        df = pd.concat([df,sub],ignore_index=True)
    df = pd.pivot_table(df, index='confirmed_date', columns='infection_case',values='patient_id',aggfunc='count').ffill().fillna(0).cumsum()
    fig.add_trace(go.Pie(labels=list(df.columns), values=df.iloc[-1,:].values.tolist()), row=row, col=col)

fig.update_traces(textinfo="percent")
fig.update_layout(title='<b>2월20일부터 3월9일까지의 감염경로</b>',
                  font = layout_setting['font'],
                  height=700,
                  legend=dict(x=1.1, y=0.3, traceorder="normal",
                             font=dict(family="sans-serif", size=15)))
fig.show()

2월 20일부터 3월 9일까지의 감염 경로를 보았을때, 영남 지역에서 신천지로 인한 감염자의 비율이 다른 감염경로에 비해 압도적으로 높은 것을 볼 수 있었습니다. 이는 31번 감염자로 인한 신천지 집단 감염이 많이 발생하여, 감염 발생지인 영남권 지역에서 집단으로 감염자가 많이 발생하였기 때문이라고 볼 수 있습니다.

# 2. 확진자 급증 후 급감하는 영남 지역과 다른 양상인 수도권, 그 이유는?


다음과 같이 일일 신규확진자를 그렸을때, 영남지역과 수도권지역에서 확진자 증가하는 시기가 다른 것을 볼 수 있습니다. 왜 증가하는 시기가 다른지 그 원인을 알아보겠습니다.

In [14]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
dailyConfirmed = confirmed.diff().fillna(0)
confirmedSudo = dailyConfirmed[sudo].sum(axis=1)
confirmedYNam = dailyConfirmed[youngnam].sum(axis=1)
SudoYMam = pd.concat([confirmedSudo, confirmedYNam], axis=1)
DailyTrned = pd.DataFrame(scaler.fit_transform(SudoYMam), index=SudoYMam.index)

who = pd.read_csv('WHO-COVID-19-global-data.csv')
# 미국
who[who['Country Name']=='United States of America']
us = who[who.Country=='US']
us.set_index('day', drop=True, inplace=True)

# 유럽
euro = pd.DataFrame()
eu_country = ['Spain','Italy','The United Kingdom','Germany','France','Turkey']
for name in eu_country:
    euro = pd.concat([euro,who[who['Country Name']==name]])
euro = pd.pivot_table(euro,index='day', aggfunc='sum')



# 그래프
sub_title=["수도권과 영남 일단위 신규 확진자 규모"]
fig = make_subplots(rows=1, cols=1,
                    subplot_titles=([f'<b>{prov}</b>' for prov in sub_title]))

fig.add_trace(go.Bar(name='수도권', x=DailyTrned.index, y=DailyTrned.iloc[:,0],
                     marker=dict(color = '#835AF1'), showlegend=legend), row=1, col=1)
fig.add_trace(go.Bar(name='영남', x=DailyTrned.index, y=DailyTrned.iloc[:,1],
                     showlegend=legend),row=1,col=1)


fig.update_traces( opacity=0.75)
fig.update_layout(barmode='overlay', **layout_font)
fig.update_xaxes(title_text='<b>Date</b>')
fig.update_yaxes(title_text='<b>Scale</b>')
fig.show()

## 2-1) 확진자의 감염  추이

질병관리 본부에서 발표한 자료에서 대구와 경북의 감염경로를 알 수 없는 경로의 대부분을 신천지 관련으로 볼 수 있다고 한 것과 Case 데이터를 참고하여, 감염경로가 Nan을 신천지로 인한 감염으로 보고 분석을 하였습니다.

In [15]:
# 날짜 맞추기 => x 축 맞추기
latest_date = []
oldest_date=[]
province_name = [sudo, youngnam]
for province in province_name:
    dates=[]
    for city in province:
        dates += list(set(patientInfo[patientInfo.province==city].confirmed_date))
    latest_date.append(max(dates))
    oldest_date.append(min(dates))
period = [max(oldest_date),min(latest_date)]

# columns(항목 8개)
all_columns = ['contact with patient', 'ETC', 'Nurshing related', 'Workplace related',
               'overseas inflow', 'Shincheonji Church', 'Church related', 'Gym related']


sub_title=["수도권 지역", "영남 지역"]
fig = make_subplots(rows=2, cols=1,
                    subplot_titles=([f'<b>{prov}</b>' for prov in sub_title]))

province_name = [sudo, youngnam]
for i, province in enumerate(province_name):
    row = i+1
    col = 1
    legend=False
    if i==1:
        legend=True
        
    # 지역분류
    df = pd.DataFrame()
    for city_name in province:
        sub = patientInfo[(patientInfo.confirmed_date >=period[0])&(patientInfo.confirmed_date <=period[1])&
                          (patientInfo.province==city_name)]
        df = pd.concat([df,sub],ignore_index=True)
    df = pd.pivot_table(df, index='confirmed_date', columns='infection_case',values='patient_id',aggfunc='count').ffill().fillna(0).cumsum()
    
    # 없는 항목 0으로 채우기
    need_column = set(all_columns) - set(df.columns)
    for name in need_column:
        df[name] = 0
        
    # 그래프
    for i,name in enumerate(all_columns):
        fig.add_trace(go.Scatter(x=df.index, y=df[name],
                                 marker=dict(color = DEFAULT_PLOTLY_COLORS[i]),
                                 mode='lines', name=name, showlegend=legend), row=row, col=col)   


fig.update_layout(title='<b>수도권과 영남지역의 누적 확진자 감염 경로</b>',
                  font = layout_setting['font'],
                  width = 1000, height=700,
                  legend=dict(x=1., y=1.0, traceorder="normal",
                             font=dict(family="sans-serif", size=15)))

fig.show()

In [16]:
# from sklearn.preprocessing import MinMaxScaler

# scaler = MinMaxScaler()
# dailyConfirmed = confirmed.diff().fillna(0)
# confirmedSudo = dailyConfirmed[sudo].sum(axis=1)
# confirmedYNam = dailyConfirmed[youngnam].sum(axis=1)
# SudoYMam = pd.concat([confirmedSudo, confirmedYNam], axis=1)
# DailyTrned = pd.DataFrame(scaler.fit_transform(SudoYMam), index=SudoYMam.index)


# fig = go.Figure()
# fig.add_trace(go.Bar(name='수도권', x=DailyTrned.index, y=DailyTrned.iloc[:,0],
#                      marker=dict(color = '#835AF1'), showlegend=legend))
# fig.add_trace(go.Bar(name='영남', x=DailyTrned.index, y=DailyTrned.iloc[:,1],
#                      showlegend=legend),)

# fig.update_traces( opacity=0.75)
# fig.update_layout(title ='<b>수도권과 영남 일단위 신규 확진자 규모<b>',
#                   barmode='overlay', **layout_font)
# fig.update_xaxes(title_text='<b>Date</b>')
# fig.update_yaxes(title_text='<b>Scale</b>')
# fig.show()

In [17]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
dailyConfirmed = confirmed.diff().fillna(0)
confirmedSudo = dailyConfirmed[sudo].sum(axis=1)
confirmedYNam = dailyConfirmed[youngnam].sum(axis=1)
SudoYMam = pd.concat([confirmedSudo, confirmedYNam], axis=1)
DailyTrned = pd.DataFrame(scaler.fit_transform(SudoYMam), index=SudoYMam.index)

who = pd.read_csv('WHO-COVID-19-global-data.csv')
# 미국
who[who['Country Name']=='United States of America']
us = who[who.Country=='US']
us.set_index('day', drop=True, inplace=True)

# 유럽
euro = pd.DataFrame()
eu_country = ['Spain','Italy','The United Kingdom','Germany','France','Turkey']
for name in eu_country:
    euro = pd.concat([euro,who[who['Country Name']==name]])
euro = pd.pivot_table(euro,index='day', aggfunc='sum')



# 그래프
sub_title=["수도권 신규 확진자 수와 미국과 유럽 코로나 확진자 수의 추세"]
fig = make_subplots(rows=1, cols=1,
                    subplot_titles=([f'<b>{prov}</b>' for prov in sub_title]),
                   specs=[[{"secondary_y": True}]])

fig.add_trace(go.Bar(name='수도권', x=DailyTrned.index, y=DailyTrned.iloc[:,0],
                     marker=dict(color = '#835AF1'), showlegend=legend), row=1, col=1, secondary_y=False)

fig.add_trace(go.Scatter(x=us.index,y=us['Cumulative Confirmed'],
             mode='lines+markers', name='미국'),row=1,col=1, secondary_y=True)
fig.add_trace(go.Scatter(x=euro.index,y=euro['Cumulative Confirmed'],
             mode='lines+markers', name='유럽'),row=1,col=1, secondary_y=True)


fig.update_traces( opacity=0.75)
fig.update_layout(barmode='overlay', **layout_font)
fig.update_xaxes(title_text='<b>Date</b>')
fig.update_yaxes(title_text='<b>Scale</b>')
fig.show()

In [18]:
# fig = make_subplots(rows=1, cols=1, shared_xaxes=True)
# fig.add_trace(go.Scatter(x=us.index,y=us['Cumulative Confirmed'],
#              mode='lines+markers', name='미국'))
# fig.add_trace(go.Scatter(x=euro.index,y=euro['Cumulative Confirmed'],
#              mode='lines+markers', name='유럽'))

# fig.update_layout(title='미국과 유럽 코로나 확진자 추이', **layout_setting)
# fig.show()

In [19]:
# case = pd.read_csv('Case.csv')
dfs = []
for province in [sudo, youngnam]:
    df = pd.DataFrame()
    for city in province:
        df = pd.concat([df, case[case.province==city]])
    df = pd.pivot_table(df, columns='infection_case', values='confirmed', aggfunc='sum')
    dfs.append(df)
    
provinces=["수도권 지역", "영남 지역"]
fig = make_subplots(rows=1, cols=2,
                    horizontal_spacing=0.03,
                    specs=[[{'type':'domain'}, {'type':'domain'}]],
                   subplot_titles=([f'<b>{prov}</b>' for prov in provinces]))
rotation=[0,-75]
for i,df in enumerate(dfs):
    df = df.sort_values(by='confirmed', axis=1, ascending=False)
    etc = df.iloc[:,6:].sum(axis=1).values[0]
    df = df.iloc[:,:6]
    df['etc'] = etc
    fig.add_trace(go.Pie(labels=list(df.columns), values=df.values[0].tolist(),rotation=rotation[i]), row=1, col=i+1)

fig.update_layout(title='<b>수도권과 영남지역의 확진자 감염 경로 비율</b>',
                  font = layout_setting['font'], height=400,
                  legend=dict(x=1., y=0.0, traceorder="normal",
                             font=dict(family="sans-serif", size=15)))
fig.show()

전체 감염경로별 확진자를 보았을때, 수도권 지역은 감염자 접촉과 해외유입으로 인한 감염자가 많았고 영남지역은 신천지로인한 감염자가 많다는 것을 볼 수 있었습니다.

영남 지역에서 감염 경로별 확진자 추이는 같이 증가하는 모습을 보이지만 수도권 지역에서는 3월 중순부터 뒤늦게 해외유입으로인한 감염자가 증가하고 있는 것을 볼 수 있습니다. 때문에, 수도권 지역의 감염자 수가 영남 지역에 비해서 감소 폭이 작은 이유를 알 수 있었습니다.

WHO의 코로나 데이터를 참고하였을때, 3월 중순부터 미국과 유럽 등 해외에 코로나 확진자가 증가하는 것을 볼 수 있었습니다. 이를 보았을때, 3월 중순부터 해외에서 입국한 사람들의 코로나 감염률이 높아져 해외유입으로 인한 감염자 수가 증가하여 해외유입인구가 가장 많은 수도권의 신규확진자가 지속적으로 많이 나왔다고 볼 수 있었습니다.

## 2-2) 해외 유입 감염자가 신규 감염자에 있어서 큰 영향을 미칠까?
2020.04.14부터 2020.04.27동안 질병관리본부에서 발표한 보도자료에서 추출하여 감염경로를 살펴 보았습니다.

In [20]:
# 지역 이름이 다르게 설정되어있어서 다시 설정
youngnam = ['Busan','Daegu','Gyungbuk','Gyungnam','Ulsan']
honam = ['Gwangju','Jeonbuk','Jeonnam']
hosae = ['Chungbuk','Chungnam','Daejeon','Sejong']
sudo = ['Gyungki','Incheon','Seoul']
gandong = ['Gangwon']

df = pd.DataFrame()
for date in range(20200414, 20200428):
    sub = pd.read_excel('PatientTrend_20200414_20200427.xlsx', sheet_name=str(date))
    date = str(date)
    sub['Date'] = str(date[:4])+'-'+str(date[4:6])+'-'+str(date[6:])
    df = pd.concat([df,sub])
    
df['Overseas Inflow'] = df.Overseas + df.Oversea_inflow_related
df.columns = ['City', 'Sum', 'Overseas', 'Shincheonji Church', 'Mass Infection','Contact with Patient', 'Oversea_inflow_related', 'ETC', 'Date','Overseas Inflow']
df = df[['Date', 'City', 'Overseas Inflow', 'Shincheonji Church', 'Mass Infection', 'Contact with Patient', 'ETC', 'Sum']]

total = []
for province in [sudo, youngnam]:
    sub = pd.DataFrame()
    a = pd.DataFrame()
    for city in province:
        sub = df[df.City==city]
        a[city] = (sub.iloc[-1,2:] - sub.iloc[0,2:])
    a = np.where(a<0,0,a).sum(axis=1)
    total.append(a)

total = pd.DataFrame(total, index=['수도권', '영남'], columns=['Overseas Inflow', 'Shincheonji Church', 'Mass Infection', 'Contact with Patient', 'ETC', 'Sum'])
total

Unnamed: 0,Overseas Inflow,Shincheonji Church,Mass Infection,Contact with Patient,ETC,Sum
수도권,44.0,0,15,0,0,61
영남,13.0,1,34,8,8,64


In [21]:
# 지역 이름이 다르게 설정되어있어서 다시 설정
youngnam = ['Busan','Daegu','Gyungbuk','Gyungnam','Ulsan']
honam = ['Gwangju','Jeonbuk','Jeonnam']
hosae = ['Chungbuk','Chungnam','Daejeon']
sudo = ['Gyungki','Incheon','Seoul']
gandong = ['Gangwon']

df = pd.DataFrame()
for date in range(20200414, 20200428):
    sub = pd.read_excel('PatientTrend_20200414_20200427.xlsx', sheet_name=str(date))
    date = str(date)
    sub['Date'] = str(date[:4])+'-'+str(date[4:6])+'-'+str(date[6:])
    df = pd.concat([df,sub])
    
df['Overseas Inflow'] = df.Overseas + df.Oversea_inflow_related
df.columns = ['City', 'Sum', 'Overseas', 'Shincheonji Church', 'Mass Infection','Contact with Patient', 'Oversea_inflow_related', 'ETC', 'Date','Overseas Inflow']
df = df[['Date', 'City', 'Overseas Inflow', 'Shincheonji Church', 'Mass Infection', 'Contact with Patient', 'ETC', 'Sum']]

total = []
for province in [sudo, youngnam,honam,hosae,gandong]:
    sub = pd.DataFrame()
    a = pd.DataFrame()
    for city in province:
        sub = df[df.City==city]
        a[city] = (sub.iloc[-1,2:] - sub.iloc[0,2:])
    a = np.where(a<0,0,a).sum(axis=1)
    total.append(a)

total = pd.DataFrame(total, index=['수도권', '영남','호남','호서','관동'], columns=['Overseas Inflow', 'Shincheonji Church', 'Mass Infection', 'Contact with Patient', 'ETC', 'Sum'])
total

Unnamed: 0,Overseas Inflow,Shincheonji Church,Mass Infection,Contact with Patient,ETC,Sum
수도권,44.0,0,15,0,0,61
영남,13.0,1,34,8,8,64
호남,4.0,0,0,0,0,4
호서,3.0,0,0,0,1,4
관동,2.0,0,2,0,0,4


In [22]:
total.sum().tolist()

[66.0, 1.0, 51.0, 8.0, 9.0, 137.0]

In [23]:
provinces=["수도권 지역", "영남 지역","전국"]
fig = make_subplots(rows=1, cols=3,
                    specs=[[{'type':'domain'}, {'type':'domain'}, {'type':'domain'}]],
                   subplot_titles=([f'<b>{prov}</b>' for prov in provinces]))

index=list(total.columns[:-1])
fig.add_trace(go.Pie(labels=index, values=total.iloc[0,:].tolist()), row=1, col=1)
fig.add_trace(go.Pie(labels=index, values=total.iloc[1,:].tolist()), row=1, col=2)
fig.add_trace(go.Pie(labels=index, values=total.sum().tolist()), row=1, col=3)

fig.update_traces(textinfo="percent+label", textposition="inside")
fig.update_layout(title='<b>4월14일부터 4월27일동안의 감염 경로</b>',
                  font = layout_setting['font'],
                  height=500, font_size=14, legend_orientation="h",
                  legend=dict( traceorder="normal", 
                             font=dict(family="sans-serif", size=15))) 

해외 유입 감염자 수가 뒤늦게 증가하여 최근 이슈화가 되고 있어 신규 감염자의 대부분이 해외유입으로 인한 감염자일 것이라고 생각하였습니다. 하지만 수도권만 해외유입으로 인한 확진자가 다수를 이루었고 그 외 지역에서는 해외유입보다는 집단감염이 더 큰 비중을 차지하였습니다. 최근 2주동안 신규 확진자의 총 수를 보았을 때, 해외유입 감염자 57명, 집단감염자 49명으로 이 두 사례가 신규확진자 증가에 영향을 끼친다는 것을 알 수 있었습니다.

# 최종 결론

코로나 종식 및 예방을 위해서는 <span style="color:red">해외 유입에 의한 확진자를 차단</span>해야합니다. 현재 입국자에 대한 검사 및 2주 자가격리 등 많은 노력이 진행되고 있습니다. 하지만, 그럼에도 유의사항을 잘 따르지 않는 일부 인원에 의해서 신천지와 같은 큰 집단 감염이 발생될 수 있다는 사실을 잊지 말아야합니다. 따라서, 코로나에 대한 경각심과 인식을 잘 심어주어야하며, 특히나 가장 안일하게 생각하는 20대의 인식 변화를 이끌어야 할 것입니다. 
또한, <span style="color:red">20대의 행동 패턴 및 방문 경로를 바탕으로 감염 위험이 있는 업종은 특히나 더욱 신경써서 사회적 거리두기, 마스크 착용, 손세정제와 손씻기 등을 더욱 권장</span>하도록 해야합니다.

두번째로, 사망률을 줄이기 위해서는 <span style="color:red">60대이상의 완치기간이 긴 고연령층</span>의 주의있는 예방이 필요합니다. 또한 페렴 뿐만아니라 <span style="color:red"> 기저질환이 있는 환자들</span>에게 매우 치명적임으로 병원에 대한 항시 방역과 감염자와의 접촉을 막아야 코로나 바이러스로 인한 사망률을 줄일 수 있을 것입니다.


세번째로, 수도권지역이 다른 지역과 다르게 확진자가 급증하지 않았던 이유는 다른 지역에 비해 <span style="color:red">신천지관련 확진자</span>가 없었기 때문이고 급증 후 급감했던 다른 지역과 다르게 지속적으로 확진자가 나왔던 이유는 뒤늦게 <span style="color:red">해외에서 들어온 확진자</span>가 증가 했기 때문입니다. 해외에서 입국하는 사람들 중 감염이 되어 오는 사람은 어쩔 수가 없지만 해외에서 들어온 감염자의 관리를 철저히 하여 그 사람들로 인한 2차 감염을 줄이는 것이 코로나 바이러스의 종결을 앞당길 것이라고 생각합니다. 또한 집단 감염도 해외유입으로 인한 감염과 비등하게 많기때문에, 낮아지고 있는 코로나 바이러스에 대한 경각심을 다시 한번 심어 주어 사회적 거리두기와 마스크 착용을 지속적으로 해야합니다.