# COVID-19 현황 분석

In [1]:
import re
import time

import numpy as np
import pandas as pd

from glob import glob

# A Fast, Extensible Progress Bar for Python and CLI
from tqdm import tqdm

# An importlib package installable from any python version
import importlib
import modules.fs as fs
import modules.api as api

In [15]:
# 보건복지부_코로나19 시·도발생_현황
raw = []

for f in glob('./data/covid19_sido_*.csv'):
    row = pd.read_csv(f, encoding='utf8')
    raw.append(row)

df = pd.concat(raw)
df.index = np.arange(0, len(df))

df.rename(columns={
    'createDt': '등록일시분초',
    'deathCnt': '사망자 수',
    'defCnt': '확진자 수',
    'gubun': '시도명(한글)',
    'gubunCn': '시도명(중국어)',
    'gubunEn': '시도명(영어)',
    'incDec': '전일대비 증감 수',
    'isolClearCnt': '격리 해제 수',
    'isolIngCnt': '격리중 환자수',
    'localOccCnt': '지역발생 수',
    'overFlowCnt': '해외유입 수',
    'qurRate': '10만명당 발생률',
    'seq': '게시글번호(국내 시도별 발생현황 고유값)',
    'stdDay': '기준일시',
    'updateDt': '수정일시분초',
}, inplace=True)

# Change the default format of the data series.
df['등록일시분초'] = df['등록일시분초'].replace('\.\d+$', '', regex=True)
df['등록일시분초'] = pd.to_datetime(df['등록일시분초'], format='%Y-%m-%d %H:%M:%S')

nans = ['사망자 수', '확진자 수', '전일대비 증감 수', '격리 해제 수', '격리중 환자수', '지역발생 수', '해외유입 수', '10만명당 발생률', '게시글번호(국내 시도별 발생현황 고유값)']

for nan in nans:
    try:
        df[nan] = df[nan].replace('-', 0, regex=True)
        df[nan] = pd.to_numeric(df[nan])
    except Exception as e:
        print(nan, e)

del df['Unnamed: 0']
df.to_csv('./data/covid19_sido.csv', index=False)

10만명당 발생률 Unable to parse string "51.13." at position 237858


Unnamed: 0.1,Unnamed: 0,등록일시분초,사망자 수,확진자 수,시도명(한글),시도명(중국어),시도명(영어),전일대비 증감 수,격리 해제 수,10만명당 발생률,게시글번호(국내 시도별 발생현황 고유값),기준일시,수정일시분초,격리중 환자수,지역발생 수,해외유입 수
0,0.0,2020-03-31 10:36:21,0,217.0,검역,隔離區,Lazaretto,15,0.0,0,744,2020년 03월 31일 00시,,,,


In [25]:
# 보건복지부_코로나19 연령별·성별감염_현황
raw = []

for f in glob('./data/covid19_gen_age_case_*.csv'):
    row = pd.read_csv(f, encoding='utf8')
    raw.append(row)

df = pd.concat(raw)
df.index = np.arange(0, len(df))

df.rename(columns={
    'seq': '게시글번호(확진자 성별,연령별 고유값)',
    'gubun': '구분(성별, 연령별)',
    'confCase': '확진자',
    'confCaseRate': '확진률',
    'death': '사망자',
    'deathRate': '사망률',
    'criticalRate': '치명률',
    'createDt': '등록일시분초',
    'updateDt': '수정일시분초',
}, inplace=True)

# Change the default format of the data series.
df['등록일시분초'] = df['등록일시분초'].replace('\.\d+$', '', regex=True)
df['등록일시분초'] = pd.to_datetime(df['등록일시분초'], format='%Y-%m-%d %H:%M:%S')

nans = ['확진자', '확진률', '치명률', '사망자', '사망률', '게시글번호(확진자 성별,연령별 고유값)']

for nan in nans:
    try:
        df[nan] = df[nan].replace('-', 0, regex=True)
        df[nan] = pd.to_numeric(df[nan])
    except Exception as e:
        print(nan, e)

df.to_csv('./data/covid19_gen_age_case.csv', index=False)

In [27]:
# 보건복지부_코로나19 감염_현황
raw = []

for f in glob('./data/covid19_20*.csv'):
    row = pd.read_csv(f, encoding='utf8')
    raw.append(row)

df = pd.concat(raw)
df.index = np.arange(0, len(df))

df.rename(columns={
    'accDefRate': '누적 환진률',
    'accExamCnt': '누적 검사 수',
    'accExamCompCnt': '누적 검사 완료 수',
    'careCnt': '치료중 환자 수',
    'clearCnt': '격리해제 수',
    'createDt': '등록일시분초',
    'deathCnt': '사망자 수',
    'decideCnt': '확진자 수',
    'examCnt': '검사진행 수',
    'resutlNegCnt': '결과 음성 수',
    'seq': '게시글번호(감염현황 고유값)',
    'stateDt': '기준일',
    'stateTime': '기준시간',
    'updateDt': '수정일시분초',
}, inplace=True)

# Change the default format of the data series.
df['등록일시분초'] = df['등록일시분초'].replace('\.\d+$', '', regex=True)
df['등록일시분초'] = pd.to_datetime(df['등록일시분초'], format='%Y-%m-%d %H:%M:%S')

nans = ['누적 환진률', '누적 검사 수', '누적 검사 완료 수', '치료중 환자 수', '격리해제 수', '사망자 수', '확진자 수', '검사진행 수', '결과 음성 수', '게시글번호(감염현황 고유값)']

for nan in nans:
    try:
        df[nan] = df[nan].replace('-', 0, regex=True)
        df[nan] = pd.to_numeric(df[nan])
    except Exception as e:
        print(nan, e)

df.to_csv('./data/covid19.csv', index=False)

In [29]:
# 보건복지부_코로나19해외발생_현황
raw = []

for f in glob('./data/covid19_nat_*.csv'):
    row = pd.read_csv(f, encoding='utf8')
    raw.append(row)

df = pd.concat(raw)
df.index = np.arange(0, len(df))

df.rename(columns={
    'areaNm': '지역명',
    'areaNmCn': '지멱명(중문)',
    'areaNmEn': '지역명(영문)',
    'createDt': '등록일시분초',
    'natDeathCnt': '국가별 사망자 수',
    'natDeathRate': '확진률 대비 사망률',
    'natDefCnt': '국가별 확진자 수',
    'nationNm': '국가명',
    'nationNmCn': '국가명(중문)',
    'nationNmEn': '국가명(영문)',
    'seq': '게시글번호(국외발생현황 고유값)',
    'stdDay': '기준일시',
    'updateDt': '수정일시분초',
}, inplace=True)

# Change the default format of the data series.
df['등록일시분초'] = df['등록일시분초'].replace('\.\d+$', '', regex=True)
df['등록일시분초'] = pd.to_datetime(df['등록일시분초'], format='%Y-%m-%d %H:%M:%S')

nans = ['국가별 사망자 수', '확진률 대비 사망률', '국가별 확진자 수', '게시글번호(국외발생현황 고유값)']

for nan in nans:
    try:
        df[nan] = df[nan].replace('-', 0, regex=True)
        df[nan] = pd.to_numeric(df[nan])
    except Exception as e:
        print(nan, e)

df.to_csv('./data/covid19_nat.csv', index=False)