In [2]:
# 라이브러리 읽기
import pandas as pd
from datetime import datetime

# 파일 읽기
# data = pd.read_csv('./서울시 코로나19 확진자 발생동향.csv', encoding='EUC-KR')
data = pd.read_csv('./LSH0519/서울시 코로나19 확진자 발생동향.csv', encoding='EUC-KR')

# 컬럼 정보
data.columns

# 특정 컬럼 (서울시 기준일) 공백 제거
data['서울시 기준일'] = data['서울시 기준일'].str.replace(' ', '', regex=True)

# 특정 컬럼 (서울시 기준일)에서 문자열 길이를 통해 날짜형 변환
data['dtYmdH'] = data['서울시 기준일'].apply(lambda x: pd.to_datetime(x, format='%Y.%m.%d.%H') if len(x) == 13 else pd.to_datetime(x, format='%y.%m.%d.%H'))

# 날짜형에서 연월일 변환
data['dtYmd'] = data['dtYmdH'].dt.strftime('%Y%m%d')

# 날짜형에서 연월 변환
data['dtYm'] = data['dtYmdH'].dt.strftime('%Y%m')

# 월별에 따른 확진자 및 사망자 합계
dataL1 = data.groupby(data['dtYm'])[['전국 추가 확진', '전국 당일 사망자']].sum().reset_index(drop=False)
print(f'[CHECK] dataL1 : {dataL1}')

[CHECK] dataL1 :       dtYm   전국 추가 확진  전국 당일 사망자
0   202002        0.0        0.0
1   202003        0.0        0.0
2   202004       82.0        0.0
3   202005      709.0        0.0
4   202006     1335.0        0.0
5   202007     1530.0        0.0
6   202008     5642.0        0.0
7   202009     3865.0        0.0
8   202010     2713.0        0.0
9   202011     7769.0        0.0
10  202012    26554.0        0.0
11  202101    17500.0        0.0
12  202102    11493.0        0.0
13  202103    13430.0        0.0
14  202104    18938.0        0.0
15  202105    18343.0        0.0
16  202106    16626.0        0.0
17  202107    41401.0        0.0
18  202108    53121.0        0.0
19  202109    59899.0        0.0
20  202110    53449.0        0.0
21  202111    82566.0        0.0
22  202112   183680.0        0.0
23  202201   215009.0        0.0
24  202202  2288947.0        0.0
25  202203  9962387.0     5343.0
26  202204  4143305.0     6564.0
27  202205   860022.0     1382.0
28  202206   256037.0     

In [4]:
# ==========================================================================
# 확진자
# ==========================================================================
# 컬럼 선택
colInfo = '전국 추가 확진'

# 월간 최대 확진자
maxMonthInfo = dataL1.loc[dataL1[colInfo].idxmax()][['dtYm', colInfo]]
print(f'[CHECK] maxMonthInfo : {maxMonthInfo}')

# 일간 최대 확진자
dataL2 = data[data['dtYm'] == maxMonthInfo['dtYm']]
maxDayInfo = dataL2.loc[dataL2[colInfo].idxmax()][['dtYmd', colInfo]]
print(f'[CHECK] maxDayInfo : {maxDayInfo}')

[CHECK] maxMonthInfo : dtYm           202203
전국 추가 확진    9962387.0
Name: 25, dtype: object
[CHECK] maxDayInfo : dtYmd       20220317
전국 추가 확진    621266.0
Name: 440, dtype: object


In [5]:
# ==========================================================================
# 사망자
# ==========================================================================
# 컬럼 선택
colInfo = '전국 당일 사망자'

# 월간 최대 사망자
maxMonthInfo = dataL1.loc[dataL1[colInfo].idxmax()][['dtYm', colInfo]]
print(f'[CHECK] maxMonthInfo : {maxMonthInfo}')

# 일간 최대 사망자
dataL2 = data[data['dtYm'] == maxMonthInfo['dtYm']]
maxDayInfo = dataL2.loc[dataL2[colInfo].idxmax()][['dtYmd', colInfo]]
print(f'[CHECK] maxDayInfo : {maxDayInfo}')


[CHECK] maxMonthInfo : dtYm         202204
전국 당일 사망자    6564.0
Name: 26, dtype: object
[CHECK] maxDayInfo : dtYmd        20220408
전국 당일 사망자       373.0
Name: 418, dtype: object


In [6]:
# ==========================================================================
# 분석 결과
# ==========================================================================
# 월간/일간 확진자 통계 결과 2022년 03월 9,962,387명 확진자를 보이며 특히 2022년 3월 17일에서 가장 높은 확진자 (621,266명)를 보임
# 월간/일간 사망자 통계 결과 2022년 04월 6,564명 사망자를 보이며 특히 2022년 4월 8일에서 가장 높은 사망자 (373명)를 보임