# 충남과학고등학교 데이터분석 특강 (3H / 6H)
## 예제로 배우는 데이터 분석
## 초급: 3H, 중급: 6H (초중급 3H 동일)

## Case 5: COVID-19 국가별 데이터 분석
### Question: 국가별 COVID-19 확진자 및 사망자 분석
##### 데이터출처1: [Github-JohnsHopkinsUniv.](https://github.com/CSSEGISandData/COVID-19)
##### 데이터출처2: [Kaggle-JohnsHopkinsUniv.](https://www.kaggle.com/datasets/antgoldbloom/covid19-data-from-john-hopkins-university)

### Step1. Question - 공개 데이터 살펴보기: Meta-data

#### 도구 불러오기

In [None]:
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
# %matplotlib widget
%matplotlib inline

#### 데이터 경로 설정 (data_root)

In [None]:
data_root = 'datasets/covid-19/CONVENIENT_global_confirmed_cases.csv'
data_root

#### 데이터 읽어오기

In [None]:
df = pd.read_csv(data_root)
df

#### 누락 데이터 (Missing value, NaN) 처리

In [None]:
df.fillna(0, inplace=True)
df

#### 첫 행 (1st row) 제거
##### Province/State 는 데이터 설명용 meta data

In [None]:
df.drop(index=0, inplace=True)
df

#### 열 번호 재배치

In [None]:
df.reset_index(drop=True, inplace=True)
df

### Step 2. Question - 대한민국 확진자 분석

#### 나라 리스트

In [None]:
counter = 0
for country in df.columns:
    counter = counter + 1
    if counter%5 == 0:
        print(country)
    else:
        print(country, end='  ')
print()

#### 한국 확진자 현황 그래프 그리기

In [None]:
df['Country/Region']

In [None]:
df['Korea, South']

In [None]:
x = df.index
xlab = df['Country/Region']
y = df['Korea, South']
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot()
ax.plot(x, y)
ax.set_xticks(x[::100], xlab[::100], rotation=-30)
ax.tick_params(axis='both', labelsize='large')
ax.set_xlabel('Date', fontsize='large')
ax.set_ylabel('Number of cases', fontsize='large')
ax.set_title('COVID-19 cases in South Korea', fontsize='x-large')

### Step 3. Question - 대한민국, 일본, 미국, 중국 확진자 비교 분석

#### 일본 확진자 현황

In [None]:
df['Country/Region']

In [None]:
df['Japan']

In [None]:
x = df.index
xlab = df['Country/Region']
y = df['Japan']
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot()
ax.plot(x, y)
ax.set_xticks(x[::100], xlab[::100], rotation=-30)
ax.tick_params(axis='both', labelsize='large')
ax.set_xlabel('Date', fontsize='large')
ax.set_ylabel('Number of cases', fontsize='large')
ax.set_title('COVID-19 cases in Japan', fontsize='x-large')

#### 한국, 일본, 미국, 중국 비교

#### 데이터 준비

In [None]:
df['Country/Region']

In [None]:
df['Korea, South']

In [None]:
df['Japan']

In [None]:
df['US']

In [None]:
df['China']

In [None]:
df['China'].astype(np.float64)

In [None]:
x = df.index
xlab = df['Country/Region']
y1 = df['Korea, South']
y2 = df['Japan']
y3 = df['US']
y4 = df['China'].astype(np.float64)

In [None]:
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot()
ax.plot(x, y1, label='South Korea', color='blue')
ax.plot(x, y2, label='Japan', color='cyan')
ax.plot(x, y3, label='US', color='brown')
ax.plot(x, y4, label='China', color='red')
ax.set_xticks(x[::100], xlab[::100], rotation=-30)
ax.tick_params(axis='both', labelsize='large')
ax.set_xlabel('Date', fontsize='large')
ax.set_ylabel('The number of cases', fontsize='large')
ax.legend(loc='upper left')
ax.set_title('COVID-19 cases', fontsize='x-large')

### Step 4. Question - 대한민국 일별 확진자 대비 사망률 분석

#### 데이터 불러오기

In [None]:
data_root2 = 'datasets/covid-19/CONVENIENT_global_deaths.csv'
data_root2

#### 데이터 전처리

In [None]:
df2 = pd.read_csv(data_root2)
df2.fillna(0, inplace=True)
df2.drop(index=0, inplace=True)
df2.reset_index(drop=True, inplace=True)
df2

#### 한국 확진자 대비 사망률 그래프 그리기

In [None]:
x = df.index
xlab = df['Country/Region']
y = df2['Korea, South'] / df['Korea, South']
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot()
ax.plot(x, y)
ax.set_ylim([-0.05, 1.05])
ax.set_xticks(x[::100], xlab[::100], rotation=-30)
ax.tick_params(axis='both', labelsize='large')
ax.set_xlabel('Date', fontsize='large')
ax.set_ylabel('The death ratio', fontsize='large')
ax.set_title('COVID-19 death ratio in South Korea', fontsize='x-large')

### Step 5. Question - 한국, 일본, 미국, 중국 확진자 대비 사망률 비교

#### 데이터 준비

In [None]:
df2['Korea, South'] / df['Korea, South']

In [None]:
df2['Japan'] / df['Japan']

In [None]:
df2['US'] / df['US']

In [None]:
df2['China'].astype(np.float64) / df['China'].astype(np.float64)

In [None]:
x = df.index
xlab = df['Country/Region']
y1 = df2['Korea, South'] / df['Korea, South']
y2 = df2['Japan'] / df['Japan']
y3 = df2['US'] / df['US']
y4 = df2['China'].astype(np.float64) / df['China'].astype(np.float64)

#### 비교 그래프 그리기? 이대로 충분한가?

In [None]:
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot()
ax.plot(x, y1, label='South Korea', color='blue')
ax.plot(x, y2, label='Japan', color='cyan')
ax.plot(x, y3, label='US', color='brown')
ax.plot(x, y4, label='China', color='red')
ax.set_ylim([-0.05, 1.05])
ax.set_xticks(x[::100], xlab[::100], rotation=-30)
ax.tick_params(axis='both', labelsize='large')
ax.set_xlabel('Date', fontsize='large')
ax.set_ylabel('The death ratio', fontsize='large')
ax.legend(loc='best', fontsize='x-large')
ax.set_title('COVID-19 death ratio', fontsize='x-large')

### Step 6. Question - 좀 더 깊게 파보기!

#### 질문 예제: 중국 발표 데이터 출처를 모두 사용한 국가별 비교
#### 질문 예제: 누적 확진자 및 사망 분석
#### 질문 예제: COVID-19 첫 대유행은 언제, 그리고 사망률은?
#### 질문 예제: COVID-19 유행 wave 주기는?