# Khám phá dữ liệu COVID

## Import libraries

In [2]:
import numpy as np
import pandas as pd
from scipy import stats # comment

## Load dataset

In [3]:
covid_data = pd.read_csv("owid-covid-data.csv")

In [4]:
covid_data = covid_data[['iso_code','continent',
'location','date','total_cases','new_cases']]

## Phân tích dữ liệu (Analyze data)

1) Dataset view

In [None]:
covid_data.head()

Unnamed: 0,iso_code,continent,location,date,total_cases,new_cases
0,AFG,Asia,Afghanistan,2020-01-05,0.0,0.0
1,AFG,Asia,Afghanistan,2020-01-06,0.0,0.0
2,AFG,Asia,Afghanistan,2020-01-07,0.0,0.0
3,AFG,Asia,Afghanistan,2020-01-08,0.0,0.0
4,AFG,Asia,Afghanistan,2020-01-09,0.0,0.0


2) Data type

In [8]:
covid_data.dtypes

iso_code        object
continent       object
location        object
date            object
total_cases    float64
new_cases      float64
dtype: object

3) Shape

In [10]:
covid_data.shape

(429435, 6)

- Bộ dữ liệu bao gồm 429435 dòng và 6 cột

4) Tính toán trên dữ liệu

Mean

In [28]:
data_mean = np.mean(covid_data["new_cases"])
data_mean

8017.359933586731

Median

In [33]:
data_median = np.median(covid_data["new_cases"])
data_median

nan

- Median = NaN, có thể do tính median bằng NumPy (chỉ cần có NaN thì kết quả sẽ NaN)
- Thay thế bằng Pandas hoặc dùng hàm median()

In [36]:
# using pandas
data_median_pd = pd.Series(covid_data["new_cases"]).median()
display(data_median_pd)
# using median method
data_median_m = covid_data["new_cases"].median()
display(data_median_m)


0.0

0.0

In [37]:
# Check why median = 0 ?
(covid_data["new_cases"] == 0).sum()

368385

- Giá trị hợp lý vì số lượng 0 quá lớn

Mode (Cho biết giá trị nào xuất hiện nhiều nhất trong dataset)

In [38]:
data_mode = stats.mode(covid_data["new_cases"])
data_mode

ModeResult(mode=0.0, count=368385)

Variance (Phương sai) </br>
var(ddof=0) => Phương sai tổng </br>
var(ddof=1) => Phương sai mẫu (recommended) </br>
var(ddof=0) => Độ lệch chuẩn mẫu

In [39]:
data_variance = np.var(covid_data["new_cases"])
data_variance

52745822411.38847

- Phương sai lớn do bùng nổ số ca mắc bệnh

Standard deviation (Độ lệch chuẩn)

In [40]:
data_sd = np.std(covid_data["new_cases"])
data_sd

229664.58675944898

=> Var dùng để tính, Std dùng để trình bày 

Maximum / Minimum

In [49]:
data_max = np.max(covid_data["new_cases"])
display(f"Maximum: {data_max}")
data_min = np.min(covid_data["new_cases"])
display(f"Maximum: {data_min}")


'Maximum: 44236227.0'

'Maximum: 0.0'

Percentile (Phân vị), giá trị p% nhỏ hơn hoặc bằng mốc
EX: 
- p50 (50th percentile) = median
- p90 = 120 ca/ngày -> **90% ngày <= 120 ca**

In [51]:
data_percentile = np.percentile(covid_data["new_cases"],60)
data_percentile

nan

- Do tính bằng numpy nên có cột NaN sẽ luôn trả về Nan 
- Cần loại bỏ trước khi sử dụng numpy hoặc sử dụng pandas

In [None]:
# numpy dropna
data_percentile = covid_data["new_cases"].dropna()
data_percentile_np = np.percentile(data_percentile, 60) # Or use quantile in numpy
display(data_percentile_np)
# pandas
data_percentile_pd = covid_data["new_cases"].quantile(0.9) # GIẢ SỬ P90
display(data_percentile_pd)

0.0

1.0

- Cho thấy p60 = 0.0, tức rằng có tới 60% ngày <= 0 ca bệnh
- Cho thấy p90 = 1.0, tức rằng chỉ có 90% ngày  <= 1 ca bệnh -> 10% từ 2 ca trở lên

IQR (Interquartile Range) -> tứ phân vị, đo độ phân tán p50
- Công thức:
   - IQR = Q3 (75th percentile) - Q1 (25th percentile)
- Độ Spread:
   - IQR upper => Dữ liệu p50 rộng
   - IQR lower => Dữ liệu p50 hẹp
- Outlier:
   - lower fence = Q1 - 1.5 * IQR
   - upper fence = Q3 + 1.5 * IQR </br>
   => Nằm ngoài fence -> Outlier

In [75]:
data_IQR = stats.iqr(covid_data["new_cases"].dropna())
data_IQR

0.0

# KẾT THÚC 