# Phân tích dữ liệu số ca nhiễm COVID-19 mới
Trong notebook này, chúng ta sẽ thực hiện các bước EDA cơ bản trên cột `new_cases` của bộ dữ liệu COVID-19.

## 1. Import thư viện cần thiết
Chúng ta sử dụng numpy, pandas và scipy để xử lý và phân tích dữ liệu.

In [2]:
import numpy as np
import pandas as pd
from scipy import stats

## 2. Đọc dữ liệu từ file CSV
Chỉ lấy các cột liên quan: mã quốc gia, châu lục, tên quốc gia, ngày, tổng số ca, số ca mới.

In [None]:
covid_data = pd.read_csv("../data/owid-covid-data.csv")
covid_data = covid_data[['iso_code', 'continent', 'location', 'date', 'total_cases', 'new_cases']]

## 3. Khám phá dữ liệu ban đầu
Xem 5 dòng đầu, kiểu dữ liệu và kích thước bảng.

In [None]:
print(covid_data.head(5))
print(covid_data.dtypes)
print(covid_data.shape)

## 4. Kiểm tra và xử lý giá trị thiếu (NaN) ở cột `new_cases`
Đếm số lượng giá trị thiếu và thay thế bằng 0.

In [None]:
print(covid_data['new_cases'].isnull().sum())
covid_data['new_cases'] = covid_data['new_cases'].fillna(0)

## 5. Tính các thống kê mô tả cơ bản cho cột `new_cases`
Bao gồm: Mean, Median, Mode, Variance, Standard Deviation, Range, Percentile, Quartile, IQR.

In [None]:
# Mean
data_mean = np.mean(covid_data["new_cases"])
print("Mean:", data_mean)

# Median
data_median = np.median(covid_data["new_cases"])
print("Median:", data_median)

# Mode
data_mode = stats.mode(covid_data["new_cases"], nan_policy='omit', keepdims=True)
print("Mode:", data_mode.mode[0])

# Variance
data_variance = np.var(covid_data["new_cases"])
print("Variance:", data_variance)

# Standard Deviation
data_sd = np.std(covid_data["new_cases"])
print("Standard Deviation:", data_sd)

# Range
data_max = np.max(covid_data["new_cases"])
data_min = np.min(covid_data["new_cases"])
data_range = data_max - data_min
print("Range:", data_range)

# 60th Percentile
data_percentile = np.percentile(covid_data["new_cases"], 60)
print("60th Percentile:", data_percentile)

# 75th Quartile (Q3)
data_quartile = np.quantile(covid_data["new_cases"], 0.75)
print("75th Quartile:", data_quartile)

# IQR
data_IQR = stats.iqr(covid_data["new_cases"])
print("IQR:", data_IQR)