## Import các thư viện cần thiết

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn

---

## Thu thập dữ liệu

Trong bài này, ta sử dụng thư viện `Beautiful Soup` để cào dữ liệu từ trang [Wolrdometer](https://www.worldometers.info/coronavirus/) vào mỗi **23:55** hằng ngày.

Chú ý rằng, ta được phép sử dụng bộ dữ liệu này cho mục đích học tập.

---

## Khám phá dữ liệu

### Đọc dữ liệu từ file csv vào dataframe

In [2]:
data = pd.read_csv('data/covid_data.csv')
data.head()

Unnamed: 0,Date,Country,Total Cases,New Cases,Total Deaths,New Deaths,Total Recovered,New Recovered,Active Cases,Serious Critical,Tot Cases/1M pop,Deaths/1M pop,Total Tests,Tests/1M pop,Population
0,2022-04-19,USA,82377156,,1015790.0,,80244093.0,128.0,1117273.0,1438.0,246284.0,3037.0,996639125.0,2979667.0,334480000.0
1,2022-04-19,India,43045527,,521996.0,,42511701.0,,11830.0,698.0,30652.0,372.0,832506755.0,592823.0,1404310000.0
2,2022-04-19,Brazil,30261088,,662076.0,,29262483.0,,336529.0,8318.0,140575.0,3076.0,63776166.0,296266.0,215266300.0
3,2022-04-19,France,27790834,,144205.0,,25132303.0,,2514326.0,1541.0,424079.0,2201.0,260504402.0,3975208.0,65532270.0
4,2022-04-19,Germany,23502641,45045.0,133463.0,26.0,20347900.0,262100.0,3021278.0,1980.0,278917.0,1584.0,122332384.0,1451777.0,84263900.0


### Dữ liệu gồm bao nhiều dòng, bao nhiêu cột?

In [3]:
num_rows = data.shape[0]
num_cols = data.shape[1]
print('Số dòng: ', num_rows)
print('Số cột: ', num_cols)

Số dòng:  228
Số cột:  15


### Mỗi dòng có ý nghĩa gì? Có vấn đề các dòng có ý nghĩa khác nhau không?

Mỗi dòng tương ứng với thông tin số ca nhiễm của một nước trong một ngày. 

Có vẻ như không xảy ra các dòng có ý nghĩa khác nhau

### Dữ liệu có các dòng bị lặp không?

In [4]:
duplicated_rows = data.duplicated().sum()
if duplicated_rows > 0:
    print("Số dòng lặp: ", duplicated_rows)
else:
    print("Không có dòng lặp")

Không có dòng lặp


Dữ liệu được thêm vào mỗi ngày nên tạm thời ta không nhận xét gì thêm ở đây

### Mỗi cột có ý nghĩa gì?

|Tên cột| Mô tả |
|:-:| :--|
|**Date**| Ngày lấy số liệu |
|**Country**| Nước |
|**Total Cases**| tổng số ca nhiễm mới từ trước đến nay |
|**New Cases**| số ca mới ngày hôm nay |
|**Total Deaths**| tổng số ca tử vong từ trước đến nay  |
|**New Deaths**| số ca tử vong mới ngày hôm nay|
|**Total Recovered**| tổng số ca phục hồi |
|**New Recovered**| số ca phục hồi trong ngày|
|**Active Cases**| số ca đang điều trị |
|**Serious Critical**| số ca nguy kịch |
|**Total Cases/1M pop**| số ca nhiễm / 1 triệu dân |
|**Deaths/1M pop**| số ca từ vong/ 1 triệu dân |
|**Total Tests**| tổng số xét nghiệm |
|**Tests/1M pop**| số xét nghiệm/1 triệu dân |
|**Population**| dân số |

### Mỗi cột hiện đang có kiểu dữ liệu gì? Có cột nào có kiểu dữ liệu chưa phù hợp để có thể xử lý tiếp không?

Giờ ta xem qua kiểu dữ liệu của các cột nhằm phát hiện cột có kiểu dữ liệu chưa phù hợp

In [5]:
data.dtypes

Date                 object
Country              object
Total Cases           int64
New Cases           float64
Total Deaths        float64
New Deaths          float64
Total Recovered     float64
New Recovered       float64
Active Cases        float64
Serious Critical    float64
Tot Cases/1M pop    float64
Deaths/1M pop       float64
Total Tests         float64
Tests/1M pop        float64
Population          float64
dtype: object

Ta cần chuyển cột `Date` sang kiểu dữ liệu `datetime`

---

## Tiền Xử Lý Dữ Liệu

Ở Lab1, ta chỉ chọn 1 ngày để thực hiện yêu cầu của đề bài. Ở đây chúng ta chọn một ngày xác định **(19/4/2022)** để phân tích dữ liệu.

Ta cần chuyển cột `Date`  về kiểu dữ liệu `datetime`.

Bên cạnh đó, từ dữ liệu gốc, ta lọc những dòng có ngày là **(19/4/2022)**, lưu vào dataframe `filtered_covid_data`

In [6]:
data['Date'] = pd.to_datetime(data['Date'], format='%Y-%m-%d')
selected_data = data[data['Date'] == '2022-04-19']
selected_data.head()

Unnamed: 0,Date,Country,Total Cases,New Cases,Total Deaths,New Deaths,Total Recovered,New Recovered,Active Cases,Serious Critical,Tot Cases/1M pop,Deaths/1M pop,Total Tests,Tests/1M pop,Population
0,2022-04-19,USA,82377156,,1015790.0,,80244093.0,128.0,1117273.0,1438.0,246284.0,3037.0,996639125.0,2979667.0,334480000.0
1,2022-04-19,India,43045527,,521996.0,,42511701.0,,11830.0,698.0,30652.0,372.0,832506755.0,592823.0,1404310000.0
2,2022-04-19,Brazil,30261088,,662076.0,,29262483.0,,336529.0,8318.0,140575.0,3076.0,63776166.0,296266.0,215266300.0
3,2022-04-19,France,27790834,,144205.0,,25132303.0,,2514326.0,1541.0,424079.0,2201.0,260504402.0,3975208.0,65532270.0
4,2022-04-19,Germany,23502641,45045.0,133463.0,26.0,20347900.0,262100.0,3021278.0,1980.0,278917.0,1584.0,122332384.0,1451777.0,84263900.0


**Ở các bước tiếp theo ta sẽ khám phá dữ liệu trên tập dữ liệu mới (`filtered_covid_data`)**

---

## Khám Phá Dữ Liệu (tiếp tục)

### Sự phân bố giá trị của mỗi cột

#### Với mỗi cột có kiểu dữ liệu dạng numeric, các giá trị được phân bố như thế nào?

Với các cột có kiểu dữ liệu số, ta tính:

- Tỉ lệ % (từ 0 đến 100) các giá trị thiếu
- Giá trị min
- Giá trị lower quartile (phân vị 25)
- Giá trị median (phân vị 50)
- Giá trị upper quartile (phân vị 75)
- Giá trị max

In [7]:
pd.set_option("max_colwidth", 300)
pd.set_option('display.max_columns', None)

nume_cols = ['Total Cases', 'New Cases', 'Total Deaths', 'New Deaths', 'Total Recovered',
                'New Recovered', 'Active Cases', 'Serious Critical', 'Tot Cases/1M pop',
                'Deaths/1M pop', 'Total Tests', 'Tests/1M pop', 'Population']

index_nume_col =["missing_percentage", "min", "lower_quartile", "median", "upper_quartile", "max"]

data_nume_col= np.array([
    (selected_data[nume_cols].isna().mean()*100).round(1),
    selected_data[nume_cols].min().round(1),
    selected_data[nume_cols].quantile(.25).round(1),
    selected_data[nume_cols].median(),
    selected_data[nume_cols].quantile(.75).round(1),
    selected_data[nume_cols].max().round(1)]
)
nume_col_info_df = pd.DataFrame(data = data_nume_col, columns = nume_cols, index= index_nume_col)
nume_col_info_df

Unnamed: 0,Total Cases,New Cases,Total Deaths,New Deaths,Total Recovered,New Recovered,Active Cases,Serious Critical,Tot Cases/1M pop,Deaths/1M pop,Total Tests,Tests/1M pop,Population
missing_percentage,0.0,72.4,3.9,82.5,6.6,73.7,6.6,32.5,0.9,4.8,7.0,7.0,0.9
min,1.0,1.0,1.0,1.0,1.0,1.0,0.0,1.0,9.0,2.0,5117.0,5100.0,805.0
lower_quartile,22491.2,76.5,222.0,3.0,13815.0,110.8,181.0,4.2,11256.2,172.0,347296.8,164665.8,559897.5
median,163072.0,247.0,2201.0,5.5,131100.0,590.0,2329.0,20.5,88809.5,765.0,2120364.5,771243.5,5795008.0
upper_quartile,1061557.0,1714.5,13929.0,18.2,952493.0,5081.8,33852.0,168.0,228898.8,1837.0,12225069.0,2201064.2,21840600.0
max,82377156.0,118445.0,1015790.0,235.0,80244093.0,262100.0,3021278.0,8318.0,704488.0,6293.0,996639125.0,21802844.0,1439324000.0


**Nhận xét**:

#### Với mỗi cột có kiểu dữ liệu dạng categorical, các giá trị được phân bố như thế nào?

Với các cột có kiểu dữ liệu dạng `categorical`, ta cần tính:

- Tỉ lệ % (từ 0 đến 100) các giá trị thiếu
- Số lượng các giá trị khác nhau (không xét giá trị thiếu):
- Tỉ lệ % (từ 0 đến 100) của mỗi giá trị được sort theo tỉ lệ % giảm dần (không xét giá trị thiếu)

In [8]:
cate_cols = ['Country']
index_cate_cols = ["missing_percentage", "num_values", "value_percentages"]


def count_value_percentages(data):
    return (data.value_counts()/data.count() *100).to_dict()


data_cate_col= np.array([
    (selected_data[cate_cols].isna().mean() *100),
    selected_data[cate_cols].nunique(),
    selected_data[cate_cols].agg(count_value_percentages)
])

cate_col_info_df = pd.DataFrame(data = data_cate_col, columns = cate_cols, index= index_cate_cols)
cate_col_info_df

Unnamed: 0,Country
missing_percentage,0.0
num_values,228
value_percentages,"{'Azerbaijan': 0.43859649122807015, 'Poland': 0.43859649122807015, 'Falkland Islands': 0.43859649122807015, 'Lithuania': 0.43859649122807015, 'Burkina Faso': 0.43859649122807015, 'Guinea': 0.43859649122807015, 'Tonga': 0.43859649122807015, 'Syria': 0.43859649122807015, 'Kenya': 0.438596491228070..."


**Nhận xét**:

---

## Tiền xử lý dữ liệu

Ta nhận thấy cột `New Cases`, `New Recovered`, `New Deaths` có tỉ lệ thiếu rất cao > 70%. Vậy nên ta sẽ bỏ các cột này ra khỏi dataframe `selected_data`

In [9]:
selected_data.drop(['New Cases', 'New Recovered',  'New Deaths'], axis=1, inplace=True)
selected_data.head()

Unnamed: 0,Date,Country,Total Cases,Total Deaths,Total Recovered,Active Cases,Serious Critical,Tot Cases/1M pop,Deaths/1M pop,Total Tests,Tests/1M pop,Population
0,2022-04-19,USA,82377156,1015790.0,80244093.0,1117273.0,1438.0,246284.0,3037.0,996639125.0,2979667.0,334480000.0
1,2022-04-19,India,43045527,521996.0,42511701.0,11830.0,698.0,30652.0,372.0,832506755.0,592823.0,1404310000.0
2,2022-04-19,Brazil,30261088,662076.0,29262483.0,336529.0,8318.0,140575.0,3076.0,63776166.0,296266.0,215266300.0
3,2022-04-19,France,27790834,144205.0,25132303.0,2514326.0,1541.0,424079.0,2201.0,260504402.0,3975208.0,65532270.0
4,2022-04-19,Germany,23502641,133463.0,20347900.0,3021278.0,1980.0,278917.0,1584.0,122332384.0,1451777.0,84263900.0


Hiện tại có một số cột đang thiết dữ liệu, những cột đó đang chứa kiểu dữ liệu số, ta tiến hành điền mean vào giá trị thiếu

In [10]:
miss_value_cols = ['Total Deaths', 'Total Recovered', 'Active Cases', 'Serious Critical',
                    'Tot Cases/1M pop', 'Deaths/1M pop', 'Total Tests', 'Tests/1M pop', 'Population']

def fill_mean_value(col):
    mean_value = int(np.mean(col, axis = 0))
    col.replace(np.nan, mean_value, inplace=True)
    return col

selected_data[miss_value_cols] = selected_data[miss_value_cols].apply(fill_mean_value)
selected_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 228 entries, 0 to 227
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Date              228 non-null    datetime64[ns]
 1   Country           228 non-null    object        
 2   Total Cases       228 non-null    int64         
 3   Total Deaths      228 non-null    float64       
 4   Total Recovered   228 non-null    float64       
 5   Active Cases      228 non-null    float64       
 6   Serious Critical  228 non-null    float64       
 7   Tot Cases/1M pop  228 non-null    float64       
 8   Deaths/1M pop     228 non-null    float64       
 9   Total Tests       228 non-null    float64       
 10  Tests/1M pop      228 non-null    float64       
 11  Population        228 non-null    float64       
dtypes: datetime64[ns](1), float64(9), int64(1), object(1)
memory usage: 23.2+ KB


Sau cùng ta lưu dữ liệu đã qua tiền xử lý vào file `preprocessed_covid_data`

In [11]:
selected_data.to_csv('data/preprocessed_covid_data.csv')

---

## Đưa ra câu hỏi ý nghĩa cần trả lời