# Đồ án cuối kỳ - Lập trình cho khoa học dữ liệu  
Họ và tên: Nguyễn Anh Nam  
MSSV: 1712604

---

## Import

In [1]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

---

## Lấy dữ liệu

Trong đồ án cuối kỳ, em sử dụng file 'covid_19_clean_complete.csv' trong bộ COVID-19 Dataset được public trên Kaggle; đây là bộ dữ liệu nói về tổng số trường hợp COVID-19 đã được xác nhận bị nhiễm, tử vong và đã phục hồi từ các quốc gia khác nhau từ ngày 22 tháng 1 năm 2020. Dữ liệu gốc [ở đây](https://www.kaggle.com/imdevskp/corona-virus-report?select=covid_19_clean_complete.csv)

---

## Khám phá dữ liệu

In [2]:
covid_df = pd.read_csv('covid_19_clean_complete.csv')
covid_df

Unnamed: 0,Province/State,Country/Region,Lat,Long,Date,Confirmed,Deaths,Recovered,Active,WHO Region
0,,Afghanistan,33.939110,67.709953,2020-01-22,0,0,0,0,Eastern Mediterranean
1,,Albania,41.153300,20.168300,2020-01-22,0,0,0,0,Europe
2,,Algeria,28.033900,1.659600,2020-01-22,0,0,0,0,Africa
3,,Andorra,42.506300,1.521800,2020-01-22,0,0,0,0,Europe
4,,Angola,-11.202700,17.873900,2020-01-22,0,0,0,0,Africa
...,...,...,...,...,...,...,...,...,...,...
49063,,Sao Tome and Principe,0.186400,6.613100,2020-07-27,865,14,734,117,Africa
49064,,Yemen,15.552727,48.516388,2020-07-27,1691,483,833,375,Eastern Mediterranean
49065,,Comoros,-11.645500,43.333300,2020-07-27,354,7,328,19,Africa
49066,,Tajikistan,38.861000,71.276100,2020-07-27,7235,60,6028,1147,Europe


### Số dòng và số cột của dữ liệu

In [3]:
num_rows = covid_df.shape[0]
num_cols = covid_df.shape[1]
print("Số dòng là: {0}\nSố cột là: {1}".format(num_rows, num_cols))

Số dòng là: 49068
Số cột là: 10


### Ý nghĩa của mỗi dòng và mỗi cột:

Mỗi cột được mô tả tác giả mô tả như sau:
- **Province/State**: Province or State.
- **Country/Region**: Country or State.
- **Lat**: Latitude of the location.
- **Long**: Longitude of the location.
- **Date**: Date of cumulative report.
- **Confirmed**: Cumulative number of confirmed cases till this day.
- **Deaths**: Cumulative number of deaths till this day.
- **Recovered**: Cumulative number of recovered cases till this day.
- **Active**: Cumulative number of active cases till this day.
- **WHO Region**: WHO Region.

Mỗi dòng theo như dữ liệu ta thấy là thông tin về số ca nhiễm, ca tử vong, ca phục hồi tại ngày và khu vực đó.

### Kiểu dữ liệu của mỗi cột:

In [4]:
covid_df.dtypes

Province/State     object
Country/Region     object
Lat               float64
Long              float64
Date               object
Confirmed           int64
Deaths              int64
Recovered           int64
Active              int64
WHO Region         object
dtype: object

Ta thấy cột "Date" có kiểu dữ liệu là `object` hay kiểu dữ liệu là `str` nhưng trong thực tế `Date` phải có dữ liệu là `Datetime` vì vậy ta phải chuyển kiểu dữ liệu của cột "Date" từ `object` sang `Datetime`. Ngoài ra cột "Province/State" theo như trên Kaggle thông báo thì có đến <font color="Red">70%</font> là giá trị `null`.

---

## Tiền xử lí

### Chuyển dtype của cột "Date" sang Datetime

In [5]:
covid_df['Date'] = pd.to_datetime(arg=covid_df['Date'])

In [6]:
covid_df.dtypes

Province/State            object
Country/Region            object
Lat                      float64
Long                     float64
Date              datetime64[ns]
Confirmed                  int64
Deaths                     int64
Recovered                  int64
Active                     int64
WHO Region                object
dtype: object

---

## Khám phá dữ liệu

In [7]:
covid_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49068 entries, 0 to 49067
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Province/State  14664 non-null  object        
 1   Country/Region  49068 non-null  object        
 2   Lat             49068 non-null  float64       
 3   Long            49068 non-null  float64       
 4   Date            49068 non-null  datetime64[ns]
 5   Confirmed       49068 non-null  int64         
 6   Deaths          49068 non-null  int64         
 7   Recovered       49068 non-null  int64         
 8   Active          49068 non-null  int64         
 9   WHO Region      49068 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(4), object(3)
memory usage: 3.7+ MB


### Khoảng thời gian thu thập dữ liệu

In [8]:
time_range = covid_df['Date'].value_counts().sort_index()
col_range_df = pd.DataFrame({'Date': [time_range.index[0],time_range.index[-1]]}, index=['Min', 'Max'])
col_range_df

Unnamed: 0,Date
Min,2020-01-22
Max,2020-07-27


---

## Đưa ra các câu hỏi cần trả lời

Sau khi đã biết rõ hơn về dữ liệu, ta thấy có một số câu hỏi có thể trả lời:
- Câu 1: Trong 3 tháng đầu tiên, 5 quốc gia nào có số người nhiễm Covid nhiều nhất trên thế giới?
- Câu 2: Mất bao nhiêu thời gian (đơn vị là ngày) để dịch covid ảnh hưởng đến toàn thế giới (tất cả các nước và khu vực)?
- Câu 3: Trong mỗi tháng, quốc gia nào có số ca nhiễm mới nhiều nhất?
- Câu 4: Tình trạng dịch bệnh diễn biến như thế nào ở Việt Nam?
- Câu 5: Tình trạng dịch bệnh của 10 nước bị ảnh hưởng nặng nề nhất đến thời điểm hết ngày 27-07-2020 là như thế nào?

---

## Tiền xử lí

Đầu tiên ta phải tiền xử lí bộ dữ liệu lại trước. Vì các câu hỏi đều liên quan đến tháng nên ta thêm cột 'Month' vào dữ liệu.

### Thêm cột 'Month' vào bộ dữ liệu:

In [9]:
covid_df = covid_df.assign(Month = lambda x: x['Date'].dt.month)
covid_df.head()

Unnamed: 0,Province/State,Country/Region,Lat,Long,Date,Confirmed,Deaths,Recovered,Active,WHO Region,Month
0,,Afghanistan,33.93911,67.709953,2020-01-22,0,0,0,0,Eastern Mediterranean,1
1,,Albania,41.1533,20.1683,2020-01-22,0,0,0,0,Europe,1
2,,Algeria,28.0339,1.6596,2020-01-22,0,0,0,0,Africa,1
3,,Andorra,42.5063,1.5218,2020-01-22,0,0,0,0,Europe,1
4,,Angola,-11.2027,17.8739,2020-01-22,0,0,0,0,Africa,1


In [10]:
month_range = covid_df['Month'].value_counts().sort_index()

### Miền giá trị của cột 'Month'

In [11]:
col_range_df = col_range_df.join(pd.DataFrame({'Month': [month_range.index[0], month_range.index[-1]]}, index=['Min', 'Max']))
col_range_df

Unnamed: 0,Date,Month
Min,2020-01-22,1
Max,2020-07-27,7


---

## Trả lời câu hỏi đã đưa ra:

### Câu 1: Trong 3 tháng đầu tiên, 5 quốc gia nào có số người nhiễm Covid nhiều nhất trên thế giới?

Để trả lời cho câu 1, ta phải thực hiện các bước sau:
- Bước 1: Lọc ra bộ dữ liệu gồm những cột "Date", "Country/Region" và "Confirmed" mà có tháng thuộc khoảng từ tháng 1 -> 3.
- Bước 2: Lọc ra ngày cuối cùng cùng của tháng 3.
- Bước 3.1: Group by theo cột "Country/Region"
- Bước 3.2: Bởi vì "Confirmed" ở mỗi hàng là tổng số ca nhiễm tính đến ngày đó nên dùng hàm sum() để lấy ra tổng số ca nhiễm của tất cả các quốc gia/vùng lãnh thổ có trong bộ dữ liệu.
- Bước 4: Sort values theo cột "Confirmed".
- Bước 5: Lấy 5 hàng đầu tiên của dữ liệu thu được ở bước 4.

In [12]:
# Bước 1
three_month_df = covid_df[covid_df["Month"] < col_range_df.loc['Min', 'Month'] + 3]
df = three_month_df[['Date', 'Country/Region', 'Confirmed']]
# Bước 2
df = df[df['Date'] == df['Date'].max()]
# Bước 3
country_df = df.groupby(['Country/Region']).sum()
# Bước 4
country_df.sort_values(by=["Confirmed"], ascending=False, inplace=True)
# Bước 5
top_country = country_df.iloc[:5]
top_country

Unnamed: 0_level_0,Confirmed
Country/Region,Unnamed: 1_level_1
US,188724
Italy,105792
Spain,95923
China,82279
Germany,71808
