# Đồ án cuối kỳ môn: Lập trình cho khoa học dữ liệu

## Danh sách thành viên

| MSSV  | Họ tên  | Tài khoản github  |
|:------|:--------|:------------------|
1712770| Trương Thị Lệ Thanh  |thanhtruong1712|
1712771|  Bùi Thái Tấn Thành  |thanhtan0501|

## Import các thư viện cần thiết

In [4]:
import numpy as np
import pandas as pd
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import datetime

## Thu thập dữ liệu

Bộ dữ liệu cung cấp thông tin về tổng số ca mắc, tử vong và hồi phục do tác động của dịch COVID-19 từ các quốc gia trên thế giới
- Nguồn dữ liệu: https://www.kaggle.com/imdevskp/corona-virus-report

## Khám phá dữ liệu

### Đọc dữ liệu từ file csv vào dataframe

In [2]:
df = pd.read_csv("Data/covid_19_clean_complete.csv")
df.head()

Unnamed: 0,Province/State,Country/Region,Lat,Long,Date,Confirmed,Deaths,Recovered,Active,WHO Region
0,,Afghanistan,33.93911,67.709953,2020-01-22,0,0,0,0,Eastern Mediterranean
1,,Albania,41.1533,20.1683,2020-01-22,0,0,0,0,Europe
2,,Algeria,28.0339,1.6596,2020-01-22,0,0,0,0,Africa
3,,Andorra,42.5063,1.5218,2020-01-22,0,0,0,0,Europe
4,,Angola,-11.2027,17.8739,2020-01-22,0,0,0,0,Africa


### Số dòng và số cột của dữ liệu

Số dòng và số cột của dữ liệu sẽ được tính và lưu vào hai biến `num_rows` và `num_cols`.

In [3]:
num_rows, num_cols = df.shape
print("Dữ liệu có {} dòng và {} cột".format(num_rows, num_cols))

Dữ liệu có 49068 dòng và 10 cột


### Mỗi dòng có ý nghĩa gì? Có vấn đề các dòng có ý nghĩa khác nhau không?

### Dữ liệu có các dòng bị lặp không?

### Mỗi cột có ý nghĩa gì?

- Province/State: Tỉnh hoặc bang của quốc gia
- Country/Region: Quốc gia hoặc vùng lãnh thổ
- Lat: vĩ độ của vị trí đó
- Long: kinh độ của vị trí đó
- Date: Ngày được báo cáo
- Confirmed: Tổng số ca nhiễm đã được xác nhận cho đến ngày được báo cáo
- Deaths: Tổng số ca tử vong cho đến ngày được báo cáo
- Recovered: Tổng số ca hồi phục cho đến ngày được báo cáo
- Active: Tổng số ca mắc còn lại cho đến ngày được báo cáo
- WHO Region: Khu vực WHO phụ trách

### Mỗi cột hiện đang có kiểu dữ liệu gì?

In [5]:
df.dtypes

Province/State     object
Country/Region     object
Lat               float64
Long              float64
Date               object
Confirmed           int64
Deaths              int64
Recovered           int64
Active              int64
WHO Region         object
dtype: object

Ta thấy cột `Date` có kiểu dữ liệu là `object`, vì vậy ta phải chuyển kiểu dữ liệu của cột `Date` từ `object` sang `datetime`

In [6]:
df['Date'] = pd.to_datetime(df['Date'], format = "%Y-%m-%d")

In [7]:
df.dtypes

Province/State            object
Country/Region            object
Lat                      float64
Long                     float64
Date              datetime64[ns]
Confirmed                  int64
Deaths                     int64
Recovered                  int64
Active                     int64
WHO Region                object
dtype: object

### Với mỗi cột có kiểu dữ liệu dạng số (numerical), các giá trị được phân bố như thế nào?

### Với mỗi cột có kiểu dữ liệu dạng categorical, các giá trị được phân bố như thế nào? 

Hiện có 3 cột thuộc nhóm categorical: "Province/State", "Country/Region", "WHO Region"

In [9]:
cate_df= df[["Province/State", "Country/Region", "WHO Region"]]
def missing_ratio(s):
    return s.isna().mean() * 100
def num_diff_vals(s):
    return s.drop_duplicates().count()
def diff_vals(s):
    return dict(s.value_counts())
cate_col_profiles_df = cate_df.agg([missing_ratio,num_diff_vals,diff_vals])
cate_col_profiles_df

Unnamed: 0,Province/State,Country/Region,WHO Region
missing_ratio,70.114943,0.0,0.0
num_diff_vals,78,187,6
diff_vals,"{'Hunan': 188, 'Hubei': 188, 'Guangdong': 188,...","{'China': 6204, 'Canada': 2256, 'United Kingdo...","{'Europe': 15040, 'Western Pacific': 10340, 'A..."


Ta thấy cột `Province/State` có giá trị NaN với tỉ lệ rất cao. Ta thực hiện tiền xử lý thay thế bằng giá trị 'Unknown'

In [10]:
df.isnull().sum()
df['Province/State'].fillna('Unknown',inplace = True)
df

Unnamed: 0,Province/State,Country/Region,Lat,Long,Date,Confirmed,Deaths,Recovered,Active,WHO Region
0,Unknown,Afghanistan,33.939110,67.709953,2020-01-22,0,0,0,0,Eastern Mediterranean
1,Unknown,Albania,41.153300,20.168300,2020-01-22,0,0,0,0,Europe
2,Unknown,Algeria,28.033900,1.659600,2020-01-22,0,0,0,0,Africa
3,Unknown,Andorra,42.506300,1.521800,2020-01-22,0,0,0,0,Europe
4,Unknown,Angola,-11.202700,17.873900,2020-01-22,0,0,0,0,Africa
...,...,...,...,...,...,...,...,...,...,...
49063,Unknown,Sao Tome and Principe,0.186400,6.613100,2020-07-27,865,14,734,117,Africa
49064,Unknown,Yemen,15.552727,48.516388,2020-07-27,1691,483,833,375,Eastern Mediterranean
49065,Unknown,Comoros,-11.645500,43.333300,2020-07-27,354,7,328,19,Africa
49066,Unknown,Tajikistan,38.861000,71.276100,2020-07-27,7235,60,6028,1147,Europe


## Đưa ra câu hỏi cần trả lời

### 1. Top 10 quốc gia có số ca nhiễm cao nhất thế giới ? 

Trả lời được câu hỏi này, ta sẽ biết được tình hình kiểm soát dịch của các quốc gia trên thế giới như thế nào.

### 2. Mỗi tháng, số ca tử vong của quốc gia nào cao nhất?

Trả lời được câu hỏi này, ta sẽ biết được khả năng phòng chống dịch của một quốc gia có tốt hay không , các biện pháp hỗ trợ người dân khi bị mắc COVID-19 có đầy đủ hay không?