# Đồ án cuối kì - Nhập môn khoa học dữ liệu
### Nhóm 16


## 1. Thu thập dữ liệu

Khai báo thư viện

In [1]:
import sys
sys.executable

import pycountry_convert as pc
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
sns.set_theme()

# remove warnings
import warnings
warnings.simplefilter('ignore')

## 2. Tiền xử lý và khám phá dữ liệu

### Đọc dữ liệu, bỏ cột Cause type

In [2]:
df = pd.read_csv('data.csv')
display(df.head())
print(df.shape)

FileNotFoundError: [Errno 2] No such file or directory: 'raw_data.csv'

### Mỗi dòng có ý nghĩa gì? 

Mỗi dòng số lượng người mất do một nguyên nhân, ở một quốc gia trong một năm với một nhóm tuổi nhất định

### Dữ liệu có các dòng bị lặp không?

Ta sẽ kiểm tra vụ này và lưu kết quả vào biến `have_duplicated_rows`. Biến này sẽ có giá trị True nếu dữ liệu có các dòng bị lặp và có giá trị False nếu ngược.

In [None]:
have_duplicated_rows=len(df.index)-len(df.index.drop_duplicates())
assert have_duplicated_rows == False

Kết quả kiểm tra cho thấy không có dòng nào là bị trùng lắp dữ liệu cả.

### Mỗi cột có ý nghĩa gì?

Dưới đây là phần mô tả thông tin về các cột trong file "raw_data.csv" mà nhóm đã lấy về được:
- **Cause of death**: Tên các loại dịch bệnh.
- **Age**: Nhóm tuổi tử vong.
- **Year**: Năm thu thập thông tin.
- **Country**: Quốc gia lấy thông tin.
- **Number of deaths**: Số lượng tử vong.

Khoảng biểu diễn các cột dữ liệu

In [None]:
display(df['Cause of death'].unique())
print("Số lượng các giá trị khác nhau:" ,df['Cause of death'].nunique())

In [None]:
display(df['Age'].unique())
print("Số lượng các giá trị khác nhau:" ,df['Age'].nunique())

In [None]:
display(df['Year'].unique())
print("Số lượng các giá trị khác nhau:" ,df['Year'].nunique())

In [None]:
display(df['Country'].unique())
print("Số lượng các giá trị khác nhau:" ,df['Country'].nunique())

In [None]:
df['Number of deaths'].describe()

### Mỗi cột hiện đang có kiểu dữ liệu gì? Có cột nào có kiểu dữ liệu chưa phù hợp để có thể xử lý tiếp không?

Ta lấy `dtype` (kiểu dữ liệu của mỗi phần tử) của mỗi cột trong dữ liệu và lưu kết quả vào series `col_dtypes`; series này có index là tên cột. 

In [None]:
col_dtypes = pd.Series(df.dtypes,index = df.columns)
display(col_dtypes)

### Tiền xử lý dữ liệu

**Vấn đề cần tiền xử lý:**

- Cột "Year" đang có dtype là `int64`. Để có thể tiếp tục khám phá thêm về cột này, ta sẽ thực hiện bước tiền xử lý là chuyển sang dạng `datetime`.

In [None]:
df['Year'] = pd.to_datetime(df['Year'], format='%Y')

In [None]:
assert df.dtypes['Year']==np.dtype('datetime64[ns]')

In [None]:
# Năm bắt đầu thu thập dữ liệu
min_Year=df['Year'].dt.year.min()
# Năm mới nhất thu thập dữ liệu
max_Year=df['Year'].dt.year.max()
print("min_Year: ",min_Year)
print("max_Year: ",max_Year)

- Cột "Number of deaths" đang có dtype là `object`. Trong Pandas, kiểu dữ liệu `object` thường ám chỉ chuỗi, nhưng thật ra kiểu dữ liệu `object` có thể chứa một đối tượng bất kỳ trong Python (vì thật ra ở bên dưới kiểu dữ liệu `object` chứa địa chỉ). Nếu một cột trong dataframe có `dtype` là `object` thì có thể các phần tử trong cột này sẽ có kiểu dữ liệu khác nhau.

Ta xem chi tiết kiểu dữ liệu cột `Number of deaths`

In [None]:
def open_object_dtype(s):
    dtypes = set()
    
    # YOUR CODE HERE
    dtypes = set(s.apply(lambda x: type(x)))
    
    return dtypes

In [None]:
open_object_dtype(df['Number of deaths'])

Cột `Number of deaths`, ta tiến hành thay các giá trị bị thiếu thành 0 và đổi kiểu dữ liệu thành `int64`.

In [None]:
#Xóa khoảng trắng giữa các giá trị cột Number of deaths, ví dụ 1 084 -> 1084
df['Number of deaths'] = df['Number of deaths'].str.replace(' ', '')
df['Number of deaths']=df['Number of deaths'].fillna(value=0.0).astype('int64')

In [None]:
col_dtypes = pd.Series(df.dtypes,index = df.columns)
display(col_dtypes)

#### Chia 'Number of deaths' theo 'Cause death' và gom nhóm theo 'Country', 'Year' và 'Age'
- Thay các giá trị Nan bằng giá trị 0 vì Nan hay cũng đều không có ý nghĩa cho thống kê dữ liệu, thay thế để dễ dàng có các bước trả lời câu hỏi hơn.

In [None]:
cause_death = df['Cause of death'].unique() # danh sách cause death
df = pd.pivot_table(df, values='Number of deaths', index=['Country', 'Year', 'Age'], columns=['Cause of death'], aggfunc=np.sum, fill_value=0).reset_index()
df = df.rename_axis(None, axis=1)
display(df.head(10))
print(f'{df.shape[0]} rows x {df.shape[1]} columns')
print(f'Nguyên nhân tử vong ({len(cause_death)}):')
print(*cause_death, sep='\n')

In [None]:
#df.describe()

Đếm số dòng có giá trị 0 của các cột 'Country', 'Year', 'Age'

In [None]:
print('Country: ', (df.Country == 0).sum())
print('Year   : ', (df.Year == 0).sum())
print('Age    : ', (df.Age == 0).sum())

Như vậy, chỉ có những cột nguyên nhân tử vong có chứa giá trị 0. </br>
Một dòng mà dữ liệu chỉ chứa giá trị 0 thì dòng đó không có ý nghĩa.</br>
==> Loại bỏ những dòng này.

In [None]:
print('Kích thước trước khi xoá: ', df.shape)
df = df[(df == 0).sum(1) < len(cause_death)]
df.reset_index(drop=True, inplace=True)
print('Kích thước sau khi xoá  : ', df.shape)


#### Thêm cột tên khu vực của quốc gia

In [None]:
# các quốc gia không được hỗ trợ bởi thư viện
exceptive_countries = {
    'China, Hong Kong SAR': 'Asia',
    'Iran (Islamic Republic of)': 'Asia',
    'Republic of Korea': 'Asia'
}

def country_to_continent(country_name):
    if country_name in exceptive_countries:
        return exceptive_countries[country_name]

    country_alpha2 = pc.country_name_to_country_alpha2(country_name)
    country_continent_code = pc.country_alpha2_to_continent_code(country_alpha2)
    country_continent_name = pc.convert_continent_code_to_continent_name(country_continent_code)
    return country_continent_name

df.insert(loc = 0, column = 'Continent', value = df.Country.apply(country_to_continent))

continents = df.Continent.unique() # danh sách các khu vực
print(f'Các khu vực ({len(continents)}):')
print(*continents, sep='\n')

Ví dụ một phần của dữ liệu

In [None]:
df.query("Country == 'Italy' and '2015' in Year ") # Dữ liệu Italy năm 2015

In [None]:
df[df['Continent']=='Europe']

## 3. Đặt các câu hỏi có ý nghĩa cần trả lời

Sau khi đã khám phá dữ liệu và hiểu hơn về dữ liệu, ta thấy có một số câu hỏi có thể được trả lời bằng dữ liệu:
- Thế giới vừa gánh chịu hậu quả to lớn mà đại dịch Covid_19 vừa đem đến, ta sẽ tiến hành xử lý và tìm ra top 3 quốc gia có số lượng tử vong vì Covid nhiều nhất?
    
        Ý nghĩa: với câu hỏi trên, ta biết được những quốc gia có số lượng tử vong vì Covid nhiều nhất. Tử vong nhiều như thế chứng tỏ nỗi mất mác của quốc gia rất nặng nề. Ta đánh giá mục đích có những quan tâm giúp đỡ để bù đắp phần nào về nỗi đau của họ. Bên cạnh đó, việc tử vong nhiều là do công tác phòng chống dịch bệnh Covid của họ vẫn còn nhiều khiếm khuyết, ta cần đưa ra cá giải pháp hỗ trợ về mặt y tế cho các quốc gia này.

### Top 3 quốc gia có số lượng tử vong vì Covid nhiều nhất?

Để trả lời cho câu hỏi này, ta sẽ làm như sau:
- Bước 1: Tính số lượng ca tử vong theo từng nhóm tuổi. Chọn ra top 3 quốc gia có tổng số ca tử vong nhiều nhất. Ta lưu kết quả vào series `num_death_covid`.
- Bước 2: Từ kết quả ở trên, ta vẽ group stack bar chart, trong đó trục hoành là số ca tử vong và trục tung là quốc gia. Ta đặt tên trục hoành là "Num_deaths" và tên trục tung là "Country".

Code bước 1. 

In [None]:
#Lọc ra các nước bắt đầu có ca tử vong do Covid
mask= df['Covid-19']>0

#Nhóm các quốc gia theo độ tuổi để tính tổng ca tử vong
num_death_covid=df[mask].groupby(['Country','Age'])['Covid-19'].sum()
num_death_covid=num_death_covid.reset_index()
num_death_covid = num_death_covid.pivot_table(index="Country", columns="Age",values='Covid-19', fill_value=0)
num_death_covid['sum_cols'] = num_death_covid.sum(axis=1)
num_death_covid = num_death_covid.sort_values('sum_cols' , ascending=False)
num_death_covid = num_death_covid.drop(columns='sum_cols').head(3)
display(num_death_covid)

Code bước 2. 

In [None]:
ax = num_death_covid.plot.barh(stacked=True)
plt.xlabel('Num_deaths')
plt.ylabel('Country')
plt.title('Biểu Đồ Top 3 Các Quốc Gia Có Số Ca Tử Vong Do Covid Nhiều Nhất')
plt.gca().invert_yaxis()
plt.show()