---
# Import thư viện
Trong đồ án, ngoài những thư viện đẵ có trong môi trường `p4ds`, nhóm sẽ sử dụng thêm các thư viện sau:
- `seaborn`: thư viện tập trung hỗ trợ vẽ các biểu đồ thống kê giúp cho các câu lệnh thực hiện vẽ biểu đồ đơn giản, ngắn gọn hơn.
- `statsmodels`: hỗ trợ phân tích thống kê, qua đó có thể hiểu rõ hơn một biến phụ thuộc có thể được biểu diễn bởi các biến độc lập theo công thức nào và liệu công thức đó có ý nghĩa hay không.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
pd.set_option("display.max_columns", None)

In [None]:
# Thu thập dữ liệu

- Tập dữ liệu (https://www.kaggle.com/mmattson/who-national-life-expectancy) được sử dụng trong đồ án của nhóm có chủ đề về các yếu tố liên quan và/hoặc có thể gây ảnh hưởng đếntuổi thọ trung bình của người dân ở các quốc gia trên thế giới. Tập dữ liệu này được thu thập và đăng tải trên Kaggle bởi người dùng MMattson với giấy phép Creative Common Public Domain - CC0 cho phép sử dụng tập dữ liệu tùy ý mà không cần xin phép.

- Theo mô tả, tập dữ liệu trên được thu thập từ 2 nguồn là GHO - Global Health Observatory và UNESCO, với các số liệu trong khoảng thời gian từ năm 2000 - 2016. Về phần dữ liệu từ UNESCO tác giả đã truy cập vào trang web về dữ liệu Thống kê về Giáo dục các Quốc gia của Viện thống kê UNESCO và thu thập dữ liệu thủ công. 
- Dữ liệu từ GHO được thu thập sử dụng thư viện request thông qua GHO Data API portal.
- Link thu thập dữ liệu trên Kaggle: https://www.kaggle.com/mmattson/template-to-generate-the-dataset
____

In [None]:
data_df = pd.read_csv('Data/who_life_exp.csv')

In [None]:
data_df.head()

# Khám Phá dữ liệu

## Dữ liệu có bao nhiêu dòng và bao nhiêu cột?

In [None]:
num_rows, num_cols = data_df.shape

In [None]:
num_rows, num_cols

## Mỗi dòng có ý nghĩa gì? Có vấn đề các dòng có ý nghĩa khác nhau không?


- Mỗi dòng mang thông tin về tuổi thọ trung bình một quốc gia trong một năm và các yếu tố khác liên quan như là chỉ số khối cơ thể, lượng cồn tiêu thụ trung bình, tỷ lệ người dân có nước sạch cơ bản, đạt miễn dịch một số loại bệnh, một số thông tin về nền kinh tế quốc gia, ... 
- Có vẻ không có dòng nào có ý nghĩa khác so với các dòng còn lại.

## Dữ liệu có các dòng bị lặp không?

In [None]:
data_df.duplicated().sum()

- Vậy bộ dữ liệu này không có dòng nào bị lặp

## Mỗi cột có ý nghĩa gì?

|Thuộc tính | Mô tả |
|:------:| ---|
|Country| Tên quốc gia|
|country_code| Định danh ba chữ cái của một quốc gia|
|region| Khu vực toàn cầu của đất nước|
|year| Năm|
|life_expect| Tuổi thọ trung bình (tuổi)|
|life_exp60| Tuổi thọ trung bình 60(tuổi)|
|adult_mortality|Tỷ lệ tử vong ở người trưởng thành (xác suất tử vong từ 15 đến 60 tuổi trên 1000 dân số)|
|infant_mort|Tỷ lệ tử vong dưới 1 tuổi|
|age1-4mort|Tỷ lệ tử vong từ 1 đến 4 tuổi|
|alcohol|Rượu, mức tiêu thụ bình quân đầu người (15+) được ghi nhận|
|bmi|BMI trung bình (ước tính chuẩn hóa theo độ tuổi)|
|age5-19thinness|Tỷ lệ gầy ở trẻ em và thanh thiếu niên|
|age5-19obesity	|Tỷ lệ béo phì ở trẻ em và thanh thiếu niên|
|hepatitis|Tỷ lệ tiêm chủng viêm gan B (HepB) ở trẻ 1 tuổi (%)|
|measles|Tỷ lệ tiêm chủng liều đầu tiên (MCV1) có chứa vắc xin sởi cho trẻ 1 tuổi (%)|
|polio| Tỷ lệ tiêm chủng bại liệt (Pol3) ở trẻ 1 tuổi (%)|
|diphtheria|Tỷ lệ tiêm chủng bạch hầu, uốn ván và ho gà (DTP3) cho trẻ 1 tuổi (%)|
|basic_water|Tỷ lệ dân số được tiếp cận dịch vụ nước sạch tối thiểu|
|doctors|Bác sĩ y khoa (trên 10.000)|
|hospitals|Số lượng bệnh viện trên 100.000 dân|
|gni_capita|Thu nhập quốc dân trên đầu người (tổng thu thập mà người dân và doanh nghiệp của quốc gia kiếm được)|
|gghe-d	|Chi tiêu từ ngân sách chính phủ cho lĩnh vực y tế tính theo tỷ lệ phần trăm của tổng sản phẩm quốc nội (GDP) (%)|
|che_gdp|Chi phí người dân bỏ ra cho dịch vụ y tế (CHE) tính theo phần trăm tổng sản phẩm quốc nội (GDP) (%)|
|une_pop|Dân số (hàng nghìn)|
|une_infant|Tỷ lệ tử vong, trẻ sơ sinh (trên 1.000 trẻ sống)|
|une_life|Tuổi thọ trung bình|
|une_hiv|Tỷ lệ nhiễm HIV, tổng số (\% dân số từ 15-49 tuổi)|
|une_gni|Thu nhập quốc dân trên đầu người|
|une_poverty|Tỷ lệ số người nghèo có mức sống 1,90 đô la một ngày (PPP) (\% dân số)|
|une_edu_spend|Chi tiêu của chính phủ cho giáo dục tính theo phần trăm GDP (\%)|
|une_literacy|Tỷ lệ người lớn biết chữ, dân số trên 15 tuổi, cả hai giới (\%)|
|une_school|Số năm đi học trung bình (ISCED 1 trở lên), dân số từ 25 tuổi trở lên, cả hai giới|

**Các thuộc tính có tên `une_`** được thống kê bởi tổ chức UNESCO.

**Các thuộc tính còn lại** được thống kê bởi GHO (Global Health Observatory).
