# **1. Tổng quan**

Ở bài tập này, dữ liệu được dùng là dữ liệu từ WorldBank Open Data. Dữ liệu chứa thông tin hơn 200 quốc gia, về các mặt như đời sống, kinh tế-xã hội, giáo dục, môi trường,.... do Ngân hàng thế giới cập nhật từ nhiều nguồn(các quốc gia, tổ chức quốc tế,..).

# **2. Thu thập dữ liệu** 

Ở bước thu thập dữ liệu, chúng em sẽ thu thập dữ liệu qua API với các tham số như đặc trưng, quốc gia, năm.

In [1]:
import requests
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
INDICATOR_CODES = [
                   'SE.XPD.TOTL.GD.ZS', # Tỉ lệ chi tiêu của chính phủ cho giáo dục, tổng số (% GDP)
                   'SE.XPD.PRIM.PC.ZS', # Tỉ lệ chi tiêu cho giáo dục bậc tiểu học, tổng số (% GDP)
                   'SE.XPD.SECO.PC.ZS', # Tỉ lệ chi tiêu cho giáo dục bậc trung học, tổng số (% GDP)
                   'SE.XPD.TERT.PC.ZS', # Tỉ lệ chi tiêu cho giáo dục bậc đại học, tổng số (% GDP)
                   'SL.EMP.SELF.FE.ZS', # Tỉ lệ lao động có giới tính nữ tự làm chủ (%)
                   'SL.EMP.SELF.MA.ZS', # Tỉ lệ lao động có giới tính nam tự làm chủ (%)
                   'SL.EMP.SELF.ZS', # Tỉ lệ lao động tự làm chủ (%)
                   'SH.DTH.COMM.ZS', # Tỉ lệ tử vong do bệnh truyền nhiễm (%)
                   'SH.DTH.INJR.ZS', # Tỉ lệ tử vong do chấn thương (%)
                   'SH.DTH.NCOM.ZS', # Tỉ lệ tử vong do bệnh không truyền nhiễm (%)

                   'SP.DYN.LE00.IN', # - Tuổi thọ trung bình (Life expectancy at birth, total (years)):​
                   'SH.STA.OWAD.ZS', # - Tỷ lệ béo phì ở người trưởng thành (% dân số từ 18 tuổi trở lên) (Prevalence of overweight among adults, BMI ≥ 25 (% of adults))
                   'SH.PRV.SMOK', # - Tỷ lệ người hút thuốc ở người trưởng thành (% dân số từ 15 tuổi trở lên) (Smoking prevalence, total (ages 15+)) 
                   'SH.XPD.CHEX.PC.CD', # - Chi tiêu y tế trên đầu người (Current health expenditure per capita (current US$))
                   'IT.NET.USER.ZS', # - Tỷ lệ dân số sử dụng Internet (% tổng dân số) (Individuals using the Internet (% of population))  
                   'NY.GDP.PCAP.CD', # - GDP bình quân đầu người (GDP per capita (current US$))
                   'EG.ELC.ACCS.ZS', # - Tỷ lệ hộ gia đình có điện (% tổng số hộ gia đình) (Access to electricity (% of population)) 
                   'TX.VAL.ICTG.ZS.UN', # - Chi tiêu chính phủ vào cơ sở hạ tầng ICT (% GDP) (ICT goods exports (% of total goods exports)) 
                   'SP.URB.TOTL.IN.ZS', # - Mức độ đô thị hóa (Urban population (% of total population))
                   'SE.TER.ENRR', # - Tỷ lệ dân số có trình độ đại học (% độ tuổi tương ứng)
                   'SE.ADT.LITR.ZS', # - Tỷ lệ dân số biết đọc biết viết (% người từ 15 tuổi trở lên)
                   'NY.GDP.PCAP.CD', # - Mức thu nhập bình quân đầu người (USD)

                   'SE.SEC.NENR', # Tỷ lệ nhập học phổ thông
                   'SE.PRM.CMPT.ZS', # Tỷ lệ hoàn thành tiểu học(% nhóm tuổi liên quan)
                   'SE.SEC.CMPT.LO.ZS', # Tỷ lệ hoàn thành cấp trung học cơ sở(% nhóm tuổi liên quan)
                   'SL.TLF.TOTL.FE.ZS', # Tỷ lệ nữ trong tổng số lực lượng lao động
                   'SG.GEN.PARL.ZS', # Tỷ lệ nữ trong quốc hội
                   'SE.ADT.LITR.FE.ZS', # Tỷ lệ biết chữ của nữ trưởng thành
                   'SE.ADT.1524.LT.FM.ZS', # Tỷ lệ biết chữ của nữ so với nam trong nhóm tuổi 15-24 
                   'SP.DYN.IMRT.IN', # Tỷ lệ tử vong của trẻ sơ sinh
                   'SH.IMM.IDPT', # Tỷ lệ tiêm chủng cho trẻ sơ sinh
                   'SH.XPD.CHEX.GD.ZS', # Chi tiêu cho y tế(% GDP)
                   'SH.STA.BRTC.ZS', # Tỷ lệ ca sinh được hỗ trợ bởi nhân viên y tế có kĩ năng
                   'SH.H2O.SMDW.ZS' # Tỷ lệ dân số tiếp cận được nguồn nước an toàn có sẵn tại chỗ
                   ]

In [3]:
COUNTRY_CODES = ['AUS', 'AFG', 'BGD', 'BTN', 'BRA', 'CHL', 'CAN', 'CHN', 'CUB', 'DEU', 'DNK', 'EGY', 'ETH', 'GBR',
                  'IDN', 'IND', 'JPN', 'KHM', 'LBY', 'MMR', 'MEX', 'SGP', 'PHL', 'RUS', 'THA', 'USA', 'VNM', 'ZWE']

In [4]:
def loadData(country_code, start, end, format = "json", per_page = 100):

    records = {}
    for indicator_code in INDICATOR_CODES:
        url = f"https://api.worldbank.org/v2/country/{country_code}/indicator/{indicator_code}?date={start}:{end}&format=json&per_page={per_page}"
        response = requests.get(url) # Lấy về kết quả sau khi gọi api

        if response.status_code == 200:

            data = response.json() # Chuyển kết quả về dạng json

            # Xử lí data để thu được các trường thông tin mong muốn
            count = data[0]['total']

            for i in range(count):
                item = data[1][i]
                feature = item['indicator']['value']
                country = item['country']['value']
                year = item['date']
                value = item['value']

                if year not in records:
                    records[year] = {"Year": year}
                
                records[year]['Country'] = country

                records[year][feature] = value
            

        df = pd.DataFrame(records.values())

    return df

In [5]:
raw_data = pd.DataFrame()
for country in COUNTRY_CODES:
    print(country)

    df = loadData(country, 1980, 2020)
    raw_data = pd.concat([raw_data, df], ignore_index=True)

AUS
AFG


  raw_data = pd.concat([raw_data, df], ignore_index=True)


BGD
BTN
BRA
CHL
CAN
CHN
CUB
DEU
DNK
EGY
ETH
GBR
IDN
IND
JPN
KHM
LBY
MMR
MEX
SGP
PHL
RUS
THA
USA
VNM
ZWE


In [6]:
raw_data.head()
raw_data.to_csv('Data.csv', index=False)

# **3. Tiền xử lý dữ liệu**

Tuy dữ liệu có từ những nguồn khá đáng tin cậy, nhưng vẫn có những dữ liệu bị thiếu(năm đó không thực hiện khảo sát,...) hoặc những dữ liệu bị chênh lệch nhiều với phần còn lại. Do đó chúng em sẽ thực hiện bước tiếp theo là phân tích, thống kê mô tả dữ liệu, xử lí các dữ liệu thiếu. Gọi chung là tiền xử lí dữ liệu

In [1]:
import pandas as pd

In [2]:
raw_data = pd.read_csv('Data.csv')

Đầu tiền là đánh giá sơ bộ về dữ liệu, thống kê mô tả các trường dữ liệu

In [3]:
raw_data.shape

(1148, 35)

Dữ liệu có ... dòng và ... cột

In [4]:
raw_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1148 entries, 0 to 1147
Data columns (total 35 columns):
 #   Column                                                                                                 Non-Null Count  Dtype  
---  ------                                                                                                 --------------  -----  
 0   Year                                                                                                   1148 non-null   int64  
 1   Country                                                                                                1148 non-null   object 
 2   Government expenditure on education, total (% of GDP)                                                  683 non-null    float64
 3   Government expenditure per student, primary (% of GDP per capita)                                      226 non-null    float64
 4   Government expenditure per student, secondary (% of GDP per capita)                             

- Chỉ có cột `Country` là kiểu `object`, các cột còn lại là kiểu `numeric`, phù hợp để sau này thực hiện trực quan, đánh giá hoặc chạy các mô hình trí tuệ nhân tạo
- Các cột vẫn có giá trị rỗng

In [5]:
# Kiểm tra số cột có giá trị rỗng
null_counts = raw_data.isnull().sum()
num_columns_with_null = (null_counts > 0).sum()
print(f"Số cột có chứa giá trị rỗng: {num_columns_with_null}")

Số cột có chứa giá trị rỗng: 30


- Vì đang có khá nhiều nước nên khi trực quan sẽ gây khó khăn cho người xem. Do đó chúng em quyết định sẽ phân loại các nước theo các nhóm `Developed`, `Developing`, `Least developed`.
- Do đó, chúng em sẽ điền các giá trị rỗng bằng giá trị trung bình của nhóm nước đó. Vì thường các nước cùng nhóm sẽ có các chỉ số gần nhau.

In [6]:
developed_countries = ['Australia', 'Canada', 'Germany', 'Denmark', 'United Kingdom', 'Japan', 'Singapore', 'United States']
undeveloped_countries = ["Cambodia", "Myanmar", "Zimbabwe"]
# Đánh chỉ số 0 cho các nước phát triển, 1 cho các nước đang phát triển, 2 cho các nước chưa phát triển
raw_data['Development_Status'] = raw_data['Country'].apply(lambda x: 'Developed' if x in developed_countries else ('Least developed' if x in undeveloped_countries else 'Developing'))

In [7]:
# Điền giá trị rỗng bằng trung bình của nhóm
numeric_columns = raw_data.select_dtypes(include=['number']).columns
raw_data[numeric_columns] = raw_data.groupby("Development_Status")[numeric_columns].transform(lambda x: x.fillna(x.mean()))
raw_data.to_csv("processed_data.csv", index=False)


# **4. Đặt câu hỏi**

## Hưng

**Sự khác biệt về giáo dục giữa các quốc gia như thế nào?**

Đặc trưng cần có:
- Tỷ lệ biết chữ (%)
- Tỷ lệ nhập học trung học phổ thông và đại học (%)
- Chi tiêu giáo dục (% GDP)

**Tình trạng bình đẳng giới trên thế giới như thế nào?**

Đặc trưng cần có:
- Tỷ lệ nữ tham gia vào lực lượng lao động (%)
- Sự chênh lệch thu nhập giữa nam và nữ (Gender wage gap)
- Tỷ lệ nữ trong quốc hội (%)
- Trình độ học vấn trung bình của nữ và nam

**Các yếu tố nào ảnh hưởng đến tỷ lệ tử vong trẻ sơ sinh? Tình trạng y tế cho trẻ sơ sinh**

Đặc trưng cần có:

- Tỷ lệ tử vong trẻ sơ sinh (Infant Mortality Rate, per 1,000 live births)
- Tỷ lệ tiêm chủng (Immunization rate, % of children vaccinated)
- Chi tiêu y tế (% GDP)
- Nguồn nước sạch (% dân số tiếp n cậđược)

## Khánh

**Những yếu tố nào ảnh hưởng đến tuổi thọ trung bình của con người?**

Đặc trưng cần có: 

- Tuổi thọ trung bình (Life expectancy at birth, total (years)): SP.DYN.LE00.IN​

- Tỷ lệ béo phì ở người trưởng thành (% dân số từ 18 tuổi trở lên) (Prevalence of overweight among adults, BMI ≥ 25 (% of adults)): SH.STA.OWAD.ZS​

- Tỷ lệ người hút thuốc ở người trưởng thành (% dân số từ 15 tuổi trở lên) (Smoking prevalence, total (ages 15+)): SH.PRV.SMOK​

- Chi tiêu y tế trên đầu người (Current health expenditure per capita (current US$)): SH.XPD.CHEX.PC.CD​

**Những yếu tố nào ảnh hưởng đến tỷ lệ sử dụng Internet ở các quốc gia?**

Đặc trưng cần có:

- Tỷ lệ dân số sử dụng Internet (% tổng dân số) (Individuals using the Internet (% of population)) → IT.NET.USER.ZS

- GDP bình quân đầu người (GDP per capita (current US$)) → NY.GDP.PCAP.CD

- Tỷ lệ hộ gia đình có điện (% tổng số hộ gia đình) (Access to electricity (% of population)) → EG.ELC.ACCS.ZS

- Chi tiêu chính phủ vào cơ sở hạ tầng ICT (% GDP) (ICT goods exports (% of total goods exports)) → TX.VAL.ICTG.ZS.UN

- Mức độ đô thị hóa (Urban population (% of total population)) → SP.URB.TOTL.IN.ZS



**Giáo dục có thực sự giúp nâng cao thu nhập và cải thiện chất lượng sống?**

Đặc trưng cần có:

- Tỷ lệ dân số có trình độ đại học (% độ tuổi tương ứng) → SE.TER.ENRR

- Tỷ lệ dân số biết đọc biết viết (% người từ 15 tuổi trở lên) → SE.ADT.LITR.ZS

- Mức thu nhập bình quân đầu người (USD) → NY.GDP.PCAP.CD

## Kỳ

**Chính phủ chi bao nhiêu phần trăm GDP bình quân đầu người cho mỗi học sinh ở bậc tiểu học, trung học và đại học?**

Đặc trưng cần có:
- Tỉ lệ chi tiêu của chính phủ cho giáo dục, tổng số (% GDP)
- Tỉ lệ chi tiêu cho giáo dục bậc tiểu học, tổng số (% GDP)
- Tỉ lệ chi tiêu cho giáo dục bậc trung học, tổng số (% GDP)
- Tỉ lệ chi tiêu cho giáo dục bậc đại học, tổng số (% GDP)

**Tỷ lệ nữ giới tự làm chủ (Self-employed, female) có cao hơn hay thấp hơn so với nam giới (Self-employed, male)? Điều này phản ánh điều gì về cơ hội kinh tế giữa hai giới?**

Đặc trưng cần có:
- Tỉ lệ lao động tự làm chủ (%)
- Tỉ lệ lao động có giới tính nam tự làm chủ (%)
- Tỉ lệ lao động có giới tính nữ tự làm chủ (%)

**Các nguyên nhân chính gây ra sự tử vong ở các nước. Kết quả có phản ánh đúng về tuổi thọ trung bình ở các nước không?**

Đặc trưng cần có:
- Tỉ lệ tử vong do chấn thương (%)
- Tỉ lệ tử vong do bệnh không truyền nhiễm (%)
- Tỉ lệ tử vong do bệnh truyền nhiễm (%)
- Tuổi thọ trung bình (năm)
