In [12]:
import requests
import pandas as pd

In [13]:
INDICATOR_CODES = ['SP.POP.TOTL', # Tổng dân số
                   'SP.POP.TOTL.FE.IN', # Dân số nữ
                   'SP.POP.TOTL.MA.IN', # Dân số nam
                   'SP.DYN.CBRT.IN', # Tỉ lệ sinh(Trên 1000 dân)
                   'SP.DYN.CDRT.IN', # Tỉ lệ tử(Trên 1000 dân)
                   'NY.GDP.MKTP.CD', # GDP(USD)
                   'SL.UEM.TOTL.ZS', # Tỉ lệ thất nghiệp(%)
                   'SP.URB.TOTL.IN.ZS', # Tỉ lệ dân số đô thị(%)
                   'NE.EXP.GNFS.ZS', # Xuất khẩu hàng hóa và dịch vụ(%GPD)
                   'NE.IMP.GNFS.ZS', # Nhập khẩu hàng hóa và dịch vụ(%GPD)
                   'NY.GDP.MKTP.KD.ZG', #Tốc độ tăng trưởng GPD(%)
                   'SP.URB.GROW', # Tốc độ tăng trưởng dân số đô thị hằng năm(%)
                   'SP.DYN.TFRT.IN', # Tổng tỉ suất sinh(Số con trung bình của 1 phụ nữ)
                   'SL.AGR.EMPL.ZS', # Tỉ lệ lao động ở ngành nông nghiệp(%)
                   'SL.IND.EMPL.ZS', # Tỉ lệ lao động ở ngành công nghiệp(%)
                   'SL.SRV.EMPL.ZS'  # Tỉ lệ lao động ở ngành dịch vụ(%)
                   ]

In [14]:
COUNTRY_CODES = ['AUS', 'AFG', 'BGD', 'BTN', 'BRA', 'CHL', 'CAN', 'CHN', 'CUB', 'DEU', 'DNK', 'EGY', 'ETH', 'GBR',
                  'IDN', 'IND', 'JPN', 'KHM', 'LBY', 'MMR', 'MEX', 'SGP', 'PHL', 'RUS', 'THA', 'USA', 'VNM', 'ZWE']

In [15]:
def loadData(country_code, start, end, format = "json", per_page = 100):

    records = {}
    for indicator_code in INDICATOR_CODES:
        url = f"https://api.worldbank.org/v2/country/{country_code}/indicator/{indicator_code}?date={start}:{end}&format=json&per_page={per_page}"
        response = requests.get(url)

        if response.status_code == 200:

            data = response.json()

            count = data[0]['total']
            
            for i in range(count):
                item = data[1][i]
                feature = item['indicator']['value']
                country = item['country']['value']
                year = item['date']
                value = item['value']

                if year not in records:
                    records[year] = {"Year": year}
                
                records[year]['Country'] = country

                records[year][feature] = value
            

        df = pd.DataFrame(records.values())

    return df
        
    

In [16]:
raw_data = pd.DataFrame()
for country in COUNTRY_CODES:
    print(country)

    df = loadData(country, 1980, 2020)
    raw_data = pd.concat([raw_data, df], ignore_index=True)

AUS
AFG
BGD
BTN
BRA
CHL
CAN
CHN
CUB
DEU
DNK
EGY
ETH
GBR
IDN
IND
JPN
KHM
LBY
MMR


  raw_data = pd.concat([raw_data, df], ignore_index=True)


MEX
SGP
PHL
RUS
THA
USA
VNM
ZWE


In [17]:
raw_data.head()

Unnamed: 0,Year,Country,"Population, total","Population, female","Population, male","Birth rate, crude (per 1,000 people)","Death rate, crude (per 1,000 people)",GDP (current US$),"Unemployment, total (% of total labor force) (modeled ILO estimate)",Urban population (% of total population),Exports of goods and services (% of GDP),Imports of goods and services (% of GDP),GDP growth (annual %),Urban population growth (annual %),"Fertility rate, total (births per woman)",Employment in agriculture (% of total employment) (modeled ILO estimate),Employment in industry (% of total employment) (modeled ILO estimate),Employment in services (% of total employment) (modeled ILO estimate)
0,2020,Australia,25649248,12922405,12726843,11.5,6.3,1328414000000.0,6.456,86.241,24.026739,20.637717,-0.119591,1.369185,1.581,2.765998,19.191097,78.042912
1,2019,Australia,25334826,12762303,12572523,12.1,6.7,1392724000000.0,5.159,86.124,24.159678,22.027824,2.171545,1.607625,1.657,2.558293,19.05846,78.383247
2,2018,Australia,24963258,12575335,12387923,12.6,6.3,1427809000000.0,5.3,86.012,21.894091,21.841975,2.87847,1.621636,1.74,2.616852,19.887638,77.495518
3,2017,Australia,24592588,12390298,12202290,12.6,6.5,1325583000000.0,5.592,85.904,21.256617,20.947114,2.279592,1.767968,1.741,2.596054,19.430111,77.973844
4,2016,Australia,24190907,12185876,12005031,12.9,6.6,1206837000000.0,5.711,85.8,19.278744,21.695335,2.759386,1.67739,1.752,2.621225,19.695735,77.68304


In [18]:
# check the number of columns having null values
null_counts = raw_data.isnull().sum()
num_columns_with_null = (null_counts > 0).sum()
print(f"The number of column having null values: {num_columns_with_null}")

The number of column having null values: 8


In [None]:
developed_countries = ['Australia', 'Canada', 'Germany', 'Denmark', 'United Kingdom', 'Japan', 'Singapore', 'United States']
undeveloped_countries = ["Cambodia", "Myanmar", "Zimbabwe"]
raw_data['Development_Status'] = raw_data['Country'].apply(lambda x: 0 if x in developed_countries else (2 if x in undeveloped_countries else 1))


In [None]:
# normalize the null values by the average value of each column following the Development_Status
numeric_columns = raw_data.select_dtypes(include=['number']).columns
raw_data[numeric_columns] = raw_data.groupby("Development_Status")[numeric_columns].transform(lambda x: x.fillna(x.mean()))
preprocessed_data = raw_data
preprocessed_data.to_csv("processed_data.csv", index=False)


In [None]:
import pandas as pd


In [None]:
processed_data = pd.read_csv('processed_data.csv')
processed_data.head()

   Year    Country  Population, total  Population, female  Population, male  \
0  2020  Australia           25649248            12922405          12726843   
1  2019  Australia           25334826            12762303          12572523   
2  2018  Australia           24963258            12575335          12387923   
3  2017  Australia           24592588            12390298          12202290   
4  2016  Australia           24190907            12185876          12005031   

   Birth rate, crude (per 1,000 people)  Death rate, crude (per 1,000 people)  \
0                                  11.5                                   6.3   
1                                  12.1                                   6.7   
2                                  12.6                                   6.3   
3                                  12.6                                   6.5   
4                                  12.9                                   6.6   

   GDP (current US$)  \
0       1.3284

### Đặt câu hỏi

**Hưng**

1. Sự chuyển dịch về tỉ trọng xuất nhập khẩu hàng hóa và dịch vụ ở các nước theo thời gian? Ảnh hưởng đến tăng trưởng GPD?...
Các đặc trưng:
- NE.IMP.GNFS.ZS
- NE.EXP.GNFS.ZS
- NY.GDP.MKTP.CD
- NY.GDP.MKTP.KD.ZG
2. Tỉ lệ sinh, tỉ lệ tử, sự tăng/ giảm dân số có ảnh hưởng gì đến sự phát triển GPD?
Các đặc trưng:
- SP.DYN.CBRT.IN
- SP.DYN.CDRT.IN
- NY.GDP.MKTP.KD.ZG

3. Tốc độ đô thị hóa như thế nào? Có liên quan gì đến tỉ lệ sinh, tử? Có ảnh hưởng gì đến tỉ lệ thất nghiệp/ tỉ lệ việc làm ở nông nghiệp, công nghiệp?
Các đặc trưng:
- SP.URB.TOTL.IN.ZS	
- SP.DYN.CBRT.IN
- SP.DYN.CDRT.IN
- SL.UEM.TOTL.ZS
- SP.URB.TOTL.IN.ZS

**Kỳ**

1. Tỉ lệ sinh, tỉ lệ tử ảnh hưởng gì đến tuổi thọ ở người dân các nước:
Các đặc trưng:
- Birth rate, crude (Tỷ lệ sinh)
- Death rate, crude (Tỷ lệ tử)
- Life expectancy at birth, male (years) (Tuổi thọ trung bình nam)
- Life expectancy at birth, female (years) (Tuổi thọ trung bình nữ)
Chọn loại biểu đồ:
- Biểu đồ đường để so sánh tuổi thọ với tỷ lệ sinh và tỷ lệ tử theo thời gian.
- Biểu đồ phân tán (Scatter Plot) để kiểm tra mối quan hệ giữa tỷ lệ sinh, tỷ lệ tử và tuổi thọ.
2. Cơ cấu lao động theo ngành thay đổi như thế nào và có liên quan gì đến tỷ lệ thất nghiệp?
Các đặc trưng:
- Employment in industry.
- Employment in agriculture.
- Employment in services.
- Unemployment, total (% of total labor force) (Tỷ lệ thất nghiệp)
Chọn loại biểu đồ:
- Biểu đồ cột nhóm (Grouped Bar Chart) để so sánh tỷ lệ lao động trong công nghiệp, nông nghiệp và tỷ lệ thất nghiệp theo năm.
- Biểu đồ đường để xem xu hướng biến động tỷ lệ thất nghiệp theo thời gian.
3. Tác động của thất nghiệp đến nền kinh tế.
Các đặc trưng:
- Unemployment, total.
- GDP (current US$)
- GDP growth (annual %)
Chọn loại biểu đồ:
- Biểu đồ phân tán (Scatter Plot) xác định mối quan hệ giữa tỷ lệ thất nghiệp và tăng trưởng GDP.
- Biểu đồ đường (Line Chart) theo dõi xu hướng thất nghiệp và tăng trưởng GDP theo thời gian.