In [1]:
import numpy as np 
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor, VotingRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, precision_score, accuracy_score


In [2]:
# Đọc dữ liệu từ tệp thứ nhất
df = pd.read_csv('WHR2005-2023.csv')

Asia = df[df['Regional Indicator'].isin(['Southeast Asia', 'East Asia'])]

Asia = Asia.round(4)
Asia.to_csv('Asia.csv', index = False)


In [3]:
Asia_float = Asia.select_dtypes(include=['float64'])
Asia_float

Unnamed: 0,Life Ladder,Logged GDP Per Capita,Social Support,Healthy Life Expectancy At Birth,Freedom To Make Life Choices,Generosity,Perceptions Of Corruption
295,3.5687,7.7464,0.7931,57.640,,0.2535,0.8292
296,4.1560,7.8263,0.6751,57.980,0.8187,0.1139,0.8785
297,4.4622,7.8745,0.6193,58.320,0.9142,0.0439,0.8884
298,4.1106,7.8602,0.8183,58.660,0.9372,0.1510,0.9648
299,4.1411,7.9036,0.6972,59.000,0.9401,0.3483,0.8957
...,...,...,...,...,...,...,...
2170,5.4675,9.2352,0.8476,65.300,0.9525,-0.1459,0.7879
2171,5.4623,9.2544,0.7645,65.400,0.9447,0.0658,0.7911
2172,5.5402,9.2713,0.7995,65.500,0.8968,0.1069,0.7978
2173,6.2665,9.3329,0.8787,65.600,0.9754,-0.1790,0.7034


In [4]:
countries = Asia['Country Name'].unique()
countries

array(['Cambodia', 'China', 'Hong Kong S.A.R. of China', 'Indonesia',
       'Japan', 'Laos', 'Malaysia', 'Mongolia', 'Myanmar', 'Philippines',
       'Singapore', 'South Korea', 'Taiwan Province of China', 'Thailand',
       'Vietnam'], dtype=object)

In [5]:
# Lặp qua từng quốc gia và điền giá trị trung bình cho các ô null
for country in countries:
    country_data = Asia[Asia['Country Name'] == country]
    for column in country_data.columns:
        if country_data[column].dtype == 'float64':
            Asia.loc[Asia['Country Name'] == country, column] = country_data[column].fillna(country_data[column].mean())

Asia.to_csv('Asia1.csv', index = False)

In [6]:
asia_data = pd.read_csv('Asia1.csv')

# Tách dữ liệu của Việt Nam
vietnam_data = asia_data[asia_data['Country Name'] == 'Vietnam']

vietnam_data.to_csv('Vietnam.csv', index=False)

In [7]:
vietnam_data

Unnamed: 0,Country Name,Regional Indicator,Year,Life Ladder,Logged GDP Per Capita,Social Support,Healthy Life Expectancy At Birth,Freedom To Make Life Choices,Generosity,Perceptions Of Corruption
220,Vietnam,Southeast Asia,2006,5.2937,8.5538,0.8877,64.18,0.8858,-0.0035,0.778479
221,Vietnam,Southeast Asia,2007,5.4217,8.6131,0.856,64.26,0.9178,0.0711,0.7539
222,Vietnam,Southeast Asia,2008,5.4804,8.6583,0.8046,64.34,0.8886,0.1825,0.7892
223,Vietnam,Southeast Asia,2009,5.3043,8.7006,0.815,64.42,0.8341,-0.08,0.8379
224,Vietnam,Southeast Asia,2010,5.2958,8.7522,0.7866,64.5,0.8315,-0.0239,0.7426
225,Vietnam,Southeast Asia,2011,5.7673,8.8037,0.8977,64.58,0.8184,0.0868,0.7422
226,Vietnam,Southeast Asia,2012,5.5346,8.8465,0.775,64.66,0.8561,-0.1287,0.8149
227,Vietnam,Southeast Asia,2013,5.0227,8.8898,0.7595,64.74,0.9196,-0.0456,0.7712
228,Vietnam,Southeast Asia,2014,5.0849,8.9414,0.7922,64.82,0.8976,-0.0188,0.778479
229,Vietnam,Southeast Asia,2015,5.0763,8.9985,0.8487,64.9,0.8976,0.0664,0.778479


In [8]:
vietnam_data = pd.read_csv('Vietnam.csv')

In [17]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import statsmodels.api as sm
import warnings

warnings.filterwarnings("ignore")
# Tạo dataframe chỉ chứa các cột cần thiết
selected_columns = ['Logged GDP Per Capita', 'Social Support', 'Healthy Life Expectancy At Birth', 'Freedom To Make Life Choices', 'Generosity', 'Perceptions Of Corruption', 'Life Ladder']
data_selected = vietnam_data[selected_columns]

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
train_data, test_data = train_test_split(data_selected, test_size=0.2, random_state=42)

# Tạo mô hình Linear Regression
model = LinearRegression()

# Huấn luyện mô hình
X_train = train_data.iloc[:, :-1]
y_train = train_data['Life Ladder']
model.fit(X_train, y_train)

# Kiểm tra mô hình trên tập kiểm tra
X_test = test_data.iloc[:, :-1]
y_test = test_data['Life Ladder']
predictions = model.predict(X_test)

# Đánh giá mô hình
mse = mean_squared_error(y_test, predictions)
print(f'Mean Squared Error: {mse}')

# Dự đoán cho năm 2024 sử dụng ARIMA cho từng biến độc lập
independent_variables = ['Logged GDP Per Capita', 'Social Support', 'Healthy Life Expectancy At Birth', 'Freedom To Make Life Choices', 'Generosity', 'Perceptions Of Corruption']
forecasted_values = []  # Define an empty list to store forecasted values

for variable in independent_variables:
    # Tạo mô hình ARIMA
    model_arima = sm.tsa.ARIMA(train_data[variable], order=(0, 0, 1))  # Thay p, d, q bằng các giá trị thích hợp
    results = model_arima.fit()

    # Dự đoán giá trị cho năm 2024
    forecast = results.get_forecast(steps=1)
    forecasted_value = forecast.predicted_mean.iloc[0]
    
    # Append the forecasted value to the list
    forecasted_values.append(forecasted_value)

    # In kết quả
    print(f'Predicted value for {variable} in 2024: {forecasted_value}')

# Sử dụng mô hình Linear Regression để dự đoán Life Ladder cho năm 2024
predicted_life_ladder_2024 = model.predict([forecasted_values])

print(f'Predicted Life Ladder for 2024: {predicted_life_ladder_2024[0]}')


Mean Squared Error: 0.13925314748547551
Predicted value for Logged GDP Per Capita in 2024: 9.110940609868884
Predicted value for Social Support in 2024: 0.832660847180173
Predicted value for Healthy Life Expectancy At Birth in 2024: 65.12462142532527
Predicted value for Freedom To Make Life Choices in 2024: 0.9236857577327614
Predicted value for Generosity in 2024: -0.03548380722047079
Predicted value for Perceptions Of Corruption in 2024: 0.7542629808194915
Predicted Life Ladder for 2024: 5.430208938942542


In [19]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import statsmodels.api as sm

# Đọc dữ liệu từ file CSV
vietnam_data = pd.read_csv('Vietnam.csv')

# Chọn các cột cần thiết
selected_columns = ['Logged GDP Per Capita', 'Social Support', 'Healthy Life Expectancy At Birth', 'Freedom To Make Life Choices', 'Generosity', 'Perceptions Of Corruption', 'Life Ladder', 'Year']
data_selected = vietnam_data[selected_columns]

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
train_data, test_data = train_test_split(data_selected, test_size=0.2, random_state=42)

# Tạo mô hình Linear Regression
model = LinearRegression()

# Huấn luyện mô hình
X_train = train_data[selected_columns[:-2]]  # Chọn tất cả các cột ngoại trừ 'Life Ladder' và 'Year'
y_train = train_data['Life Ladder']
model.fit(X_train, y_train)

# Kiểm tra mô hình trên tập kiểm tra
X_test = test_data[selected_columns[:-2]]  # Chọn tất cả các cột ngoại trừ 'Life Ladder' và 'Year'
y_test = test_data['Life Ladder']
predictions = model.predict(X_test)

# Đánh giá mô hình
mse = mean_squared_error(y_test, predictions)
print(f'Mean Squared Error: {mse}')

# Dự đoán cho năm 2024 sử dụng ARIMA cho từng biến độc lập
independent_variables = ['Logged GDP Per Capita', 'Social Support', 'Healthy Life Expectancy At Birth', 'Freedom To Make Life Choices', 'Generosity', 'Perceptions Of Corruption']
forecasted_values = []  # Define an empty list to store forecasted values

for variable in independent_variables:
    # Tạo mô hình ARIMA với chỉ mục là 'Year'
    model_arima = sm.tsa.ARIMA(train_data.set_index('Year')[variable], order=(0, 0, 1))  # Thay p, d, q bằng các giá trị thích hợp
    results = model_arima.fit()

    # Dự đoán giá trị cho năm 2024
    forecast = results.get_forecast(steps=1)
    forecasted_value = forecast.predicted_mean.iloc[0]
    
    # Append the forecasted value to the list
    forecasted_values.append(forecasted_value)

    # In kết quả
    print(f'Predicted value for {variable} in 2024: {forecasted_value}')

# Sử dụng mô hình Linear Regression để dự đoán Life Ladder cho năm 2024
# Bạn có thể thêm cột 'Year' vào dự đoán để sử dụng như chỉ mục cho mô hình ARIMA
predicted_life_ladder_2024 = model.predict(test_data[selected_columns[:-2]])  # Chọn tất cả các cột ngoại trừ 'Life Ladder' và 'Year'

print(f'Predicted Life Ladder for 2024: {predicted_life_ladder_2024[0]}')


Mean Squared Error: 0.13925314748547551
Predicted value for Logged GDP Per Capita in 2024: 9.110940609868884
Predicted value for Social Support in 2024: 0.832660847180173
Predicted value for Healthy Life Expectancy At Birth in 2024: 65.12462142532527
Predicted value for Freedom To Make Life Choices in 2024: 0.9236857577327614
Predicted value for Generosity in 2024: -0.03548380722047079
Predicted value for Perceptions Of Corruption in 2024: 0.7542629808194915
Predicted Life Ladder for 2024: 5.680401229763163
