# 世界幸福报告数据分析

## 项目背景

《世界幸福报告》是对全球幸福状况的一次具有里程碑意义的调查。2012年发表了第一份报告，2013年发表了第二份报告，2015年发表了第三份报告，2016年发表了第四份报告。3月20日，联合国在庆祝国际幸福日的活动上发布了《2017年世界幸福指数》，该指数对155个国家的幸福水平进行了排名。随着各国政府、组织和民间社会越来越多地使用幸福指数作为决策依据，该报告继续获得全球认可。经济学、心理学、调查分析、国家统计、健康、公共政策等领域的领先专家描述了如何有效地利用幸福的测量来评估国家的进步。这些报告回顾了当今世界的幸福状况，并展示了幸福的新科学如何解释个人和国家的幸福差异。

幸福指数和排名采用的是盖洛普世界民意测验的数据。分数是根据民意测验中主要的生活评价问题的答案得出的。这个问题被称为坎特里尔阶梯(Cantril ladder)，要求受访者想出一个阶梯，对他们来说最好的生活是10，最坏的生活是0，然后按照这个标准给自己目前的生活打分。这些得分来自于2013-2016年具有全国代表性的样本，并使用盖洛普加权使估算具有代表性。幸福得分后的列估计的程度每六个因素——经济生产、社会支持,预期寿命,自由,没有腐败,和慷慨,有助于使生活在每个国家的评价高于他们在反乌托邦,一个假设的值等于世界最低的国家国家平均每六个因素。它们对每个国家报告的总分没有影响，但它们确实解释了为什么有些国家排名高于其他国家。

在这个项目中，我们将讨论哪个国家在总体幸福指数上排名最高，以及影响幸福的六个因素中的每一个?2015年到2016年以及2017年、2018年和2019年的国家排名或分数有什么变化?有没有哪个国家的幸福指数大幅上升或下降?

## 数据理解

关键字段含义解释：

1. rank：幸福指数排名
2. region：国家
3. happiness：幸福指数得分
4. gdp_per_capita：GDP（人均国内生产总值）
5. healthy_life_expectancy：健康预期寿命
6. freedom_to_life_choise：自由权
7. generosity：慷慨程度
8. year：年份
9. corruption_perceptions：清廉指数
10. social_support：社会支持（客观上物质上的援助和直接服务；主观上指个体感到在社会中被尊重、被支持和被理解的情绪体验和满意程度。）

## 数据导入和数据整理

首先导入所需包。

In [1]:
# 数据整理 
import numpy as np 
import pandas as pd 

# 可视化
import matplotlib.pyplot as plt 
import seaborn as sns 
import plotly as py 
import plotly.graph_objs as go 
import plotly.express as px 
from plotly.offline import init_notebook_mode, iplot, plot 

init_notebook_mode(connected=True)
plt.style.use('seaborn') 

In [2]:
# 读入数据
df_2015 = pd.read_csv('./deal_data/2015.csv')
df_2016 = pd.read_csv('./deal_data/2016.csv')
df_2017 = pd.read_csv('./deal_data/2017.csv')
df_2018 = pd.read_csv('./deal_data/2018.csv') 
df_2019 = pd.read_csv('./deal_data/2019.csv')

# 新增列-年份
df_2015["year"] = str(2015)
df_2016["year"] = str(2016)
df_2017["year"] = str(2017)
df_2018["year"] = str(2018)
df_2019["year"] = str(2019)

# 合并数据
df_all = df_2015.append([df_2016, df_2017, df_2018, df_2019], sort=False)
df_all.drop('Unnamed: 0', axis=1, inplace=True)
df_all.head()  

Unnamed: 0,region,rank,happiness,gdp_per_capita,healthy_life_expectancy,freedom_to_life_choise,corruption_perceptions,generosity,year,social_support
0,Switzerland,1,7.587,1.39651,0.94143,0.66557,0.41978,0.29678,2015,
1,Iceland,2,7.561,1.30232,0.94784,0.62877,0.14145,0.4363,2015,
2,Denmark,3,7.527,1.32548,0.87464,0.64938,0.48357,0.34139,2015,
3,Norway,4,7.522,1.459,0.88521,0.66973,0.36503,0.34699,2015,
4,Canada,5,7.427,1.32629,0.90563,0.63297,0.32957,0.45811,2015,


In [3]:
print(df_2015.shape, df_2016.shape, df_2017.shape, df_2018.shape, df_2019.shape) 

(158, 10) (157, 10) (155, 10) (156, 11) (156, 11)


In [4]:
df_all[df_all['region'] == 'China'][['region', 'rank', 'happiness', 'year']] 

Unnamed: 0,region,rank,happiness,year
83,China,84,5.14,2015
82,China,83,5.245,2016
78,China,79,5.273,2017
85,China,86,5.246,2018
92,China,93,5.191,2019


In [144]:
df_all.info() 

<class 'pandas.core.frame.DataFrame'>
Int64Index: 782 entries, 0 to 155
Data columns (total 10 columns):
region                     782 non-null object
rank                       782 non-null int64
happiness                  782 non-null float64
gdp_per_capita             782 non-null float64
healthy_life_expectancy    782 non-null float64
freedom_to_life_choise     782 non-null float64
corruption_perceptions     781 non-null float64
generosity                 782 non-null float64
year                       782 non-null object
social_support             312 non-null float64
dtypes: float64(7), int64(1), object(2)
memory usage: 67.2+ KB


## 数据可视化

### 2019世界幸福地图

In [145]:
data = dict(type = 'choropleth', 
           locations = df_2019['region'],
           locationmode = 'country names',
           colorscale = 'RdYlGn',
           z = df_2019['happiness'], 
           text = df_2019['region'],
           colorbar = {'title':'Happiness'})

layout = dict(title = 'Geographical Visualization of Happiness Score in 2019', 
              geo = dict(showframe = True, projection = {'type': 'azimuthal equal area'}))

choromap3 = go.Figure(data = [data], layout=layout)
plot(choromap3, filename='./html/世界幸福地图.html')

整体来看，北欧的国家幸福指数较高，如冰岛、丹麦、挪威、芬兰；东非和西非的国家幸福指数较低，如多哥、布隆迪、卢旺达和坦桑尼亚。

### 2019世界幸福国家排行Top10

In [58]:
# 合并数据
rank_top10 = df_2019.head(10)[['rank', 'region', 'happiness']]
last_top10 = df_2019.tail(10)[['rank', 'region', 'happiness']]
rank_concat = pd.concat([rank_top10, last_top10])

# 条形图
fig = px.bar(rank_concat, 
             x="region", 
             y="happiness", 
             color="region", 
             title="World's happiest and least happy countries in 2019")

plot(fig, filename='./html/2019世界幸福国家排行Top10和Last10.html')

### 幸福指数相关性

In [9]:
# 热力图
plt.figure(figsize=(25, 20))
sns.heatmap(df_all.corr(), cmap='rainbow', linewidths=0.1, annot=True)
plt.title('Correlation between numeric variables', fontsize=18)  
plt.xticks(fontsize=13) 
plt.yticks(fontsize=13) 
plt.show() 

结论：

1. 从影响因素相关性热力图可以看出，在影响幸福得分的因素中，GDP、社会支持、健康预期寿命呈现高度相关，自由权呈现中度相关，国家的廉政水平呈现低度相关，慷慨程度则呈现极低的相关性；

2. GDP与健康预期寿命、社会支持之间存在高度相关。说明GDP高的国家，医疗水平和社会福利较为完善，人民的预期寿命也会越高；

3. 健康预期寿命与社会支持之间存在中度相关性。

以下分别观察各个因素的影响程度。

### GDP和幸福得分

In [10]:
# 散点图
fig = px.scatter(df_all, x='gdp_per_capita', 
                 y='happiness',
                 facet_row='year',
                 color='year',
                 trendline='ols'
                ) 
fig.update_layout(height=800, title_text='GDP per capita and Happiness Score')
plot(fig, filename='./html/GDP和幸福得分.html')

人均GDP与幸福得分呈高度线性正相关关系，GDP越高的国家，幸福水平相对越高。

### 健康预期寿命和幸福得分

In [11]:
# 散点图
fig = px.scatter(df_all, x='healthy_life_expectancy', 
                 y='happiness',
                 facet_row='year',
                 color='year',
                 trendline='ols'
                )  
fig.update_layout(height=800, title_text='Healthy Life Expecancy and Happiness Score')
plot(fig, filename='./html/健康预期寿命和幸福得分.html') 

健康预期寿命与幸福得分呈高度线性正相关关系，健康预期寿命越高的国家，幸福水平相对越高。

### 动态图展示（GDP&happiness）

In [146]:
fig = px.scatter(df_all, 
                 x='gdp_per_capita', 
                 y='happiness',
                 animation_frame='year',
                 animation_group='region',
                 size='rank',
                 color='region',
                 hover_name='region',
                 trendline='ols'
                ) 
fig.update_layout(title_text='Happiness Rank vs GDP per Capita') 
plot(fig, filename='./html/GDP和幸福水平动态图展示.html') 

### 动态图展示（healthy_life_expectancy&happiness）

In [147]:
fig = px.scatter(df_all, 
                 x='healthy_life_expectancy', 
                 y='happiness',
                 animation_frame='year',
                 animation_group='region',
                 size='rank',
                 color='region',
                 hover_name='region',
                 trendline='ols'
                ) 
fig.update_layout(title_text='Happiness Rank vs healthy_life_expectancy') 
plot(fig, filename='./html/健康预期寿命和幸福水平动态图展示.html') 

## 数据建模

我们使用线性回归进行建立一个基准模型，首先筛选一下建模变量，并删除空值记录。

In [125]:
sel_cols = ['happiness', 'gdp_per_capita', 'healthy_life_expectancy', 
            'freedom_to_life_choise', 'corruption_perceptions', 'generosity']
# 重置索引
df_model.index = range(df_model.shape[0])
df_model = df_all[sel_cols] 
# 删除空值
df_model = df_model.dropna() 
df_model.head() 

Unnamed: 0,happiness,gdp_per_capita,healthy_life_expectancy,freedom_to_life_choise,corruption_perceptions,generosity
0,7.587,1.39651,0.94143,0.66557,0.41978,0.29678
1,7.561,1.30232,0.94784,0.62877,0.14145,0.4363
2,7.527,1.32548,0.87464,0.64938,0.48357,0.34139
3,7.522,1.459,0.88521,0.66973,0.36503,0.34699
4,7.427,1.32629,0.90563,0.63297,0.32957,0.45811


In [127]:
from statsmodels.formula.api import ols

# 建立多元线性回归模型
lm_m = ols(formula='happiness ~ gdp_per_capita + healthy_life_expectancy + freedom_to_life_choise + corruption_perceptions + generosity', 
           data=df_model).fit()
lm_m.summary()  

0,1,2,3
Dep. Variable:,happiness,R-squared:,0.744
Model:,OLS,Adj. R-squared:,0.743
Method:,Least Squares,F-statistic:,451.1
Date:,"Fri, 18 Sep 2020",Prob (F-statistic):,1.1900000000000001e-226
Time:,10:57:18,Log-Likelihood:,-668.6
No. Observations:,781,AIC:,1349.0
Df Residuals:,775,BIC:,1377.0
Df Model:,5,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,2.4713,0.074,33.589,0.000,2.327,2.616
gdp_per_capita,1.3197,0.084,15.683,0.000,1.154,1.485
healthy_life_expectancy,1.2104,0.135,8.979,0.000,0.946,1.475
freedom_to_life_choise,1.9205,0.160,12.001,0.000,1.606,2.235
corruption_perceptions,0.5378,0.229,2.353,0.019,0.089,0.986
generosity,0.4599,0.182,2.529,0.012,0.103,0.817

0,1,2,3
Omnibus:,23.357,Durbin-Watson:,1.522
Prob(Omnibus):,0.0,Jarque-Bera (JB):,24.843
Skew:,-0.406,Prob(JB):,4.03e-06
Kurtosis:,3.321,Cond. No.,19.2


模型的R-squared=0.744，拟合效果尚可，根据模型的参数可知：

1. 变量重要性排序为：gdp_per_capita、freedom_to_life_choise、healthy_life_expectancy、corruption_perceptions、generosity	
2. 控制其他变量不变的情况下，GDP指数每增加一个单位，幸福指数增加1.32个单位，健康预期寿命指数每增加一个单位，幸福指数增加1.21个单位。

比较预测值和真实值的分布：

In [148]:
df_pred = pd.concat([df_model['happiness'], y_pred], axis=1) 
df_pred.columns = ['y_true', 'y_pred']

# 散点图
fig = px.scatter(df_pred, x='y_true', y='y_pred', trendline='ols')
fig.update_layout(title='Resid of OLS Regression')
plot(fig, filename='./html/预测值和真实值分布图.html') 

以下为模型残差分布图。

In [149]:
fig = px.histogram(x=lm_m.resid) 
fig.update_layout(title='Resid of OLS Regression')
plot(fig, filename='./html/多元线性回归残差分布图.html')