# 散点图
全球各个国家的平均预期寿命相对于平均受教育年限的散点图：
![](![](./picture/6-1.png))
散点图可以帮助我们探索两个连续变量之间的关系，在上面这个绘图中，您可以看到世界各国平均预期寿命（在 x 轴上）与平均受教育时间（在 y 轴上）的散点图。图中的每个点代表一个国家，红色的线表示线性回归模型的直线趋势线。数据来源：[联合国（United Nations）](http://hdr.undp.org/en/content/2019-human-development-index-ranking)  


做一个小小的知识普及：图中坐标轴名称中的 SDG 表示 Sustainable Development Goals 的缩写，意为[联合国可持续发展目标](https://www.un.org/sustainabledevelopment/zh/sustainable-development-goals/)，大家可以点击这个链接在联合国的中文官网上查看。其中：  


✭ SDG 3（目标 3）：良好健康与福祉 - 确保健康的生活方式，促进各年龄段人群的福祉。  
✭ SDG 4（目标 4）：优质教育 - 确保包容和公平的优质教育，让全民终身享有学习机会  

开课吧也一直在为实现目标 4 而努力奋斗～  

选择题  
下面问题来了，根据上面的散点图来判断下面描述是正确还是错误，请选择出所有描述正确的选项：  
A. 随着平均受教育时间的增加，平均预期寿命通常也会增加。  
B. 没有哪个国家的平均受教育时间少于 6 年，平均预期寿命超过 75 年。  
C. 预期寿命与受教育时间之间存在正相关性。  
D. 没有任何国家的平均预期寿命低于 55 岁。  
E. 每个平均预期寿命少于 60 岁的国家/地区的平均受教育时间都少于 7 年。  
F.如果一个国家的平均受教育时间长于另一个国家，则该国家的平均预期寿命也将更长。  
G.恰好有一个国家的平均受教育年限超过 14 年。  
H.预期寿命与受教育时间之间呈负相关性。 

恭喜您，回答正确，描述正确的选项有A、C、E、G。  
这个题目中容易判断错误的是选项 F，某个国家的平均受教育时间大于另一个国家，并意味着平均预期年龄也大，平均预期寿命是一个宽带，右面的点不一定在左面点的上面。  

绘图中的全部数据来自《2019 Human Development Index Ranking》，中国在全球范围内整体排名第 85，中国香港整体排名第 4。  
⽤散点图表现事物发展的趋势  
下面我们一起跑代码来看看更多的洞察吧。  
还是那个套路，我们先来加载数据，看看里面有什么宝藏吧...  

In [1]:
import pandas as pd


# 数据来自《2019 Human Development Index Ranking》
df = pd.read_csv('./data/left_expectancy.csv')
df.head(3)

Unnamed: 0,-,Rank,Country,Human Development Index (HDI) (value),Life expectancy at birth (years) SDG3,Expected years of schooling (years) SDG 4.3,Mean years of schooling (years) SDG 4.6,Gross national income (GNI) per capita (PPP $) SDG 8.5,Unnamed: 8
0,no,1,Norway,0.954,82.3,18.1,12.6,68059.0,
1,ch,2,Switzerland,0.946,83.6,16.2,13.4,59375.0,
2,ie,3,Ireland,0.942,82.1,18.8,12.5,55660.0,


我们不难发现，排名前三的国家是 Norway（挪威）、Switzerland（瑞士）、Ireland（爱尔兰），他们都是欧洲的国家，也就是说欧洲的医疗卫生以及教育综合情况相对比较好。接下来，我们来看看中国在这张表里的情况：

In [2]:
from svgutils import transform
import svgutils.transform as sg
from IPython.display import SVG,display

from IPython.display import SVG
from IPython.display import HTML,display

import pygal
import pandas as pd


# 数据来自《2019 Human Development Index Ranking》
df = pd.read_csv('./data/left_expectancy.csv')

# 数据集中标示为 '-' 的列是 flag_name，
# 大家可以自己替换 flag_name 中的值来查看不同国家的国旗哦～
flag_name = 'cn'
svg = SVG('./data/cn.svg')
display(svg)
# 在数据集中查找中国
df[df.Country.str.contains('China')]

ExpatError: not well-formed (invalid token): line 1, column 1

中国整体排名第 85，中国香港整体排名第 4。不难发现 China 在平均受教育时间、国民人均收入（GNI）等指标上还是远远落后于发达国家的。  

下面我们来直接执行下面的脚本，绘制一个可以交互的散点图  

✭ 大家可以修改 `focus_points` 中的值，存在于 `focus_points` 当中的国家名称会被高亮显示，方便我们对比不同国家的数据；  
✭ 将鼠标移动到绘图中的点上，可以看到对于每一个点的详细数据。  
✭ 这里将中国、中国香港、美国、印度、英国、巴西几个地区进行红色高亮显示来进行对比。  

In [4]:
import sys
sys.path.append('./data/')

from dvfe_02_01 import *

# focus_points 中包含的国家在图中会显示为红色的点
display_hdi_data(focus_points=['China', 
                               'Hong Kong, China (SAR)', 
                               'United States', 
                               'India', 
                               'United Kingdom', 
                               'Brazil'])

ModuleNotFoundError: No module named 'dvfe_02_01'

从上图可以看出，我国的人均预期寿命已经和发达国家相差不多了，这得益于我国各方面的良好政策以及国人的不断努力。另外，在教育方面，从当前数据集中的数据来看，我们还有很大的提升空间。  

上面这个案例让我们对全球 HDI 的数据集有了更加深入的了解，下面让我们来接着深入研究。  

【散点图的趋势】：我们在视频学习中提到了「对数坐标轴」和「趋势线」，使用对数坐标系可以将非常密集的数据点在绘图中分布的更加均匀，更容易发现数据之间的关系和相关性，将趋势线添加到散点图可以使表达两个变量之间的关系更加清晰。  

在下面一个案例中，我们使用的还是 HDI 数据集，您可以再次看到每个国家的预期寿命，这次会将其与人均国民总收入（GNI）进行比较（衡量国家的富裕程度）。您可以在 x 轴的线性和对数比例之间进行选择，并且可以添加线性的或者是曲线的趋势线。  

OK，我们接着来跑代码，然后看图回答问题吧。^^  

我们先回顾一下 HDI 数据集：  

In [5]:
 import pandas as pd

# 数据来自《2019 Human Development Index Ranking》
df = pd.read_csv('./data/left_expectancy.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 189 entries, 0 to 188
Data columns (total 9 columns):
 #   Column                                                   Non-Null Count  Dtype  
---  ------                                                   --------------  -----  
 0   -                                                        189 non-null    object 
 1    Rank                                                    189 non-null    int64  
 2    Country                                                 189 non-null    object 
 3    Human Development Index (HDI)  (value)                  189 non-null    object 
 4    Life expectancy at birth (years) SDG3                   189 non-null    float64
 5    Expected years of schooling (years) SDG 4.3             189 non-null    float64
 6    Mean years of schooling (years) SDG 4.6                 189 non-null    float64
 7    Gross national income (GNI) per capita (PPP $) SDG 8.5  189 non-null    float64
 8   Unnamed: 8                     

这里案例中，我们将使用编号为 7 的列「Gross national income (GNI) per capita (PPP $) SDG 8.5」与编号为 4 的「Life expectancy at birth (years) SDG3」两个列进行比较。

In [6]:
import sys
sys.path.append('./data/')

from dvfe_02_02 import *
interact_hdi_plots()

ModuleNotFoundError: No module named 'dvfe_02_02'

通过 GNI 相对于平均预期寿命的散点图的观察，大家可以思考一下，我们都能发现哪些趋势和洞察呢？  

最后，我们再看看 'China' 在图中的位置在哪里，根据下面现实的数据，可以在图中找一找。鼠标移动到圆点上的时候，会有详细的信息出现。  

In [8]:
import sys

from dvfe_02_02 import *
df = pd.read_csv('./data/left_expectancy.csv')
df[df.Country == 'China']

ModuleNotFoundError: No module named 'dvfe_02_02'

下面大家可以看见两张图，是从上面脚本的运行结果中截取出来的：  

x 坐标系 - 线性（Linear）坐标系  
![](./picture/5-1.png)  
x 坐标系 - 对数（Log）坐标系：  
![](./picture/5-2.png)  
选择题  
下面问题来了，下面哪个陈述最能说明趋势：  
A. 当 GNI 在 $1k 和 $50k 之间时，预期寿命随着 GNI 线性增加。  
B. 当 GNI 在 $1k 和 $50k 之间时，预期寿命随 GNI 的对数线性增加。  
C. 当 GNI 超过 $50k 时，预期寿命会降低。  
D. 当 GNI 降至 $500 以下时，预期寿命会增加。  

最能说明趋势的选项是，第二个“当 GNI 在 $1k 和 $50k 之间时，预期寿命随 GNI 的对数线性增加。”

预期寿命随 GNI 并不是线性增加的，而是先增加很快，而后增加变缓的趋势；  
当 GNI 超过 $50k 时，寿命预期会基本保持持平，因为人类的寿命是有上限的，不会持续不断的上升。  

恭喜，您又学完了一课，希望您在学习中心里留下您的思考和学习笔记。  