# 箱型图
一起学习如何解读箱形图（Box Plot）。  
什么是箱形图？我们回顾一下视频中学习的技术定义，看下面这张图：  
![](./picture/3-1.png)
这张图，是视频中的一个关于中国历代皇帝寿命的箱形图，我们用这张图来帮助大家理解。  
中值：  
✭在两个箱体的中心线位置，是整体数据分布的中值（median）是 40.5。  
✭也就是说，有一半的皇帝的寿命小于这个数字，有另外一半的皇帝的寿命大于这个数字。  
下四分位，上四分位：  
✭绘图中有两个箱体，也就是两个长方形的框框，他们从左到右，依次代表了下四分位数，和上四分位数。  
✭下四分位数（Lower Quartile），是指有四分之一的数值低于它。也就是说，四分之一的皇帝的寿命低于 27.0 岁，四分之三的皇帝的寿命大于 27.0 岁。  
✭同样，上四分位数（Upper Quartile）是四分之三的皇帝的寿命低于 54.0 岁，四分之一的皇帝的寿命大于 54.0 岁。  
✭高四分位和第四分位数之间的差值，称为四分位数间距（Inter-Quartile Range）。  
箱须：  
✭水平的线段成为“箱须（Whisker）”，其定义略微有些复杂。  
✭每个箱体首先沿着各自的方向，延长 1.5 倍于“四分位数间距”，但是它们延长至最远不超过实际最远的数据点。  
✭也就是说，如果向左的箱须超过了最左面的点，那么只延长到最左面的点。同样，如果向右的箱须超过了最右面的点，那么只延长到最右面的点。  
图中呈现的是，箱形图技术定义的所有细节。在实际应用中，我们可以想象，箱须会延伸到足够远的地方，任何超过、或者说位于箱须之外的点都成为极端值。极端值我们在本章第二节中提到过。  
如果大家，还希望更系统的了解什么是箱形图，可以参考百度知道上的内容，其中的说法更加是统计学的语言，箱形图定义。  
【案例】：  
以下是美国从 1985 年至 1995 年人均吸烟量的箱形图（不包括阿拉斯加和夏威夷）。  
![](./picture/3-2.png)
数据集中的每个观察值是一年中每个州每人吸烟的平均包数。因此，每个箱形图表示 48 个数据点的分布（因为数据集中包含 48 个美国州）。 数据来源：Stock，James H.和Mark W. Watson（2003）https://www.rdocumentation.org/packages/Ecdat/versions/0.3-7/topics/Cigarette  
我们简单的介绍以下数据结构：   
✭state：state（州）   
✭year：year（年）   
✭cpi：consumer price index（消费指数 CPI）  
✭pop：state population（州人口数）  
✭packpc：number of packs per capita（每人每年消耗香烟的包数）  
✭income：state personal income (total, nominal)（总计个人年收入）  
✭tax：average state, federal, and average local excise taxes for fiscal year（会计年度的，州税、联邦税和平均本地消费税的平均值）  
✭avgprs：average price during fiscal year, including sales taxes（会计年度的平均价格，包括营业税）  
✭taxs：average excise taxes for fiscal year, including sales taxes（会计年度的平均消费税，包括营业税）  
在进入提问环节之前，我们来说说，那些橘黄色的离群值，UT、KY、NH、NC，他们都是什么州呢？ 
![](./picture/3-3.png)  
数据中，不难看出，犹他州一直是吸烟相对较少的，NC、KY、NH 这些州吸烟相对较多。  
选择题  
下面问题来了，有关箱形图 - 美国香烟消费 1985～1995，下面哪些描述是正确的呢？请把正确的描述选择出来吧。  
A. 从 1985 年到 1995 年，人均吸烟的下四分位数所代表的香烟数量都在减少。  
B. 从 1985 年到 1995 年，人均吸烟包数的四分位间距（IQR）在逐年减少。  
C. 在 1992 年人均吸烟包数的四分位间距最小。  
D. 从 1991 年开始，人均吸烟包数的中值低于 100。  
E. 在 1990 年，三个州被认为在人均吸烟的数量方面具有异常值。  
F.从 1985 年到 1995 年，人均吸烟的上四分位数所代表的香烟数量逐年减少。  

答案是 ADE，恭喜您在解读箱形图方面又进了一步。  
大家可以把玩以下数据，数据存储在 df_cigarette 当中，原始数据集中只有美国州的缩写，我们用下面的代码做了一些数据的处理，增加了州的全称。  
我们还可以用 matplotlib 绘制一个直方图，和上面的箱形图对比着看。 
## 箱形图的排序，发现洞察！
我们再来看一个案例，通过对箱形图进行排序，发现数据中的洞察。  
如何排序箱形图，会影响回答不同种问题的难易程度。  
在这里，您可以再次看到美国卷烟消费数据集。  
这次，每个箱形图代表了给定美国州的卷烟消费量随时间的分布，因此每个箱形图均由代表 1985 年至 1995 年的 11 个数据点组成。如下图所示：  
从左到右的三张绘图，x 轴是销量，y 轴是美国州的名称，它们分别是按照美国州名称的首字母、中值和四分位间距（IQR）进行排序的： 
![](./picture/3-3.png)
✭默认情况下，箱形图按州名称的字母顺序排列，这使得查找特定州的详细信息确实非常容易，但是很难回答有关在哪个州可以找到最高或最低消耗量的问题。按香烟消费量中位数对行进行排序，使这些问题更容易回答。  
✭四分位数间距（IQR）衡量人口“中半部”（从 25％ 到 75％）的变化。这意味着通过 IQR 进行排序可以更轻松地回答有关“典型”人群之间差异有多少的问题。  
选择题  
下面问题来了，根据上面排序的箱形图，以下哪个陈述是错误的？  
A. 阿拉巴马州（Alabama）的箱须的最低值完全高于 100 包/人/年。  
B. 北卡罗来纳州（North Carolina）的消费量中位数排名第四。  
C. 新罕布什尔州（New Hampshire）的消费量四分位间距（IQR）是第三大。  
D. 爱达荷州（Idaho）的中位数消费量排名第四低。  
答案是D，从第二张图中可以明显看到，爱达荷州（Idaho）的中位数消费量排名是第五低。  
我们可以看到异常值有四个，它们在数据集中的索引值为 [500, 44, 383, 479]  

In [8]:
import pandas as pd
import numpy as np

# 读取数据表格
df_cigarette = pd.read_csv('./data/cigarette_fn.csv', index_col=0)


# 查看 index 值为 500 的详细数据
df_cigarette.loc[500]

state              MI
year             1995
cpi             1.524
pop           9659871
packpc        81.3883
income      231594240
tax                99
avgprs         240.85
taxs          112.633
state_fn     Michigan
year_str         1995
Name: 500, dtype: object

我们从索引值为 500 的详细数据中可以看到，Michigan 在 1995 年的香烟消费量低于正常水平。  
好啦，我们接着聊，我们在上面这个跑代码的过程中看到：  
「Michigan 在 1995 年的香烟消费量低于正常水平。」  
于是，一个自然的好奇心就会浮现出来，1995 年 Michigan 肯定发生了些什么^^  
于是，我们到 bing.com 上用下面这个关键词进行了搜索：  
「Michigan 1995 cigarette」  
然后我们得到了这样的搜索结果：  
https://www.mackinac.org/10041
这篇文章中的第一段就有这样一段描述：  
“...Included in this package was a tripling of the state cigarette tax from 25 cents to 75 cents per pack, making Michigan's the highest rate in the nation at the time...”  
这句话大体的意思是，每盒香烟的税从 25 美分提高到 75 美分，密西根州在那个时候成为美国香烟税最高的州...  
如果看完文章的话，大致的意思是说香烟走私问题严重，导致为国外的敌人提供了资金，因此提高香烟的税...  


宏观的了解中国古代统治者的历史，可能会对历史的学习有很大的帮助。这个项目给大家准备了两个数据集：  
✭统治时间及年号数据集：  
这个数据集是从 Wikipedia 上面整理下来的 - List of Chinese Monarchs，包括袁世凯以及它之前具有不同头衔的中国统治者。从周朝到秦朝，统治者通常冠以“国王”的称号（中文：王；拼音：wáng），随着中国分裂成不同的战国，这个称号变得非常普遍。直到中国的统一者，即秦始皇为自己创建了一个新称谓“皇帝”（拼音：huángdì）。皇帝这个称号继续用于剩余中国的朝代历史，一直到 1912 年清朝灭亡。（这个数据集并不完整的包括了所有的帝王或其他统治者，仅作为本项目的数据可视化的实践使用）  
✭皇帝寿命数据集：  
这个数据集是从《中国帝王皇后亲王公主世系录》当中整理出来的。  
项目任务  
1.Data：统治时间及年号数据集  
2.计算直方图所需要的数据  
3.绘制关于帝王统治时长的直方图  
4.分朝代绘制帝王开始统治时间的分布图  
5.回答几个小问题  
6.Data：皇帝寿命数据集  
7.绘制各朝代皇帝寿命的箱形图  
8.对箱形图进行排序 => 发现洞察  
9.分析两个特定开发者的拉取请求  
10.查看并解释极端值  

In [7]:
import pandas as pd
import numpy as np

df_cigarette = pd.read_csv('./data/cigarette.csv', index_col=0)
dict_states = {
    'AL': ['Alabama', '亚拉巴马州'],
    'AK': ['Alaska', '阿拉斯加州'],
    'AZ': ['Arizona', '亚利桑那州'],
    'AR': ['Arkansas', '阿肯色州'],
    'CA': ['California', '加利福尼亚州'],
    'CO': ['Colorado', '科罗拉多州'],
    'CT': ['Connecticut', '康涅狄格州'],
    'DE': ['Delaware', '特拉华州'],
    'FL': ['Florida', '佛罗里达州'],
    'GA': ['Georgia', '佐治亚州'],
    'HI': ['Hawaii', '夏威夷州'],
    'ID': ['Idaho', '爱达荷州'],
    'IL': ['Illinois', '伊利诺伊州'],
    'IN': ['Indiana', '印第安纳州'],
    'IA': ['Iowa', '艾奥瓦州'],
    'KS': ['Kansas', '堪萨斯州'],
    'KY': ['Kentucky', '肯塔基州'],
    'LA': ['Louisiana', '路易斯安那州'],
    'ME': ['Maine', '缅因州'],
    'MD': ['Maryland', '马里兰州'],
    'MA': ['Massachusetts', '马萨诸塞州'],
    'MI': ['Michigan', '密歇根州'],
    'MN': ['Minnesota', '明尼苏达州'],
    'MS': ['Mississippi', '密西西比州'],
    'MO': ['Missouri', '密苏里州'],
    'MT': ['Montana', '蒙大拿州'],
    'NE': ['Nebraska', '内布拉斯加州'],
    'NV': ['Nevada', '内华达州'],
    'NH': ['New Hampshire', '新罕布什尔州'],
    'NJ': ['New Jersey', '新泽西州'],
    'NM': ['New Mexico', '新墨西哥州'],
    'NY': ['New York', '纽约州'],
    'NC': ['North Carolina', '北卡罗来纳州'],
    'ND': ['North Dakota', '北达科他州'],
    'OH': ['Ohio', '俄亥俄州'],
    'OK': ['Oklahoma', '俄克拉何马州'],
    'OR': ['Oregon', '俄勒冈州'],
    'PA': ['Pennsylvania', '宾夕法尼亚州'],
    'RI': ['Rhode Island', '罗得岛州'],
    'SC': ['South Carolina', '南卡罗来纳州'],
    'SD': ['South Dakota', '南达科他州'],
    'TN': ['Tennessee', '田纳西州'],
    'TX': ['Texas', '得克萨斯州'],
    'UT': ['Utah', '犹他州'],
    'VT': ['Vermont', '佛蒙特州'],
    'VA': ['Virginia', '弗吉尼亚州'],
    'WA': ['Washington', '华盛顿州'],
    'WV': ['West Virginia', '西弗吉尼亚州'],
    'WI': ['Wisconsin', '威斯康星州'],
    'WY': ['Wyoming', '怀俄明州']
}

# 在数据集中添加 `state_fn` => state full name 列，并把英文全称赋值到新列当中。
# 也可以把中文全称赋值到新列，中文的数据需要把下面这行代码中 lambda 函数中的取值代码修改为 dict_states[x][1]
df_cigarette['state_fn'] = df_cigarette['state'].apply(lambda x: dict_states[x][0])
df_cigarette['year_str'] = df_cigarette['year'].astype(str)


import sys

from dvfe_01_05 import *
df_copy = df_cigarette.copy()
df_copy.hist(column='packpc', by=['year_str'], 
             sharex=True, sharey=True, 
             layout=(11, 1),
             grid=False, xlabelsize=10, figsize=(6, 16))

ModuleNotFoundError: No module named 'dvfe_01_05'