In [None]:
import pandas as pd
import numpy as np
from scipy.special import comb

# 实践中的统计
MeadWestvaco 公司，是一家生产铜版纸和特种纸、消费品和办公用品以及特种化学制品的企业，是同行业中的领导者  
MeadWestvaco 内部的顾问组通过抽样为公司提供大量信息，以保证企业获得可观的产品收益，并在该行业保持竞争力  
管理人员需要掌握关于木材及森林准确而可靠的信息，如森林的现有储量如何，森林以往的生长情况如何，森林未来计划生长情况如何，等等  
从遍布森林的抽样点手机数据是对公司拥有的树木总体进行了解的基础。为了确定抽样点，首先按照位置和树种将木材林分成三部分，使用地图和随机数，MeadWestvaco的分析人员从每部分森林中选取1/7-1/5英亩的树木组成随机样本  
全体林务员参加数据的收集过程。这些抽样数据被录入公司的森林资源永续存货（CFI）计算机系统。该系统所提供的报告汇总了大量数据的频数分布信息，对包括树木类型、现有森林储量、森林以往生产率、未来计划森林生长情况和储量做出统计 5  
本章将学习简单随机抽样和样本选择方法。此外，还将介绍抽样分布的重要概念  
在第1章中，我们给出了个体、总体和样本的定义  
1. 个体是搜集数据的基本单位  
2. 总体是所有感兴趣的个体的集合  
3. 样本是总体的一个子集 5  

我们选择一个样本的目的就是为了收集进行推断的数据，并且回答关于总体的一个研究问题  
1. 得克萨斯州某个政治团体的成员正在考虑支持某候选人竞选美国参议员。选取得克萨斯州400名登记选民组成一个样本，其中有160人对该候选人表示支持。因此，登记选民总体中支持该候选人比率的估计值为0.4  
2. 一个论坛制造商正在设计开发一种新型轮胎，这种轮胎行驶的里程数超过了企业现有生产线上轮胎的里程数  
    制造商选取了120个这种新型轮胎组成样本用于检测，检测结果表明样本均值为36500英里。于是，该新型轮胎总体的平均使用寿命的估计值为36500英里  

抽样结果提供的仅仅是相应总体特征值的估计，认识到这一点非常重要。利用适当的抽样方法，抽样结果可以给出关于总体参数的一个“好”的估计。那么，我们希望抽样结果好到什么程度？统计过程对此问题可以做出回答 5  
我们定义一些抽样的术语。从中抽取样本的总体叫做**抽样总体**。**抽样框**是用于抽选样本的个体清单。第一个例子中，抽样总体是得克萨斯州所有的登记选民，抽样框是所有登记选民的清单  
在轮胎行驶里程的例子中，由于120个轮胎所组成的样本取自某一特定时点的生产过程，定义抽样总体变得尤为困难。我们可以把抽样总体看做一个由生产过程某一特定时点所生产的全部轮胎组成的抽象总体  
从这个意义上讲，可以认为抽样总体是无限的，因此无法构建一个抽样框  
本章首先阐明如何采用简单随机抽样从一个有限总体中选取样本，以及从一个持续运行过程形成的无限总体中，描述如何从中选取随机样本。然后，我们说明如何利用抽样得到的数据计算总体均值、总体标准差和总体比率的估计值  5  
# 7.1 EAI公司的抽样问题  
EAI公司的人事部经理被分派一项任务，为公司2500名管理人员制定一份简报，内容包括管理人员的平均年薪和公司中已完成公司管理培训计划的管理人员所占的比率  
2500名管理人员构成此项研究的总体，我们可以参考公司的职员记录找到总体中每个人的年薪金额和是否完成管理培训计划  
利用EAI的数据和第3章所介绍的公式，可以计算年薪数据的总体均值和总体标准差  

In [None]:
'''
pandas series s.mean()  
pandas series s.std()  
'''
eai = pd.read_csv('../pydata-book-master/statistics_for_business_economics/ch07/EAI.csv')
print(eai.columns)
eai_salary=eai['Annual Salary']
salary_mu=eai_salary.mean()
salary_sigma=eai_salary.std()
print('总体均值={:.0f}美元，总体标准差={:.0f}美元'.format(salary_mu,salary_sigma))

In [None]:
'''
'''
done_training=eai['Training Program'].value_counts()[0]

print('2500名管理人员中有{:}人已经完成培训计划，完成培训计划的总体比率是{:.2f}'.format(done_training,done_training/2500))

总体的数字特征称作**参数**。将总体中已完成培训计划的职员比率记作p，则p=1500/2500=0.6。总体年薪均值、标准差、完成培训计划的总体比率都是EAI管理人员总体的参数 5  
现在，假设我们无法从公司的数据库中获得EAI全体管理人员这些必要的信息。我们考虑的问题是，如果不用总体中全体2500名管理人员，而是用一个样本的话，企业人事部经理将如何获取对这些总体参数的估计呢？  
首先，我们从考虑如何取得一个30名管理人员的样本入手，探究利用样本研究EAI问题的可能性 5  
# 7.2 抽样  
本节我们描述如何选择一个样本。首先，我们描述从有限总体抽样，然后描述从无限总体抽样  
## 7.2.1 从有限总体抽样  
在从有限总体抽样时，统计学家建议采用概率抽样，因为基于概率抽样的样本可以对总体进行有效的统计推断。从容量为N的有限总体抽取容量为n的简单随机样本的定义如下：  
<hr />

**简单随机样本（有限总体）**  
从容量为N的有限总体中抽取一个容量为n的样本，如果容量为n的每一个可能的样本都以相同的概率被抽到，则称该样本为**简单随机样本**  
<hr />

从一个有限总体中抽取简单随机样本时，一种方法是每次是只选择一个个体，总体中的每一个个体都以相同的概率被抽到  
为了从EAI管理人员组成的有限总体中选择一个简单随机样本，我们首先为每名管理人员指派一个数字构建一个抽样框： 5  
在实施简单随机样本的选取过程中，在30名管理人员被选出之前，表中先前已经出现过的随机数可能重复出现  
由于该管理人员已经被选入样本了，我们并不想选取一名管理人员超过一次，所以任何以前使用过的随机数将被忽略。这种选择样本的方式叫做**无放回抽样**  
如果我们选择样本时，对已经出现过的随机数仍选入样本，某些管理人员可能在样本中被两次货更多次地包括进来，则我们进行的是**有放回抽样**  
抽样方法中，有放回抽样是一种取得简单随机样本的有效途径，然而，无放回抽样更为常用。当我们提到简单随机抽样时，我们总是假定抽样是无放回的  

In [None]:
'''
数据分析 常用代码 无放回抽样 5  
pandas series s.sample() random_state
pandas series s.sample() replace
pandas series s.values
'''
eai['Manager'].sample(n=30,replace=False,random_state=1).values

## 7.2.2 从无限总体抽样
有时候，我们想从总体中抽取样本，但是总体容量无限大或者总体中的个体是由一个正在运行的过程产生的，从而产生的个体数量是无限的。因此，无法得到总体中所有个体的清单。对于无限总体的情形，统计学家建议抽取一个所谓的随机样本  
<hr />

**随机样本（无限总体）**  
如果从一个无限总体中抽取一个容量为n的样本，使得下面的条件得到满足：  
1. 抽取的每个个体来自同一总体;  
2. 每个个体的抽取是独立的  

则称该样本是一个**随机样本** 5  
<hr />

当从无限总体中抽取一个随机样本时，必须小心并仔细判断。每一种情况可能需要不同的抽取程序  
在普通的质量控制应用中，生产过程中所生产的产品数量是无限的。我们的抽样总体是由正在运行的生产过程生产的全部产品组成，而不仅仅是由那些已经生产的产品组成  
在这样一个生产操作中选取一个随机样本时最关心的是条件1，即“抽取的每个个体来自同一个总体”，为了确保这一条件成立，必须在近似相同的时点选择产品  
在诸如这样的生产过程中，设计的生产流程应确保每盒麦片的装盒是相互独立的，从而满足条件2，即“每个个体的抽取是独立的”  
从无限总体抽取随机样本的另一个例子是，考虑由到达快餐店的顾客组成的总体。顾客光临快餐店是一个正在进行中的过程，因此不能得到总体中所有顾客的一个名单 5  
如果设计一种抽样方法，使得样本中的所有个体都是餐厅的顾客并且是独立选择的，那么可以得到一个随机样本。因此，如果调查员是从那些来餐馆消费的人中选取样本的话，那么条件1可以被满足。尤为困难的是，确保独立地选取顾客  
随机样本选择方法的第二个条件“每个个体的抽取是独立的”的用意是，防止出现选择偏差。当调查员可以任意自由地选取顾客进入样本时，就可能发生选择偏差。通过确保某一顾客的入选并不影响其他顾客的入选，可以避免这些选择偏差  
快餐店的巨头——麦当劳恰好在这种情况下实施了一次随机抽样。抽样方法以一些顾客是否持有优惠券为依据。因为来到麦当劳的顾客出示优惠券是随机的，并且与其他顾客是相互独立的，因此这种抽样方式确保对顾客的选择是独立的   
从无限总体抽样的情况总是与某段时间正在进行的不断运转的过程相联系。例如生产线上生产的零部件、实验室中反复进行的实验、银行发生的交易、技术支持中心接到的电话以及进入零售店的顾客  
## 注释
1. 本节中，我们详细定义了两类样本：来自一个有限总体的一个简单随机样本和来自一个无限总体的一个随机样本。在本书余下的部分中，我们一般这两类样本统称为随机样本或者样本 5  
2. 在从有限总体的抽样调查中，统计学家使用的抽样方法得到的是概率样本。在一个概率样本中，每个可能的样本都有一个已知的抽取概率，并且对样本中个体的抽取也试用了随机方法  
3. 从一个容量为N的有限总体，可以选取$$\frac{N!}{n1!(N-n)!}$$个样本容量为n的不同简单随机样本

In [None]:
'''
scipy Special functions (scipy.special) comb()
python str s.format() e
'''

print('由30名EAI管理人员组成的不同的简单随机样本的数目大约为{:.2e}个'.format(comb(2500,30)))

4. 计算机软件包可以用来抽取一个随机样本 5  

# 7.3 点估计
我们已经描述了如何选择一个简单随机样本的方法，现在让我们回到EAI问题。假定，已选取了一个由30名管理人员组成的简单随机样本，他们相应的年薪及参加管理培训的数据入表7-2所示  

In [None]:
'''
pandas dataframe d.sample()
pandas dataframe d.sample() random_state
'''
eai_sap=eai.sample(30,random_state=1).loc[:,['Annual Salary','Training Program']]
eai_sap.head()