Skip to content
王伟兵 edited this page Apr 19, 2017 · 4 revisions

《STAT统计学》

Robert R. Johnson,Patricia J. Kuby
统计学:是收集数据、描述数据和对数据进行解释的科学。
变量(或响应变量):总体或样本中,我们感兴趣的某个个体特征。
变量分为两大类:①定性或属性(定类/定序),②定量或数量(离散/连续)

定性数据:

  • 饼图pie diagram
  • 条形图bar graph
  • 排列图pareto diagram

定量数据:

  • 圆点图dotplot
  • 茎叶图stem-and-leaf display
  • 直方图histogram(定量变量的频数分布)

标准差:标准差是对数据变异(分散)程度的度量

正态性检验的经验法则

如果变量服从正态分布,则大约有65%的数据位于平均数左右1倍标准差范围内;大约95%的数据位于平均数左右2倍标准差范围内;大约99.7%的数据在平均数左右3倍标准差范围内。

双变量数据

散点图(scatter diagram):在坐标系里刻画双变量数据的全部有序对的图形。 (有序对指x总写在y的前面,如(x,y))

线性相关系数(coefficient of linear correlation)r,是关于两变量线性相关关系强度的数值度量。
皮尔逊积矩公式:

Sx和Sy分别是变量x和y的标准差。

线性回归(regression analysis):最小二乘法(method of least squares)

概率分布(离散变量)

离散随机变量的均值(期望值):将x每一可能的取值与其概率相乘,再把各个乘积相加,就得到了离散随机变量x的均值μ。 离散随机变量的方差:求每一个数值与均值的离差平方(x-μ)2,乘以相应的概率,再把这些乘积加总,就得到了离散随机变量的方差σ2

正态概率分布

Clone this wiki locally