# 1 第一章  数据描述性分析
数据的描述性分析即是从数据出发概况数据特征
包括数据的位置性、分散性、关联性等数字特征和反映数据整体结构的分布特征
这是数据分析（data analysis）的第一步。

本章重点介绍1维和多维数据的描述性分析的基本内容

## 1.1  一维数据的数字特征

设有*n*个一维数据

x<sub>1</sub> x<sub>2</sub> ... x<sub>n</sub> 

这*n*个值为样本观测值，*n*为样本容量，数据分析的任务就是要对该样本观测值进行分析，提取数据中所包含的有用信息，进一步对总体信息作出推断。

通过某些简单的量概括其中包含的主要信息或特征。

主要包括：1）集中位置；2）分散程度；3）数据分布的形状特征等等。

### 1.1.1 位置的数字特征
1.均值（mean） kmeans聚类 - 中center 中心

<!-- $e^{i \ pi}+1=0$ -->

$$\bar{x} = (\sum_{i=1}^n xi)/n  $$

In [2]:
import numpy as np

s = [74.3,78.8,68.8,78  ,70.4,80.5,80.5,69.7,71.2,73.5,
     79.5,75.6,75  ,78.8,72  ,72  ,72  ,74.3,71.2,72  ,
     75  ,73.5,78.8,74.3,75.8,65  ,74.3,71.2,69.7,68  ,
     73.5,75  ,72  ,64.3,75.8,80.3,69.7,74.3,73.5,73.5,
     75.8,75.8,68.8,76.5,70.4,71.2,81.2,75  ,70.4,68  ,
     70.4,72  ,76.5,74.3,76.5,77.6,67.3,72  ,75  ,74.3,
     73.5,79.5,73.5,74.7,65  ,76.5,81.6,75.4,72.7,72.7,
     67.2,76.5,72.7,70.4,77.2,68.8,67.3,67.3,67.3,72.7,
     75.8,73.5,75  ,72.7,73.5,73.5,72.7,81.6,70.3,74.3,
     73.5,79.5,70.4,76.5,72.7,77.2,84.3,75  ,76.5,70.4]

In [8]:
s_ave = np.mean(s)
print("s的平均值为：%f"%s_ave)

s的平均值为：73.660000


2.中位数（median）  
代表一个样本、种群或概率分布中的一个数值，其可将数值集合划分为相等的上下两部分。对于有限的数集，可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个，则中位数不唯一，通常取最中间的两个数值的平均数作为中位数。

In [9]:
s.sort()
half = len(s) // 2
s_med = (s[half] + s[~half])/2
print("s的中位数为：",s_med)  # a + ~a = -1

s的中位数为： 73.5


3.分位数（Quantile）  
亦称分位点，是指将一个随机变量的概率分布范围分为几个等份的数值点，常用的有中位数（即二分位数）、四分位数、百分位数等。  

numpy.percentile(a, q)    
a: 输入数组  
q: 要计算的百分位数，在 0 ~ 100 之间  

In [3]:
s_q1 = np.percentile(s,25)
s_q2 = np.percentile(s,50)
s_q3 = np.percentile(s,99)
print("s的0.25分位数为%f，0.5分位数为%f，0.95分位数为%f"%(s_q1,s_q2,s_q3))

s的0.25分位数为71.200000，0.5分位数为73.500000，0.95分位数为81.627000


4.三均值  
计算公式：$$\hat{M}=\frac{1}{4}Q_1+\frac{1}{2}Q_2+\frac{1}{4}Q_3$$
其中，$Q_1$为数据的下四分位数，$Q_2$为数据的中位数，$Q_3$为数据的上四分位数。  

作为一个分布的中心的测量值，三均值的一个优势是，它既反映了分布的中心值，也不失对极端值的注意。

In [11]:
print("s的三均值为：",0.25*s_q1+0.5*s_q2+0.25*s_q3)

s的三均值为： 74.95675


1.1.2

方差$$s^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2$$

In [12]:
s_var = np.var(s,ddof=1)
print("s的样本方差为：",s_var)

s的样本方差为： 15.524242424242416


标准差$$s=\sqrt{s^2}=\sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2}$$

In [13]:
s_std = np.std(s,ddof=1)
print("s的样本标准差为：",s_std)

s的样本标准差为： 3.9400815250756445


变异系数$$CV=100\times\frac{s}{\bar{x}}(\%)$$

In [14]:
s_cv = s_std/s_ave*100
print("s的变异系数为：%f%%"%(s_cv))

s的变异系数为：5.349011%


极差$$R=x_{(n)}-x_{(1)}$$

In [15]:
s_r = max(s)-min(s)
print("s的极差为：",s_r)

s的极差为： 20.0


四分位极差$$R_1=Q_3-Q_1$$

In [16]:
s_r1 = s_q3 - s_q1
print("s的四分位极差为：%f"%(s_r1))

s的四分位极差为：10.427000


下、上截断点$$Q_1-1.5R_1$$$$Q_3+1.5R_1$$

In [17]:
s_lcp = s_q1 - 1.5*s_r1
s_ucp = s_q3 + 1.5*s_r1
print("s的下截断点为：%f"%s_lcp)
print("s的上截断点为：%f"%s_ucp)

s的下截断点为：55.559500
s的上截断点为：97.267500


偏度$$\frac{n}{(n-1)(n-2)}\frac{1}{s^3}\sum_{i=1}^n (x_i-\bar{x})^3$$

In [18]:
n = len(s)
s_g1 = n/((n-1)*(n-2))*(1/(s_std**3))*sum((s-s_ave)**3)
print("s的偏度为：%f"%s_g1)

s的偏度为：0.060075


峰度$$\frac{n(n+1)}{(n-1)(n-2)(n-3)}\frac{1}{s^4}\sum_{i=1}^n (x_i-\bar{x})^4-\frac{3(n-1)^2}{(n-2)(n-3)}$$

In [19]:
s_g2 = (n*(n+1))/((n-1)*(n-2)*(n-3))*(1/(s_std**4))*sum((s-s_ave)**4)-(3*(n-1)**2)/((n-2)*(n-3))
print("s的峰度为：%f"%s_g2)

s的峰度为：0.033869


In [3]:
ls = list(map(lambda x: x if x%2==0 else False ,range(1,100)))
ls

[False,
 2,
 False,
 4,
 False,
 6,
 False,
 8,
 False,
 10,
 False,
 12,
 False,
 14,
 False,
 16,
 False,
 18,
 False,
 20,
 False,
 22,
 False,
 24,
 False,
 26,
 False,
 28,
 False,
 30,
 False,
 32,
 False,
 34,
 False,
 36,
 False,
 38,
 False,
 40,
 False,
 42,
 False,
 44,
 False,
 46,
 False,
 48,
 False,
 50,
 False,
 52,
 False,
 54,
 False,
 56,
 False,
 58,
 False,
 60,
 False,
 62,
 False,
 64,
 False,
 66,
 False,
 68,
 False,
 70,
 False,
 72,
 False,
 74,
 False,
 76,
 False,
 78,
 False,
 80,
 False,
 82,
 False,
 84,
 False,
 86,
 False,
 88,
 False,
 90,
 False,
 92,
 False,
 94,
 False,
 96,
 False,
 98,
 False]