# 单变量的分布

### 均值

In [1]:
# 使用 numpy 计算均值
import numpy as np
x = np.arange(10)
np.mean(x)

4.5

In [5]:
# nan 在 numpy 中代表缺失值，在很多编程语言中，他几乎和类似于 null、nil 等价
xWithNan = np.hstack((x, np.nan)) 

# 而对于包含缺失值的数组统计，使用常规函数求值会出现不符合预期
np.mean(xWithNan)

nan

In [3]:
# 但是 numpy 中内置了很多处理 nan 的函数
np.nanmean(xWithNan)

4.5

### 中位数

In [6]:
np.median(x)

4.5

### 众数

In [9]:
from scipy import stats

data = [1, 3, 4, 4, 7]

stats.mode(data) # 它给出的结果是众数和频数

ModeResult(mode=array([4]), count=array([2]))

### 几何均值

In [11]:
# 几何均值：通过计算每个值的对数的算术平方根来得到，通常可以用来描述分布的位置
x = np.arange(1, 101)
stats.gmean(x) # 计算几何均值输入的数字必须是正的

37.992689344834304

### 极差

In [13]:
np.ptp(x)

99

In [17]:
## 二维矩阵计算极差
arr = [[14, 17, 12, 33, 44],   
       [15, 6, 27, 8, 19],  
       [23, 2, 54, 1, 4,]]  
print("arr:", arr)  
     
# Range of the flattened array  
print("Range of arr, axis = None:", np.ptp(arr))  
     
# Range along the first axis  
# axis 0 means vertical  
print("Range of arr, axis = 0:", np.ptp(arr, axis = 0))  
     
# Range along the second axis  
# axis 1 means horizontal  
print("Min of arr, axis = 1:", np.ptp(arr, axis = 1))  

arr: [[14, 17, 12, 33, 44], [15, 6, 27, 8, 19], [23, 2, 54, 1, 4]]
Range of arr, axis = None: 53
Range of arr, axis = 0: [ 9 15 42 32 40]
Min of arr, axis = 1: [32 21 53]


### 百分位数

In [23]:
#求取 x 数列第90%分位的数值
np.percentile(x, 90)

90.10000000000001

In [29]:
# 请注意 x 数列和 x1 数列的区别
x1 = np.arange(101, 1, -1)
np.percentile(x1, 90)

91.10000000000001

### 标准差和方差

In [35]:
data = np.arange(7, 14)
np.std(data, ddof=0)

2.0

In [36]:
np.std(data, ddof=1)

2.160246899469287

### 通过 pandas 使用多维数据

In [45]:
import pandas as pd
df = pd.DataFrame(np.array([[85, 68, 90], [82, 63, 88], [84, 90, 78]]), columns=['统计学', '高数', '英语'], index=['张三', '李四', '王五'])
df

Unnamed: 0,统计学,高数,英语
张三,85,68,90
李四,82,63,88
王五,84,90,78


In [46]:
# 垂直均值
df.mean()

统计学    83.666667
高数     73.666667
英语     85.333333
dtype: float64

In [47]:
# 水平均值
df.mean(axis = 1)

张三    81.000000
李四    77.666667
王五    84.000000
dtype: float64

In [41]:
# 垂直方差
df.var()

统计学      2.333333
高数     206.333333
英语      41.333333
dtype: float64

In [42]:
# 水平方差
df.var(axis = 1)

张三    133.000000
李四    170.333333
王五     36.000000
dtype: float64

In [43]:
# 垂直标准差
df.std()

统计学     1.527525
高数     14.364308
英语      6.429101
dtype: float64

In [44]:
# 水平标准差
df.std(axis = 1)

张三    11.532563
李四    13.051181
王五     6.000000
dtype: float64

In [48]:
df.describe()

Unnamed: 0,统计学,高数,英语
count,3.0,3.0,3.0
mean,83.666667,73.666667,85.333333
std,1.527525,14.364308,6.429101
min,82.0,63.0,78.0
25%,83.0,65.5,83.0
50%,84.0,68.0,88.0
75%,84.5,79.0,89.0
max,85.0,90.0,90.0
