# 数值类描述统计

## Numpy

### 平均值、方差、标准差

In [27]:
import numpy as np

In [28]:
a = [5, 6, 16, 9]
np.mean(a)

9.0

In [29]:
np.average(a, weights = [1, 2, 1, 1])

8.4

In [30]:
np.ptp(a)

11

In [4]:
np.var(a) # 计算总体方差

18.5

In [5]:
np.var(a, ddof = 1) # 计算样本方差

24.666666666666668

In [6]:
b = [[4, 5], [6, 7]]
b

[[4, 5], [6, 7]]

In [7]:
np.var(b) # 计算矩阵所有元素的方差

1.25

In [8]:
np.var(b, axis = 0) # 计算矩阵每一列的方差

array([1., 1.])

In [9]:
np.var(b, axis = 1) # 计算矩阵每一行的方差

array([0.25, 0.25])

In [10]:
np.std(a) # 计算总体标准差
# 矩阵运算同理np.var()

4.301162633521313

### 理解协方差矩阵

In [39]:
b = [7,10,4,9]
np.var(b,ddof = 1)

7.0

In [36]:
# cov计算一维向量或者二维矩阵

np.cov(a,b) #默认计算样本协方差矩阵

# 协方差矩阵：其中对角线元素是每个维度的方差，非对角线上的元素则是不同维度间的协方差。

array([[ 24.66666667, -10.        ],
       [-10.        ,   7.        ]])

In [48]:
# np中矩阵默认行代表feature，我们想要了解的是feature的相关性，例如身高和体重

c = np.array([[1, 5, 6], [4, 3, 9], [4, 2, 9], [4, 7, 2]])
print(c)

[[1 5 6]
 [4 3 9]
 [4 2 9]
 [4 7 2]]


In [54]:
np.var([1,5,6],ddof=1)

7.0

In [55]:
np.cov(c) #bias 默认为False,计算样本协方差

array([[ 7.        ,  4.5       ,  4.        , -0.5       ],
       [ 4.5       , 10.33333333, 11.5       , -7.16666667],
       [ 4.        , 11.5       , 13.        , -8.5       ],
       [-0.5       , -7.16666667, -8.5       ,  6.33333333]])

### 皮尔逊相关系数

In [56]:
# 与np.cov()同理
np.corrcoef(c)

array([[ 1.        ,  0.52910672,  0.41931393, -0.07509393],
       [ 0.52910672,  1.        ,  0.99221536, -0.88589207],
       [ 0.41931393,  0.99221536,  1.        , -0.93676591],
       [-0.07509393, -0.88589207, -0.93676591,  1.        ]])

## Pandas

In [4]:
import pandas as pd

In [5]:
df = pd.DataFrame(np.array([[85, 85, 90], [82, 85,88], [84, 90, 78]]), columns=['统计学', '高数', '英语'], index=['张三', '李四', '王五'])
df

Unnamed: 0,统计学,高数,英语
张三,85,85,90
李四,82,85,88
王五,84,90,78


### 数据概览函数

In [6]:
df.describe()

Unnamed: 0,统计学,高数,英语
count,3.0,3.0,3.0
mean,83.666667,86.666667,85.333333
std,1.527525,2.886751,6.429101
min,82.0,85.0,78.0
25%,83.0,85.0,83.0
50%,84.0,85.0,88.0
75%,84.5,87.5,89.0
max,85.0,90.0,90.0


In [57]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, 张三 to 王五
Data columns (total 3 columns):
统计学    3 non-null int32
高数     3 non-null int32
英语     3 non-null int32
dtypes: int32(3)
memory usage: 140.0+ bytes


In [58]:
df.isnull().any()

统计学    False
高数     False
英语     False
dtype: bool

### 平均值、方差等描述统计函数

In [59]:
df.mean() # 显示每一列的平均数

统计学    83.666667
高数     86.666667
英语     85.333333
dtype: float64

In [8]:
df.mean(axis = 1) # 显示每一行的平均数

张三    86.666667
李四    85.000000
王五    84.000000
dtype: float64

In [18]:
# df.var()  df.max()  df.min()
# df.std()  df.median()  df.sum()
# df.cumsum()累加  df.count()  df.nunique()
# df.mode() df.skew()偏度  df.kurt()峰度
# 同理

![df%E5%B8%B8%E7%94%A8%E5%87%BD%E6%95%B0.PNG](attachment:df%E5%B8%B8%E7%94%A8%E5%87%BD%E6%95%B0.PNG)

In [61]:
df.cov()

Unnamed: 0,统计学,高数,英语
统计学,2.333333,0.833333,-0.333333
高数,0.833333,8.333333,-18.333333
英语,-0.333333,-18.333333,41.333333


In [63]:
df.corr() #method参数指定相关性的计算方法

Unnamed: 0,统计学,高数,英语
统计学,1.0,0.188982,-0.033942
高数,0.188982,1.0,-0.987829
英语,-0.033942,-0.987829,1.0


## scipy

In [21]:
import numpy as np # 导包
from scipy import stats # scipy是开源数值计算，科学与工程应用的开源库 (scipy.stats)主要用于统计
#偏度与峰度

In [23]:
x=[53, 61, 49, 66, 78, 47]
stats.skew(x)

0.5715540028046954

In [25]:
stats.kurtosis(x)

-0.9473710436927472