# 2.5 统计学应用

## 1. 生成正态分布数据
* 正态分布又叫做高斯分布，Numpy中名为random的模块，里面包含若干生成随机数据的函数，其中normal就是专门用来生成符合正态分布规律的随机数字

* 完整的函数表达式为：numpy.random.normal(loc = 0.0, scale = 1.0, size= None)

* loc：浮点数，分布的平均值

* scale：浮点数，分布的标准差,scale越大，越矮胖，scale越小，越瘦高

* size：整数或者整数元素的元组，输出的数据个数

In [1]:
import numpy as np
mu, sigma = 0.0, 1.0
a= np.random.normal(loc = mu, scale = sigma, size =10)
a

array([ 1.08539699,  0.31528515,  0.69395247, -0.05952185, -0.69838813,
       -0.53108096,  0.75967024,  0.99077515,  1.34626597, -0.55730241])

## 1.1  np.random.randn(size)
另一个可以获得随机数的函数 np.random.randn(size),利用这个函数所得到随机数是符合loc=0.0， scale = 1.0条件的正太分布-称之为“标准正态分布”

In [2]:
b= np.random.randn(10)
b

array([ 1.16604094,  0.33565446,  0.4773785 ,  2.08871218,  0.40691547,
        0.40275041, -0.70834888,  2.03694822, -0.3073572 , -0.0282424 ])

## 1.2 np.random.rand(size)
随机产生在[0,1)之间的数

In [3]:
np.random.rand(3,3)

array([[0.14564881, 0.74916191, 0.3715914 ],
       [0.84237895, 0.28880653, 0.33491153],
       [0.48216926, 0.66199045, 0.29344334]])

## 1.3 np.random.randint(low, high=None, size=None, dtype=’l’)
输入：
- low—–为最小值
- high—-为最大值
- size—–为数组维度大小
- dtype—为数据类型，默认的数据类型是np.int。
返回值：
- 返回随机整数或整型数组，范围区间为[low,high），包含low，不包含high；
high没有填写时，默认生成随机数的范围是[0，low）

In [4]:
np.random.randint(6, size=(2,3))

array([[4, 0, 1],
       [0, 2, 0]])

## 2. 简单的统计函数：

* np.mean()：计算平均值           
* np.average()：加权平均数
* np.var()：方差(variance)        
* np.std()：计算标准差(standard)
* np.min()，np.max():最小值，最大值
* np.median()：中值               
* np.sum()：对象的和

In [5]:
a=np.arange(0,10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [6]:
np.mean(a)   # 均值

4.5

In [7]:
np.var(a)  #方差

8.25

In [8]:
np.std(a)  # 标准差

2.8722813232690143

In [9]:
np.min(a), np.max(a)   # 最小值，最大值

(0, 9)

In [10]:
np.median(a)   # 中值

4.5

In [11]:
np.sum(a)  # 求和

45

###  Numpy不仅能够对一维数据进行统计，还能够针对多维数组的数据进行统计

In [12]:
vresult = np.vstack((a,b))  #垂直（按照行顺序）的把数组给堆叠起
vresult

array([[ 0.        ,  1.        ,  2.        ,  3.        ,  4.        ,
         5.        ,  6.        ,  7.        ,  8.        ,  9.        ],
       [ 1.16604094,  0.33565446,  0.4773785 ,  2.08871218,  0.40691547,
         0.40275041, -0.70834888,  2.03694822, -0.3073572 , -0.0282424 ]])

In [13]:
hresult = np.hstack((a,b))  #水平（按照列顺序）的把数组给堆叠起
hresult

array([ 0.        ,  1.        ,  2.        ,  3.        ,  4.        ,
        5.        ,  6.        ,  7.        ,  8.        ,  9.        ,
        1.16604094,  0.33565446,  0.4773785 ,  2.08871218,  0.40691547,
        0.40275041, -0.70834888,  2.03694822, -0.3073572 , -0.0282424 ])

Note:注意仔细看上面两个结果中括号的位置

In [14]:
np.mean(vresult,axis =1)  # 沿着列方向计算平均值，分别得到a和b的平均值

array([4.5       , 0.58704517])

In [15]:
np.mean(vresult, axis= 0)  # 沿行方向计算平均值，分别得到每一行的平均值

array([0.58302047, 0.66782723, 1.23868925, 2.54435609, 2.20345773,
       2.7013752 , 2.64582556, 4.51847411, 3.8463214 , 4.4858788 ])

In [16]:
np.std(vresult ,axis =1)   # 沿着列方向计算平均值，分别得到a和b的标准差

array([2.87228132, 0.87696489])

### 如果以布尔类型的数组作为下标，则可以根据要求选出想应的元素

In [17]:
#方法一：直接用索引选出结果
a[a > np.mean(a)]

array([5, 6, 7, 8, 9])

除了这种方法外，还有好用的  np.where()函数， 它其实是面向数组的条件语句的三元操作

###  np.where(condition, x, y)
满足条件(condition)，输出x，不满足输出y

In [18]:
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [19]:
b=[1,2,1,1,1,2,4,56,66,33]

In [20]:
#a中的元素大于b中的元素，就返回1，否则返回-1
np.where(a>b, 1,-1)

array([-1, -1,  1,  1,  1,  1,  1, -1, -1, -1])

* 也可以只写条件，那么返回的就是由符合条件的元素索引组成的数组


In [21]:
np.where(a > a.mean())

(array([5, 6, 7, 8, 9]),)

END