In [1]:
import numpy as np
import numpy.random as rd

在数据分析中，数据的获取是第一步，numpy.random 模块提供了非常全的自动产生数据API，是学习数据分析的第一步。 
总体来说，numpy.random模块分为四个部分，对应四种功能： 
- 简单随机数： 产生简单的随机数据，可以是任何维度 
2. 排列：将所给对象随机排列 
3. 分布：产生指定分布的数据，如高斯分布等 
4. 生成器：种随机数种子，根据同一种子产生的随机数是相同的 

## 生成器
电脑产生随机数需要明白以下几点： 
- 随机数是由随机种子根据一定的计算方法计算出来的数值。所以，只要计算方法一定，随机种子一定，那么产生的随机数就不会变。 
- 只要用户不设置随机种子，那么在默认情况下随机种子来自系统时钟（即定时/计数器的值） 
- 随机数产生的算法与系统有关，Windows和Linux是不同的，也就是说，即便是随机种子一样，不同系统产生的随机数也不一样。 

numpy.random 设置种子的方法有：

函数名称	| 函数功能 |	参数说明
-----------|----------|-----------
RandomState	|定义种子类	|RandomState是一个种子类，提供了各种种子方法，最常用seed
seed([seed])|	定义全局种子|	参数为整数或者矩阵

## 简单随机数

函数名称	| 函数功能 |	参数说明
-----------|---------|---------
rand(d0, d1, …, dn)	| 均匀分布，[0.0 ,1.0)	| dn为第n维数据的维度 *
randn(d0, d1, …, dn) | 标准正态分布	| dn为第n维数据的维度 **
randint(low[, high, size, dtype])	|均匀分布随机整数，[low,high), 当high不给出[0,low)	|low：最小值；high：最大值；size：数据个数 
random_sample([size])	| 均为分布 [0.0, 1.0)	| size：随机数的shape，可以为元祖或者列表，[2,3]表示2维随机数，维度为（2,3） ***
choice(a[, size, replace, p])	| 从a中随机选择指定数据	| a：1维数组 size：返回数据形状
bytes(length)	| 返回随机位	 | length：位的长度


*rand是random_sample的便捷函数

**randn是standar_normal的便捷函数，For random samples from $N(\mu, \sigma^2)$, use: $\sigma$ * np.random.randn(...) + $\mu$

***random_sample的同名函数有：random, ranf, sample

## 分布

函数名称	| 函数功能	| 参数说明
---------|----------|--------
beta(a, b[, size])	| 贝塔分布样本，在 [0, 1]内。|	 
binomial(n, p[, size])	| 卡方分布样本。	 |
dirichlet(alpha[, size])	| 狄利克雷分布样本。	 |
exponential([scale, size])	| 指数分布	 |
f(dfnum, dfden[, size])	| F分布样本。	 |
gamma(shape[, scale, size])	| 伽马分布	 |
geometric(p[, size])	| 几何分布	 |
gumbel([loc, scale, size])	| 耿贝尔分布。	| 
hypergeometric(ngood, nbad, nsample[, size])	| 超几何分布样本。	| 
laplace([loc, scale, size])	| 拉普拉斯或双指数分布样本	|  
logistic([loc, scale, size])	| Logistic分布样本	|  
lognormal([mean, sigma, size])	| 对数正态分布	| 
logseries(p[, size])	| 对数级数分布。	 | 
multinomial(n, pvals[, size])	| 多项分布	 | 
multivariate_normal(mean, cov[, size])	| 多元正态分布。|	 
negative_binomial(n, p[, size])	| 负二项分布	 | 
noncentral_chisquare(df, nonc[, size])	| 非中心卡方分布 |	 
noncentral_f(dfnum, dfden, nonc[, size])	| 非中心F分布 |	 
normal([loc, scale, size])	| 正态(高斯)分布	 |
pareto(a[, size])	| 帕累托（Lomax）分布	| 
poisson([lam, size])	| 泊松分布	 |
power(a[, size])	| Draws samples in [0, 1] from a power distribution with positive exponent a - 1.	 |
rayleigh([scale, size])	| Rayleigh 分布	 |
standard_cauchy([size])	| 标准柯西分布	 |
standard_exponential([size])	| 标准的指数分布	 |
standard_gamma(shape[, size])	| 标准伽马分布	 |
standard_normal([size])	| 标准正态分布 (mean=0, stdev=1).	 |
standard_t(df[, size])	| Standard Student’s t distribution with df degrees of freedom.	 |
triangular(left, mode, right[, size])	| 三角形分布	 | 
uniform([low, high, size])	| 均匀分布	 |
vonmises(mu, kappa[, size])	| von Mises分布	 | 
wald(mean, scale[, size])	| 瓦尔德（逆高斯）分布	|  
weibull(a[, size])	| Weibull 分布	| 
zipf(a[, size])	| 齐普夫分布 | 	 

## 排列

函数名称	| 函数功能	| 参数说明
-----------|---------|------------------------------
shuffle(x)	| 对数组x进行随机打乱，改变原数组（多维矩阵按照第一维打乱）|	矩阵或者列表
permutation(x)	|功能同shuffle, 但新分配内存，不改变原数组（多维矩阵按照第一维打乱）	| 整数或者数组

In [2]:
# permutation 不同的地方
# 1. shuffle是就地修改
# 2. permutation可以接受整数作为参数，permutation(n)相当于permutation(np.arange(n))
rd.permutation(10)

array([6, 0, 7, 1, 5, 9, 8, 2, 4, 3])

In [3]:
x = np.arange(12).reshape(6,2)
x

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11]])

In [4]:
rd.permutation(x)

array([[10, 11],
       [ 8,  9],
       [ 2,  3],
       [ 6,  7],
       [ 4,  5],
       [ 0,  1]])

In [5]:
x

array([[ 0,  1],
       [ 2,  3],
       [ 4,  5],
       [ 6,  7],
       [ 8,  9],
       [10, 11]])

In [6]:
rd.shuffle(x)

In [7]:
x

array([[ 2,  3],
       [ 6,  7],
       [ 8,  9],
       [ 4,  5],
       [10, 11],
       [ 0,  1]])