### numpy random data generation

#### numpy.random.rand(d0,d1,...,dn) 用来生成d0 x d1 x ... x dn 维的数组，数组的值在 \[0,1)之间。

In [1]:
import numpy as np

np.random.rand(3,2,2)

array([[[0.37514003, 0.44918156],
        [0.01359033, 0.72885865]],

       [[0.81662864, 0.56920411],
        [0.7628507 , 0.61735573]],

       [[0.98659225, 0.17932683],
        [0.91797063, 0.37268438]]])

#### numpy.random.randn(d0, d1, ..., dn) 用来生成d0 x d1 x ... x dn 维的数组，数组的值服从$N(0，1)$ 的标准正态分布

In [2]:
np.random.randn(3,2)

array([[-0.93530366,  0.98279639],
       [-1.93790391, -0.99209213],
       [-1.05544688,  0.7553725 ]])

如果需要服从$N(\mu,\sigma^2)$ 的正态分布，只需在randn上每个生成的值x上做变换 $\sigma * x + u$ 即可。

In [4]:
# N(1,4) 的抽样数据
2 * np.random.randn(3,2) + 1

array([[ 2.50906106, -3.17992478],
       [ 1.65583367,  1.10692727],
       [ 0.19304394,  0.67306892]])

#### randint(low\[,high,size]) 生成随机的大小为size的数据，size可以为整数，为矩阵维数，或者张量的维数。值位于半开区间[low, high)

In [6]:
# 维数为3x2的数据，取值范围为最大值为3的整数
np.random.randint(3, size=(3,2))

array([[0, 2],
       [0, 1],
       [2, 0]])

In [8]:
# data range [3,6), dimension 2x2
np.random.randint(3,6, size=(2,2))

array([[4, 3],
       [5, 3]])

#### random_integers(low\[, high, size]) 和randint()类似，区别在于取值范围是闭区间[low, high]

In [9]:
np.random.random_integers(3,6,size=(2,2))

  np.random.random_integers(3,6,size=(2,2))


array([[6, 5],
       [5, 5]])

#### random_sample([size]), 返回随机的浮点数，在半开区间\[0.0, 1.0)。如果是其他区间[a,b)， 可以加上变换$(b-a) * random\_sample([2])+ a$

In [11]:
(5-2) * np.random.random_sample([2,2]) + 2

array([[3.22117379, 3.30172112],
       [2.94442084, 2.15774225]])

### scikit-learn 随机数生成

都在datasets类中，和numpy比起来，可以用来生成适合特定机器学习模型的数据。常见的有：
- make_regression 生成回归模型的数据；
- make_hastie_10_2, make_classification, or make_multilabel_classification 生成分类模型数据
- make_blobs生成聚类模型数据；
- make_gaussian_quantiles生成分组多维正态分布的数据