# 创建统一数据

In [1]:
import numpy as np

zeros = np.zeros([2, 3])
print("zeros:\n", zeros)

ones = np.ones([3, 2])
print("\nones:\n", ones)

zeros:
 [[0. 0. 0.]
 [0. 0. 0.]]

ones:
 [[1. 1.]
 [1. 1.]
 [1. 1.]]


我们可以创建 0 或 1 的数据，那我们能不能创建其它数值的数据的？答案是肯定的，用 np.full() 功能就好了。

In [2]:
nines = np.full([2,3], 9)
print(nines)

[[9 9 9]
 [9 9 9]]


如果我们手头已经有一份数据，我们想创建一个和它类型一样，大小一样的另一份数据， 我们可以调用 np.xxx_like 这种形式的功能。

In [3]:
data = np.array([
[1,2,3],
[4,5,6]
], dtype=np.int64)

ones = np.ones(data.shape, dtype=data.dtype)
ones_like = np.ones_like(data)

print("ones:", ones.shape, ones.dtype)
print("ones_like:", ones_like.shape, ones_like.dtype)
print("ones_like value:\n", ones_like)

ones: (2, 3) int64
ones_like: (2, 3) int64
ones_like value:
 [[1 1 1]
 [1 1 1]]


In [4]:
print(np.zeros_like(data))
print(np.full_like(data, 6))

[[0 0 0]
 [0 0 0]]
[[6 6 6]
 [6 6 6]]


# 创建规则数据
arange 功能，这就有点像 Python 里的 range 功能，用来得到一个序列

In [5]:
print("python range:", list(range(5)))
print("numpy arange:", np.arange(5))

python range: [0, 1, 2, 3, 4]
numpy arange: [0 1 2 3 4]


同样，np.arange() 也可以像 range() 一样，对范围做自定义更变或跳跃取值

In [6]:
# (start, end, step) 
print("python range:", list(range(3, 10, 2)))
print("numpy arange:", np.arange(3, 10, 2))

python range: [3, 5, 7, 9]
numpy arange: [3 5 7 9]


还有一个也是用来取一段数字中的值，里面的参数分别代表从 start 的值到 end 的值，一共返回这中间 num 个数据点。

In [7]:
# (start, end, num)
print("linspace:", np.linspace(-1, 1, 5))

linspace: [-1.  -0.5  0.   0.5  1. ]


更厉害的是，有时候我们会很纠结，上面是在-1 至 1 之间分了 4 个区域。 而我们想在-1 至 1 之间分 5 个区域，怎么搞？加一个 endpoint=False 就可以返回这 5 个区域的结节点了。

In [8]:
print("5 segments:", np.linspace(-1, 1, 5, endpoint=False))

5 segments: [-1.  -0.6 -0.2  0.2  0.6]


还有很多做特殊规则的数据的方式，比如 np.identity(), np.eye(), np.logspace() 等等

# 快速创建再添加值
和 np.ones() 这种很相似的，有一个叫 np.empty() 功能  
np.empty() 功能，不会初始化新建 array 里面的数值，所以你会看到这里面的数值都是乱乱的。 注意，虽然乱乱的，但是它不是随机数哦，你不能把它当随机数使用。

In [9]:
print(np.empty([4,3]))

[[1.05784281e-311 3.16202013e-322 0.00000000e+000]
 [0.00000000e+000 1.95821438e-306 4.42228397e-062]
 [3.34639648e-061 2.44898445e-056 7.95963905e-042]
 [2.78807449e+179 1.25662073e-075 1.51952020e-047]]


不能当随机数，又没有具体数值，这个 empty 到底为什么存在呢？  
1.首先，可以当成一个 placeholder，一个容器先放着，之后慢慢放数据  
2.创建起来比 ones, zeros, full 都快一点点

In [10]:
import time
t0 = time.time()

for _ in range(1000):
    _ = np.ones([100, 100])

t1 = time.time()
for _ in range(1000):
    _ = np.empty([100, 100])

t2 = time.time()
print("ones time:", t1 - t0)
print("empty time:", t2 - t1)

ones time: 0.0
empty time: 0.0


一般是怎么使用？

In [11]:
import random

empty = np.empty([2,3])
print("empty before:\n", empty)
data = np.arange(6).reshape([2, 3])
for i in range(data.shape[0]):
    for j in range(data.shape[1]):
        empty[i, j] = data[i, j] * random.random()
print("empty after:\n", empty)

empty before:
 [[3.e-323 3.e-323 3.e-323]
 [3.e-323 3.e-323 3.e-323]]
empty after:
 [[0.         0.84001236 0.62311155]
 [0.82196806 0.74011008 4.29020684]]


一般当我有一个数据要根据另一份数据生成的时候，无论我初始化是什么值，到最终都要全部被替换的时候，我就喜欢用 np.empty()。    
ok，最后说一句，有 np.empty()，我们也有 np.empty_like() 用法和 np.zeros_like() 这种类似，很方便用的。

# 多种随机数生成
能用 Python 自带的 random 来解决，但是效率会低不少。

In [12]:
import random
print(random.random())
print(random.randint(1, 10))

0.19178412622139118
3


Python 的 random 没有考虑数组类型的高效数据结构，所以我们在 array 类型的数据结构时，更喜欢直接用 Numpy 来生成。

In [13]:
# 随机生成 [0, 1) 之间的数
dim1, dim2 = 3, 2
print(np.random.rand(dim1, dim2)) # 你还能继续添加 dim3 或更多

[[0.68890973 0.6407082 ]
 [0.22542494 0.64315088]
 [0.86430387 0.94492318]]


np.random.rand() 是一种最方便去生成带 shape 的 [0, 1) 之间取值的 Array。实现同一个目的的还有这样一种写法，功能上没差别，但是就是看你个人习惯了， np.random.random() 用它就是直接传一个 shape 进去。

In [14]:
print(np.random.random([dim1, dim2]))

[[0.35552436 0.40074249]
 [0.97762609 0.69548291]
 [0.59433478 0.89336423]]


除了生成 [0, 1) 之间的随机数，Numpy 还可以生成其他数值，或使用其他生成规则。比如按照标准正态分布去生成。

In [15]:
print(np.random.randn(dim1, dim2))

[[-1.32981377  0.03981976]
 [ 0.24903411 -0.02683164]
 [-0.44467928  0.59023666]]


上面都是一些小数的生成，我想生成随机整数呢？那就要用到 np.random.randint()

In [16]:
print(np.random.randint(low=-3, high=6, size=10))

[ 2 -1 -1  3  5  1  3  3  2  0]


# 给你施加随机
它还可以对已有的数据做随机化处理。 比如我想随机从一组数据中选择，我就可以用 np.random.choice()

In [17]:
data = np.array([2,1,3,4,6])
print("选一个：", np.random.choice(data))
print("选多个：", np.random.choice(data, size=3))
print("不重复地选多个(不放回)：", np.random.choice(data, size=3, replace=False))
print("带权重地选择：", np.random.choice(data, size=10, p=[0,0,0,0.2,0.8]))


选一个： 4
选多个： [1 4 6]
不重复地选多个(不放回)： [2 3 6]
带权重地选择： [6 6 4 6 6 6 6 6 4 6]


在机器学习中，你也许会经常在 epoch 迭代训练数据的时候，碰到 shuffle 的概念。 如果你在机器学习中没弄懂没关系，这里给你补充一下。Numpy 里也有 np.random.shuffle() 的功能，就是用来洗牌的。 注意，它会将源数据洗牌重新排列，如果你想保留源数据的话，记得 np.copy(data) 备份一下

In [18]:
data_copy = np.copy(data)
np.random.shuffle(data)
print("源数据：", data_copy)
print("shuffled:", data)

源数据： [2 1 3 4 6]
shuffled: [1 4 2 3 6]


np.random.permutation(), 它实现的是 np.random.shuffle() 的一种特殊形式。可以说是一种简单处理特殊情况的功能。 它有两个方便之处，1. 直接生成乱序的序列号，2. 对数据乱序。

而且相比 np.random.shuffle()，permutation 有一个好处，就是可以返回一个新数据，对原本的数据没有影响。而且还可以处理多维数据。

In [19]:
print("直接出乱序序列：", np.random.permutation(10))
data = np.arange(12).reshape([6,2])
print("多维数据在第一维度上乱序：", np.random.permutation(data))

直接出乱序序列： [8 9 7 1 4 2 6 0 5 3]
多维数据在第一维度上乱序： [[10 11]
 [ 4  5]
 [ 2  3]
 [ 6  7]
 [ 0  1]
 [ 8  9]]


# 随机分布
统计学或者机器学习，我们在生成数据的时候，有时需要按照特定的统计学分布来生成，比如需要一个正态分布的抽样数据，或者均匀分布的数据抽样结果。 又或者是其他更高级的，比如泊松分布等等，都可以用 Numpy 来实现。这里我们只介绍一下在机器学习中比较常用的 正态分布 和 均匀分布。

In [20]:
# (均值，方差，size)
print("正态分布：", np.random.normal(1, 0.2, 10))

# (最低，最高，size)
print("均匀分布：", np.random.uniform(-1, 1, 10))

正态分布： [0.85844378 1.40282833 0.62734952 1.11248465 1.08421434 0.99975054
 0.77455187 1.19136304 0.90096582 1.11047522]
均匀分布： [ 0.15749535 -0.36519942  0.15636503 -0.41501753  0.14937694 -0.84221737
 -0.70050675 -0.15676777  0.08744028  0.76465294]


# 随机种子的重要性
在机器学习中，我们要对比两种随机初始化模型的优劣，或者在强化学习中要固定随机环境的随机序列，用于复现当前配置的情况，我们通常要做的事情就是伪随机。 简单说，就是每次都是一组随机，但是我可以后续再完整运行一遍一模一样的随机效果。比如生成两遍一模一样的随机序列。

为了达到这个目的，我们要了解 Numpy 中的 random seed 概念，随机种子。当我们把种子固定的时候（用一个数字），同一个种子（数字）产生的随机序列就会一样。

In [21]:
# seed(1) 代表的就是 1 号随机序列
np.random.seed(1)
print(np.random.randint(2, 10, size=3))
print(np.random.randint(2, 10, size=3))

[7 5 6]
[2 9 3]


无论你运行多少次上门的代码，你看到的随机结果，都是同一种结果。当你想改变随机种子的时候，可以在 seed() 中传入不同的数字。

In [24]:
np.random.seed(2)
print(np.random.randint(2, 10, size=3))
np.random.seed(2)
print(np.random.randint(2, 10, size=3))

[2 9 7]
[2 9 7]
