# 维度
## 创建多维数据
维护一个车辆数据信息，每一个数据，代表的是一辆车的百公里加速时间，首先就是要创建一个车辆百公里加速的列表。

In [1]:
import numpy as np

cars = np.array([5, 10, 12, 6])
print("数据：", cars, "\n维度：", cars.ndim)

数据： [ 5 10 12  6] 
维度： 1


cars.ndim 会返回给你一个维度的属性，现在这组数据是一个一维数据。你可以认为这是某一次测试 4 款车收集到的数据。

|  测试批   | car1  |car2  |car3  |car4  |
|  ----  | ----  | ----  | ----  | ----  |
| 1  | 5 |10 | 12 |6 |  
|2  | 5.1 |8.2 |11 |6.3 |  
|3 |4.4 |9.1 |10 |6.6 |

In [2]:
cars = np.array([
[5, 10, 12, 6],
[5.1, 8.2, 11, 6.3],
[4.4, 9.1, 10, 6.6]
])

print("数据：\n", cars, "\n维度：", cars.ndim)

数据：
 [[ 5.  10.  12.   6. ]
 [ 5.1  8.2 11.   6.3]
 [ 4.4  9.1 10.   6.6]] 
维度： 2


In [3]:
cars = np.array([
[
    [5, 10, 12, 6],
    [5.1, 8.2, 11, 6.3],
    [4.4, 9.1, 10, 6.6]
],
[
    [6, 11, 13, 7],
    [6.1, 9.2, 12, 7.3],
    [5.4, 10.1, 11, 7.6]
],
])

print("总维度：", cars.ndim)
print("场地 1 数据：\n", cars[0], "\n场地 1 维度：", cars[0].ndim)
print("场地 2 数据：\n", cars[1], "\n场地 2 维度：", cars[1].ndim)

总维度： 3
场地 1 数据：
 [[ 5.  10.  12.   6. ]
 [ 5.1  8.2 11.   6.3]
 [ 4.4  9.1 10.   6.6]] 
场地 1 维度： 2
场地 2 数据：
 [[ 6.  11.  13.   7. ]
 [ 6.1  9.2 12.   7.3]
 [ 5.4 10.1 11.   7.6]] 
场地 2 维度： 2


## 添加数据
在原数据的基础上，要新增一条

In [4]:
cars1 = np.array([5, 10, 12, 6])
cars2 = np.array([5.2, 4.2])
cars = np.concatenate([cars1, cars2])
print(cars)

[ 5.  10.  12.   6.   5.2  4.2]


这种一维的数据很简单，也很好理解，就和 Python 中的 List 添加很像。但是如果数据换成了二维呢？我要添加一组测试数据呢？

In [5]:
test1 = np.array([5, 10, 12, 6])
test2 = np.array([5.1, 8.2, 11, 6.3])

# 首先需要把它们都变成二维，下面这两种方法都可以加维度
test1 = np.expand_dims(test1, 0)
test2 = test2[np.newaxis, :]

print("test1加维度后 ", test1)
print("test2加维度后 ", test2)

# 然后再在第一个维度上叠加
all_tests = np.concatenate([test1, test2])
print("括展后\n", all_tests)

test1加维度后  [[ 5 10 12  6]]
test2加维度后  [[ 5.1  8.2 11.   6.3]]
括展后
 [[ 5.  10.  12.   6. ]
 [ 5.1  8.2 11.   6.3]]


## 合并数据
能在第一个维度上叠加，那你能不能在第二个维度上叠加呢？当然可以，只需要巧妙给 np.concatenate 一个参数就好。

In [6]:
print("第一维度叠加：\n", np.concatenate([all_tests, all_tests], axis=0))
print("第二维度叠加：\n", np.concatenate([all_tests, all_tests], axis=1))

第一维度叠加：
 [[ 5.  10.  12.   6. ]
 [ 5.1  8.2 11.   6.3]
 [ 5.  10.  12.   6. ]
 [ 5.1  8.2 11.   6.3]]
第二维度叠加：
 [[ 5.  10.  12.   6.   5.  10.  12.   6. ]
 [ 5.1  8.2 11.   6.3  5.1  8.2 11.   6.3]]


注意，有些数据维度是对不齐的，这样没办法合并。比如

In [7]:
a = np.array([
[1,2,3],
[4,5,6]
])
b = np.array([
[7,8],
[9,10]
])

print(np.concatenate([a,b], axis=1))  # 这个没问题
# print(np.concatenate([a,b], axis=0))  # 这个会报错

[[ 1  2  3  7  8]
 [ 4  5  6  9 10]]


除了 np.concatenate()，还有两个比较好用的在二维数据上可以方便调用的功能，分别是 np.vstack(), np.hstack().

In [8]:
a = np.array([
[1,2],
[3,4]
])
b = np.array([
[5,6],
[7,8]
])
print("竖直合并\n", np.vstack([a, b]))
print("水平合并\n", np.hstack([a, b]))

竖直合并
 [[1 2]
 [3 4]
 [5 6]
 [7 8]]
水平合并
 [[1 2 5 6]
 [3 4 7 8]]


## 观察形态
np.ndim 来查看数据的形态，其实我们有时候还想更加了解数据的细节问题，比如这个数据的大小，规格。方便我们管理这些数据。

In [9]:
cars = np.array([
[5, 10, 12, 6],
[5.1, 8.2, 11, 6.3],
[4.4, 9.1, 10, 6.6]
])

count = 0
for i in range(len(cars)):
    for j in range(len(cars[i])):
        count += 1
print("总共多少测试数据：", count)  

总共多少测试数据： 12


其实 Numpy 还有更好用的方式获取总个数。看看使用 cars.size

In [10]:
print("总共多少测试数据：", cars.size)

总共多少测试数据： 12


更进一步，我不光想知道总数据，我还想知道当前有多少次测试（第一个维度，行），和在多少辆车上测试了（第二个维度，列）。怎么办？

In [11]:
print("第一个维度：", cars.shape[0])
print("第二个维度：", cars.shape[1])
print("所有维度：", cars.shape)

第一个维度： 3
第二个维度： 4
所有维度： (3, 4)


# 数据选取
## 单个选取

In [13]:
a = np.array([1, 2, 3])
print("a[0]:", a[0])
print("a[1]:", a[1])

a[0]: 1
a[1]: 2


当然还有种方法，可以一次性选择多个，但实际上选择的逻辑还是一个个拎出来的逻辑。就像一个个从抽屉里拿出来的意思。后面我们还会介绍一批拿出来的概念（切片划分）。

In [14]:
print("a[[0,1]]:\n", a[[0,1]])
print("a[[1,1,0]]:\n", a[[1,1,0]])

a[[0,1]]:
 [1 2]
a[[1,1,0]]:
 [2 2 1]


二维或者多维数据也可以用上面的方法来选择数据，一个个拎出来。

In [15]:
b = np.array([
[1,2,3,4],
[5,6,7,8],
[9,10,11,12]
])

# 选第 2 行所有数
print("b[1]:\n", b[1])   

# 选第 2 行，第 1 列的数
print("b[1,0]:\n", b[1,0])   

# 这个看着有点纠结，如果对应到数据，
# 第一个拿的是数据位是 [1,2]
# 第二个拿的是 [0,3]
print("b[[1,0],[2,3]]:\n", 
b[[1,0],
[2,3]])

b[1]:
 [5 6 7 8]
b[1,0]:
 5
b[[1,0],[2,3]]:
 [7 4]


## 切片划分

In [16]:
a = np.array([1, 2, 3])
print("a[0:2]：\n", a[0:2])
print("a[1:]：\n", a[1:])
print("a[-2:]：\n", a[-2:])

a[0:2]：
 [1 2]
a[1:]：
 [2 3]
a[-2:]：
 [2 3]


使用 : 就能让你跨着取数字，而且一次取一批。注意，在 Numpy 中：一次取一批和一个个拎起来，拎了一批，是不同的概念哦 一次取一批来的更快， 因为它不用去一个个查看，一个个数了。   

在多维上，也可以进行切片划分。

In [17]:
b = np.array([
[1,2,3,4],
[5,6,7,8],
[9,10,11,12]
])

print("b[:2]:\n", b[:2])
print("b[:2, :3]:\n", b[:2, :3])
print("b[1:3, -2:]:\n", b[1:3, -2:])

b[:2]:
 [[1 2 3 4]
 [5 6 7 8]]
b[:2, :3]:
 [[1 2 3]
 [5 6 7]]
b[1:3, -2:]:
 [[ 7  8]
 [11 12]]


## 条件筛选

In [18]:
a = np.array([
[1,2,3,4],
[5,6,7,8],
[9,10,11,12]
])

print(a[a>7])

[ 8  9 10 11 12]


我们再拆开来看，a[a>7] 这里面究竟发生了什么。

In [22]:
condition = a > 7
print(condition)

print(a[condition])

[[False False False False]
 [False False False  True]
 [ True  True  True  True]]
[ 8  9 10 11 12]


condition 是一种 True/False, 那么只要我们得到一个 True/False 数据，我都能做筛选。这才是它筛选的底层逻辑了。

In [20]:
condition = (a > 7) & (a != 10)
print(a[condition])

[ 8  9 11 12]


除了这种直接用[]的形式，在 Numpy 中，还有一个专用的函数来做数据筛选。这种筛选更强大，它还能做筛选结果的替换工作。 它可已将满足条件的位置变成你设定的数字。下面满足条件的，都改成 -1，不满足的，都还是 a 里面的数字。

In [23]:
condition = a > 7
print(np.where(condition, -1, a))

[[ 1  2  3  4]
 [ 5  6  7 -1]
 [-1 -1 -1 -1]]


不仅是满足条件的 condition，不满足条件的，也能变成你期望的数字。

In [24]:
condition = a > 7
print(np.where(condition, -1, 2))

[[ 2  2  2  2]
 [ 2  2  2 -1]
 [-1 -1 -1 -1]]


不光是数字哦，我还能让它和另外一个数据做条件上的整合哦，比如下面这样。如果满足 condition 要求，那么就会在对应的 True 位置放上 a 里的值，如果不满足 condition 要求，也就是在 condition 为 False 的地方放上 b 里对应位置的值。

In [25]:
condition = a > 7
b = -a - 1
print(np.where(condition, a, b))

[[-2 -3 -4 -5]
 [-6 -7 -8  8]
 [ 9 10 11 12]]


# 基础运算
## 加减乘除

In [26]:
l = [150, 166, 183, 170]
for i in range(len(l)):
    l[i] += 3
print(l)

[153, 169, 186, 173]


用列表你需要使用到一个循环，或者是一个map函数来帮你实现这个功能。

In [27]:
print(list(map(lambda x: x+3, [150, 166, 183, 170])))

[153, 169, 186, 173]


如果我们用 Numpy 的方式来实现

In [28]:
import numpy as np

a = np.array([150, 166, 183, 170])
print(a + 3)

[153 169 186 173]


Numpy 是可以批量进行计算的，只需要简单的 +-*/，就能进行全元素的运算，也就是向量化运算。同理，我们也可以进行其他符号的批量运算。

In [29]:
print("a + 3:", a + 3)
print("a - 3:", a - 3)
print("a * 3:", a * 3)
print("a / 3:", a / 3)

a + 3: [153 169 186 173]
a - 3: [147 163 180 167]
a * 3: [450 498 549 510]
a / 3: [50.         55.33333333 61.         56.66666667]


机器学习中最常用的矩阵点积运算

In [30]:
a = np.array([
[1, 2],
[3, 4]
])
b = np.array([
[5, 6],
[7, 8]
])

print(a.dot(b))
print(np.dot(a, b))

[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


## 数据统计分析
两种方法可以获取到最大最小，只是不同的写法罢了

In [31]:
a = np.array([150, 166, 183, 170])
print("最大：", np.max(a))
print("最小：", a.min())

最大： 183
最小： 150


In [32]:
print(a.sum())

669


In [33]:
a = np.array([150, 166, 183, 170])
print("累乘：", a.prod())
print("总数：", a.size)   
                 
a = np.array([0, 1, 2, 3])
print("非零总数：", np.count_nonzero(a))

累乘： 774639000
总数： 4
非零总数： 3


In [34]:
month_salary = [1.2, 20, 0.5, 0.3, 2.1]
print("平均工资：", np.mean(month_salary))
print("工资中位数：", np.median(month_salary))

平均工资： 4.82
工资中位数： 1.2


standard deviation 标准差，用来描述正态分布。 这个在机器学习中，特别是深度神经网络中也非常重要，特别用于权重的生成原则。

In [35]:
month_salary = [1.2, 20, 0.5, 0.3, 2.1]
print("标准差：", np.std(month_salary))

标准差： 7.61614075500184


## 特殊运算符号
有的时候，其实你不关心 np.max() 或者 np.min() 的数值是多少，而是关心这个数值的序号

In [36]:
a = np.array([150, 166, 183, 170])
name = ["小米", "OPPO", "Huawei", "诺基亚"]
high_idx = np.argmax(a)
low_idx = np.argmin(a)
print("{} 最高".format(name[high_idx]))
print("{} 最矮".format(name[low_idx]))

Huawei 最高
小米 最矮


取天花板的值还是地板的值，这个在 AI 算法中也比较常见， 比如我要对其做取整处理，抹除小数部分

In [37]:
a = np.array([150.1, 166.4, 183.7, 170.8])
print("ceil:", np.ceil(a))
print("floor:", np.floor(a))

ceil: [151. 167. 184. 171.]
floor: [150. 166. 183. 170.]


还有更自由的取值截取空间时咋办？我可以用 np.clip() 来做上下界限的值截取。

In [38]:
a = np.array([150.1, 166.4, 183.7, 170.8])
print("clip:", a.clip(160, 180))

clip: [160.  166.4 180.  170.8]


# 改变数据形态
## 改变形态

In [39]:
a = np.array([1,2,3,4,5,6])
a_2d = a[np.newaxis, :]
print(a.shape, a_2d.shape)

(6,) (1, 6)


In [40]:
a_2d

array([[1, 2, 3, 4, 5, 6]])

比如用 None 或者 np.expand_dims()

In [41]:
a = np.array([1,2,3,4,5,6])
a_none = a[:, None]
a_expand = np.expand_dims(a, axis=1)
print(a_none.shape, a_expand.shape)

(6, 1) (6, 1)


除了添加维度，我们还能减少维度，但是下面介绍的减少维度，只能减少那些维度 shape 上为 1 的维度。因为减掉这个维度，数据结构上是没有变化的。

In [42]:
a_squeeze = np.squeeze(a_expand)
a_squeeze_axis = a_expand.squeeze(axis=1)
print(a_squeeze.shape)
print(a_squeeze_axis.shape)

(6,)
(6,)


在机器学习中，我们还有一个更常见的操作，是要改变 shape。维度的添加减少，只能添加减少一个维度，数据结构是不变的。 但是 np.reshape() 可以改变数据结构。

In [43]:
a = np.array([1,2,3,4,5,6])
a1 = a.reshape([2, 3])
a2 = a.reshape([3,1,2])
print("a1 shape:", a1.shape)
print(a1)
print("a2 shape:", a2.shape)
print(a2)

a1 shape: (2, 3)
[[1 2 3]
 [4 5 6]]
a2 shape: (3, 1, 2)
[[[1 2]]

 [[3 4]]

 [[5 6]]]


其实还有更多的改变形态的方法，比如让数据变直、展平 的 np.ravel(), np.flatten()   
也有一种形态的转化，叫做矩阵转置，np.transpose(), 在机器学习中也用得很多

In [44]:
a = np.array([1,2,3,4,5,6]).reshape([2, 3])
aT1 = a.T
aT2 = np.transpose(a)

print(aT1)
print(aT2)

[[1 4]
 [2 5]
 [3 6]]
[[1 4]
 [2 5]
 [3 6]]


## 合并

In [45]:
feature_a = np.array([1,2,3,4,5,6])
feature_b = np.array([11,22,33,44,55,66])
c_stack = np.column_stack([feature_a, feature_b])
print(c_stack)

[[ 1 11]
 [ 2 22]
 [ 3 33]
 [ 4 44]
 [ 5 55]
 [ 6 66]]


In [46]:
sample_a = np.array([0, 1.1])
sample_b = np.array([1, 2.2])
c_stack = np.row_stack([sample_a, sample_b])
print(c_stack)

[[0.  1.1]
 [1.  2.2]]


np.column_stack() 和 np.row_stack() 和后面的 np.vstack()、np.hstack() 相比， 有些特殊之处，我们先看看使用 vstack 和 hstack 的案例

In [47]:
feature_a = np.array([1,2,3,4,5,6])[:, None]
feature_b = np.array([11,22,33,44,55,66])[:, None]
c_stack = np.hstack([feature_a, feature_b])
print(c_stack)

sample_a = np.array([0, 1.1])[None, :]
sample_b = np.array([1, 2.2])[None, :]
c_stack = np.vstack([sample_a, sample_b])
print(c_stack)

[[ 1 11]
 [ 2 22]
 [ 3 33]
 [ 4 44]
 [ 5 55]
 [ 6 66]]
[[0.  1.1]
 [1.  2.2]]


用 column_stack 和 row_stack() 的时候，Numpy 自动帮你处理的维度信息，而用 vstack 和 hstack 的时候，你需要先确保维度信息是正确的，然后再合并。

你想要用统一的方法来处理各种不同情况的合并，np.concatenate() 是我最喜欢的方法，管它什么 vstack hstack 甚至是在更高维度上要合并， 我们都可以用 concatenate() 一个功能实现。

In [48]:
a = np.array([
[1,2],
[3,4]
])
b = np.array([
[5,6],
[7,8]
])

print(np.concatenate([a, b], axis=0))
print(np.concatenate([a, b], axis=1))

[[1 2]
 [3 4]
 [5 6]
 [7 8]]
[[1 2 5 6]
 [3 4 7 8]]


## 拆解
能横着，竖着合并，那也能横着竖着拆解。np.vsplit() 和 np.hsplit() 就是干这事的。

In [49]:
a = np.array(
[[ 1, 11, 2, 22],
 [ 3, 33, 4, 44],
 [ 5, 55, 6, 66],
 [ 7, 77, 8, 88]]
)
print(np.vsplit(a, indices_or_sections=2))  # 分成两段
print(np.vsplit(a, indices_or_sections=[2,3]))  # 分片成 [:2]，[2:3], [3:]

[array([[ 1, 11,  2, 22],
       [ 3, 33,  4, 44]]), array([[ 5, 55,  6, 66],
       [ 7, 77,  8, 88]])]
[array([[ 1, 11,  2, 22],
       [ 3, 33,  4, 44]]), array([[ 5, 55,  6, 66]]), array([[ 7, 77,  8, 88]])]


那么有没有既能横切也能纵切的函数呢？ 当然有呀，和 stack 一样，如果直接用 np.split() 你就能选择要切分的维度来自定义切分了。

In [50]:
a = np.array(
[[ 1, 11, 2, 22],
 [ 3, 33, 4, 44],
 [ 5, 55, 6, 66],
 [ 7, 77, 8, 88]]
)
print(np.split(a, indices_or_sections=2, axis=0))  # 分成两段
print(np.split(a, indices_or_sections=[2,3], axis=1))  # 在第二维度，分片成 [:2]，[2:3]，[3:]

[array([[ 1, 11,  2, 22],
       [ 3, 33,  4, 44]]), array([[ 5, 55,  6, 66],
       [ 7, 77,  8, 88]])]
[array([[ 1, 11],
       [ 3, 33],
       [ 5, 55],
       [ 7, 77]]), array([[2],
       [4],
       [6],
       [8]]), array([[22],
       [44],
       [66],
       [88]])]
