# 06 Numpy.array的合并和分割

In [1]:
import numpy as np

### 6.1 合并操作
- concatenate([A, B, C], axis=0) 可将多个array拼接在一起，axis控制拼接的维度
- axis默认是0，即在行的维度进行拼接。相当于新增了几个样本
- axis=1时，即在列的维度进行拼接，相当于新增了几个特征。
- concatenate拼接是需要相同的维度，不同维度会报错，如果不同需要用reshape来转化为相同维度。
- vstack 在垂直的方向上堆叠数据（扩充行），即使维度不同，也可以堆叠在一起
- hstack 在水平的方向上堆叠数据（扩充列）
- 但vstack 和 hstack 一定是要合法的 (2,3) 和(3,) 可以在垂直方向堆叠，而在水平方向无法堆叠。


In [2]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])

In [3]:
x

array([1, 2, 3])

In [4]:
y

array([3, 2, 1])

In [5]:
np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])

In [6]:
z = np.array([666, 666 , 666])

In [7]:
np.concatenate([x, y, z])

array([  1,   2,   3,   3,   2,   1, 666, 666, 666])

In [8]:
A = np.array([[1, 2, 3],
              [4, 5, 6]])

In [9]:
# 原来两个样本，三个特征，这样操作相当于再加进两个样本，共四个样本，3个特征
# 加在第0个维度上
# np.concatenate([A, A], axis=0)
np.concatenate([A, A])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [10]:
# 还是两个样本，但需要加入新的三个特征
# 加在第1个维度上
np.concatenate([A, A], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

In [12]:
np.concatenate([A, z])

ValueError: all the input arrays must have same number of dimensions, but the array at index 0 has 2 dimension(s) and the array at index 1 has 1 dimension(s)

In [14]:
np.concatenate([A, z.reshape(1, -1)])

array([[  1,   2,   3],
       [  4,   5,   6],
       [666, 666, 666]])

In [15]:
A

array([[1, 2, 3],
       [4, 5, 6]])

In [16]:
A2 = np.concatenate([A, z.reshape(1, -1)])
A2

array([[  1,   2,   3],
       [  4,   5,   6],
       [666, 666, 666]])

In [17]:
np.vstack([A, z])

array([[  1,   2,   3],
       [  4,   5,   6],
       [666, 666, 666]])

In [18]:
B = np.full((2, 2), 100)
B

array([[100, 100],
       [100, 100]])

In [19]:
np.hstack([A, B])

array([[  1,   2,   3, 100, 100],
       [  4,   5,   6, 100, 100]])

In [20]:
# (2,3) 和(3,) 可以在垂直方向堆叠(vstack)，而在水平方向无法堆叠(hstack)。
np.hstack([A, z])

ValueError: all the input arrays must have same number of dimensions, but the array at index 0 has 2 dimension(s) and the array at index 1 has 1 dimension(s)

### 6.2 分割操作
- split(分割对象，[分割点1，分割点2，分割点3...]) 
    - n个分割点切分成n+1段；n>=1
    - split 默认是按行的维度分割，指定axis=1可按列的维度分割
- vsplit 垂直的维度进行分割。可理解为上下切分
- hsplit 水平的维度进行分割。可理解为左右切分



In [21]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [22]:
# 方括号设置分割点，两个分割点可切成三段
x1, x2, x3 = np.split(x, [3, 7])

In [23]:
x1

array([0, 1, 2])

In [24]:
x2

array([3, 4, 5, 6])

In [25]:
x3

array([7, 8, 9])

In [26]:
# 分为两段
x1, x2 = np.split(x, [5])

In [27]:
x1

array([0, 1, 2, 3, 4])

In [28]:
x2

array([5, 6, 7, 8, 9])

In [29]:
A = np.arange(16).reshape((4,4))
A

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [37]:
# 默认从0的维度进行分割
A1, A2 = np.split(A, [2])
A1

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [38]:
A2

array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [39]:
# axis时从1的维度进行分割
A1, A2 = np.split(A, [2], axis=1)
A1

array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]])

In [40]:
A2

array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])

In [41]:
upper, lower = np.vsplit(A, [2])

In [42]:
upper

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [43]:
lower

array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [44]:
left, right = np.hsplit(A, [2])

In [45]:
left

array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]])

In [46]:
right

array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])

### 6.3 数据分割的意义
- 机器学习常处理的矩阵，前n-1列是特征，最后一列是标签
- 用hsplit(data, [-1])获取最后一列
- 再用索引的方式reshape[:, 0]，从行的维度抽出所有行，只抽取第0列

In [47]:
data = np.arange(16).reshape(4,4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [51]:
x, y = np.hsplit(data, [-1])
x

array([[ 0,  1,  2],
       [ 4,  5,  6],
       [ 8,  9, 10],
       [12, 13, 14]])

In [52]:
# 已经切分出了矩阵的最后一列
y

array([[ 3],
       [ 7],
       [11],
       [15]])

In [54]:
# 将只有一列的矩阵抽出来，作为一个向量
y[:, 0]

array([ 3,  7, 11, 15])