## Numpy非常重要有用的数组合并操作

背景：在给机器学习准备数据的过程中，经常需要进行不同来源的数据合并的操作。

两类场景：
1. 给已有的数据添加多行，比如增添一些样本数据进去；
2. 给已有的数据添加多列，比如增添一些特征进去；

以下操作均可以实现数组合并：
* np.concatenate(array_list, axis=0/1）：沿着指定axis进行数组的合并
* np.vstack或者np.row_stack(array_list)：垂直vertically、按行row wise进行数据合并
* np.hstack或者np.column_stack(array_list)：水平horizontally、按列column wise进行数据合并

In [1]:
import numpy as np

### 1. 怎样给数据添加新的多行

In [2]:
a = np.arange(6).reshape(2,3)
b = np.random.randint(10,20,size=(4,3))

In [3]:
a

array([[0, 1, 2],
       [3, 4, 5]])

In [4]:
b

array([[15, 14, 11],
       [15, 16, 12],
       [17, 13, 13],
       [10, 17, 12]])

In [5]:
# 方法1：
np.concatenate([a,b])

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [15, 14, 11],
       [15, 16, 12],
       [17, 13, 13],
       [10, 17, 12]])

In [6]:
# 方法2
np.vstack([a,b])

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [15, 14, 11],
       [15, 16, 12],
       [17, 13, 13],
       [10, 17, 12]])

In [7]:
# 方法3
np.row_stack([a, b])

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [15, 14, 11],
       [15, 16, 12],
       [17, 13, 13],
       [10, 17, 12]])

In [26]:
x = np.random.randint(1, 10, 9).reshape(3, -1)
x

array([[3, 2, 1],
       [9, 4, 6],
       [8, 8, 6]])

In [31]:
x[1,1]

4

In [27]:
y = np.random.randint(1, 10, 9).reshape(3, -1)
y

array([[2, 1, 8],
       [3, 7, 1],
       [5, 4, 2]])

In [41]:
np.vstack([x, y])

array([[3, 2, 1],
       [9, 4, 6],
       [8, 8, 6],
       [2, 1, 8],
       [3, 7, 1],
       [5, 4, 2]])

In [42]:
np.concatenate([x,y])

array([[3, 2, 1],
       [9, 4, 6],
       [8, 8, 6],
       [2, 1, 8],
       [3, 7, 1],
       [5, 4, 2]])

### 2. 怎样给数据添加新的多列

In [8]:
a = np.arange(12).reshape(3,4)
b = np.random.randint(10,20,size=(3,2))

In [9]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [10]:
b

array([[17, 17],
       [11, 17],
       [13, 12]])

In [11]:
# 方法1
np.concatenate([a,b], axis=1)

array([[ 0,  1,  2,  3, 17, 17],
       [ 4,  5,  6,  7, 11, 17],
       [ 8,  9, 10, 11, 13, 12]])

In [12]:
# 方法2
np.hstack([a,b])

array([[ 0,  1,  2,  3, 17, 17],
       [ 4,  5,  6,  7, 11, 17],
       [ 8,  9, 10, 11, 13, 12]])

In [13]:
# 方法3
np.column_stack([a,b])

array([[ 0,  1,  2,  3, 17, 17],
       [ 4,  5,  6,  7, 11, 17],
       [ 8,  9, 10, 11, 13, 12]])