# Numpy.array的基本操作

## 1. numpy.array 的数据访问

* 索引

In [1]:
import numpy as np

In [2]:
x = np.arange(0,15)
x

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [None]:
x[0]

In [None]:
x[-1]

In [4]:
X = x.reshape(3,5)
X

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

如何访问二维数组的元素？

In [5]:
X[0][0] # 不建议这样取元素

0

In [6]:
X[2,2] # 建议这样访问元素

12

* 切片

In [None]:
x[0:5] # 切片

In [None]:
x[:5] # 默认值

In [None]:
x[5:]

In [None]:
x[::2] # 步长为2

In [None]:
x[::-1] # 逆向访问

* 二维数组的索引和切片

In [None]:
X

In [None]:
X[:2,:3] # 访问前两行的前三列

尝试使用两个方括号来索引二维数组

In [None]:
X[:2][:3]

In [None]:
X[:2]

In [8]:
X[:2][:1] 

array([[0, 1, 2, 3, 4]])

In [9]:
X[:2][:2] 

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [7]:
X[:2][:3] 

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

这就是为什么不建议大家使用两个方框来访问元素，和我们想象得不同，ndarray在索引得时候，如果只传一个参数，会默认在行方向上索引，而非列方向索引。

In [None]:
X

In [12]:
X[:2,:2]

array([[0, 1],
       [5, 6]])

In [10]:
X[::-1,::-1]

array([[14, 13, 12, 11, 10],
       [ 9,  8,  7,  6,  5],
       [ 4,  3,  2,  1,  0]])

```访问第0行```

In [None]:
X[0,:]

In [13]:
X[0,:].ndim

1

In [None]:
X[:,0] # 访问第0列

In [None]:
X[:,0].ndim

```获取数组中的子数组``` (子矩阵)

In [None]:
X

In [None]:
subX = X[:2,:3]
subX

In [None]:
subX[0,0] = 100
subX

In [None]:
X


**注意**： 基于原始矩阵索引一个子矩阵时，当修改子矩阵中的元素，原始矩阵X也被修改了。

In [None]:
X[0,0] = 0 # 先恢复为0
X

In [None]:
subX

基于原始索引一个子矩阵时，当修改原始矩阵X中的元素，子矩阵subX也被修改了。
如何创建一个子矩阵，和原始矩阵互不影响呢？

In [None]:
subX = X[:2,:3].copy()
subX

In [None]:
subX[0,0] = 100
subX

In [None]:
X

## 2. 修改numpy.ndarray的维度：reshape

In [14]:
x = np.arange(0,10)

In [15]:
x.shape

(10,)

In [16]:
x.ndim

1

In [19]:
x.reshape(2,5)

2

In [18]:
x.ndim

1

调用reshape方法没有改变x，如果想要存储修改后的数组，那么应该使用变量引用

In [None]:
A = x.reshape(2,5)
A

注意一维的向量和二维的矩阵是两个概念 ！

In [None]:
x

In [None]:
x.ndim

In [None]:
B = x.reshape(1,10) # B的值有两个方括号
B

In [None]:
B.ndim

In [None]:
B.shape # 说明它有一行，每一行有10列

In [None]:
x.shape

In [24]:
x.reshape(5,-1) # 只指定一个维度的数据，另外一个维度需要计算机智能地帮我们计算。
                 # 比如我们这里只指定10行，至于每列多少元素我们需要计算机帮我们决定

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [22]:
x.reshape(-1,10)

array([[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [21]:
x.reshape(2,-1)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [20]:
x.reshape(3,-1) # 但是不能随便分行、分列

ValueError: cannot reshape array of size 10 into shape (3,newaxis)

## 3. 合并操作  

In [25]:
x = np.array([1,2,3])
y = np.array([4,5,6])
print(x)
print(y)

[1 2 3]
[4 5 6]


* np.concatenate() 合并数据

In [26]:
np.concatenate([x,y])

array([1, 2, 3, 4, 5, 6])

In [27]:
z = np.array([100,100,100])
z

array([100, 100, 100])

In [28]:
np.concatenate([x,y,z])

array([  1,   2,   3,   4,   5,   6, 100, 100, 100])

一维数组只有一个维度，因此只能沿着一个维度合并，但是二维数组就会出现沿着哪个维度合并的问题。

In [32]:
A = np.array([[1,2,3],[4,5,6]])
A

array([[1, 2, 3],
       [4, 5, 6]])

In [30]:
np.concatenate([A,A])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

默认情况下，np.concatenate在合并数组时，我们是顺着行的方向进行合并的；如果要改变方向，可以调整 axis 参数。axis 的意思是轴，当axis为0时，意思是按行的方向进行操作；当axis为1时，意思是按列的方向进行操作。  

In [34]:
np.concatenate([A,A],axis=0)

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [33]:
np.concatenate([A,A],axis=1) # axis 按0轴（行）还是按1轴（列）拼接

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

In [None]:
z

In [35]:
np.concatenate([A,z])

ValueError: all the input arrays must have same number of dimensions, but the array at index 0 has 2 dimension(s) and the array at index 1 has 1 dimension(s)

In [None]:
A.ndim

In [None]:
z.ndim

concatenate 只能拼接同样维度的矩阵,那么如何改进，使得A和z能够进行拼接呢？

In [36]:
np.concatenate([A,z.reshape(1,3)])

array([[  1,   2,   3],
       [  4,   5,   6],
       [100, 100, 100]])

实际上我们很多时候都需要进行这样的向量和矩阵拼接操作，这本身应当是非常自然的，如果总是自己进行判断对向量进行二维转换未免有些麻烦，好在Numpy提供了自动进行维度不同的数组在行方向和列方向进行拼接的方法。

In [37]:
np.vstack([A,z]) # vertical stack 垂直方向叠在一起

array([[  1,   2,   3],
       [  4,   5,   6],
       [100, 100, 100]])

In [38]:
B = np.full((2,2),100)
B

array([[100, 100],
       [100, 100]])

In [39]:
np.hstack([A,B]) # horizontal 水平方向拼接，即列方向拼接

array([[  1,   2,   3, 100, 100],
       [  4,   5,   6, 100, 100]])

In [40]:
np.hstack([A,z])

ValueError: all the input arrays must have same number of dimensions, but the array at index 0 has 2 dimension(s) and the array at index 1 has 1 dimension(s)

hstack vstack都要注意维度是否匹配

## 4. 分割操作

有数组的合并，就有数组的分割;当然分割可以用索引来完成。

In [41]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [42]:
x1, x2, x3 = np.split(x,[3,7]) # 3和7是两个分割点

In [None]:
x1

In [None]:
x2

In [None]:
x3

In [43]:
x1,x2 = np.split(x,[5]) # 即使只分割成两段（仅有一个分割点），也应该使用数组表示

In [None]:
x1

In [None]:
x2

In [44]:
A = np.arange(16).reshape((4,4))
A

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [45]:
A1,A2 = np.split(A,[2]) # 基于行方向进行分割

In [None]:
A1

In [None]:
A2

In [None]:
A

In [None]:
A1,A2 = np.split(A,[2],axis=1) # 基于列方向进行分割

In [None]:
A1

In [None]:
A2

In [46]:
upper, lower = np.vsplit(A,[2])

In [None]:
upper

In [None]:
lower

In [None]:
left, right = np.hsplit(A,[2])

In [None]:
left

In [None]:
right

合并和分割操作有什么实际意义呢？

In [49]:
import numpy as np

先加载一个鸢尾花数据集。

In [50]:
iris = np.loadtxt('data\\iris.csv', delimiter=',')
iris

array([[5.1, 3.5, 1.4, 0.2, 1. ],
       [4.9, 3. , 1.4, 0.2, 1. ],
       [4.7, 3.2, 1.3, 0.2, 1. ],
       [4.6, 3.1, 1.5, 0.2, 1. ],
       [5. , 3.6, 1.4, 0.2, 1. ],
       [5.4, 3.9, 1.7, 0.4, 1. ],
       [4.6, 3.4, 1.4, 0.3, 1. ],
       [5. , 3.4, 1.5, 0.2, 1. ],
       [4.4, 2.9, 1.4, 0.2, 1. ],
       [4.9, 3.1, 1.5, 0.1, 1. ],
       [5.4, 3.7, 1.5, 0.2, 1. ],
       [4.8, 3.4, 1.6, 0.2, 1. ],
       [4.8, 3. , 1.4, 0.1, 1. ],
       [4.3, 3. , 1.1, 0.1, 1. ],
       [5.8, 4. , 1.2, 0.2, 1. ],
       [5.7, 4.4, 1.5, 0.4, 1. ],
       [5.4, 3.9, 1.3, 0.4, 1. ],
       [5.1, 3.5, 1.4, 0.3, 1. ],
       [5.7, 3.8, 1.7, 0.3, 1. ],
       [5.1, 3.8, 1.5, 0.3, 1. ],
       [5.4, 3.4, 1.7, 0.2, 1. ],
       [5.1, 3.7, 1.5, 0.4, 1. ],
       [4.6, 3.6, 1. , 0.2, 1. ],
       [5.1, 3.3, 1.7, 0.5, 1. ],
       [4.8, 3.4, 1.9, 0.2, 1. ],
       [5. , 3. , 1.6, 0.2, 1. ],
       [5. , 3.4, 1.6, 0.4, 1. ],
       [5.2, 3.5, 1.5, 0.2, 1. ],
       [5.2, 3.4, 1.4, 0.2, 1. ],
       [4.7, 3

In [51]:
iris.shape

(150, 5)

样本（观测点）
特征值
标签

In [52]:
X,y = np.hsplit(iris,[-1])

In [9]:
X

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [55]:
y

array([[1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],
       [2.],

In [53]:
y[:,0]

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 2.,
       2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2.,
       2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2.,
       2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 3., 3.,
       3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3.,
       3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3.,
       3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3.])