In [1]:
import numpy as np

In [2]:
# 创建一个1维数组
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [3]:
# 创建一个一维数组，利用reshape()函数转换维二维数组
X = np.arange(15).reshape(3, 5)
X

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

### 1 基本属性

#### 01 查看数组是一个几维的数组

In [4]:
x.ndim

1

In [5]:
X.ndim

2

#### 02 shape属性，返回元组

In [6]:
x.shape

(10,)

In [7]:
X.shape

(3, 5)

#### 03 size属性，表示数组中的元素个数

In [8]:
x.size

10

In [9]:
X.size

15

### 2 numpy的数据访问 

#### 如果是一维数组，可以使用和Python一样的访问方式访问数组

In [10]:
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [11]:
x[0]

0

In [12]:
x[-1]

9

#### 对于二维或更高维度的数组，不推荐使用`x[0][1]`这样的语法

#### 应该使用`x[传入一个元组]`这样的方式来进行访问

In [13]:
X

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [14]:
X[0, 2]

2

#### 切片操作

In [15]:
# 从索引0到索引5但不包含索引5之间的所有元素
x[0:5]

array([0, 1, 2, 3, 4])

In [16]:
# 不写起始参数的话默认为一开始
x[:5]

array([0, 1, 2, 3, 4])

In [17]:
# 不写结束参数的话默认为结尾
x[5:]

array([5, 6, 7, 8, 9])

In [18]:
# 可以有第三个参数表示步长
x[::2]

array([0, 2, 4, 6, 8])

In [19]:
x[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

#### 对于二维或更高维度的数组

In [20]:
X

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [21]:
# 使用这种写法来表示区X数组的前两行，前三列的元素
X[:2, :3]

array([[0, 1, 2],
       [5, 6, 7]])

#### 注意，为什么上面不推荐`X[2][3]`这样的语法

In [22]:
X[:2][:3]
# 逐步解析，先取X的前两个元素，再对结果取前三个元素

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

#### 原因就在于python的解析会导致出现的结果不符合预期

#### 访问方式的组合

In [23]:
# 访问前两行，每行的元素间隔为2
X[:2, ::2]

array([[0, 2, 4],
       [5, 7, 9]])

In [24]:
# 行和列都从-1开始
X[::-1, ::-1]

array([[14, 13, 12, 11, 10],
       [ 9,  8,  7,  6,  5],
       [ 4,  3,  2,  1,  0]])

In [25]:
# 取某一行
X[0, :]

array([0, 1, 2, 3, 4])

In [26]:
# 取某一列
X[:, 0]

array([ 0,  5, 10])

#### 注意一个问题，对于ndarray来说，为了效率，取子矩阵返回的是引用，所以对子矩阵的修改会作用于原矩阵

In [27]:
subX = X[:2, :3]
subX

array([[0, 1, 2],
       [5, 6, 7]])

In [28]:
subX[0, 0] = 100
subX

array([[100,   1,   2],
       [  5,   6,   7]])

In [29]:
X

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

#### 如果我们想获得一个独立的子矩阵而不是引用怎么办？

In [30]:
subX = X[:2, :3].copy()
subX

array([[100,   1,   2],
       [  5,   6,   7]])

In [31]:
subX[0,0] = 0
subX

array([[0, 1, 2],
       [5, 6, 7]])

In [32]:
X

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

#### reshape()方法

In [33]:
# 转换为一个1*10的二维矩阵
newX = x.reshape(1, 10)
newX

array([[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [34]:
# 仅仅指定行
# 参数-1表示我们不知道转换后有多少列，我们只知道要转换为10行，每一行有多少列并不清楚，让函数自动帮我们进行计算
x.reshape(10, -1)

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

### 3 合并操作

In [79]:
# 创建两个一维数组
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])

In [80]:
x

array([1, 2, 3])

In [81]:
y

array([3, 2, 1])

In [76]:
# concatenate，意为连接
np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])

In [39]:
z = np.array([666, 666, 666])

In [40]:
np.concatenate([x, y, z])

array([  1,   2,   3,   3,   2,   1, 666, 666, 666])

In [41]:
# 也可以连接二维数组
A = np.array([[1, 2, 3],
             [4, 5, 6]])

In [42]:
np.concatenate([A, A])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [43]:
# 可以传入另外一个参数：axis，默认值是0，沿着第一个维度进行拼接
# 如果设置为1，就是沿着第二个维度进行拼接
np.concatenate([A, A], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

In [44]:
# 再来看另外一个例子，假设我们想在一个数据集中再添加一条数据
# 就比如上面的A中添加z，我们要怎么做呢？

In [45]:
# 需要先将z转换为二维数组，才能够使用concatenate函数进行数据拼接
np.concatenate([A, z.reshape(1,-1)])

array([[  1,   2,   3],
       [  4,   5,   6],
       [666, 666, 666]])

In [46]:
# 如果觉得上面的方法较繁琐，也可以使用numpy中的vstack函数
# 这里的v代表的是vertical，垂直的意思
# vstack函数比较智能，就算两个数据维度不同也可以判断应该在哪一个维度上进行拼接
np.vstack([A, z])

array([[  1,   2,   3],
       [  4,   5,   6],
       [666, 666, 666]])

In [47]:
# 既然有vstack，当然也存在hstack
B = np.full((2,2), 100)
B

array([[100, 100],
       [100, 100]])

In [48]:
np.hstack([A, B])

array([[  1,   2,   3, 100, 100],
       [  4,   5,   6, 100, 100]])

### 4 分割操作

In [49]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [50]:
# 可以使用split函数对数据进行分割的操作
# 如将x分为三段
x1, x2, x3 = np.split(x, [4,6])

In [51]:
# 这里x1就是x中从索引为0开始，到索引为4为止，不包括4，其他以此类推
x1

array([0, 1, 2, 3])

In [52]:
# 下面来看二维数组的例子
A = np.arange(16).reshape(4,4)
A

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [53]:
A1, A2 = np.split(A, [2])

In [54]:
A1

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [55]:
A2

array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [56]:
# 可见，默认的axis值也是0
# 第二个参数如果不是索引数组，就表示要平均分成几个部分
# 可以设置axis值为1
A1, A2 = np.split(A, 2, axis=1)

In [57]:
A1

array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]])

In [58]:
A2

array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])

In [59]:
# 同样的，对于split函数，也有vsplit和hsplit函数
upper, lower = np.vsplit(A, 2)

In [60]:
upper

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [61]:
lower

array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [62]:
left, right = np.hsplit(A, 2)

In [63]:
left

array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]])

In [64]:
right

array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])

In [65]:
# 分割的典型应用就是将特征列和标记列分开
x, y = np.hsplit(A, [-1])

In [66]:
x

array([[ 0,  1,  2],
       [ 4,  5,  6],
       [ 8,  9, 10],
       [12, 13, 14]])

In [67]:
y

array([[ 3],
       [ 7],
       [11],
       [15]])