In [1]:
import numpy as np

In [2]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [3]:
X = np.arange(15).reshape(3, 5)
X

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

### 基本属性

In [4]:
# .ndim 用来查看是几维数组
x.ndim

1

In [5]:
X.ndim

2

In [6]:
# shape返回的是一个元祖
x.shape

(10,)

In [7]:
X.shape

(3, 5)

In [8]:
# size用来表示元素的个数
x.size

10

In [9]:
X.size

15

### numpy.array 的数据访问

In [10]:
# 对于Python的数据访问方法，也同样可以用于进行numpy.array的数据访问
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [11]:
x[0]

0

In [12]:
# 索引为 -1 表示的是访问最后一个元素
x[-1]

9

In [13]:
# 在numpy中是不建议这么写的 
X[0][0]

0

In [14]:
# 其实是可以不用加圆括号的
X[(0, 0)]

0

In [15]:
X[(2, 2)]

12

In [16]:
X[0, 0]

0

In [17]:
X[2, 2]

12

In [18]:
# 从 0 开始，但是不包含 5
x[0:5]

array([0, 1, 2, 3, 4])

In [19]:
# 冒号前面的参数不写的话，就是从头开始访问
x[:5]

array([0, 1, 2, 3, 4])

In [20]:
# 冒号后面的数不写的话，就是一直访问到结尾
x[5:]

array([5, 6, 7, 8, 9])

In [21]:
# 对于切片来说，和我们的range()函数是一样的，它支持第 3个参数，也就是步长
# 表示从头访问到尾，并且步长为 2
x[::2]

array([0, 2, 4, 6, 8])

In [22]:
# 负数代表着倒着访问
x[::-1]

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [23]:
x[::-2]

array([9, 7, 5, 3, 1])

In [24]:
# 切片的语法本身也可以非常方便地应用于二维数组中
X

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [25]:
# 想访问 X 的前两行的前三列
X[:2, :3]

array([[0, 1, 2],
       [5, 6, 7]])

In [26]:
X[:2][:3]

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [27]:
# 这个[:3]的本意是取前 2 行，但 Python 在执行这个语句时会取成前 2 个元素
X[:2]

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [28]:
# 这个[:3]的本意是取前 3 列，但 Python 在执行这个语句时会取成前 3 个元素
# 两个方括号在索引二维数组时，不能满足所要表达的语义
X[:2][:3]

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [29]:
X

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [30]:
X[:2, ::2]

array([[0, 2, 4],
       [5, 7, 9]])

In [31]:
X[::-1, ::-1]

array([[14, 13, 12, 11, 10],
       [ 9,  8,  7,  6,  5],
       [ 4,  3,  2,  1,  0]])

In [32]:
X[0]

array([0, 1, 2, 3, 4])

In [33]:
X[0, :]

array([0, 1, 2, 3, 4])

In [34]:
X[0, :].shape

(5,)

In [35]:
X[0, :].ndim

1

In [36]:
X[:, 0]

array([ 0,  5, 10])

In [37]:
X[:, 0].ndim

1

In [38]:
X[:, 0].shape

(3,)

In [39]:
subX = X[:2, :3]
subX

array([[0, 1, 2],
       [5, 6, 7]])

In [40]:
X

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [41]:
subX[0, 0] = 100
subX

array([[100,   1,   2],
       [  5,   6,   7]])

In [42]:
# 在Python的 list 中使用切片其实是创建了一个全新的矩阵，换句话说这个 subX 和原来的 X 之间是没有关系的
# 但是在 NumPy 中不是这样的,这是因为对于 NumPy 来说，优先考虑的是效率
# 所以对于这种取子矩阵来说，NumPy 是采取的类似于引用的方式来获取子矩阵 
# 同理修改原矩阵的话也会同样影响子矩阵
X

array([[100,   1,   2,   3,   4],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14]])

In [43]:
X[0, 0] = 0
X

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [44]:
subX

array([[0, 1, 2],
       [5, 6, 7]])

In [45]:
# 创建一个和原来矩阵完全不相关的子矩阵
# 创建了一个原矩阵的子矩阵的一个副本
subX = X[:2, :3].copy()
subX

array([[0, 1, 2],
       [5, 6, 7]])

In [46]:
subX[0, 0] = 100
subX

array([[100,   1,   2],
       [  5,   6,   7]])

In [47]:
X

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

### Reshape

In [48]:
# reshape()是用来改变数组的维度的
x.shape

(10,)

In [49]:
x.ndim

1

In [50]:
# 下面的调用reshape()是没有改变 x 的自身的
x.reshape(2, 5)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [51]:
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [52]:
A = x.reshape(2, 5)
A

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [53]:
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [54]:
# 一维的数组和二维的数组是完全的两个概念
# 一维的向量只有一个维度，这个维度有 10 个元素
B = x.reshape(1, 10)
B

array([[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [55]:
B.ndim

2

In [56]:
B.shape

(1, 10)

In [57]:
x.ndim

1

In [58]:
x.shape

(10,)

In [59]:
X.shape

(3, 5)

In [60]:
# 有时候我们只想指定其中一个维度的值，而对于另外一个维度的值我们希望计算机来帮我们进行智能的计算
# 不管有多少列，只希望有 10 行
x.reshape(10, -1)

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

In [61]:
# 不管有多少行，只希望有 10 列
x.reshape(-1, 10)

array([[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]])

In [62]:
# 只希望结果有 2 行，每一行多少列不管
x.reshape(2, -1)

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [63]:
subX.shape

(2, 3)

In [64]:
# 10 是不能被 3 整除的，所以程序会报错
# x.reshape(3, -1)

### 合并操作

In [66]:
# 在机器学习算法准备数据的过程中，会经常的使用到这两个操作
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])

In [67]:
x

array([1, 2, 3])

In [68]:
y

array([3, 2, 1])

In [69]:
x.ndim

1

In [70]:
y.ndim

1

In [71]:
x.shape

(3,)

In [72]:
y.shape

(3,)

In [73]:
x.size

3

In [74]:
y.size

3

In [75]:
# 一个常用的操作就是将 x 和 y 进行一个合并，合并成一个 1 * 6 的向量
np.concatenate([x, y])

array([1, 2, 3, 3, 2, 1])

In [76]:
z = np.array([666, 666, 666])

In [77]:
# np.concatenate()这个函数可以传入多个参数，而不仅仅只是 2 个
np.concatenate([x, y, z])

array([  1,   2,   3,   3,   2,   1, 666, 666, 666])

In [78]:
# 基于二维数组(和矩阵)的合并操作
# 简单的可以理解为原先的数组中总共有 2 个元素，每个元素中有 3 个元素这样的数组
# 也可以理解为原先的数组里面有 2 个样本，每个样本有 3 个特征，现在又来了另外的 2 个样本，
# 这两个样本有和原来一样的 3 个特征，将它们进行一个拼接
A = np.array([[1, 2, 3],
              [4, 5, 6]])

In [79]:
# np.concatenate()属于行拼接
np.concatenate([A, A])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [80]:
# 另一种情况是原先的数组里面有 2 个样本，每个样本有 3 个特征，
# 现在新来了 1 个矩阵，这个矩阵表达的是原先的 2 个样本里面的另外的 3 个特征
# 将它们进行一个拼接，这个时候需要得到一个 2 * 6 的矩阵
# axis的默认值是 0，也就是沿着第 0 个维度的方向进行拼接，即行拼接，axis的意思是轴
# axis的值为 1 时，就是沿着第 1 个维度的方向进行拼接，即进行列拼接
np.concatenate([A, A], axis = 1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

In [81]:
np.concatenate([A, z])

ValueError: all the input arrays must have same number of dimensions

In [82]:
A.ndim

2

In [83]:
z.ndim 

1

In [84]:
# A是一个二维的矩阵，而 z 是一个一维的向量，所以不能直接进行运算
# np.concatenate()只能处理维数一样的情况
np.concatenate([A, z.reshape(-1, 3)])

array([[  1,   2,   3],
       [  4,   5,   6],
       [666, 666, 666]])

In [85]:
A

array([[1, 2, 3],
       [4, 5, 6]])

In [86]:
z

array([666, 666, 666])

In [87]:
A2 = np.concatenate([A, z.reshape(-1, 3)])
A2

array([[  1,   2,   3],
       [  4,   5,   6],
       [666, 666, 666]])

In [88]:
# v 就是 vertical的意思，就是在垂直方向上进行拼接
# vstack()的容错性更好，它可以把两个数组进行垂直方向的叠加，即使它们的维度不同
np.vstack([A, z])

array([[  1,   2,   3],
       [  4,   5,   6],
       [666, 666, 666]])

In [90]:
# h 就是 Horizontally，就是将数组进行水平方向上面的拼接
B = np.full((2, 2), 100)
B

array([[100, 100],
       [100, 100]])

In [91]:
np.hstack([A, B])

array([[  1,   2,   3, 100, 100],
       [  4,   5,   6, 100, 100]])

In [93]:
# np.hstack([A, z.reshape(-1, 3)])

ValueError: all the input array dimensions except for the concatenation axis must match exactly

In [94]:
# np.hstack([A, z.reshape(-1, 3)])

ValueError: all the input arrays must have same number of dimensions

### 分割操作

In [95]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [96]:
# split()是进行分割的一个函数，传入的第一个参数是被分割的数组对象，传入的第二个参数是一个列表
# 在这个列表中可以指定多个分割点
# 跟数据的切片规则是一样的，相当于从 0 到 3 ，但是 3 不包含
x1, x2, x3 = np.split(x, [3, 7])

In [97]:
# x1 相当于是[:3]
x1 

array([0, 1, 2])

In [98]:
# x2 相当于是[3:7]
x2

array([3, 4, 5, 6])

In [99]:
# x3 相当于是[7:]
x3

array([7, 8, 9])

In [100]:
x4, x5 = np.split(x, [5])

In [101]:
# x4相当于是[:5]
x4

array([0, 1, 2, 3, 4])

In [102]:
# x5相当于是[5:]
x5

array([5, 6, 7, 8, 9])

In [109]:
C = np.arange(16).reshape(4,4)
C

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [110]:
# 在二维的分割操作中，我们默认的是基于行来进行分割的，也就是第 0 个维度来进行分割的
C1, C2 = np.split(C, [2])

In [111]:
# C1 相当于是 C [:2]
C1

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [112]:
# C2 相当于是 C [2:]
C2

array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [114]:
C3, C4 = np.split(C, [2], axis = 1)

In [115]:
C3

array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]])

In [116]:
C4

array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])

In [120]:
# v 就是 vertical的意思，就是在垂直方向上进行分割
upper, lower = np.vsplit(C, [2])

In [121]:
upper

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [122]:
lower

array([[ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [123]:
# h 就是 Horizontally，就是将数组进行水平方向上面的分割
left, right = np.hsplit(C, [2])

In [124]:
left

array([[ 0,  1],
       [ 4,  5],
       [ 8,  9],
       [12, 13]])

In [125]:
right

array([[ 2,  3],
       [ 6,  7],
       [10, 11],
       [14, 15]])

In [126]:
data = np.arange(16).reshape(4, 4)
data

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [130]:
# X, y = np.hsplit(data, [3])
X, y = np.hsplit(data, [-1])

In [131]:
X

array([[ 0,  1,  2],
       [ 4,  5,  6],
       [ 8,  9, 10],
       [12, 13, 14]])

In [132]:
y

array([[ 3],
       [ 7],
       [11],
       [15]])

In [136]:
# 千万不要忘记中间的逗号，这个很重要
y[:, 0]

array([ 3,  7, 11, 15])