## 如何引入numpy
下面的引用语句已经是惯例了。

In [1]:
import numpy as np

## ndarray对象
numpy提供了ndarray对象，其有点类似于python的列表，但有以下区别：

1.  numpy的ndarray对象内部的各个item是相同的数据类型，都占用相同的内存大小。
2.  numpy的ndarray对象比python的列表更高效，占用空间更小，运算速度更快。
3.  numpy的ndarray对象提供了丰富的API支持，让科学计算变得更容易。

在后面提到array或者数组的时候就是指numpy的ndarray对象。

## 创建一个一维数组

In [2]:
a_1 = np.array([1, 5, 2, 0])
a_1

array([1, 5, 2, 0])

## 创建一个二维数组

In [3]:
a_2 = np.array([[1, 5, 2,0],[8,3,6,1],[1,7,2,9]])
a_2

array([[1, 5, 2, 0],
       [8, 3, 6, 1],
       [1, 7, 2, 9]])

## 多维数组的维度和shape


In [4]:
a_2.ndim

2

In [5]:
a_2.shape

(3, 4)

### numpy里面轴的概念

numpy里的轴的概念大体类似于张量里面描述的维度的概念，所以经常看到这两个词在描述上相互混用，这大体是没有问题的。人们要描述在那个轴或维度上元素的容量，说轴的大小，或者该维度的长度这样的长形容词当然是没有问题，唯一要注意的是如果说轴数或者维数，很容易误解为是在描述轴的数目或者维度的数目，但也有这样的区分尝试，那就是试着将维度和维数这两个词进行概念的区分，维度的数目称之为阶数，而该维度上元素的数目称之为维数，这似乎更多是英文语境上的尝试，中文语境上维数还是非常容易误解为就是在描述维度的数目，直接说该维度的长度或者该维度的容量，含义清晰明确很多。

以上面的a_2举例来说明，其维度为2，有两个轴，其中维度0在numpy里面有时会称为轴0，轴0的大小为3，也就是容纳了三个元素；轴1的大小为4，也就是容纳了四个元素。

对于二维数组或者说类似矩阵的情况，可以用维度0垂直向下，维度1水平向右，按照某个维度操作之后都会降维到一维数组，这还是很方便的。

但对于更高的维度上的理解，从空间想象角度出发并不是一个好主意。下面提供了一些理解思路：

1. 从取值的角度理解，比如比如上面的a_2的元素3，其具体定位为维度0=1，轴1=1，也就是(1,1)。

2. 多维数组执行按照某个维度的操作，先将目标数组按照指定维度拆分，然后将这些拆分出来的数组应用目标函数。看下面详细的例子：

In [6]:
a_2[1,1]

np.int64(3)

In [7]:
a_2

array([[1, 5, 2, 0],
       [8, 3, 6, 1],
       [1, 7, 2, 9]])

In [8]:
# 按照维度0进行拆分
a_2[0,:]

array([1, 5, 2, 0])

In [9]:
a_2[1,:]

array([8, 3, 6, 1])

In [10]:
a_2[2,:]

array([1, 7, 2, 9])

`a_2.sum(axis=0)` 可以理解为  `= sum(a_2[0,:],a_2[1,:], a_2[2,:])` 。

In [11]:
a_2.sum(axis=0)

array([10, 15, 10, 10])

再来看看三维的情况。

In [12]:
a_3 = np.arange(1,25)
a_3 = a_3.reshape((2,3,4))
a_3

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[13, 14, 15, 16],
        [17, 18, 19, 20],
        [21, 22, 23, 24]]])

In [13]:
a_3[:,0,:]

array([[ 1,  2,  3,  4],
       [13, 14, 15, 16]])

In [14]:
a_3[:,1,:]

array([[ 5,  6,  7,  8],
       [17, 18, 19, 20]])

In [15]:
a_3[:,2,:]

array([[ 9, 10, 11, 12],
       [21, 22, 23, 24]])

`a_3.sum(axis=1)` 可以理解为 `= sum(a_3[:,0,:], a_3[:,1,:], a_3[:,2,:])` 。

In [16]:
a_3.sum(axis=1)

array([[15, 18, 21, 24],
       [51, 54, 57, 60]])

## 创建一个全是0的多维数组

In [17]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [18]:
np.zeros((4,6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

## 创建一个全是1的多维数组

In [19]:
np.ones(9)

array([1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [20]:
np.ones((3,4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

## arange函数
返回一个一维数组，大体类似于python内置的range函数。

arange函数的应用场景是从start到end的某个step的整数序列，因为是整数，加上半开半闭区间规则，最终输出元素数量是很清晰的，但如果里面有小数，输出情况就不是那么容易想象了，这时推荐使用linspace函数。

In [21]:
np.arange(1,5)

array([1, 2, 3, 4])

## linspace函数
返回一个一维数组，参数确定了开始数和结束数，第三个参数是你想要多少个数。

In [22]:
np.linspace(1,5,10)

array([1.        , 1.44444444, 1.88888889, 2.33333333, 2.77777778,
       3.22222222, 3.66666667, 4.11111111, 4.55555556, 5.        ])

## 由一维数组变形为多维数组

In [23]:
a_3 = np.arange(1,25)
a_3
a_3 = a_3.reshape((2,3,4))
a_3

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[13, 14, 15, 16],
        [17, 18, 19, 20],
        [21, 22, 23, 24]]])

## 多维数组的按元素运算
如果一个多维数组和一个标量进行某种运算，这意味着该数组的各个元素分别和该标量进行那种运算。

如果两个多维数组是相同的形状，它们之间进行某种运算numpy的处理是这两个多维数组对应的元素分别进行相应的那种运算，再组成新的数组。

numpy在进行上述两种运算任务，当然也需要用循环逐个遍历多维数组，只是具体实现的代码是更快的C语言实现，这正是numpy更高效的一大原因。


In [24]:
# 标量和多维数组进行按元素运算
np.ones((3,4)) * 2

array([[2., 2., 2., 2.],
       [2., 2., 2., 2.],
       [2., 2., 2., 2.]])

In [25]:
# 前面的乘法并不是矩阵的乘法，而是两个同样3行4列的多维数组按元素相乘 
a_2 * np.ones((3,4)) * 2

array([[ 2., 10.,  4.,  0.],
       [16.,  6., 12.,  2.],
       [ 2., 14.,  4., 18.]])

## 索引和切片
numpy多维数组的索引和切片语法和python的列表语法大体类似，尤其是在一维数组的情况下，在多维数组的时候，numpy提供了额外的索引某个元素的语法： `a_2[0,1]` ，含义就是取元素的值位置在轴0=0，轴1=1的位置。

In [26]:
a_2[0,1]

np.int64(5)

索引的话含义大体和python中列表的索引含义相同，获得一个指向原数据的扳手，但numpy的多维数组的切片和python列表的切片有个很大的不同：**多维数组的切片创建的是一个视图**。这里视图的意思是仍然是一个指向原数据的扳手，而python列表的切片是另外创建一个新的列表了。


In [27]:
# resize和reshape的区别就是resize是原地修改的
a_4 = np.arange(0,10)
a_4.resize((2,5))
a_4

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [28]:
a_4[:,1:3]

array([[1, 2],
       [6, 7]])

In [29]:
a_4[:,1:3] = 10
a_4

array([[ 0, 10, 10,  3,  4],
       [ 5, 10, 10,  8,  9]])

## 多维数组的copy方法
如果你希望获得某个切片的副本而不是视图，可以调用该切片的copy方法: `a_4[:,1:3].copy()`

## 布尔型索引


## 生成随机数多维数组


In [30]:
np.random.rand(3, 4)

array([[0.04950243, 0.20738574, 0.97313375, 0.22513964],
       [0.5927912 , 0.10001815, 0.78786689, 0.92651094],
       [0.81989975, 0.84893898, 0.31976775, 0.30911042]])

## 多维数组的堆叠操作

- `np.vstack()`  垂直堆叠
- `np.hstack()`  水平堆叠
- `np.hsplit()`  多维数组水平切分

这些在线性代数中很有用，后面再讨论。

## 广播机制
numpy内部实现广播机制来实现内部计算加速，但是上层应用使用这种广播机制编码并不是一个好的编码风格，这个和隐式类型转换一样，能少用就少用。

我不想对这这个广播机制做太多介绍，一个简单的理解就是numpy在对不同形状的数组进行某种运算的时候，会先试着运用广播机制，让这两个数组变得形状一样，好进行按元素的运算。具体情况请看下面例子：

In [31]:
a_5 = np.arange(3).reshape((3, 1))
a_6 = np.arange(2).reshape((1, 2))
print(a_5)
print(a_6)

[[0]
 [1]
 [2]]
[[0 1]]


建议先观察下如果应用广播规则输出的情况。

In [32]:
np.broadcast_arrays(a_5, a_6)

(array([[0, 0],
        [1, 1],
        [2, 2]]),
 array([[0, 1],
        [0, 1],
        [0, 1]]))

In [33]:
a_5 + a_6

array([[0, 1],
       [1, 2],
       [2, 3]])