# numpy入门

[toc]

## 基础

NumPy的主要对象是齐次多维数组。它是由非负整数元组索引的所有**类型相同的元素**（通常为数字）表。在NumPy中，尺寸称为轴。

例如，3D空间中的点的坐标[1, 2, 1]只有一个轴。该轴上有3个元素，所以我们说它的长度为3。在下图所示的示例中，数组有2个轴。第一轴的长度为2，第二轴的长度为3。

```
[[1.,0.,0.],
[0.,1.,2.]]
```

NumPy的数组类称为`ndarray`。也被称为别名 array。请注意，numpy.array这与标准Python库类不同array.array，后者仅处理一维数组且功能较少。`ndarray`对象的更重要属性是：

`ndarray.ndim`
数组的轴数（尺寸）。

`ndarray.shape`
数组的尺寸。这是一个整数元组，指示每个维度中数组的大小。对于具有n行和m列的矩阵，shape将为(n,m)。shape因此，元组的长度 为轴数ndim。

`ndarray.size`
数组元素的总数。这等于的元素的乘积shape。

`ndarray.dtype`
一个对象，描述数组中元素的类型。可以使用标准Python类型创建或指定dtype。另外，NumPy提供了自己的类型。numpy.int32，numpy.int16和numpy.float64是一些示例。

`ndarray.itemsize`
数组中每个元素的大小（以字节为单位）。例如，类型为元素的数组float64具有itemsize8（= 64/8），而类型complex32中的一个元素具有itemsize4（= 32/8）。等同于ndarray.dtype.itemsize。

`ndarray.data`
包含数组实际元素的缓冲区。通常，我们不需要使用此属性，因为我们将使用索引工具访问数组中的元素。
 

### 一个例子

In [1]:
import numpy as np

In [2]:
a=np.arange(15).reshape(3,5)

In [3]:
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [4]:
a.shape

(3, 5)

In [5]:
a.ndim

2

In [6]:
a.dtype

dtype('int32')

In [7]:
a.itemsize

4

In [8]:
a.size

15

In [9]:
type(a)

numpy.ndarray

### 矩阵创建

In [10]:
import numpy as np

In [11]:
a=np.array([2,3,4])

In [12]:
a

array([2, 3, 4])

In [13]:
a.dtype

dtype('int32')

In [14]:
b=np.array([1.2,3.4,5.6])

In [15]:
b

array([1.2, 3.4, 5.6])

In [16]:
b.dtype

dtype('float64')

注意：array只接受一个列表参数,()和[]没有区别

In [17]:
b=np.array((1,2,3))

In [18]:
b

array([1, 2, 3])

In [19]:
b=np.array([[1,2,3],[1,2,3]])

In [20]:
b

array([[1, 2, 3],
       [1, 2, 3]])

指定数组元素类型

In [21]:
b=np.array([1,2],dtype=float)

In [22]:
b

array([1., 2.])

通常，数组的元素最初是未知的，但是其大小是已知的。因此，NumPy提供了几个函数来创建具有初始占位符内容的数组。这些将增长阵列的必要性降至最低，这是一项昂贵的操作。
`zeros`,`ones`和`empty`。
empty的内容随机，取决于内存的状态。

In [23]:
np.zeros([2,3])

array([[0., 0., 0.],
       [0., 0., 0.]])

In [24]:
np.ones([2,3,4])

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])

In [25]:
np.empty([2,2])

array([[1.49891303e-311, 2.46151512e-312],
       [2.37663529e-312, 2.33645657e-307]])

为了创建数字序列，NumPy提供了`arange`类似于Python内置函数的功能`range`，但是返回一个数组(ndarray)。注意，是`arange`,而不是**arrang**。

In [26]:
np.arange(10,30,5)

array([10, 15, 20, 25])

In [27]:
np.arange(0.1,3,0.5)

array([0.1, 0.6, 1.1, 1.6, 2.1, 2.6])

当arange用浮点参数使用时，它通常是不可能预测得到的元件的数量，因为有限浮点精度。因此，通常最好使用将`linspace`所需元素数量而不是步长作为参数的函数：

In [28]:
np.linspace(0,2,9)# 0-2中间的9个数

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

### 打印矩阵

In [29]:
a=np.arange(6)
print(a)

[0 1 2 3 4 5]


In [30]:
b=np.arange(12).reshape(4,3)
print(b)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [31]:
c=np.arange(24).reshape(2,3,4)
print(c)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


如果数组太大而无法打印，NumPy会自动跳过数组的中心部分，仅打印角点：

In [32]:
print(np.arange(10000))

[   0    1    2 ... 9997 9998 9999]


In [33]:
print(np.arange(10000).reshape(100,100))

[[   0    1    2 ...   97   98   99]
 [ 100  101  102 ...  197  198  199]
 [ 200  201  202 ...  297  298  299]
 ...
 [9700 9701 9702 ... 9797 9798 9799]
 [9800 9801 9802 ... 9897 9898 9899]
 [9900 9901 9902 ... 9997 9998 9999]]


要禁用此行为并强制NumPy打印整个数组，可以使用更改打印选项set_printoptions。

> np.set_printoptions(threshold=sys.maxsize)       # sys module should be imported

### 基本操作

矩阵的操作是按每个元素操作，相当于高阶函数的`forEach`.

In [34]:
import numpy as np

In [35]:
a=np.array([1,2,3,4])
b=np.ones([1,4],dtype=int)
print(a)
print(b)

[1 2 3 4]
[[1 1 1 1]]


In [36]:
a+b

array([[2, 3, 4, 5]])

In [37]:
a-b

array([[0, 1, 2, 3]])

In [38]:
a*2

array([2, 4, 6, 8])

In [39]:
a**2

array([ 1,  4,  9, 16], dtype=int32)

In [40]:
np.sin(a)

array([ 0.84147098,  0.90929743,  0.14112001, -0.7568025 ])

In [41]:
a<3 

array([ True,  True, False, False])

矩阵乘法

In [42]:
a=np.random.randint(low=0,high=10,size=[3,3])
b=np.random.randint(low=0,high=10,size=[3,3])
print(a)
print(b)

[[9 5 2]
 [0 6 3]
 [8 4 3]]
[[7 9 9]
 [4 4 1]
 [1 8 8]]


In [43]:
a.dot(b)

array([[ 85, 117, 102],
       [ 27,  48,  30],
       [ 75, 112, 100]])

In [44]:
a@b #python>3.5

array([[ 85, 117, 102],
       [ 27,  48,  30],
       [ 75, 112, 100]])

In [45]:
a*b #这个不是矩阵的乘法，而是每个对应的元素相乘

array([[63, 45, 18],
       [ 0, 24,  3],
       [ 8, 32, 24]])

`-=,+=,*=,/=`

In [46]:
a = np.ones((2,3), dtype=int)
a

array([[1, 1, 1],
       [1, 1, 1]])

In [47]:
b = np.random.random((2,3))
b

array([[0.74703984, 0.31495358, 0.08485912],
       [0.41766129, 0.49872168, 0.83295029]])

In [48]:
a*=3
a

array([[3, 3, 3],
       [3, 3, 3]])

In [49]:
b+=a
b

array([[3.74703984, 3.31495358, 3.08485912],
       [3.41766129, 3.49872168, 3.83295029]])

In [50]:
b-=a
b

array([[0.74703984, 0.31495358, 0.08485912],
       [0.41766129, 0.49872168, 0.83295029]])

In [51]:
b/=2
b

array([[0.37351992, 0.15747679, 0.04242956],
       [0.20883064, 0.24936084, 0.41647514]])

在`ndarray`上的操作

In [52]:
a=np.random.random([2,3])
a

array([[0.8922491 , 0.00557206, 0.53177607],
       [0.03872561, 0.94360535, 0.75775288]])

In [53]:
a.sum()

3.169681082426908

In [54]:
a.max()

0.9436053478354198

In [55]:
a.min()

0.005572064338088767

对axis的理解见：https://blog.csdn.net/sky_kkk/article/details/79725646

**总结：n维的axis最大为n-1，最小为0，0代表最外层的括号，1为里面一层的括号，2为里面两层的括号，以此类推。**

**对第i维进行运算时，以第i维对应括号里面的最大单位进行运算，运算后，去除第i维对应的括号。**


In [56]:
b = np.arange(12).reshape(3,4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [57]:
b.sum(axis=0)

array([12, 15, 18, 21])

In [58]:
b.min(axis=1)

array([0, 4, 8])

In [59]:
b.cumsum(axis=1) # 累积相加值

array([[ 0,  1,  3,  6],
       [ 4,  9, 15, 22],
       [ 8, 17, 27, 38]], dtype=int32)

### 通用功能

In [60]:
B=np.arange(3)
B

array([0, 1, 2])

In [61]:
np.exp(B)

array([1.        , 2.71828183, 7.3890561 ])

In [62]:
np.sqrt(B)

array([0.        , 1.        , 1.41421356])

In [63]:
C=np.array([2,-1,4])
np.add(B,C)

array([2, 0, 6])

### 索引，切片和循环

In [64]:
a=np.arange(10)**3
a

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729], dtype=int32)

In [65]:
a[2:5]# 不包括5

array([ 8, 27, 64], dtype=int32)

In [66]:
a[:6:2]=1000 # python列表也可以这么用

In [67]:
a

array([1000,    1, 1000,   27, 1000,  125,  216,  343,  512,  729],
      dtype=int32)

In [68]:
a[::-1]# 倒序，python列表也可以这么用

array([ 729,  512,  343,  216,  125, 1000,   27, 1000,    1, 1000],
      dtype=int32)

In [69]:
for i in a:
    print(i,end=' ')

1000 1 1000 27 1000 125 216 343 512 729 

多维数组的每个轴有一个索引，用`,`分割，可以用`:`来划定所需索引的范围。

In [70]:
def f(x,y):
    return 10*x+y
b=np.fromfunction(f,(5,4),dtype=int)
b

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23],
       [30, 31, 32, 33],
       [40, 41, 42, 43]])

In [71]:
b[2,3]

23

In [72]:
b[0:5,3]

array([ 3, 13, 23, 33, 43])

In [73]:
b[:,3]

array([ 3, 13, 23, 33, 43])

In [74]:
b[1,:]

array([10, 11, 12, 13])

括号中的表达式b[i]被视为i 后跟:表示所需数量的剩余轴实例。NumPy还允许您将点写为 b[i,...]。

In [75]:
c=np.arange(24).reshape(2,3,4)
c

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [76]:
c.shape

(2, 3, 4)

In [77]:
c[1,...]

array([[12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23]])

In [78]:
c[1]

array([[12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23]])

In [79]:
c[...,2]

array([[ 2,  6, 10],
       [14, 18, 22]])

可以将多维数组中的值拉直，变成一维。

In [80]:
c.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

## 外形操纵

### 改变矩阵形状

In [81]:
a=np.floor(10*np.random.random((3,4)))
a

array([[9., 6., 9., 1.],
       [9., 4., 9., 5.],
       [3., 5., 7., 0.]])

In [82]:
a.shape

(3, 4)

数组的形状可以使用各种命令来更改。请注意，以下三个命令均返回修改后的数组，但不更改原始数组：

In [83]:
a.ravel()

array([9., 6., 9., 1., 9., 4., 9., 5., 3., 5., 7., 0.])

In [84]:
a.T

array([[9., 9., 3.],
       [6., 4., 5.],
       [9., 9., 7.],
       [1., 5., 0.]])

In [85]:
a.T.shape

(4, 3)

In [86]:
a.shape

(3, 4)

该`reshape`函数以修改后的形状返回其参数，而该 `ndarray.resize`方法修改了数组本身：

In [87]:
a

array([[9., 6., 9., 1.],
       [9., 4., 9., 5.],
       [3., 5., 7., 0.]])

In [88]:
a.resize(2,6)
a

array([[9., 6., 9., 1., 9., 4.],
       [9., 5., 3., 5., 7., 0.]])

如果在整形操作中给定尺寸为-1，则会自动计算其他尺寸：

In [89]:
a.reshape(3,-1)

array([[9., 6., 9., 1.],
       [9., 4., 9., 5.],
       [3., 5., 7., 0.]])

### 矩阵堆叠

In [90]:
a=np.floor(10*np.random.random((2,2)))
a

array([[0., 9.],
       [2., 4.]])

In [91]:
b=np.floor(10*np.random.random((2,2)))
b

array([[1., 1.],
       [3., 8.]])

In [92]:
np.vstack((a,b))

array([[0., 9.],
       [2., 4.],
       [1., 1.],
       [3., 8.]])

In [93]:
np.hstack((a,b))

array([[0., 9., 1., 1.],
       [2., 4., 3., 8.]])

### 将一个数组拆分为几个较小的数组

In [94]:
a = np.floor(10*np.random.random((2,12)))

In [95]:
np.hsplit(a,3)

[array([[9., 2., 5., 6.],
        [1., 8., 1., 4.]]), array([[8., 6., 1., 2.],
        [3., 9., 2., 1.]]), array([[7., 4., 9., 8.],
        [6., 7., 6., 8.]])]

## 复制和视图

### 完全没有复制

In [96]:
a=np.arange(12)

In [97]:
b=a

In [98]:
b is a

True

In [99]:
b.shape=3,4

In [100]:
a.shape

(3, 4)

### 查看或浅拷贝

不同的数组对象可以共享相同的数据。该`view`方法创建一个查看相同数据的新数组对象。

In [101]:
c=a.view()

In [102]:
c is a

False

In [103]:
c.base is a

True

In [104]:
c.flags.owndata

False

In [105]:
c.shape=2,6

In [106]:
c[0,4]=1111

In [107]:
a.shape

(3, 4)

In [108]:
a

array([[   0,    1,    2,    3],
       [1111,    5,    6,    7],
       [   8,    9,   10,   11]])

`切片数组`将返回其视图：

In [109]:
s=a[:,1:3]

In [110]:
s[:]=10

In [111]:
a

array([[   0,   10,   10,    3],
       [1111,   10,   10,    7],
       [   8,   10,   10,   11]])

### 深拷贝

In [112]:
d=a.copy()

In [113]:
d is a

False

In [114]:
d.base is a

False

In [115]:
d[0,0]=9999

In [116]:
a

array([[   0,   10,   10,    3],
       [1111,   10,   10,    7],
       [   8,   10,   10,   11]])

可以深拷贝一部分

In [117]:
a=np.arange(int(1e8))

In [118]:
b=a[:100].copy()

In [119]:
del a

### 函数和方法概述

Array Creation
arange, array, copy, empty, empty_like, eye, fromfile, fromfunction, identity, linspace, logspace, mgrid, ogrid, ones, ones_like, r_, zeros, zeros_like

Conversions
ndarray.astype, atleast_1d, atleast_2d, atleast_3d, mat

Manipulations
array_split, column_stack, concatenate, diagonal, dsplit, dstack, hsplit, hstack, ndarray.item, newaxis, ravel, repeat, reshape, resize, squeeze, swapaxes, take, transpose, vsplit, vstack

Questions
all, any, nonzero, where

Ordering
argmax, argmin, argsort, max, min, ptp, searchsorted, sort

Operations
choose, compress, cumprod, cumsum, inner, ndarray.fill, imag, prod, put, putmask, real, sum

Basic Statistics
cov, mean, std, var

Basic Linear Algebra
cross, dot, outer, linalg.svd, vdot