# Numpy简明教程 

Numpy是高性能科学计算和数据分析的基础包。主要对象是ndarray，它是一个N维数组对象，内部数据必须是同一种数据类型，也称为通用的同构数据多维容器。

In [1]:
import numpy as np

## 基础属性
ndarray比较重要的属性包括ndim, shape与dtype等。

In [2]:
# 创建ndarray数组，3行4列二维数组，reshape后面再详细讲
a = np.arange(12).reshape(4, 3)

In [3]:
# ndim 在numpy中，维度称为axes（dimension），其值称为rank。 如a的rank为2
a.ndim

2

In [4]:
# shape 表示各维度大小的元组
a.shape

(4, 3)

In [5]:
# size array中的元素个数
a.size

12

In [6]:
# dtype 数据类型，ndarray中的数据类型必须一致
a.dtype.name

'int32'

In [7]:
# itemsize 每个元素的大小，以byte为单位
a.itemsize

4

In [8]:
# data 实际元素内容的内存，一般情况下我们无需此属性。
a.data

<memory at 0x000001DE05320B40>

## 创建ndarray

In [9]:
# 通过array方法，直接通过数组创建. dtype可以显示指定，numpy也可以自动推断。默认int32(这与numpy官方例子中的返回值不同，它为int64)
# 注意，必须传递一个数组[],而不是多个参数np.array(0,1,2)。会报错。
a = np.array([0,1,2])
a.dtype.name

'int32'

In [10]:
b = np.array([1.1, 2.2, 3.3])
b.dtype.name

'float64'

In [11]:
# 用数组嵌套数组的方式，可以创建多维ndarray。同时，可以显示指定dtype为float64
c = np.array([[0,1],[2,3]],dtype=np.float64)
c

array([[ 0.,  1.],
       [ 2.,  3.]])

In [12]:
# 提供了一些简便方法，来创建有初值的ndarray。注意，默认dtype为float64
# zeros 全0. 注意，参数必须是一个元组。
np.zeros((2,2))

array([[ 0.,  0.],
       [ 0.,  0.]])

In [13]:
np.ones((2,2))

array([[ 1.,  1.],
       [ 1.,  1.]])

In [14]:
# 虽然在我机器上为全0，但官方例子说是随机值，取决于内存。
np.empty((2,2))

array([[ 0.,  0.],
       [ 0.,  0.]])

In [15]:
# arange，提供了类似range的创建一系列数的方式
np.arange(10, 30, 5)

array([10, 15, 20, 25])

In [16]:
# 对于float数值，最好用linspace指定个数，而非使用arange来指定step。
np.arange(0, 2, 0.25)

array([ 0.  ,  0.25,  0.5 ,  0.75,  1.  ,  1.25,  1.5 ,  1.75])

In [17]:
np.linspace(0, 2, 9)

array([ 0.  ,  0.25,  0.5 ,  0.75,  1.  ,  1.25,  1.5 ,  1.75,  2.  ])

## ndarray的数据类型及转换
dtype是一个特殊的对象，它含有ndarray将一块内存解释为特定数据类型所需的信息。多数情况下，它们直接映射到响应的机器表示。数值型dtype的命名方式相同：一个类型名(int or float)加上元素位长的数字。例如int8, int16, uint8, float32, float64等。详细参见[标量数据类型](https://docs.scipy.org/doc/numpy/reference/arrays.scalars.html#arrays-scalars-built-in)

In [18]:
a = np.array([0, 1, 2])
a.dtype

dtype('int32')

In [19]:
# name 数据类型名
a.dtype.name

'int32'

In [20]:
# type 数据类型
a.dtype.type

numpy.int32

### astype 显示转换dtype
astype用于将一种类型的ndarray转换为另一种数据类型。无论如何都会返回一个新对象，即使dtype实际没变化。

In [21]:
# astype用于将一种类型的ndarray转换为另一种数据类型。
a.astype(np.float64)

array([ 0.,  1.,  2.])

In [22]:
# astype 当float转换为int时，数据被截断。也可以将字符串转为数值，转换失败会引发TypeError
strings = np.array(['1.0', '1.5', '2.0'])
strings.astype(np.float64)

array([ 1. ,  1.5,  2. ])

## 基本操作
### 普通算术运算
ndarray与标量(scalar)之间的操作，支持直接使用数学运算符，都是针对元素级的操作。最终会产生一个新的array。
它使你不用编写循环即可对数据执行批量操作，通常叫做矢量化(vectorization)。

In [23]:
a = np.array([10, 20, 30])
b = np.arange(3)
a - b

array([10, 19, 28])

In [24]:
b ** 2

array([0, 1, 4])

In [25]:
10*np.sin(a)

array([-5.44021111,  9.12945251, -9.88031624])

In [26]:
a < 25

array([ True,  True, False], dtype=bool)

### 矩阵乘法dot
注意：乘法符号 \* 是元素级乘法，而非矩阵乘法。需要使用.dot函数执行矩阵乘法。这与Matlab是不同的。

In [27]:
A = np.array([[1, 1], [0, 1]])
B = np.array([[2, 0], [3, 4]])
A*B

array([[2, 0],
       [0, 4]])

In [28]:
A.dot(B)

array([[5, 4],
       [3, 4]])

In [29]:
np.dot(A, B)

array([[5, 4],
       [3, 4]])

### 向上转换
当操作不同类型的ndarray时，结果类型会使用更通用和精确的类型，通常叫做upcasting。

In [30]:
# ones默认为float类型，此处强制指定为int
a = np.ones(3, dtype=np.int32)
b = np.linspace(0, np.pi, 3)
a + b

array([ 1.        ,  2.57079633,  4.14159265])

### 基于轴axis的统计函数
很多数据统计方法，实现为ndarray的成员函数，例如sum, mean, max, min等

In [31]:
a = np.random.random((2, 3))
a.sum()

3.675174677774625

In [32]:
a.min()

0.069550104112379163

In [33]:
a.max()

0.97007743720844586

基于轴axis的统计，上述统计函数，支持参数axis，支持不同方向的统计。axis的理解比较费解，可以理解为按照哪个轴压缩。例如axis=0表示按照横轴压缩，所有行称为1个数。

In [34]:
b = np.arange(12).reshape(3,4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [35]:
# axis 0 每一列
b.sum(axis=0)

array([12, 15, 18, 21])

In [36]:
# axis 1 每一行
b.sum(axis=1)

array([ 6, 22, 38])

In [37]:
b.min(axis=0)

array([0, 1, 2, 3])

In [38]:
b.min(axis=1)

array([0, 4, 8])

In [39]:
b.cumsum(axis=0)

array([[ 0,  1,  2,  3],
       [ 4,  6,  8, 10],
       [12, 15, 18, 21]], dtype=int32)

In [40]:
b.cumsum(axis=1)

array([[ 0,  1,  3,  6],
       [ 4,  9, 15, 22],
       [ 8, 17, 27, 38]], dtype=int32)

### 通用计算函数
numpy提供了sin, cos, exp等通用计算函数，称为universial function(ufunc)。执行元素级操作，返回新的array。

In [41]:
a = np.arange(3)
np.exp(a)

array([ 1.        ,  2.71828183,  7.3890561 ])

In [42]:
np.sqrt(a)

array([ 0.        ,  1.        ,  1.41421356])

In [43]:
np.sin(a)

array([ 0.        ,  0.84147098,  0.90929743])

In [44]:
b = np.array([3, 4, 5])
np.add(a, b)

array([3, 5, 7])

## 索引、切片与迭代

对于一维ndarray，索引、切片与迭代操作都与python自带的list相同

In [45]:
a = np.arange(10)**3
a

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729], dtype=int32)

In [46]:
a[2]

8

In [47]:
a[2:5]

array([ 8, 27, 64], dtype=int32)

In [48]:
# 下述操作等同于a[0:6:2],从0到6（不包含6），step为2
a[:6:2] = -1000
a

array([-1000,     1, -1000,    27, -1000,   125,   216,   343,   512,   729], dtype=int32)

In [49]:
# reverse 反向序列的用法
a[::-1]

array([  729,   512,   343,   216,   125, -1000,    27, -1000,     1, -1000], dtype=int32)

In [50]:
# 迭代使用for in
for elem in a:
    pass

对于多维ndarray,每个轴axis都可指定索引。用逗号分隔的tuple来指定。

In [51]:
b = np.arange(20).reshape(5,4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

In [52]:
b[2,3]

11

In [53]:
# 第一列的所有行，相当于b[0:5, 1],结果的shape为一维（5，）
b[:, 1]

array([ 1,  5,  9, 13, 17])

In [54]:
b[1:3, :]

array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

对于省略号(dot ...)表示全部用:填充。例如x如果是一个5维数组，那么x[1,2,...]相当于x[1,2,:,:,:]；x[...,3]相当于x[:,:,:,:,3]

In [56]:
c = np.array([[[0, 1, 2], [1, 2, 3]],[[100,101,102],[101,102,103]]])

In [57]:
c.shape

(2, 2, 3)

In [58]:
c[1,...]

array([[100, 101, 102],
       [101, 102, 103]])

In [59]:
c[...,2]

array([[  2,   3],
       [102, 103]])

迭代多维数组的元素，可以用flat属性

In [62]:
for element in a.flat:
    print(element)

-1000
1
-1000
27
-1000
125
216
343
512
729


## shape操作
