In [212]:
import numpy as np

In [213]:
np.__version__

'1.9.1'

# NumPy-快速处理数据

## `ndarray`对象

### 创建

In [214]:
a = np.array([1, 2, 3, 4])
b = np.array((5, 6, 7, 8))
c = np.array([[1, 2, 3, 4], [4, 5, 6, 7], [7, 8, 9, 10]])

In [215]:
a.shape, b.shape, c.shape

((4,), (4,), (3, 4))

In [216]:
c.shape = 4, 3
c

array([[ 1,  2,  3],
       [ 4,  4,  5],
       [ 6,  7,  7],
       [ 8,  9, 10]])

In [217]:
c.shape = 2, -1
c

array([[ 1,  2,  3,  4,  4,  5],
       [ 6,  7,  7,  8,  9, 10]])

In [218]:
d = a.reshape(2,2) # 也可以用a.reshape((2,2))

In [219]:
a

array([1, 2, 3, 4])

In [220]:
d

array([[1, 2],
       [3, 4]])

由reshape联系的两个数组虽然形状不同，但是共享数据存储空间

In [221]:
a[1] = 100 # 将数组a的第1个元素改为100

In [222]:
d

array([[  1, 100],
       [  3,   4]])

### 元素类型

dtype做属性名

In [223]:
c.dtype

dtype('int32')

dtype做关键字参数

In [224]:
ai32 = np.array([1, 2, 3, 4], dtype=np.int32)
af = np.array([1, 2, 3, 4], dtype=float)
ac = np.array([1, 2, 3, 4], dtype=complex)

ai32.dtype, af.dtype, ac.dtype

(dtype('int32'), dtype('float64'), dtype('complex128'))

输出np.float64的所有字符换表示

In [225]:
[key for key, value in np.typeDict.items() if value is np.float64]

[12, 'd', 'float64', 'float_', 'float', 'f8', 'double', 'Float64']

输出numpy中所有的类型名

In [226]:
set(np.typeDict.values())

{numpy.bool_,
 numpy.object_,
 numpy.string_,
 numpy.unicode_,
 numpy.void,
 numpy.int8,
 numpy.int16,
 numpy.int32,
 numpy.int32,
 numpy.int64,
 numpy.uint8,
 numpy.uint16,
 numpy.uint32,
 numpy.uint32,
 numpy.uint64,
 numpy.float16,
 numpy.float32,
 numpy.float64,
 numpy.float64,
 numpy.datetime64,
 numpy.timedelta64,
 numpy.complex64,
 numpy.complex128,
 numpy.complex128}

dtype属性和type属性是不同的

In [227]:
c.dtype, c.dtype.type

(dtype('int32'), numpy.int32)

溢出

In [228]:
a = np.int16(200)
a*a

  from IPython.kernel.zmq import kernelapp as app


-25536

numpy数值对象的运算速度比Python内置类型对象的运算速度慢的多

In [229]:
v1 = 3.14
v2 = np.float64(v1)
%timeit v1*v1
%timeit v2*v2

10000000 loops, best of 3: 44.5 ns per loop
The slowest run took 21.50 times longer than the fastest. This could mean that an intermediate result is being cached 
10000000 loops, best of 3: 177 ns per loop


astype方法可以对数组的元素类型进行转换

In [230]:
t1 = np.array([1, 2, 3, 4], dtype=np.float)
t2 = np.array([1, 2, 3, 4], dtype=np.complex)
t3 = t1.astype(np.int32)
t4 = t2.astype(np.complex64)

### 自动生成数组

np.arrange通过初终步长创建等差数列

In [231]:
np.arange(0, 1, 0.1)

array([ 0. ,  0.1,  0.2,  0.3,  0.4,  0.5,  0.6,  0.7,  0.8,  0.9])

np.linespace通过初终总数创建等差数列

**默认步长=长度/(个数-1)**

In [232]:
np.linspace(0, 1, 10) 

array([ 0.        ,  0.11111111,  0.22222222,  0.33333333,  0.44444444,
        0.55555556,  0.66666667,  0.77777778,  0.88888889,  1.        ])

In [233]:
np.linspace(0, 1, 10, endpoint=False) # 步长为1/10

array([ 0. ,  0.1,  0.2,  0.3,  0.4,  0.5,  0.6,  0.7,  0.8,  0.9])

logspace根据linspace创建的等差数列创建等比数列

In [234]:
np.linspace(0, 2, 5)

array([ 0. ,  0.5,  1. ,  1.5,  2. ])

In [235]:
np.logspace(0, 2, 5)

array([   1.        ,    3.16227766,   10.        ,   31.6227766 ,  100.        ])

In [236]:
np.logspace(0, 2, 5,base=2)

array([ 1.        ,  1.41421356,  2.        ,  2.82842712,  4.        ])

zeros(),ones(),empty()创建指定形状特殊数组

In [237]:
np.zeros(4, np.complex64)

array([ 0.+0.j,  0.+0.j,  0.+0.j,  0.+0.j], dtype=complex64)

In [238]:
np.ones(4)

array([ 1.,  1.,  1.,  1.])

In [239]:
np.empty((2,3), np.int)

array([[0, 0, 0],
       [0, 0, 0]])

full将数组初始化为指定的值

In [240]:
np.full(4, np.pi)

array([ 3.14159265,  3.14159265,  3.14159265,  3.14159265])

zeros_lik(),ones_like(),empty_like(),full_like() 按参数数组的形状创建特殊数组

frombuffer(),fromstring(),fromfile()可以从字节数列或者文件创建数组

In [241]:
s = "abcdefgh"

In [242]:
np.fromstring(s, dtype=np.int8)

array([ 97,  98,  99, 100, 101, 102, 103, 104], dtype=int8)

In [243]:
print(98*256+97)
np.fromstring(s, dtype=np.int16)

25185


array([25185, 25699, 26213, 26727], dtype=int16)

In [244]:
np.fromstring(s, dtype=np.float)

array([  8.54088322e+194])

从下标创建数组，首先定义从下标计算数值的函数

In [245]:
def func(i):
    return i % 4 + 1

np.fromfunction(func, (10,))

array([ 1.,  2.,  3.,  4.,  1.,  2.,  3.,  4.,  1.,  2.])

### 存取元素

In [246]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

整数下标和切片

In [247]:
a[5], a[3:5], a[:5], a[:-1]

(5, array([3, 4]), array([0, 1, 2, 3, 4]), array([0, 1, 2, 3, 4, 5, 6, 7, 8]))

特殊的切片形式

In [248]:
a[-1]

9

In [249]:
a[:]

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [250]:
a[8:10]

array([8, 9])

In [251]:
# a[10] 报错

切片中第三个数表示步长

In [252]:
a[1:-1:2], a[::-1], a[5:1:-2]

(array([1, 3, 5, 7]), array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0]), array([5, 3]))

下标可以用来修改元素的值

In [253]:
a[2:4] = 100, 101
a

array([  0,   1, 100, 101,   4,   5,   6,   7,   8,   9])

In [254]:
b = a[3:7] # 通过切片产生一个新的数组，新数组和原始数组共享同一块数据存储空间
b[2] = -10 # 将b的第2个元素修改为-10
b, a

(array([101,   4, -10,   6]),
 array([  0,   1, 100, 101,   4, -10,   6,   7,   8,   9]))

整数序列做下标，也可对数据进行存取，不共享存储空间

In [255]:
x = np.arange(10, 1, -1)
x

array([10,  9,  8,  7,  6,  5,  4,  3,  2])

In [256]:
a = x[[3, 3, 1, 8]]
b = x[[3, 3, -3, 8]]
a, b

(array([7, 7, 9, 2]), array([7, 7, 4, 2]))

In [257]:
x[[3,5,1]] = -1, -2, -3
x

array([10, -3,  8, -1,  6, -2,  4,  3,  2])

整数数组作为下标，将得到一个和下标数组形状相同的数组

In [258]:
x = np.arange(10,1,-1)

In [259]:
x[np.array([[3,3,1,8],[3,3,-3,8]])] 

array([[7, 7, 9, 2],
       [7, 7, 4, 2]])

In [260]:
x[[3,3,1,8,3,3,-3,8]].reshape(2,4) # 改变数组形状

array([[7, 7, 9, 2],
       [7, 7, 4, 2]])

布尔数组做下标, 结果数组的度数一定减少

In [261]:
x = np.arange(5,0,-1)
x

array([5, 4, 3, 2, 1])

In [262]:
x[np.array([True, False, True, False, False])] 

array([5, 3])

布尔列表可以当做布尔数组

In [263]:
x[[True, False, True, False, False]] 

  if __name__ == '__main__':


array([4, 5, 4, 5, 5])

01列表不可以当布尔数组

In [264]:
x[[1, 0, 1, 0, 0]] 

array([4, 5, 4, 5, 5])

布尔数组下标可以用来修改元素

In [265]:
x[np.array([True, False, True, True,False])] = -1, -2, -3 
x

array([-1,  4, -2, -3,  1])

ufunc函数产生布尔数组下标

In [266]:
np.random.seed(0)
x = np.random.randint(0, 10, 6)# 产生一个长度为6，元素值为0到9的随机整数数组
x, x > 5

(array([5, 0, 3, 3, 7, 9]),
 array([False, False, False, False,  True,  True], dtype=bool))

In [267]:
x[x > 5]

array([7, 9])

### 多维数组

In [268]:
a = np.arange(0, 60, 10).reshape(-1, 1) + np.arange(0, 6)
a

array([[ 0,  1,  2,  3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])

In [269]:
a[0, 3:5]

array([3, 4])

In [270]:
a[4:, 4:]

array([[44, 45],
       [54, 55]])

In [271]:
a[:, 2]

array([ 2, 12, 22, 32, 42, 52])

In [272]:
 a[2::2, ::2]

array([[20, 22, 24],
       [40, 42, 44]])

In [273]:
b = a[0, 3:5]
b[0] = -b[0]
a[0, 3:5]
# 通过切片联系的两个数组共享内存结构

array([-3,  4])

切片对象

In [274]:
idx = slice(None, None, 2), slice(2,None)
a[idx]

array([[ 2, -3,  4,  5],
       [22, 23, 24, 25],
       [42, 43, 44, 45]])

In [275]:
a[idx][idx]

array([[ 4,  5],
       [44, 45]])

    np.s_ 可以创建切片对象

In [276]:
np.s_[::2, 2:]

(slice(None, None, 2), slice(2, None, None))

In [277]:
a[(0,1,2,3),(1,2,3,4)]

array([ 1, 12, 23, 34])

In [278]:
a[3:, [0,2,5]]

array([[30, 32, 35],
       [40, 42, 45],
       [50, 52, 55]])

In [279]:
mask = np.array([1,0,1,0,0,1], dtype=np.bool)
a[mask, 2]

array([ 2, 22, 52])

TF序列可以当布尔数组,但是01序列不可以当布尔数组

In [280]:
mask1 = np.array([1,0,1,0,0,1])
mask2 = [True,False,True,False,False,True]
# 布尔列表当做布尔数组, 但是01列表不会当成布尔列表或布尔数组
a[mask1, 2],a[mask2, 2]



(array([12,  2, 12,  2,  2, 12]), array([12,  2, 12,  2,  2, 12]))

下标元组的长度必须许等于原始数组的维数 (几维数组就应该有几个索引)

In [281]:
 a[[1,2],:]

array([[10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25]])

In [282]:
a.ndim

2

In [283]:
a[[1,2]]

array([[10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25]])

In [284]:
x = np.array([[0,1],[2,3]])
y = np.array([[-1,-2],[-3,-4]])
a[x,y]
# 分析: 下标是一个度为2的元组,这个元组的每个元素都是一个二维数组,
# 这两个二维数组的形状相同

array([[ 5, 14],
       [23, 32]])

In [285]:
a[(0,1,2,3),(-1,-2,-3,-4)].reshape(2,2)

array([[ 5, 14],
       [23, 32]])

数组的下标运算可以扩展维度

In [286]:
a

array([[ 0,  1,  2, -3,  4,  5],
       [10, 11, 12, 13, 14, 15],
       [20, 21, 22, 23, 24, 25],
       [30, 31, 32, 33, 34, 35],
       [40, 41, 42, 43, 44, 45],
       [50, 51, 52, 53, 54, 55]])

>分析:
    X是二维数组, 因此需要两个索引,下标元组的长度应该是2, 不足的长度由 : 代替
    下标元素既包含整数数组又包含切片时, 结果数组的形状为整数数组广播后的形状与切片形状的组合, 整数数组连续时, 进行原序组合, 不连续时, 将切片位放在最后

>>    `a[x] 整数数组 x 的形状 (2,2), 切片的形状 (6,), 结果数组的形状(2,2,6). (2,2) 表示 a 的行选取方式有 4 种, (6,) 表示 a 的列选取方式有 6 种, 总共选取 a 的20个元素, 然后将其排列成 (2,2,6) 的形状. 也可以认为将整数数组 x 的每个元素换成 a 的 某一行`

In [287]:
x

array([[0, 1],
       [2, 3]])

In [288]:
a_slice=[0,1,2,3,4,5]

In [289]:
a[x]

array([[[ 0,  1,  2, -3,  4,  5],
        [10, 11, 12, 13, 14, 15]],

       [[20, 21, 22, 23, 24, 25],
        [30, 31, 32, 33, 34, 35]]])

 将下标元组第一个元素 (二维数组) 的每个元素换成原数组的一行适用于所有的 a[idx] 形式, a 和 idx 都是二维数组

In [290]:
palette = np.array( [ [0,0,0],                
                      [255,0,0],              
                      [0,255,0],              
                      [0,0,255],              
                      [255,255,255] ] )       
image = np.array( [ [ 0, 1, 2, 0 ],           
                    [ 0, 3, 4, 0 ]  ] )

In [291]:
palette[image,:]

array([[[  0,   0,   0],
        [255,   0,   0],
        [  0, 255,   0],
        [  0,   0,   0]],

       [[  0,   0,   0],
        [  0,   0, 255],
        [255, 255, 255],
        [  0,   0,   0]]])

In [292]:
palette[image]

array([[[  0,   0,   0],
        [255,   0,   0],
        [  0, 255,   0],
        [  0,   0,   0]],

       [[  0,   0,   0],
        [  0,   0, 255],
        [255, 255, 255],
        [  0,   0,   0]]])

>如何加速反应下标运算?

### 结构数组

C语言的结构数组和numpy的结构数组可以互相转换

np.dtype 既可以做关键字参数, 又可以做属性名, 还可以定义**结构数组类型**, 结构数组类型传递给 numpy 的dtype关键字参数, 从而定义结构体数组.

dtype定义"结构数组类型"时用一个字典作为第一个参数, 字典的有两个键,分别表示字段(names)和类型(format).

In [293]:
persontype = np.dtype({
    'names':['name', 'age', 'weight'],
    'formats':['S30','i', 'f']}, align=True)

a = np.array([("Zhang", 32, 75.5), ("Wang", 24, 65.2)], 
    dtype=persontype)

In [294]:
a.dtype

dtype({'names':['name','age','weight'], 'formats':['S30','<i4','<f4'], 'offsets':[0,32,36], 'itemsize':40}, align=True)

还可以用多个元组 (字段名,类型名) 的列表来描述结构的类型

In [295]:
np.dtype([('name','|S30'),('age','<i4'),('weight','<f4')])

dtype([('name', 'S30'), ('age', '<i4'), ('weight', '<f4')])

结构数组的存取方式和一般数组一样, 可把结构数组当成一张表, 下标相当于表的某行, 元素值就是这一行内容. 这一行用元组表示.

In [296]:
print(a[0])
a[0].dtype

('Zhang', 32, 75.5)


dtype({'names':['name','age','weight'], 'formats':['S30','<i4','<f4'], 'offsets':[0,32,36], 'itemsize':40}, align=True)

可以用字段名获得对应的字段值, 这里的字段既可以是结构元素的字段, 也可以是结构数组的字段

In [297]:
a[0]["name"]

'Zhang'

In [298]:
c = a[1]
c["name"] = "Li"
a[1]["name"]

'Li'

In [299]:
b=a["age"]
b[0] = 40
print(a[0]["age"])

40


a.tostring() 或 a.tofile() 方法 可以将数组 a 以二进制的方式转换成字符串或写入文件, 参数表示文件名, 文件名的后缀不能任意取

In [300]:
a.tofile("test.bin")

执行C语言程序可以将test.bin文件中的数据读取出来

In [301]:
%%file read_struct_array.c
#include <stdio.h>

struct person 
{
    char name[30];
    int age;
    float weight;
};

struct person p[3];

void main ()
{
    FILE *fp;
    int i;
    fp=fopen("test.bin","rb");
    fread(p, sizeof(struct person), 2, fp);
    fclose(fp);
    for(i=0;i<2;i++)
    {
        printf("%s %d %f\n", p[i].name, p[i].age, p[i].weight);
    }
}

Overwriting read_struct_array.c


In [302]:
!gcc read_struct_array.c -o read_struct_array.exe
!read_struct_array.exe

Zhang 40 75.500000
Li 24 65.199997


结构类型可以包含其他的结构类型

In [303]:
np.dtype([('f1', [('f2', np.int16)])])
字段为 f1 的结构, 

SyntaxError: invalid syntax (<ipython-input-303-73187abf74e5>, line 2)

    当某个字段为数组时,用元组的第三个元素表示形状

In [None]:
np.dtype([('f0', 'i4'), ('f1', 'f8', (2, 3))])

用字节偏移量定义结构数组: 

surname 结构的字段名, 值为字段的类型描述, 类型描述的第二个值表示以字节为单位的偏移量

In [None]:
np.dtype({'surname':('S25',0),'age':(np.uint8,25)})

### 内存结构

数组对象是如何在内存中存储的?

**ndarray数据结构:**

1. dtype: 描述元素类型
1. data: 数据存储区域
1. strides: 轴元素间隔
1. dim count: 维数
1. dimension: 维度

In [None]:
a=np.array(np.arange(9).reshape(3,3),dtype=np.float32)
a

**stride 属性** 保存每个轴上相邻两个元素的地址差.

In [None]:
a.strides

> 
一个单精度浮点数占4个字节,第0轴增加12个字节正好是3个单精度浮点数的总字节数,第一轴增加4个字节,正好是增加一个单精度浮点数

In [None]:
b=a[::,::2]
b

In [None]:
b.strides

通过切片联系的数组a与数组b共享存储空间, 所以他们的strides属性保持着轴与轴的对应关系

In [None]:
c=a[[0,1]]
c

**元素的编址方式:**

Fortran 格式按列给元素地址编号, C 语言格式按行给元素地址编号, MATLAB也是按列给元素地址编号

In [None]:
a_for = np.array([[0,1,2],[3,4,5],[6,7,8]], dtype=np.float32, order="F")
a_for.strides

数组的 flag 属性描述了其存储信息的一些属性

In [None]:
print a.flags
print "c_contiguous:", a.flags.c_contiguous
# OWNDATA : 是否享有完整的存储区域, 视图没有 

In [None]:
a.T.flags
# 转置相当于改变了元素的编址方式

In [None]:
b.flags
# b 不享有完整的地址, 并且地址顺序不连续

**base 属性** 可以获得视图数组的原始数组

In [None]:
 id(b.base), id(a)

**view 方法** 可以从同一块二进制数据区, 创建不同 dtype 类型的数组对象 ( 01 组合不同, 结果也变得不同)

In [None]:
a = np.array([[0, 1], [2, 3], [4, 5]], dtype=np.float32)
b = a.view(np.uint32)
c = a.view(np.uint8)

In [None]:
b

In [None]:
 c

> http://zh.wikipedia.org/wiki/平方根倒数速算法

> 维基百科关于雷神之锤中使用`0x5f3759df`计算平方根倒数算法的解释

In [None]:
number = np.linspace(0.1, 10, 100)
y = number.astype(np.float32)  
x2 = y * 0.5
i = y.view(np.int32)  #❷
i[:] = 0x5f3759df - (i >> 1)  #❸
y = y * (1.5 - x2 * y * y)  #❹
np.max(np.abs(1 / np.sqrt(number) - y))  #❺

In [None]:
#%figonly=雷神之锤中计算平方根倒数算法的绝对误差
import pylab as pl
pl.plot(number, 1/np.sqrt(number) - y, lw=2)
pl.ylabel(u"真实值与近似值的误差");

*** 
***

**带重叠的分块** 可以从一位数组创建对称矩阵

In [None]:
from numpy.lib.stride_tricks import as_strided
a = np.arange(6)
b = as_strided(a, shape=(4, 3), strides=(4, 4))
a

In [None]:
b
# 假设0,1,2,3,4,5 也表示内存地址的编号, b的第一个元素是0, 从上到下, 从左到右, 地址都会增加4
# 数组 a 与 b 共享存储结构, 并且 b 中的前两行有两个元素是重合的

In [None]:
a.strides, b.strides