## 矩阵

In [None]:
使用 mat 方法将 2 维数组转化为矩阵
也可以使用 Matlab 的语法传入一个字符串来生成矩阵：A = np.mat('1,2,4;2,5,3;7,8,9')

In [2]:

import numpy as np
a = np.array([[1,2,4],
              [2,5,3], 
              [7,8,9]])
A = np.mat(a)
A

matrix([[1, 2, 4],
        [2, 5, 3],
        [7, 8, 9]])


利用分块创造新的矩阵：

In [2]:

a = np.array([[ 1, 2],
              [ 3, 4]])
b = np.array([[10,20], 
              [30,40]])

np.bmat('a,b;b,a')


matrix([[ 1,  2, 10, 20],
        [ 3,  4, 30, 40],
        [10, 20,  1,  2],
        [30, 40,  3,  4]])

A.I 表示 A 矩阵的逆矩阵

矩阵指数表示矩阵连乘：

In [4]:
print( A * A.I)

[[1.00000000e+00 5.55111512e-17 0.00000000e+00]
 [0.00000000e+00 1.00000000e+00 2.08166817e-17]
 [2.22044605e-16 4.16333634e-17 1.00000000e+00]]


In [5]:
print (A ** 4)


[[ 6497  9580  9836]
 [ 7138 10561 10818]
 [18434 27220 27945]]


### 函数

## 常用函数 

In [None]:
numpy.sum(a, axis=None, dtype=None, out=None, keepdims=<class 'numpy._globals._NoValue'>)[source]
a是数组则为数组的和
a为二维数组axis=1表示按行相加 , axis=0表示按列相加


In [3]:
np.sum([[0,1,2],[2,3,4]], axis=1) 

array([3, 9])

In [4]:
A = np.arange(1,5).reshape(2,2)
B = np.arange(0,4).reshape(2,2)
print(A)
print(B)
np.multiply(A,B)       #数组对应元素位置相乘

[[1 2]
 [3 4]]
[[0 1]
 [2 3]]


array([[ 0,  2],
       [ 6, 12]])

In [5]:
np.dot(A,B)    #对数组执行矩阵相乘运算

array([[ 4,  7],
       [ 8, 15]])

In [6]:
A*B  #对应位置点乘

array([[ 0,  2],
       [ 6, 12]])

In [7]:
np.multiply(np.mat(A),np.mat(B))     #矩阵对应元素位置相乘

matrix([[ 0,  2],
        [ 6, 12]])

In [8]:
np.dot(np.mat(A),np.mat(B))   #秩不为1的二维数组执行矩阵乘法运算

matrix([[ 4,  7],
        [ 8, 15]])

In [9]:
C = np.arange(1,4)
D = np.arange(0,3)
np.dot(C,D)   #秩为1 对应位置相乘，再求和

8

In [10]:
(np.mat(A))*(np.mat(B))  #执行矩阵运算

matrix([[ 4,  7],
        [ 8, 15]])

In [11]:
x = np.array([3, 4])  
np.linalg.norm(x, ord=2)  

5.0

三角函数
sin(x)              
cos(x)                 
tan(x)             
sinh(x)               
conh(x)          
tanh(x)            
arccos(x)     
arctan(x)       
arcsin(x)    
arccosh(x)   
arctanh(x)      
arcsinh(x)              
arctan2(x,y)                

arctan2(x,y) 返回 arctan(x/y) 。

向量操作
dot(x,y)   返回的是两个数组的点积         
inner(x,y)      
cross(x,y)     
vdot(x,y)            
outer(x,y)       
kron(x,y)          
tensordot(x,y[,axis])        

其他操作
exp(x)                
log(x)              
log10(x)             
sqrt(x)           
absolute(x)              
conjugate(x)               
negative(x)             
ceil(x)             
floor(x)                
fabs(x)           
hypot(x)                
fmod(x)                  
maximum(x,y)     
minimum(x,y)           

类型处理
iscomplexobj
iscomplex
isrealobj
isreal
imag
real
real_if_close
isscalar
isneginf
isposinf
isinf
isfinite
isnan
nan_to_num
common_type
typename


修改形状
atleast_1d
atleast_2d
atleast_3d
expand_dims
apply_over_axes
apply_along_axis
hstack
vstack
dstack
column_stack
hsplit
vsplit
dsplit

split

squeeze  从数组的形状中删除单维条目，即把shape中为1的维度去掉

其他有用函数
fix
mod
amax
amin
ptp
sum
cumsum
prod
cumprod
diff
angle

unwrap
sort_complex
trim_zeros
fliplr
flipud
rot90
diag
eye
select
extract
insert

roots
poly
any
all
disp
unique
nansum
nanmax
nanargmax
nanargmin
nanmin

nan 开头的函数会进行相应的操作，但是忽略 nan 值。

## 向量化函数

自定义的 sinc 函数：

In [2]:
import numpy as np

def sinc(x):
    if x == 0.0:
        return 1.0
    else:
        w = np.pi * x
        return np.sin(w) / w

作用于单个数值：

In [3]:
sinc(3.0)

3.8981718325193755e-17

但这个函数不能作用于数组：

In [4]:
x = np.array([1,2,3])
sinc(x)

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

可以使用 numpy 的 vectorize 将函数 sinc 向量化，产生一个新的函数：

In [5]:
vsinc = np.vectorize(sinc)
vsinc(x)

array([ 3.89817183e-17, -3.89817183e-17,  3.89817183e-17])


其作用是为 x 中的每一个值调用 sinc 函数

因为这样的用法涉及大量的函数调用，因此，向量化函数的效率并不高。

## 二元运算

四则运算

|运算|	函数|
|a + b|	add(a,b)|
|a - b|	subtract(a,b)|
|a * b|	multiply(a,b)|
a / b	divide(a,b)
a ** b	power(a,b)
a % b	remainder(a,b)

比较和逻辑运算

|运算|	函数<|
|==	|equal|
|!=	|not_equal|
|>	|greater|
|>=|	greater_equal|
|<	|less|
|<=	|less_equal|
| |logical_and|
| |logical_or|
| |logical_xor|
| |logical_not|
|&|	bitwise_and|
| | bitwise_or|
|^|	bitwise_xor|
|~|	invert|
|>>|	right_shift|
|<<	|left_shift|

## choose 函数实现条件筛选
对于数组，我们有时候需要进行类似 switch 和 case 进行条件选择，此时使用 choose 函数十分方便：


In [None]:
import numpy as np

In [6]:
control = np.array([[1,0,1],
                    [2,1,0],
                    [1,2,2]])

np.choose(control, [10, 11, 12])

array([[11, 10, 11],
       [12, 11, 10],
       [11, 12, 12]])


在上面的例子中，choose 将 0,1,2 对应的值映射为了 10, 11, 12，这里的 0,1,2 表示对应的下标。

事实上， choose 不仅仅能接受下标参数，还可以接受下标所在的位置

下面的例子将数组中所有小于 10 的值变成了 10。

In [7]:

a = np.array([[ 0, 1, 2], 
              [10,11,12], 
              [20,21,22]])

a < 10

array([[ True,  True,  True],
       [False, False, False],
       [False, False, False]])

In [8]:
np.choose(a < 10, (a, 10))

array([[10, 10, 10],
       [10, 11, 12],
       [20, 21, 22]])

## 数组广播机制

In [9]:
a = np.array([[ 0, 0, 0],
              [10,10,10],
              [20,20,20],
              [30,30,30]])
b = np.array([0,1,2])

a + b

array([[ 0,  1,  2],
       [10, 11, 12],
       [20, 21, 22],
       [30, 31, 32]])

虽然两个数组的维数不一样，但是 Numpy 检测到 b 的维度与 a 的维度匹配，所以将 b 扩展为之前的形式，得到相同的形状。

对于更高维度，这样的扩展依然有效。

如果我们再将 a 变成一个列向量呢？

In [10]:
a = np.array([0,10,20,30])
a.shape = 4,1
a

array([[ 0],
       [10],
       [20],
       [30]])

In [11]:

a + b

array([[ 0,  1,  2],
       [10, 11, 12],
       [20, 21, 22],
       [30, 31, 32]])

## 数组读写

In [12]:

%%writefile myfile.txt
2.1 2.3 3.2 1.3 3.1
6.1 3.1 4.2 2.3 1.8

Writing myfile.txt


In [13]:
data = []

with open('myfile.txt') as f:
    # 每次读一行
    for line in f:
        fileds = line.split()
        row_data = [float(x) for x in fileds]
        data.append(row_data)

data = np.array(data)

In [14]:
data

array([[2.1, 2.3, 3.2, 1.3, 3.1],
       [6.1, 3.1, 4.2, 2.3, 1.8]])

不过，更简便的是使用 loadtxt 方法：

In [15]:

data = np.loadtxt('myfile.txt')
data

array([[2.1, 2.3, 3.2, 1.3, 3.1],
       [6.1, 3.1, 4.2, 2.3, 1.8]])

loadtxt 函数
loadtxt(fname, dtype=<type 'float'>, 
        comments='#', delimiter=None, 
        converters=None, skiprows=0, 
        usecols=None, unpack=False, ndmin=0)

loadtxt 有很多可选参数，其中 delimiter 就是刚才用到的分隔符参数。

skiprows 参数表示忽略开头的行数，可以用来读写含有标题的文本

In [16]:

%%writefile myfile.txt
 -- BEGINNING OF THE FILE
% Day, Month, Year, Skip, Power
01, 01, 2000, x876, 13 % wow!
% we don't want have Jan 03rd
04, 01, 2000, xfed, 55

Overwriting myfile.txt


In [17]:

data = np.loadtxt('myfile.txt', 
                  skiprows=1,         #忽略第一行
                  dtype=np.int,      #数组类型
                  delimiter=',',     #逗号分割
                  usecols=(0,1,2,4), #指定使用哪几列数据
                  comments='%'       #百分号为注释符
                 )
data

array([[   1,    1, 2000,   13],
       [   4,    1, 2000,   55]])

In [18]:

import os
os.remove('myfile.txt')


|文件格式	|使用的包	|函数|
|txt	   |numpy|	loadtxt, genfromtxt, fromfile, savetxt, tofile|
|csv	   |csv	|reader, writer|
|Matlab    |scipy.io|	loadmat, savemat|
|hdf      |pytables,| h5py	|
|NetCDF    |netCDF4, scipy.io.netcdf|	netCDF4.Dataset, scipy.io.netcdf.netcdf_file|
|文件格式   |使用的包|	备注|
|wav      |	scipy.io.wavfile|	音频文件|
|jpeg,png,...|PIL, scipy.misc.pilutil|	图像文件|
|fits     |	pyfits|	天文图像|
此外， pandas ——一个用来处理时间序列的包中包含处理各种文件的方法

### 将数组写入文件

In [19]:

data = np.array([[1,2], 
                 [3,4]])

np.savetxt('out.txt', data, fmt="%.2f", delimiter=',') #保存为2位小数的浮点数，用逗号分隔

In [21]:

with open('out.txt') as f:
    for line in f:
        print (line),

1.00,2.00

3.00,4.00




更多参数：

savetxt(fname, 
        X, 
        fmt='%.18e', 
        delimiter=' ', 
        newline='\n', 
        header='', 
        footer='', 
        comments='# ')

In [22]:
import os
os.remove('out.txt')


### Numpy 二进制格式
数组可以储存成二进制格式，单个的数组保存为 .npy 格式，多个数组保存为多个.npy文件组成的 .npz 格式，每个 .npy 文件包含一个数组。

与文本格式不同，二进制格式保存了数组的 shape, dtype 信息，以便完全重构出保存的数组。

保存的方法：

save(file, arr) 保存单个数组，.npy 格式
savez(file, *args, **kwds) 保存多个数组，无压缩的 .npz 格式
savez_compressed(file, *args, **kwds) 保存多个数组，有压缩的 .npz 格式
读取的方法：

load(file, mmap_mode=None) 对于 .npy，返回保存的数组，对于 .npz，返回一个名称-数组对组成的字典。

In [23]:
a = np.array([[1.0,2.0], 
              [3.0,4.0]])
b = np.arange(1000)
np.savez('data.npz', a=a, b=b)

In [24]:
!unzip -l data.npz

'unzip' 不是内部或外部命令，也不是可运行的程序
或批处理文件。


In [25]:
data = np.load('data.npz')

data.keys()

['a', 'b']

In [27]:

data['a']

array([[1., 2.],
       [3., 4.]])

In [28]:
# 要先删除 data，否则删除时会报错
del data

os.remove('data.npz')

## 结构化数组

希望定义一个一维数组，每个元素有三个属性 name, age, wgt，此时我们需要使用结构化数组。



In [29]:

person_dtype = np.dtype([('name', 'S10'), ('age', 'int'), ('weight', 'float')])


产生一个 3 x 4 共12人的空结构体数组：

In [30]:
people = np.empty((3,4), person_dtype)


分别赋值：

In [31]:

people['name'] = [['Brad', 'Jane', 'John', 'Fred'],
                  ['Henry', 'George', 'Brain', 'Amy'],
                  ['Ron', 'Susan', 'Jennife', 'Jill']]


people['age'] = [[33, 25, 47, 54],
                 [29, 61, 32, 27],
                 [19, 33, 18, 54]]

people['age'] = [[33, 25, 47, 54],
                 [29, 61, 32, 27],
                 [19, 33, 18, 54]]

print (people)

[[(b'Brad', 33, 8.45528067e-307) (b'Jane', 25, 8.27578359e-313)
  (b'John', 47, 4.45014772e-308) (b'Fred', 54, 2.46151512e-312)]
 [(b'Henry', 29, 1.60205318e-306) (b'George', 61, 1.23075756e-312)
  (b'Brain', 32, 9.34531022e-307) (b'Amy', 27, 2.20687562e-312)]
 [(b'Ron', 19, 4.45014772e-308) (b'Susan', 33, 1.01855798e-312)
  (b'Jennife', 18, 1.39067117e-308) (b'Jill', 54, 0.00000000e+000)]]


### 从文本中读取结构化数组

In [32]:
%%writefile people.txt
name age weight
amy 11 38.2
john 10 40.3
bill 12 21.2

Writing people.txt


In [33]:
person_dtype = np.dtype([('name', 'S10'), ('age', 'int'), ('weight', 'float')])

people = np.loadtxt('people.txt', 
                    skiprows=1,
                    dtype=person_dtype)

people

array([(b'amy', 11, 38.2), (b'john', 10, 40.3), (b'bill', 12, 21.2)],
      dtype=[('name', 'S10'), ('age', '<i4'), ('weight', '<f8')])

In [34]:
people['name']

array([b'amy', b'john', b'bill'], dtype='|S10')

In [35]:

import os
os.remove('people.txt')

## 记录数组
记录数组（record array）与结构数组类似：

In [36]:
partical_dtype = np.dtype([('mass', 'float'), 
                           ('velocity', 'float')])

In [37]:
from numpy import rec

particals_rec = rec.fromrecords([(1,1), (1,2), (2,1), (1,3)], 
                                dtype = partical_dtype)
particals_rec

rec.array([(1., 1.), (1., 2.), (2., 1.), (1., 3.)],
          dtype=[('mass', '<f8'), ('velocity', '<f8')])

In [38]:
particals_rec.mass

array([1., 1., 2., 1.])


### array 还是 matrix？
Numpy 中不仅提供了 array 这个基本类型，还提供了支持矩阵操作的类 matrix，但是一般推荐使用 array：

很多 numpy 函数返回的是 array，不是 matrix
在 array 中，逐元素操作和矩阵操作有着明显的不同
向量可以不被视为矩阵
具体说来：

*， dot(), multiply()
array：* -逐元素乘法，dot() -矩阵乘法
matrix：* -矩阵乘法，multiply() -逐元素乘法
处理向量
array：形状为 1xN, Nx1, N 的向量的意义是不同的，类似于 A[:,1] 的操作返回的是一维数组，形状为 N，一维数组的转置仍是自己本身
matrix：形状为 1xN, Nx1，A[:,1] 返回的是二维 Nx1 矩阵
高维数组
array：支持大于2的维度
matrix：维度只能为2
属性
array：.T 表示转置
matrix：.H 表示复共轭转置，.I 表示逆，.A 表示转化为 array 类型
构造函数
array：array 函数接受一个（嵌套）序列作为参数——array([[1,2,3],[4,5,6]])
matrix：matrix 函数额外支持字符串参数——matrix("[1 2 3; 4 5 6]")
其优缺点各自如下：

array

[GOOD] 一维数组既可以看成列向量，也可以看成行向量。v 在 dot(A,v) 被看成列向量，在 dot(v,A) 中被看成行向量，这样省去了转置的麻烦
[BAD!] 矩阵乘法需要使用 dot() 函数，如： dot(dot(A,B),C) vs A*B*C
[GOOD] 逐元素乘法很简单： A*B
[GOOD] 作为基本类型，是很多基于 numpy 的第三方库函数的返回类型
[GOOD] 所有的操作 *,/,+,**,... 都是逐元素的
[GOOD] 可以处理任意维度的数据
[GOOD] 张量运算
matrix

[GOOD] 类似与 MATLAB 的操作
[BAD!] 最高维度为2
[BAD!] 最低维度也为2
[BAD!] 很多函数返回的是 array，即使传入的参数是 matrix
[GOOD] A*B 是矩阵乘法
[BAD!] 逐元素乘法需要调用 multiply 函数
[BAD!] / 是逐元素操作
当然在实际使用中，二者的使用取决于具体情况。

二者可以互相转化：

asarray ：返回数组
asmatrix（或者mat） ：返回矩阵
asanyarray ：返回数组或者数组的子类，注意到矩阵是数组的一个子类，所以输入是矩阵的时候返回的也是矩阵