# Numpy 学习笔记
by SeasonS

## 目录
- [array的创建](#array的创建)
    - [从list创建array](#从list创建array)
    - [利用numpy内部函数创建array](#利用numpy内部函数创建array)
    - [array的文件IO操作](#array的文件IO操作)
- [array的索引](#array的索引)
    - [基本索引](#基本索引)
    - [切片索引](#切片索引)
    - [花式索引（fancy index）和(where take choose函数)](#花式索引)
- [array矢量化运算](#array矢量化运算)
    - [标量及element wise运算](#标量及element_wise运算)
    - [matrix algebra(矩阵乘，求逆，行列式)](#matrix_algebra)
- [array统计处理](#array相关处理)
    - [求和最小最大](#求和最小最大)
    - [修改array的shape](#修改array的shape)
    - [array的拼接小array变大array](#array的拼接小array变大array)
- [array其他运算](#array其他运算)
    - [迭代array的元素](#迭代array的元素)
    - [入口参数为矢量时函数的设计](#入口参数为矢量时函数的设计)
    - [any和all](#any和all)
    - [类型转换](#类型转换)

首先载入numpy

In [2]:
import numpy as np

## array的创建
- 从list
- numpy专用的函数
- 从文件

### 从list创建array

In [3]:
A1 = np.array([1,2,3,4])

In [4]:
A2 = np.array([[1,2],[3,4]])

In [5]:
type(A1),type(A2)

(numpy.ndarray, numpy.ndarray)

下面分别为array的维度、元素个数和元素的数据类型，必须知道的是array的数据类型都是一致的，这也是和list不同之处，当然也可以通过astype对array的dtype进行修改

In [14]:
A1.shape,A1.size,A1.dtype

((4L,), 4, dtype('int32'))

In [15]:
A2.shape,A2.size,A2.dtype

((2L, 2L), 4, dtype('int32'))

修改dtype

In [19]:
A1 = A1.astype(float)

In [20]:
A1.shape,A1.size,A1.dtype

((4L,), 4, dtype('float64'))

如果只是A1.astype(float)，只会产生一个copy，不会改变原有的array，所以需要A1 = A1.astype(float)

### 利用numpy内部函数创建array

In [22]:
# 创建范围
x = np.arange(0, 10, 1) # arguments: start, stop, step
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [24]:
# 使用linspace，两个端点被列入
np.linspace(0, 10, 25)

array([  0.        ,   0.41666667,   0.83333333,   1.25      ,
         1.66666667,   2.08333333,   2.5       ,   2.91666667,
         3.33333333,   3.75      ,   4.16666667,   4.58333333,
         5.        ,   5.41666667,   5.83333333,   6.25      ,
         6.66666667,   7.08333333,   7.5       ,   7.91666667,
         8.33333333,   8.75      ,   9.16666667,   9.58333333,  10.        ])

In [28]:
np.logspace(0, 10, 10, base=10)
#这是log

array([  1.00000000e+00,   1.29154967e+01,   1.66810054e+02,
         2.15443469e+03,   2.78255940e+04,   3.59381366e+05,
         4.64158883e+06,   5.99484250e+07,   7.74263683e+08,
         1.00000000e+10])

In [29]:
x, y = np.mgrid[0:5, 0:5] # 类似于在MATLAB中meshgrid


In [30]:
x

array([[0, 0, 0, 0, 0],
       [1, 1, 1, 1, 1],
       [2, 2, 2, 2, 2],
       [3, 3, 3, 3, 3],
       [4, 4, 4, 4, 4]])

In [31]:
y

array([[0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4]])

如何创建随机数也是重要的课题

In [43]:
# 均匀随机数 [0,1]
np.random.rand(5,5)

array([[ 0.627362  ,  0.34139954,  0.6523623 ,  0.33321993,  0.76896548],
       [ 0.59282786,  0.81559008,  0.00236589,  0.69561897,  0.37296083],
       [ 0.51419723,  0.94928824,  0.48353059,  0.8642235 ,  0.46276642],
       [ 0.13405895,  0.40543813,  0.54588491,  0.34611549,  0.37717105],
       [ 0.9318832 ,  0.62219423,  0.64938416,  0.74601187,  0.98445164]])

In [33]:
# 标准正态分布的随机数
np.random.randn(5,5)

array([[ 2.4403    , -0.4198038 , -0.94809562,  0.22236567, -1.37220116],
       [ 1.91422623,  1.5177614 ,  0.20183929, -0.27903303,  0.47215714],
       [-1.54593249, -0.37837963,  0.88670743,  0.42138127, -0.86748744],
       [-0.31187616, -0.83962355,  0.53324723, -0.60049717,  1.51453462],
       [-0.6414476 ,  0.5802475 , -0.58636885,  0.82250405, -0.28596525]])

In [34]:
#对角矩阵
np.diag([1,2,1])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 1]])

In [36]:
# 对角线与来自主对角线的偏移
np.diag([1,2,3], k=1) 

array([[0, 1, 0, 0],
       [0, 0, 2, 0],
       [0, 0, 0, 3],
       [0, 0, 0, 0]])

In [41]:
#全零和全一矩阵
np.ones([3,2])

array([[ 1.,  1.],
       [ 1.,  1.],
       [ 1.,  1.]])

In [38]:
np.zeros([4,4])

array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])

注意的是numpy产生array的zeros和randn入口参数不同，randn中入口参数不需要对ndimension进行list化或者tuple化，而zeros需要进行list化，详见下面参考

In [44]:
np.random.rand?

In [45]:
np.ones?

### array的文件IO操作

除了pandas，numpy也可以很方便地对文件进行读取，如Comma-separated values (CSV，逗号分隔符)文件，是一种以逗号作为分隔符的文件。

In [17]:
M = np.random.rand(3,3)#先产生一个随机数array
M

array([[ 0.78521036,  0.69835388,  0.19059943],
       [ 0.17733091,  0.9574233 ,  0.81252956],
       [ 0.07429007,  0.64581404,  0.83680632]])

也可以用fmr参数来确定存储时的形式，比如多少小数位等等

In [18]:
np.savetxt("random-matrix.csv", M , fmt='%.3f') # fmt specifies the format

从文件中读取采用genfromtxt命令

In [19]:
Mfrom = np.genfromtxt('random-matrix.csv')
Mfrom

array([[ 0.785,  0.698,  0.191],
       [ 0.177,  0.957,  0.813],
       [ 0.074,  0.646,  0.837]])

下面介绍一些numpy array的其他属性：

In [14]:
M.itemsize  #每个元素字节

8

In [15]:
M.nbytes    #整个array的字节数

72

In [16]:
M.ndim      #M的维度

2

## array的索引
- 基本索引
- 切片索引
- 花式索引

### 基本索引

In [28]:
M

array([[ 0.78521036,  0.69835388,  0.19059943],
       [ 0.17733091,  0.9574233 ,  0.81252956],
       [ 0.07429007,  0.64581404,  0.83680632]])

In [21]:
M[1,2]#选取某个数

0.81252956392658715

In [31]:
one_row = M[1,:]#选取某行
print one_row
print one_row.shape

[ 0.17733091  0.9574233   0.81252956]
(3L,)


In [29]:
one_column = M[:,1]#选取某列
print one_column
one_column.shape

[ 0.69835388  0.9574233   0.64581404]


(3L,)

注意此时不管是选取列还是行，得到的结果都是向量，貌似不分行向量列向量，**而且是可以相加的，令人费解**

In [32]:
one_row + one_column

array([ 0.87568479,  1.9148466 ,  1.45834361])

In [33]:
# 对行和列赋值
M[1,:] = 0
M[:,2] = -1

In [34]:
M

array([[ 0.78521036,  0.69835388, -1.        ],
       [ 0.        ,  0.        , -1.        ],
       [ 0.07429007,  0.64581404, -1.        ]])

### 切片索引
所谓切片索引就是选取array的一部分

In [38]:
M

array([[ 0.78521036,  0.69835388, -1.        ],
       [ 0.        ,  0.        , -1.        ],
       [ 0.07429007,  0.64581404, -1.        ]])

In [37]:
M[0:2,0:3]#choose multiple elements

array([[ 0.78521036,  0.69835388, -1.        ],
       [ 0.        ,  0.        , -1.        ]])

另外，我们还可以用[lower:upper:step]的方式进行方便地跳选。这和list的选取方式一致

In [40]:
M[0,0:3:2]

array([ 0.78521036, -1.        ])

-1表示最后一个元素，-2倒数第二个，以此类推。而-3：-1表示-3和-2，和正数的list一样，[lower:upper:step]中，upper是不包含在内的

In [43]:
M[1,-2:]

array([ 0., -1.])

In [44]:
M[2,-3:-1]

array([ 0.07429007,  0.64581404])

### 花式索引
fancy index其实就是利用另一个列表的名字作为索引。。。主要用于有选择、方便地提取array中的参数

In [46]:
xarray = np.arange(0,10,0.5)
xarray

array([ 0. ,  0.5,  1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5,  5. ,
        5.5,  6. ,  6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5])

In [48]:
findex = xarray>8
findex

array([False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False,  True,
        True,  True], dtype=bool)

In [50]:
xarray[findex]

array([ 8.5,  9. ,  9.5])

where函数，其实就是将mask变成index。。。

In [56]:
findex_where = np.where(findex)
findex_where

(array([17, 18, 19], dtype=int64),)

take函数。
where+take是fancy index的一种冗长写法

In [58]:
xarray.take(findex_where)

array([[ 8.5,  9. ,  9.5]])

choose函数,从n个函数中选取。。标号是几就选几。。好蛋疼的设计

In [62]:
which = [1, 0, 1, 2]
choices = [[-2,-2,-2,-2], [5,5,5,5],[6,6,6,6]]
np.choose(which, choices)

array([ 5, -2,  5,  6])

## array矢量化运算

### 标量及element_wise运算

In [66]:
M = np.array([[ 0,  2,  4,  6,  8],
              [2,  4,  6,  8,  10]])
M

array([[ 0,  2,  4,  6,  8],
       [ 2,  4,  6,  8, 10]])

In [67]:
a = np.arange(0,5)
a

array([0, 1, 2, 3, 4])

In [68]:
a+a

array([0, 2, 4, 6, 8])

In [69]:
a*a

array([ 0,  1,  4,  9, 16])

In [72]:
M.shape,a.shape

((2L, 5L), (5L,))

注意。。只要M和a行数一致，都是可以相乘的，但是这儿的相乘并不是矩阵乘法

In [71]:
M*a

array([[ 0,  2,  8, 18, 32],
       [ 0,  4, 12, 24, 40]])

### matrix_algebra

使用dot可以实现matrix乘法

In [73]:
np.dot(M,a)

array([60, 80])

使用matrix函数。完成matlab中matrix的组建

In [75]:
M = np.matrix(M)
M

matrix([[ 0,  2,  4,  6,  8],
        [ 2,  4,  6,  8, 10]])

In [76]:
a = np.matrix(a)
a

matrix([[0, 1, 2, 3, 4]])

In [77]:
a = a.T

In [78]:
M.shape

(2L, 5L)

In [80]:
a.shape

(5L, 1L)

In [81]:
M*a

matrix([[60],
        [80]])

以上就是matrix的创建及乘法，下面给出更多的matrix的变换，如共轭，共轭转置

In [83]:
C = np.matrix([[1j, 2j], [3j, 4j]])
C

matrix([[ 0.+1.j,  0.+2.j],
        [ 0.+3.j,  0.+4.j]])

In [84]:
C.H

matrix([[ 0.-1.j,  0.-3.j],
        [ 0.-2.j,  0.-4.j]])

In [86]:
np.real(C),np.imag(C)

(matrix([[ 0.,  0.],
         [ 0.,  0.]]), matrix([[ 1.,  2.],
         [ 3.,  4.]]))

测量复数的角度~~

In [88]:
np.angle(C)/np.pi*180

array([[ 90.,  90.],
       [ 90.,  90.]])

求逆和行列式

In [95]:
np.linalg.inv(C) # 等同于C.I ,求逆

matrix([[ 0.+2.j ,  0.-1.j ],
        [ 0.-1.5j,  0.+0.5j]])

In [99]:
C.I#这也是求逆

matrix([[ 0.+2.j ,  0.-1.j ],
        [ 0.-1.5j,  0.+0.5j]])

In [100]:
print np.linalg.det(C)#行列式

(2+0j)


## array相关处理

### 求和最小最大

In [101]:
v1 = np.arange(1,10)
v1

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [102]:
np.sum(v1)#求和

45

In [103]:
np.std(v1)#标准差

2.5819888974716112

In [104]:
np.var(v1)#方差

6.666666666666667

In [105]:
np.max(v1)

9

In [107]:
v1.min()

1

In [113]:
m = np.random.randint(-9,5,size=(3,3))
m

array([[-2,  3,  0],
       [-7, -3,  3],
       [-4,  0,  0]])

In [114]:
m.max()

3

In [117]:
m.max(axis = 0)# 每列最大

array([-2,  3,  3])

In [118]:
m.max(axis = 1)# 每行最大

array([3, 3, 0])

In [115]:
np.max(m,axis = 0)# 每列最大

array([-2,  3,  3])

In [116]:
np.max(m,axis = 1)# 每行最大

array([3, 3, 0])

### 修改array的shape

In [119]:
m.shape

(3L, 3L)

In [120]:
m.reshape(1,9)

array([[-2,  3,  0, -7, -3,  3, -4,  0,  0]])

In [121]:
m.reshape(9,1)

array([[-2],
       [ 3],
       [ 0],
       [-7],
       [-3],
       [ 3],
       [-4],
       [ 0],
       [ 0]])

In [124]:
m2 = m.reshape(1,9)
m2.shape

(1L, 9L)

In [126]:
m2[0,3] = 8.9

In [128]:
m,m2

(array([[-2,  3,  0],
        [ 8, -3,  3],
        [-4,  0,  0]]), array([[-2,  3,  0,  8, -3,  3, -4,  0,  0]]))

可见二者都发生了变化，由于m和m2的dtype都是int，对他们输入8.9变成了8，而m和m2指向同一个对象，修改m2的同时也修改了m。先通过复制，再修改就不会出现这种情况：

In [129]:
m3 = m.copy()
m3

array([[-2,  3,  0],
       [ 8, -3,  3],
       [-4,  0,  0]])

In [131]:
m3 = m3.reshape(1,9)
m3

array([[-2,  3,  0,  8, -3,  3, -4,  0,  0]])

In [133]:
m3[0,1] = 100

In [134]:
m,m3

(array([[-2,  3,  0],
        [ 8, -3,  3],
        [-4,  0,  0]]), array([[ -2, 100,   0,   8,  -3,   3,  -4,   0,   0]]))

增加维度

用reshape增加维度

In [135]:
vector = np.array([1,2,3])

In [136]:
vector.shape

(3L,)

In [138]:
vector = vector.reshape(1,3)

In [139]:
vector.shape

(1L, 3L)

### array的拼接小array变大array

In [142]:
a = np.array([[1, 2], [3, 4]])
a

array([[1, 2],
       [3, 4]])

In [141]:
np.repeat(a,3)# 每个元素重复三遍

array([1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4])

In [143]:
# 拼贴矩阵三次 
np.tile(a, 3)

array([[1, 2, 1, 2, 1, 2],
       [3, 4, 3, 4, 3, 4]])

In [148]:
a

array([[1, 2],
       [3, 4]])

In [151]:
b = np.array([7,8])
b

array([7, 8])

注意这里b必须是[[7,8]]这表示二维矩阵，而不是一个vector，不然就会出现下面的错误

In [149]:
np.concatenate((a, b), axis=0)  #按列拼接

ValueError: all the input arrays must have same number of dimensions

In [152]:
b = np.array([[7,8]])
np.concatenate((a, b), axis=0)  #按列拼接

array([[1, 2],
       [3, 4],
       [7, 8]])

In [153]:
np.concatenate((a, b), axis=0)  #按列拼接

array([[1, 2],
       [3, 4],
       [7, 8]])

还有不需要设置axis的更简便的函数

In [156]:
np.vstack((a,b))

array([[1, 2],
       [3, 4],
       [7, 8]])

In [155]:
np.hstack((a,b.T))

array([[1, 2, 7],
       [3, 4, 8]])

## array其他运算

### 迭代array的元素

In [4]:
A = np.random.randint(0,4,size = (4,4))
A

array([[1, 2, 1, 3],
       [0, 2, 0, 1],
       [0, 0, 2, 0],
       [0, 3, 0, 3]])

第一种方式，先看row，再看element

In [5]:
for row in A:
    print row
    for ele in row:
        print ele

[1 2 1 3]
1
2
1
3
[0 2 0 1]
0
2
0
1
[0 0 2 0]
0
0
2
0
[0 3 0 3]
0
3
0
3


第二种方式，通过enumerate查看index和element

In [7]:
for row_idx, row in enumerate(A):
    print("row_idx", row_idx, "row", row)
    
    for col_idx, element in enumerate(row):
        print("col_idx", col_idx, "element", element)

('row_idx', 0, 'row', array([1, 2, 1, 3]))
('col_idx', 0, 'element', 1)
('col_idx', 1, 'element', 2)
('col_idx', 2, 'element', 1)
('col_idx', 3, 'element', 3)
('row_idx', 1, 'row', array([0, 2, 0, 1]))
('col_idx', 0, 'element', 0)
('col_idx', 1, 'element', 2)
('col_idx', 2, 'element', 0)
('col_idx', 3, 'element', 1)
('row_idx', 2, 'row', array([0, 0, 2, 0]))
('col_idx', 0, 'element', 0)
('col_idx', 1, 'element', 0)
('col_idx', 2, 'element', 2)
('col_idx', 3, 'element', 0)
('row_idx', 3, 'row', array([0, 3, 0, 3]))
('col_idx', 0, 'element', 0)
('col_idx', 1, 'element', 3)
('col_idx', 2, 'element', 0)
('col_idx', 3, 'element', 3)


### 入口参数为矢量时函数的设计

In [8]:
def Theta(x):
    """
    Scalar implemenation of the Heaviside step function.
    """
    if x >= 0:
        return 1
    else:
        return 0

In [9]:
Theta(np.array([-3,-2,-1,0,1,2,3]))

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

很明显函数会报错，因为函数的输入没有准备好是矢量，这时就要使用vectorize了：

In [12]:
Theta_vec = np.vectorize(Theta)

In [14]:
Theta_vec(np.array([-3,-2,-1,0,1,2,3]))

array([0, 0, 0, 1, 1, 1, 1])

当然，如果在编写程序时一开始就考虑矢量化，效果会更好，就像下面这样

In [None]:
def Theta(x):
    """
    Vector-aware implemenation of the Heaviside step function.
    """
    return 1 * (x >= 0)

### any和all

In [16]:
M = np.array([[1,3],[2,5]])
M

array([[1, 3],
       [2, 5]])

In [19]:
(M>4).any()#是否有一个元素大于4？

True

In [20]:
(M>2).all()#是否所有元素都大于2？

False

### 类型转换

In [21]:
M.dtype

dtype('int32')

In [23]:
M3 = M.astype(float)

In [None]:
M3