# Numpy-Arrays

Numpy是python科学计算的核心库

## Arrays

我们可以用嵌套的list来初始化Numpy Arrays

In [99]:
import numpy as np

a = np.array([1,2,3])
print(type(a))

# shape 维度
print(a.shape)

# 以元组创建array
arr = np.array(((1,2,3),(1,2,3)))
print(arr)


<class 'numpy.ndarray'>
(3,)
[[1 2 3]
 [1 2 3]]
1 2 3;1 2 3


Numpy也提供一些函数创建数组

### np.arange() 

类似于range()函数，np.arange(start,end,step)用于创建数组，类似于R中的seq()

In [1]:
arr = np.arange(1,10,2)
print(arr)

NameError: name 'np' is not defined

### np.linspace()

np.linspace(start,end,length)用于创建指定长度的数组,类似于R中的seq()函数指定length.out参数

In [59]:
arr = np.linspace(1,2,4)
print(arr)

[1.         1.33333333 1.66666667 2.        ]


### np.zeros()

np.zeros(shape) 创建维度为shape的零数组 

In [4]:
a = np.zeros((2,2))
print(a)

[[0. 0.]
 [0. 0.]]


### np.ones()

np.ones(shape) 创建维度为shape的数组,元素全为1 

In [5]:
a = np.ones((2,2))
print(a)

[[0. 0.]
 [0. 0.]]


### np.full()

np.full(shape,value)创建维度为shape的数组,元素全为value

In [None]:
b = np.full((2,2),7)

### np.eye()

np.eye() 创建维度为shape的单位矩阵

In [6]:
# 可以接收一个参数，行列数相等
b = np.eye(2)

# 也可以行列数不等
b = np.eye(2,3)
print(b)

[[1. 0. 0.]
 [0. 1. 0.]]


### np.random.random()

创建一个元素为随机数字的数组

In [7]:
e = np.random.random((2,3))
print(e)

[[0.74893652 0.59955041 0.05285939]
 [0.2924746  0.30616178 0.66025604]]


## 改变数组的维度

### 将数组展平

#### ravel

In [3]:
import numpy as np

arr = np.array([[1,2],[3,4]])

print(arr.ravel())

print(id(arr),id(arr.ravel()))

[1 2 3 4]
140220917462480 140220917464880


#### flatten()

与ravel功能相同。不过flatten函数会请求分配内存来保存结果，而ravel函数只是返回数组的一个视图

In [None]:
flat = arr.flatten()
print(id(arr),id(flat))

### 设置维度

直接使用正整数元组来设置数组的维度

In [4]:
arr.shape = (1,4)
print(arr)

[[1 2 3 4]]


#### 使用 reshape()

In [6]:
print(arr.reshape((2,2)))
print(arr)

[[1 2]
 [3 4]]
[[1 2 3 4]]


#### 使用 resize()

resize()函数的功能和reshape()一样，但resize会直接修改所操作的数组

In [7]:
arr.resize((2,2))
print(arr)

[[1 2]
 [3 4]]


## 数组的属性

ndim属性，给出数组的维数
size属性，给出数组元素的总个数
itemsize属性，给出数组中的元素在内存中所占的字节数
nbytes属性，查看数组所占的存储空间，其实就是itemsize和size的乘积

## 数组的转换

### tolist()

将Numpy数组转换成python列表

In [8]:
print(arr.tolist())

[[1, 2], [3, 4]]


### astype()

可以在转换数组时指定数据类型

In [9]:
print(arr.astype(float))

[[1. 2.]
 [3. 4.]]


### tostring()

将Numpy数组转换为字节流

In [10]:
print(arr.tostring())

b'\x01\x00\x00\x00\x00\x00\x00\x00\x02\x00\x00\x00\x00\x00\x00\x00\x03\x00\x00\x00\x00\x00\x00\x00\x04\x00\x00\x00\x00\x00\x00\x00'


### np.where()

在资料分析工作中，np.where通常用于根据另一个阵列而产生一个新的阵列

In [18]:
arr = np.random.randn(4,4)

# 将元素大于0的替换为２，将小于0的替换为-2
arr[arr>0]=2
arr[arr<0]=-2
print(arr)

# 使用np.where()一步替换，逻辑上相当于x if cond else y
np.where(arr>0,2,-2)
print(arr)

[[ 2.  2.  2.  2.]
 [-2.  2. -2.  2.]
 [ 2. -2.  2.  2.]
 [-2. -2. -2.  2.]]
[[ 2.  2.  2.  2.]
 [-2.  2. -2.  2.]
 [ 2. -2.  2.  2.]
 [-2. -2. -2.  2.]]


In [26]:
# 将大于0的改为2，小于0的不变
arr = np.random.randn(4,4)
arr1 = np.where(arr>0,2,arr)
print(arr1)

[[ 2.         -0.38549736 -1.75717636 -1.68182592]
 [ 2.          2.         -0.8065223  -0.17090669]
 [ 2.          2.          2.          2.        ]
 [-0.21809347  2.          2.         -0.16613582]]


## 数组索引

如同list一样，Numpy数组也有切片形式。由于数组可能是多维的，所以你需要在每一个维度上指定切片

语法操作上和R类似，不同的是python起始索引为0

In [37]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

b = a[:2,1:3]
print(b)

print(a[1,3])

# 修改原始数组
a[0,0] = 77
print(a)

[[2 3]
 [6 7]]
8
[[77  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


对于二维数组:
    假设我们只指定了一个下标，则访问的结果仍然是一个数组。
    假设我们指定了两个下标，则访问得到的是其中的元素

In [65]:
# 打印两行
print(a[:2])

# 打印两列
print(a[:,:2])

arr = np.array([[[1,2,2],[3,4,3]],[[5,6,4],[7,8,6]]])
print(arr.ndim)

print(arr[[0,0,1,1],[0,1,0,1],[0,2,0,2]])

print(arr[[[0,0],[1,1]],[[0,1],[0,1]],[[0,2],[0,2]]])

[[77  2  3  4]
 [ 5  6  7  8]]
[[77  2]
 [ 5  6]
 [ 9 10]]
3
[1 3 5 6]
[[1 3]
 [5 6]]


### 花式索引

花式索引: 传递一个索引数组来一次性获得多个数组元素

利用花式索引，结果的形状与索引数组的形状一致，而不是与被索引数组的形状一致

#### 一个维度使用花式索引

使用一维整型数组作为索引，如果目标是一维数组，那么索引的结果就是对应位置的元素，如果目标是二维数组，那么就是对应下标的行

In [154]:
rand = np.random.RandomState(42)
x = rand.randint(100,size=10)
print(x)

# 获取三个不同的元素
print([x[2],x[7],x[2]])

# 传递单个列表或数组获得同样的结果
print(x[[3,7,2]]) #使用列表
print(x[np.array([3,7,2])]) # 使用数组

# 利用花式索引从一维数组中获取元素组合成多维

print(x[np.array([[3,7],[4,5]])]) # 结果和索引数组shape一致


# 一维数组索引应用于二维数组
num = np.array([[0, 1, 2],[3, 4, 5],[6, 7, 8],[9, 10, 11]])

num[[0,1]]

[51 92 14 71 60 20 82 86 74 74]
[14, 86, 14]
[71 86 14]
[71 86 14]
[[71 86]
 [60 20]]


#### 多个维度使用花式索引

和标准的索引方式一样，第一个索引指的是行，第二个索引指的是列

In [17]:
x = np.arange(12).reshape((3, 4))
row = np.array([0, 1, 2])
col = np.array([2, 1, 3])
print(x)

# 使用整数数组
print(x[row, col])

# 也可以将列表作为索引
print(x[[0,1,2],[2,1,3]])

# 多维数组用做索引，返回结果与索引数组维度一样

num = np.array([[0, 1, 2],[3, 4, 5],[6, 7, 8],[9, 10, 11]])
print(num)
# 多个维度使用2x2数组做索引
print(num[[[0,0],[3,3]],[[0,2],[0,2]]])

# 使用一维数组
print(num[[0,0,3,3],[0,2,0,2]])


[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[ 2  5 11]
[ 2  5 11]
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
[[ 0  2]
 [ 9 11]]
[ 0  2  9 11]


### 布尔索引

In [35]:
# 布尔值作为索引,返回同维度且元素为T/F的数组

bool_idx = (num>8)
print(bool_idx)

print(num[bool_idx])

# 一步到位
print(num[num>7])

# 取出行和大于10
print(num[num.sum(axis=1)>10])

# 取出列和大于20
print(num[:,num.sum(axis=0)>20])


[[False False False]
 [False False False]
 [False False False]
 [ True  True  True]]
[ 9 10 11]
[ 8  9 10 11]
[[ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
[[ 1  2]
 [ 4  5]
 [ 7  8]
 [10 11]]


## 数据类型

每一个Numpy数组内的元素都是同样的数据类型，在创建数组时可以指定数据类型

### 查看数据类型

使用dtype方法

In [36]:
x = np.array([1,2])
print(x.dtype)

x = np.array([1.0,2.0])
print(x.dtype)

# 创建时指定数据类型
x = np.array([1,2],dtype=np.float64)
print(x)


int64
float64
[1. 2.]
(2,)


## 数组运算

### 元素相加

#### +操作符

In [35]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

print(x + y)

[[ 6.  8.]
 [10. 12.]]


#### np.add()函数

In [36]:
print(np.add(x,y))

[[ 6.  8.]
 [10. 12.]]


### 元素相减

#### -操作符

In [37]:
print(x - y)

[[-4. -4.]
 [-4. -4.]]


#### np.subtract()函数

In [38]:
print(np.subtract(x,y))

[[-4. -4.]
 [-4. -4.]]


### 元素相乘

#### \*操作符

In [None]:
print(x * y)

#### np.multiply()函数

In [None]:
print(np.multiply(x,y))

### 元素相除

#### / 操作符

In [None]:
print(x / y)

#### np.divide()函数

In [39]:
print(np.divide(x,y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]


### 数组元素的开方

In [40]:
print(np.sqrt(x))

[[1.         1.41421356]
 [1.73205081 2.        ]]


### dot() 向量内积

In [60]:
# 两向量内积
v = np.array([9,10])
w = np.array([11,12])

print(v.dot(w))
print(np.dot(v,w))

# 矩阵与向量乘积
x = np.array([[1,2],[3,4]])
print(x.dot(v))
print(np.dot(x,v))

# 矩阵与矩阵内积
y = np.array([[1,2],[3,4]])
print(x.dot(y))
print(np.dot(x,y))

# python>=3.5中使用 @操作符可以同样实现内积
print(x @ y)

219
219
[29 67]
[29 67]
[[ 7 10]
 [15 22]]
[[ 7 10]
 [15 22]]
[[ 7 10]
 [15 22]]


### *=、+=

数组也可直接进行原位修改，此类操作符有 += -= \*= 等

In [61]:
arr = np.array([[1,2],[2,3]])

arr += 2
print(arr)

arr *= 3
print(arr)

[[3 4]
 [4 5]]
[[ 9 12]
 [12 15]]


### 聚合函数

一些聚合函数如sum,min,max,average默认操作数组内所有元素

然而可以指定 axis参数，对行或对列进行计算，axis=0应用于列
axis=1应用于行。类似于R中apply()函数1表示行，2表示列

#### np.sum()

In [49]:
x = np.array([[1,2],[3,4]])

# 所有元素之和
print(np.sum(x))

# axis=0 求列和
print(np.sum(x,axis=0))

# axis=1 求行和
print(np.sum(x,axis=1))

10
[4 6]
[3 7]


#### np.min()和np.max()

In [141]:
b = np.arange(12).reshape(3,4)
print(b)

print(b.min())

# 列
print(b.min(axis=0))

# 行
print(b.min(axis=1))

# 同时还有argmax()和argmin(),返回最大值和最小值的索引
index = np.argmax(b,axis=0)
print('每列最大值索引为')
print(index)
# 根据索引获取元素
print(b[index,range(4)])

index1 = np.argmin(b,axis=1)
print(b[range(3),index1])

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
0
[0 1 2 3]
[0 4 8]
每列最大值索引为
[2 2 2 2]
[ 8  9 10 11]
[0 4 8]
[[ 2  1  3]
 [ 6  5  7]
 [10  9 11]]


#### np.cumsum

In [66]:
print(b.cumsum())

# 列
print(b.cumsum(axis=0))

# 行
print(b.cumsum(axis=1))

[ 0  1  3  6 10 15 21 28 36 45 55 66]


#### np.average()

In [68]:
print(np.average(b))

# 列
print(np.average(b,axis=0))

# 行
print(np.average(b,axis=1))

5.5
[4. 5. 6. 7.]
[1.5 5.5 9.5]


### 转置

1. 使用.T方法

2. 使用 np.transpose()

In [93]:
x = np.array([[1,2],[3,4]])
print(x)
print(x.T)

print(np.transpose(x))

[[1 2]
 [3 4]]
[[1 3]
 [2 4]]
[[1 3]
 [2 4]]


### Broadcasting

Broadcasting这个机制允许了不同维数的数组间进行数学运算

1. 维数不同时，将低维度数组的shape会从左开始填充1,直至维数匹配

2. 维数相同时，若某些维度长度不同，那么长度为1的维度会被扩展至和另一数组同维度长度匹配

3. 如果两个数组维数相同，但有任一维度的长度不同且不为1，则报错

In [56]:
a = np.array([[1,2],[2,2]])
b = np.array([2,3])

print(a.shape,b.shape)
print(a+b)

(2, 2) (2,)
[[3 5]
 [4 5]]


### 逐行输出

In [70]:
arr = np.arange(12).reshape(2,3,2)
print(arr)

for row in arr:
    for row2 in row:
        print(row2)

[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]]
[0 1]
[2 3]
[4 5]
[6 7]
[8 9]
[10 11]


### 数组展开flatten

多维变成一维

In [73]:
flat = arr.flatten()
# 等价于 flat = arr.flat

print(flat.ndim)

1


### 矩阵合并与分割

#### 合并

np.hstack()　水平合并(行数要相同)
np.vstack()　垂直合并(列数要相同)

In [80]:
arr1 = np.array([1,2,3,6])
arr2 = np.arange(4)

# 水平合并
arr_hor = np.hstack((arr1,arr2))
print(arr_hor)

# 垂直合并
arr_ver = np.vstack((arr1,arr2))
print(arr_ver)

arr_ver2 = np.vstack((arr_ver,arr1))
print(arr_ver2)

try:
    print(np.vstack((arr_ver2,np.array([1,2,3]))))
except:
    print('not match')

[1 2 3 6 0 1 2 3]
[[1 2 3 6]
 [0 1 2 3]]
[[1 2 3 6]
 [0 1 2 3]
 [1 2 3 6]]
not match


#### 分割

np.split()
np.hsplit()
np.vsplit()

In [81]:
arr3=np.arange(2,17,2).reshape(2,4)
print(arr3)

[[ 2  4  6  8]
 [10 12 14 16]]


In [88]:
# 按列分割４份
print(np.split(arr3,4,axis=1))

# 按行分割2份
print(np.split(arr3,2,axis=0))

# vsplit() 垂直轴分割(行)
print(np.vsplit(arr3,2))

# hsplit() 水平轴分割(列)
print(np.hsplit(arr3,4))

[array([[ 2],
       [10]]), array([[ 4],
       [12]]), array([[ 6],
       [14]]), array([[ 8],
       [16]])]
[array([[2, 4, 6, 8]]), array([[10, 12, 14, 16]])]
[array([[2, 4, 6, 8]]), array([[10, 12, 14, 16]])]
[array([[ 2],
       [10]]), array([[ 4],
       [12]]), array([[ 6],
       [14]]), array([[ 8],
       [16]])]


## 复制和视图

### 复制

#### 完全不拷贝

简单的赋值不拷贝数组对象或他们的数据，共享一个内存地址，shape和元素值都共享

In [89]:
a = np.arange(12)

b = a

b.shape = 3,4

print(a)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


#### 视图和浅复制

不同的数组对象分享同一个数据。视图方法创造一个新的数组对象指向同一数据,shape不共享，元素值共享

In [91]:
c = a.view()

c.shape = 2,3,2 

print(c)
print(a)

c[0,1,0] = 4

print(a)

[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 0  1  4  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


#### 深复制

产生独立的数组

In [92]:
d = a.copy()

d[0,0] = 10

print(a)
print(d)

[[ 0  1  4  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[10  1  4  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


# Numpy 线性代数

Numpy.linalg模块提供了常见的线性代数函数

## 创建矩阵

In [100]:
import numpy as np

mat = np.mat([[0,1,2],[1,0,3],[4,-3,8]])
print(mat)

# 可以用字符串的形式创建矩阵
mat = np.mat("0 1 2;1 0 3;4 -3 8")
print(mat)

[[ 0  1  2]
 [ 1  0  3]
 [ 4 -3  8]]
[[ 0  1  2]
 [ 1  0  3]
 [ 4 -3  8]]


## 求逆矩阵

$A*A^{-1}=I$ 当且仅当A为方阵

矩阵必须是方阵且可逆(非奇异)，否则会抛出LinAlgError异常

In [103]:
inv = np.linalg.inv(mat)
print(inv)

print(np.dot(mat,inv))

[[-4.5  7.  -1.5]
 [-2.   4.  -1. ]
 [ 1.5 -2.   0.5]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


## 求解线性方程组

numpy.linalg中的函数solve可以求解形如 Ax = b 的线性方程组，其中 A 为矩阵，b 为一维或二维的数组，x 是未知变量

In [108]:
A = np.mat("1 -2 1;0 2 -8;-4 5 9")
b = np.array([0,8,-9])

print(A)

x = np.linalg.solve(A,b)

print(b.shape)
print(np.dot(A,x))

[[ 1 -2  1]
 [ 0  2 -8]
 [-4  5  9]]
[29. 16.  3.]
(3,)
[[ 0.  8. -9.]]


## 特征值和特征向量

特征值（eigenvalue）即方程 Ax = ax 的根，是一个标量。其中，A 是一个二维矩阵，x 是一个一维向量。特征向量（eigenvector）是关于特征值的向量

In [134]:
# 求特征值

mat = np.mat("3 -2;1 0")

eig = np.linalg.eigvals(mat)
print(eig)


# 求特征向量,eig()函数返回一个元组,(特征值，特征向量)

eig_val,eig_vec = np.linalg.eig(mat)
print(eig_val)

# 每一列是一个特征向量
print(eig_vec)
print(np.dot(mat,eig_vec[:,1]))
print(np.dot(eig_val[1],eig_vec[:,1]))

[2. 1.]
[2. 1.]
[[0.89442719 0.70710678]
 [0.4472136  0.70710678]]
[[0.70710678]
 [0.70710678]]
[[0.70710678]
 [0.70710678]]


## 奇异值分解(SVD)

SVD（Singular Value Decomposition，奇异值分解）是一种因子分解运算，将一个矩阵分解为3个矩阵的乘积

该函数返回3个矩阵——U、Sigma和V，其中U和V是正交矩阵，Sigma包含输入矩阵的奇异值

在图像压缩中，只存储奇异值（假定保留k个奇异值）、U矩阵的前k列和VT矩阵的前k行，从而实现压缩

$A=U\sigma V$

In [152]:
D = np.mat("4 11 14 4;8 7 -2 4;2 4 6 8")
U,sigma,V = np.linalg.svd(D,full_matrices=False)

print(sigma)
print(U)
print(V)

print(U[:,:1]*np.diag(sigma[:1])*V[:1,:])

# 重构原始矩阵的近似矩阵

'''
假设选择奇异值个数为3

new_data = U[:,:3] * Sig3 * VT[:3,:]

'''


[21.83480324  9.7895832   5.42267724]
[[ 0.83405368  0.35549595 -0.42187332]
 [ 0.31913067 -0.93466946 -0.15667997]
 [ 0.4500112   0.00395321  0.89301416]]
[[ 0.31093857  0.60493103  0.62920454  0.37613469]
 [-0.61774494 -0.26726551  0.7017665  -0.23341835]
 [-0.21297685 -0.39930638 -0.04329624  0.89068553]]
[[ 5.66262601 11.01663962 11.45869422  6.84993854]
 [ 2.16666828  4.21525342  4.38439503  2.620965  ]
 [ 3.05525316  5.94399542  6.18250467  3.69586414]]
[[0.83405368]
 [0.31913067]
 [0.4500112 ]]
[[21.83480324]]
[[0.31093857 0.60493103 0.62920454 0.37613469]]


## 广义逆矩阵

inv函数只接受方阵作为输入矩阵，而pinv函数则没有这个限制

矩阵的秩小于矩阵行数，是奇异矩阵，pinv可以求奇异矩阵的伪逆

$A*A^{-1}=I$

In [154]:
E = np.mat("4 11 14;8 7 -2")

pseudoinv = np.linalg.pinv(E)
print(pseudoinv)
print(E.dev)

print(E*pseudoinv)

[[-0.00555556  0.07222222]
 [ 0.02222222  0.04444444]
 [ 0.05555556 -0.05555556]]
[[ 1.00000000e+00 -8.88178420e-16]
 [-1.80411242e-16  1.00000000e+00]]


## 行列式

numpy.linalg模块中的det函数可以计算矩阵的行列式

In [192]:
F = np.mat("3 4;5 6")
print(np.linalg.det(F))

-1.9999999999999971


In [194]:
# 自定义求行列式的函数
def mydet(a):
    row,col = a.shape
    if row != col:
        res = 0
    else:
        res = 1
    
        for i in range(col):
            row = i

            res *= a[i][i]

            for j in range(row+1,col):

                if a[j][i] == 0:
                        pass
                else:
                    k = -a[j][i]/a[i][i]
                    a[j,:] = k*a[i,:]+a[j,:]

    return res

mydet(np.array([[1,2],[3,4]],dtype='float64'))
mydet(np.array([[3,4],[5,6]],dtype='float64'))

-2.000000000000001

# Numpy统计分析

## 方差与标准差

np.var()
计算数组中元素的方差
mean((x - x.mean())** 2)

In [36]:
arr = np.random.randn(3,4)
print(arr)

# 总体方差
print(np.var(arr))

# 求行方差
print(np.var(arr,axis=1))

# 标准差
print(np.std(arr))

# 行标准差
print(np.std(arr,axis=1))

[[ 1.91695762  0.34916025 -0.04191441  0.81655461]
 [ 1.23726862  1.13793553 -0.77015104 -1.13352453]
 [ 1.31601011 -0.62599092 -0.77699645 -0.75418146]]
0.9892152006961245
[0.53840131 1.16203915 0.77984335]
0.9945929824285532
[0.73375835 1.0779792  0.8830874 ]


## 极差

In [38]:
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

print(np.ptp(a))

# 行极差
print(np.ptp(a,axis=1))

8
[2 2 2]


## 中位数

### 百分位数

百分位数是统计中使用的度量，表示小于这个值的观察值的百分比

In [40]:
# 计算75%分位数
print(np.percentile(a,75))

# 计算行75%分位数
print(np.percentile(a,75,axis=1))

7.0
[2.5 5.5 8.5]


### 中位数

In [42]:
print(np.median(a))

# 计算行中位数
print(np.median(a,axis=1))

5.0
[2. 5. 8.]


## 总数与均值

In [44]:
print(np.sum(a))

#计算列和
print(np.sum(a,axis=0))

45
[12 15 18]


In [49]:
# 计算总体均值
print(np.mean(a))

# 对行进行标准化
a = np.array([[1,2],[3,4]])

mean = np.mean(a,axis=1)

np.transpose(a.T - mean)

2.5
(2,)


array([[-0.5,  0.5],
       [-0.5,  0.5]])

### 加权平均值

根据在另一个数组中给出的各自的权重计算数组中元素的加权平均值

In [50]:
b = np.array([1, 2, 3, 4])

# 不指定权重计算算术平均值
print(np.average(b))

# 指定权重
print(np.average(b,weights=[1,2,3,4]))

2.5
3.0


## Numpy random

### numpy.random.rand()

numpy.random.rand(d0,d1,...,dn)
[0,1]之间均匀分布的随机样本
rand函数根据给定维度生成[0,1)之间的数据，包含0，不包含1

dn表示每个维度
返回值为指定维度的array

In [51]:
# 生成4x2随机矩阵
np.random.rand(4,2)

array([[0.11088217, 0.28333388],
       [0.1996156 , 0.35471833],
       [0.46033004, 0.60690884],
       [0.9294811 , 0.59918665]])

### numpy.random.randn()

服从标准正态分布

In [52]:
np.random.randn(2,4)

array([[-0.8515049 , -0.04600411, -1.37256643,  1.37730098],
       [-1.30218437,  0.54418296, -0.81427751, -0.84008141]])

### numpy.random.randint()

numpy.random.randint(low, high=None, size=None, dtype='l')

返回随机整数，范围区间为[low,high），包含low，不包含high

size为数组维度大小

high没有填写时，默认生成随机数的范围是[0，low)

In [54]:
# 1-20随机整数矩阵
np.random.randint(1,20,(2,2))

array([[ 7, 19],
       [ 2, 18]])

###  生成[0,1)之间的浮点数

In [55]:
# 几个函数都可以用
print('-----------random_sample--------------')
print(np.random.random_sample(size=(2,2)))
print('-----------random--------------')
print(np.random.random(size=(2,2)))
print('-----------ranf--------------')
print(np.random.ranf(size=(2,2)))
print('-----------sample--------------')
print(np.random.sample(size=(2,2)))

-----------random_sample--------------
[[0.74389942 0.17635155]
 [0.65242516 0.4156534 ]]
-----------random--------------
[[0.20028244 0.63399993]
 [0.289014   0.27056606]]
-----------ranf--------------
[[0.66154354 0.57294329]
 [0.39307539 0.08760615]]
-----------sample--------------
[[0.26864276 0.26611685]
 [0.08087437 0.1107167 ]]


### numpy.random.choice()

numpy.random.choice(a, size=None, replace=True, p=None)

从给定的一维数组中生成随机数

a为一维数组类似数据或整数；size为数组维度；p为数组中的数据出现的概率

In [62]:
print(np.random.choice(5,3))

# 不可重复抽取
print(np.random.choice(5, 3, replace=False))

np.random.choice(5,size=(3,2))

# 默认每个元素被抽取的概率均等，可以指定概率
demo_list = ['lenovo', 'sansumg','moto','xiaomi', 'iphone']
np.random.choice(demo_list,size=(3,3), p=[0.1,0.6,0.1,0.1,0.1])

[3 2 3]
[0 4 1]


array([['sansumg', 'lenovo', 'sansumg'],
       ['sansumg', 'sansumg', 'sansumg'],
       ['sansumg', 'xiaomi', 'sansumg']], dtype='<U7')

### numpy.random.seed()

众所周知，计算机世界的随机数都是伪随机，都有一个叫做种子（seed）的东西

In [63]:
np.random.seed(5)
print(np.random.rand(3,3))

np.random.seed(5)
print(np.random.rand(3,3))

[[0.22199317 0.87073231 0.20671916]
 [0.91861091 0.48841119 0.61174386]
 [0.76590786 0.51841799 0.2968005 ]]
[[0.22199317 0.87073231 0.20671916]
 [0.91861091 0.48841119 0.61174386]
 [0.76590786 0.51841799 0.2968005 ]]


# Universal Functions

## maximum

比较两个数组对应元素的大小，返回每个对应元素的最大值

In [3]:
import numpy as np
x = np.random.randn(8)
y = np.random.randn(8)
np.maximum(x,y)

array([-0.60742877, -0.04685842, -0.34657369,  0.81099085,  0.76745814,
        0.17329818,  0.23362856,  1.04359959])