# Numpy的ndarray：一种多维数组对象

- **必须要是同构数据**

In [9]:
import numpy as np
from pprint import pprint as print

## 创建

|函数|说明|
|:----|:-----|
|array||
|asarray||
|arange||
|ones(ones_like)||
|zeros(zeros_like)||
|empty(empty_like)|分配新数组空间|
|eye / identity|返回单位方阵|

## 数据类型

|类型|类型代码|说明|
|:----|:-----|:-----|
|int8, uint8|i1, u1||
|int16, uint16|i2, u2||
|int32, uint32|i4, u4||
|int64, uint64|i8, u8||
|float16|f2|半精度|
|float32|f4(f)|与C的float兼容|
|float64|f8(d)|与C的double和Python的float兼容|
|float128|f16(g)|扩展精度浮点数|
|complex64, complex128, complex256|c8, c16, c32|数字指实部加虚部总位数|
|bool|?||
|object|O|python对象|
|string_|S|定长字符串|
|unicode_|U|定长unicode|

In [3]:
# ndarray的astype类型返回当前对象强制类型转换后的新对象的副本
a = np.empty(3, dtype='u4')
b = a.astype('u2')
print(a)
print(b)

[2097671064      32735   27537888]
[60312 32735 12768]


## 数组与标量之间的运算
**核心思想是广播(broadcast)机制**

## 索引与切片


### 基本索引与切片

- 基本索引功能与原生python类似
- 基本索引返回的是原数组的一个**视图**，这么做的原因是在大数据背景下，所以复制对象的开销很大
- 如果希望显示的得到副本，使用copy函数
- 将一个标量赋值给一个切片时将会激发广播

In [10]:
a = np.arange(9).reshape(3,3)
sub_a1 = a[1:3,1:3] # 对原数组进行切片
sub_a1[0:1] = -10  # 对切片进行标量赋值
print(a) # 原数组会发生改变

sub_a2 = a[1:3,1:3].copy()
sub_a2[0:1] = -20
print(a)

array([[  0,   1,   2],
       [  3, -10, -10],
       [  6,   7,   8]])
array([[  0,   1,   2],
       [  3, -10, -10],
       [  6,   7,   8]])


### 布尔型索引
- 判断条件可以是复合语句, 使用&或|进行复合，注意不是原声python中的and和or
- 布尔型数组的长度必须与被索引的轴长度一致
- 可以与切片结合
- 注意有一个**where**函数很适合这种工作

In [16]:
a = np.random.randn(3,3)
print(a)
mask = (a < 0) & (a > -1)
print(mask)
a[mask] = 0
print(a)

array([[-0.77900714,  0.85692932,  0.12407351],
       [-0.4754154 ,  0.26448507,  0.00346701],
       [-0.53059334,  1.85303231, -1.56009896]])
array([[ True, False, False],
       [ True, False, False],
       [ True, False, False]], dtype=bool)
array([[ 0.        ,  0.85692932,  0.12407351],
       [ 0.        ,  0.26448507,  0.00346701],
       [ 0.        ,  1.85303231, -1.56009896]])


### 花式索引
- Fancy indexing
- 利用整数数组进行索引
- **返回的是副本**
- 有时你可能需要的是**np.ix_**函数，它将两个一位数组转换为一个用于选取方形区域的索引器

In [24]:
a = np.arange(25).reshape(5,5)
print(a)

# example 1
sub_a1 = a[[1,3]]
print(sub_a1)

# example 2
sub_a2 = a[[1,3],[2,4]]
print(sub_a2)

# example 3
sub_a3 = a[[1,3]][:,[2,4]]
print(sub_a3)

# example 4
index = np.ix_([1,3],[2,4])
sub_a4 = a[index]
print(sub_a4)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])
array([[ 5,  6,  7,  8,  9],
       [15, 16, 17, 18, 19]])
array([ 7, 19])
array([[ 7,  9],
       [17, 19]])
array([[ 7,  9],
       [17, 19]])


### 数组转置与轴对称
- **返回的是视图**
- T属性或者tranpose方法
- 二维数组怎么用都行，高维数组的tranpose方法接受一个轴编号列表作为参数
- 除此之外swapaxes方法接受一对轴编号

# 通用函数：快速的元素级数组函数
- ufunc
- 可以看成是简单函数的矢量化包装
- np.vectorize

### 一元ufunc

|函数|说明|
|:----|:----|
|abs, fabs|绝对值，对于非复数，fabs更快|
|sqrt||
|square||
|exp||
|log, log10, log2, log1p|最后一个是计算log(1+x)|
|sign|正负号|
|ceil||
|floor||
|rint|四舍五入，保留dtype|
|modf|拆分整数和小数|
|isnan||
|isfinite, isinf||
|cos, cosh, sin, sinh, tan, tanh||
|arccos, arccosh, arcsin, arcsinh, arctan, arctanh||
|logical_not||

### 二元ufunc


|函数|说明|
|:----|:----|
|add||
|subtract||
|multiply||
|divide, floor_divide||
|power||
|maximum, fmax|fmax忽略NaN|
|minimum, fmin|同上|
|mod||
|copysign|将第二个数组中的符号复制给第一个数组|
|greater, greater_equal, less, less_equal, equal, not_equal||
|logical_and, logical_or, logical_xor||

# 矢量化计算

## np.where

- 可以通过嵌套完成复杂逻辑（不过可读性堪忧）
    - where(condition, where(...), where(...))

In [26]:
# 根据条件从两个list中选择值
xarr = np.array([1,2,3,4,5])
yarr = np.array([-1,-2,-3,-4,-5])
cond = np.array([True, False, True, False, True])

# 原生Python
result = [(x if c else y) for x,y,c in zip(xarr, yarr, cond)]
print(result)

# np.where
result = np.where(cond, xarr, yarr)
print(result)


[1, -2, 3, -4, 5]
array([ 1, -2,  3, -4,  5])


### 统计函数

|方法|说明|
|:---|:---|
|sum|接受参数指定计算轴|
|mean||
|std, var|标准差和方差, 参数为自由度|
|min, max||
|argmin, argmax||
|cumsum|累积和，接收参数指定计算轴|
|cumprod|累计积|

In [28]:
a = np.arange(9).reshape(3,3)
print(a)

print(a.cumsum(0))
print(a.cumprod(1))

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])
array([[ 0,  1,  2],
       [ 3,  5,  7],
       [ 9, 12, 15]])
array([[  0,   0,   0],
       [  3,  12,  60],
       [  6,  42, 336]])


### bool数组
- 对bool数组应用统计函数会强制转换为0和1
- sum(), any(), all()

### 排序
- 可以指定排序轴
- 顶级方法返回副本， 就地排序会修改数组本身，没有返回值


In [30]:
# 取四分之一分位数
a = np.random.randn(100)
print(np.sort(a)[int(0.25 * len(a))])

-0.77502222906197837


### 集合逻辑

|方法|说明|
|:----|:----|
|unique(x)|去除冗余并排序|
|intersect1d(x,y)|交集并排序|
|union1d(x,y)|并集并排序|
|in1d(x,y)|x的元素是否在y中|
|setdiff1d(x,y)|集合差|
|setxor1d(x,y)|对称差|

In [34]:
x = np.array([1,2,3,4,5])
y = np.array([1,3,5,7,9])

print("intersect")
print(np.intersect1d(x,y))

print("union")
print(np.union1d(x,y))

print("x in y")
print(np.in1d(x,y))

print("x - y")
print(np.setdiff1d(x,y))

print("(x - y) union (y - x)")
print(np.setxor1d(x,y))

'intersect'
array([1, 3, 5])
'union'
array([1, 2, 3, 4, 5, 7, 9])
'x in y'
array([ True, False,  True, False,  True], dtype=bool)
'x - y'
array([2, 4])
'(x - y) union (y - x)'
array([2, 4, 7, 9])


In [35]:
a = np.arange(9).reshape(3,3)
np.save("1111", a)

# 用于数组的文件输入输出



## 保存数组
- 以二进制方式保存
- np.save保存单个数组，np.savez保存多个数组
- np.load读取数组

In [41]:
a = np.arange(5)
b = np.random.randn(5)
np.save("tmpfile1",a)
np.savez("tmpfile2",a=a, b=b)

print(np.load("tmpfile1.npy"))
c = np.load("tmpfile2.npz")
print(c['a'])
print(c['b'])

array([0, 1, 2, 3, 4])
array([0, 1, 2, 3, 4])
array([ 0.09579683,  0.14722152,  0.87056354,  0.33845606, -0.2258633 ])


## 存取文本
- pandas中有read_xxx系列函数
- np.loadtxt读取csv文件
- np.genfromtxt面向结构化数组和缺失数据处理

In [46]:
a = np.arange(25).reshape(5,5)
np.savetxt("tmpfile3", delimiter=",", X=a)
print(np.loadtxt("tmpfile3", delimiter=','))

array([[  0.,   1.,   2.,   3.,   4.],
       [  5.,   6.,   7.,   8.,   9.],
       [ 10.,  11.,  12.,  13.,  14.],
       [ 15.,  16.,  17.,  18.,  19.],
       [ 20.,  21.,  22.,  23.,  24.]])


# 线性代数
- numpy.linalg中有一组标准的矩阵分解运算以及诸如求逆和行列式之类的运算，他们与matlab和R等语言所使用的是相同的行业标准级Fortran库， 如BLAS/LAPACK

|函数|说明|
|:----|:---|
|diag|一维数组与对角矩阵之间相互转换|
|dot|矩阵乘法|
|trace|迹|
|det|行列式|
|eig|特征分解|
|inv|逆|
|pinv|Moore-Penrose逆|
|qr|QR分解|
|svd|SVD|
|solve|解线性方程|
|lstsq|解最小二乘|

In [48]:
# 基本矩阵运算
a = np.random.randn(5,5)
print(np.rint(a.dot(np.linalg.inv(a))))

# QR分解
q, r = np.linalg.qr(a)
print(q)

array([[ 1.,  0., -0., -0.,  0.],
       [-0.,  1.,  0.,  0., -0.],
       [-0., -0.,  1., -0.,  0.],
       [ 0.,  0.,  0.,  1., -0.],
       [-0., -0.,  0.,  0.,  1.]])
array([[-0.04357576, -0.20826332, -0.12722952,  0.92928952,  0.27379039],
       [-0.61291164, -0.43147156,  0.42793422,  0.08005993, -0.49863246],
       [ 0.53323915, -0.35073165, -0.37986045,  0.08988586, -0.66352836],
       [-0.56755708, -0.0266766 , -0.8101692 , -0.14418065,  0.00226684],
       [ 0.12639402, -0.80419796, -0.00410665, -0.31803123,  0.48593155]])


# 随机数

|函数|说明|
|:---|:---|
|seed||
|permutation|返回一个随机**置换**|
|shuffle|对一个序列就地排列|
|rand|均匀分布|
|randint|给定上下限，随机选取整数|
|randn|正态分布|
|binomial|二项分布|
|normal|正态分布|
|beta|beta分布|
|chisquare|卡方分布|
|gamma|Gamma分布|
|uniform|(0,1)之间均匀分布|