# NumPy基础：数组和矢量计算

+ ndarray，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。
+ 用于对整数数据进行快速运算的标准数学函数（无需编写循环）
+ 用于读写磁盘数据的工具以及用于操作内存映射文件的工具
+ 线性代数、随机数生成以及傅里叶变换功能。
+ 用于集成有C、C++、Fortran等语言编写的代码的工具。

## 目录
+ NumPy的ndarray：一个多维数组对象
 + 创建ndarray
 + ndarray的重要属性
 + ndarraysd的数据类型
 + 数组与标量之间的运算
 + 基本的索引和切片
 + 数组转置和轴对换


+ 通用函数：快速的元素级数组函数
 + 一元ufunc
 + 二元ufunc


+ 利用数组进行数据处理
 + 将条件逻辑表述为数组运算
 + 数学和统计方法
 + 用于布尔型数组的方法
 + 排序
 + 唯一化以及其他的集合逻辑

    
+ 用于数组的文件输入输出
 + 将数组以二进制格式保存到磁盘
 + 存取文本文件


+ 线性代数
 + numpy函数
 + numpy.linalg函数


+ 随机数生成
 + numpy.random函数

    
+ 范例：随机漫步
 + 一次模拟多个随机漫步

In [None]:
from numpy.random import randn
import numpy as np

## NumPy的ndarray：一个多维数组对象

### 创建ndarray

+ array  
将输入数据（列表、元组、数组或其他**序列类型**）转换为ndarray。要么推断出dtype，要么显式制定dtype。默认直接复制输入数据。

In [None]:
data = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr = np.array(data)

+ asarray  
将输入转换为ndarray，如果输入本身就是一个ndarray就不进行复制

In [None]:
arr1 = np.array(arr)
arr1 is arr # 返回False，进行复制

arr2 = np.asarray(arr)
arr2 is arr # 返回True，不进行复制

+ arange  
类似于内置的range，但返回的是一个ndarray而不是列表

In [None]:
np.arange(15)

+ ones、ones_like  
根据指定的形状和dtype创建一个全1数组。ones_like以另一个数组为参数，并根据其形状和dtype创建一个全1数组

In [None]:
np.ones((2, 3, 4), dtype = np.string_) # 创建多维数组，参数是元组的形式，并且根据dtype参数将数值1转化为字符串
np.ones_like(arr)

+ zeros、zeros_like  
类似于ones和ones_like，只不过产生的是全0数组而已

In [None]:
np.zeros((2, 3, 4), dtype = np.int8)
np.zeros_like(arr)

+ empty、emtpy_like  
创建新数组，只分配内存空间但不填充任何值

In [None]:
np.empty((2, 3, 4))
np.empty_like(arr)

+ eye、identity  
创建一个正方的N * N单位矩阵

In [None]:
N = 5
np.eye(N)
np.identity(N)

### ndarray的重要属性

In [None]:
# 生成2 * 3的2维数组，元素服从标准正态分布
data = randn(2, 3)

In [None]:
data.ndim # 数组的维数

In [None]:
data.shape # 数组各维度大小的元组,n行m列的数组，返回(n, m)

In [None]:
data.size # 数组内元素个数

In [None]:
data.dtype # 数组的数据类型

In [None]:
data.itemsize # 每个元素占用字节数

In [None]:
data.data # 数组内存地址

### ndarraysd的数据类型

+ 显示指定dtype

In [None]:
arr1 = np.array([1, 2, 3], dtype=np.float64) # 数值型dtype，np.类型名+位长，标准的双精度浮点值占用8字节（即64位）

+ 通过astype方法转换dtype

In [None]:
arr = np.array([1, 2, 3, 4, 5])
float_arr = arr.astype(np.float64)

In [None]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr.astype(np.int32) # 将浮点数转换成整数，小数部分会被截断

In [None]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_) # 如果字符串数组全是数字，可以用astype将其转换为数值形式
numeric_strings.astype(float) # float是Python内置类型，NumPy会自动将Python类型映射到等价的dtype，即np.float64

+ 将其他数组的dtype属性作为参数传入astype方法

In [None]:
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
int_array.astype(calibers.dtype) # 等价于int_array.astype(np.float64)

+ 用简洁的类型代码表示dtype

In [None]:
empty_uint32 = np.empty(8, dtype='u4') # 等价于empty_uint32 = np.empty(8, dtype='np.uint32')

NumPy的数据类型列表，在原书第86页

注意：astype方法会创建一个**新的数组**

### 数组与标量之间的运算

+ 大小相等的数组之间的算术运算和比较运算，运算将应用到**元素级**

In [None]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
arr * arr
arr == arr

+ 数组与标量的算术运算和比较运算，标量值将**传播**到各个**元素**

In [None]:
1 / arr
arr != 1

### 基本的索引和切片

+ 整数索引  
 + 整数索引是原始数组的视图，数据并不会复制
 + 整数索引返回的是低维数组
 + 通过切片赋值，对数组进行修改 

In [None]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]]) # 3维数组

In [None]:
arr3d[0] # 2维数组

In [None]:
arr3d[0][0]
arr3d[0, 0] # 以上两种方式等价，返回1维数组

In [None]:
old_values = arr3d[0].copy() # 如果想要得到切片副本，使用.copy()方法
arr3d[0] = 42 # 利用整数索引赋值，对数组进行修改
arr3d[0] = old_values

+ 切片索引
 + 整数索引是原始数组的视图，数据并不会复制

In [None]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[:2] # 单独使用切片索引，不降维

In [None]:
arr2d[:2, 1:] # 先按0轴切片，再按1轴切片

In [None]:
arr2d[1, :2] # 整数索引与切片索引混用，降维
arr2d[1:2, :2] # 在不降维的情况下，选取单行数组

In [None]:
arr2d[:, :1] # 只有冒号，选取整个轴，即对该轴不切片

In [None]:
arr2d[:2, 1:] = 0 # 利用切片索引修改数组

+ 布尔型索引
 + 布尔型索引总是创建数据的副本

In [None]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
names1 = np.array(['Bob', 'Joe', 'Will', 'Bob'])
data = randn(7, 4)

In [None]:
data[names == 'Bob'] # 布尔型数组的长度跟被索引的轴长度一致，按行索引
data[:, names1 == 'Bob'] # 按列索引

In [None]:
names != 'Bob'
data[-(names == 'Bob')] # 以上两种方式等价

In [None]:
mask = (names == 'Bob') | (names == 'Will') # Python关键字and和or在布尔型数组中无效，使用 & 和 |
mask
data[mask] # 布尔条件的组合索引 

In [None]:
data[data < 0] = 0 # 利用与原数组shape相同的布尔型索引修改数组

In [None]:
data[names != 'Joe'] = 7 # 利用一维布尔型索引修改数组

+ 花式索引（整数数组索引）
 + 以特定顺序选取行列子集
 + 花式索引总是创建数据的副本

In [None]:
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i # 创建数组

In [None]:
arr[[4, 3, 0, 6]] # 以特定顺序选取行子集

In [None]:
arr[[-3, -5, -7]] # 使用负数索引从末尾选取行

In [None]:
arr = np.arange(32).reshape((8, 4))
arr[[1, 5, 7, 2], [0, 3, 1, 2]] # 这样返回的是元素(1, 0), (5, 3), (7, 1), (2, 2)

In [None]:
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]
arr[np.ix_([1, 5, 7, 2], [0, 3, 1, 2])] # 以上两种方式等价，选取数组内的方形区域

### 数组转置和轴对换
转置和轴对换返回源数据的视图，数据并不会复制

+ T属性，转置

In [None]:
arr = np.arange(15).reshape((3, 5))
arr.T

+ transpose方法，转置

In [None]:
arr = np.arange(16).reshape((2, 2, 4))
arr.transpose((1, 0, 2)) # 传入轴编号组成的元组，按照轴编号的排列重塑数组

In [None]:
arr.T
arr.transpose((2, 1, 0)) # 以上两种方式等价

+ swapaxes方法，轴对换

In [None]:
arr.swapaxes(1, 2) # 1、2轴对换

## 通用函数：快速的元素级数组函数

+ 通用函数（ufunc）都是NumPy的**顶级函数**，是一种对ndarray中的数据执行元素级运算的函数。
+ 可以将其看作简单函数（接受一个或多个标量值，并产生一个或多个标量值）的矢量化包装器。

### 一元ufunc

+ abs、fabs  
计算整数、浮点数或复数的绝对值。对于非复数值，可以使用更快的fabs
+ sqrt  
计算各元素的平方根。相当于arr ** 0.5
+ square  
计算各元素的平方。相当于arr ** 2
+ exp  
计算各元素的指数e ** x
+ log、log10、log2、log1p  
分别为自然对数（底数为e）、底数为10的log、底数为2的log、log(1+x)
+ sign  
计算各元素的正负号：1（正数）、0（零）、-1（负数）
+ ceil  
计算各元素的ceiling值，即大于等于该值的最小整数
+ floor  
计算各元素的floor值，即小于等于该值的最大整数
+ rint  
将各元素值四舍五入到最接近的整数，保留dtype
+ modf  
将数组的小数和整数部分以两个独立数组的形式返回
+ isnan  
返回一个表示“哪些值是NaN（这不是一个数字）”的布尔型数组
+ isfinite、isinf  
分别返回一个表示“哪些元素是有穷的（非inf，非NaN）”或“哪些元素是无穷的”的布尔型数组
+ cos、cosh、sin、sinh、tan、tanh  
普通型和双曲型三角函数
+ arccos、arccosh、arcsin、arcsinh、arctan、arctanh  
反三角函数
+ logical_not  
计算各元素not x的真值。相当于-arr

In [None]:
arr = np.arange(10)
np.sqrt(arr)
np.exp(arr)

In [None]:
arr = randn(7) * 5
np.modf(arr) # 返回由两个数组构成的元组

### 二元ufunc

+ add  
将数组中对应的元素相加
+ subtract  
从第一个数组中减去第二个数组中的元素
+ multiply  
数组元素相乘
+ divide、floor_divide  
除法或向下圆整除法（丢弃余数）
+ power  
对第一个数组中的元素A，根据第二个数组中的相应元素B，计算A ** B
+ maximum、fmax  
元素级的最大值计算。fmax将忽略NaN
+ minimum、fmin  
元素级的最小值计算。fmin将忽略NaN
+ mod  
元素级的求模计算（除法的余数）
+ copysign  
将第二个数组中的值的符号复制给第一个数组中的值
+ greater、greater_equal、less、less_equal、equal、not_equal  
执行元素级的比较运算，最终产生布尔型数组。相当于中缀运算符>、>=、<、<=、==、!=
+ logical_and、logical_or、logical_xor  
执行元素级的真值逻辑运算。相当于中缀运算符&、|、^（异或）

In [None]:
x = randn(8)
y = randn(8)
np.maximum(x, y)

## 利用数组进行数据处理

### 将条件逻辑表述为数组运算

np.where函数是三元表达式x if condition else y的矢量化版本

+ 3个参数是等长数组

In [None]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

In [None]:
result = [(x if c else y)
          for x, y, c in zip(xarr, yarr, cond)]

In [None]:
result = np.where(cond, xarr, yarr) # 以上两种方式等价，cond值为True时，选取xarr的值，否则选取yarr的值

+ 第2、3个参数不是数组，用于根据另一个数组产生一个新的数组

In [None]:
arr = randn(4, 4)
np.where(arr > 0, 2, -2)
np.where(arr > 0, 2, arr) # 只将正值设置为2

+ 嵌套的where表达式

In [None]:
result = []
for i in range(n):
    if cond1[i] and cond2[i]:
        result.append(0)
    elif cond1[i]:
        result.append(1)
    elif cond2[i]:
        result.append(2)
    else:
        result.append(3)

In [None]:
np.where(cond1 & cond2, 0,
         np.where(cond1, 1,
                  np.where(cond2, 2, 3))) # 以上两种方式等价

### 数学和统计方法

+ sum  
对数组中全部或某轴向的元素求和。零长度的数组的sum为0
+ mean  
算术平均数。零长度的数组的mean为NaN
+ std、var  
分别为标准差和方差，自由度可调（默认为n）
+ min、max  
最大值和最小值
+ argmin、argmax  
分别为排在第一个的最大和最小元素的索引
+ cumsum  
所有元素的累计和
+ cumprod  
所有元素的累计积

In [None]:
arr = np.random.randn(5, 4)
arr.mean()
np.mean(arr) # 既是方法，也是顶级函数，返回标量值

In [None]:
arr.mean(axis=1) # 接受axis = 1参数，按行计算统计值，返回少一维的数组，0为列，1为行
arr.sum(0) # 可以不输入axis = 参数名，按列计算统计值

In [None]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
arr.cumsum(0)
arr.cumprod(1) # cumsum、cumprod之类的方法不聚合，返回由中间结果组成的数组

### 用于布尔型数组的方法

In [None]:
arr = randn(100)
(arr > 0).sum() # 布尔值会被转换为1（True）和0（False），sum用于对布尔型数组中的True值计数

In [None]:
bools = np.array([False, False, True, False]).reshape(2, 2)
bools.any() # any检查整个数组中是否存在True
bools.any(0) # 检查每列中是否存在True
bools.any(1) # 检查每行中是否存在True
bools.all() # all检测整个数组中是否全为True

### 排序

+ sort方法就地排序

In [None]:
arr = randn(8)
arr.sort()

In [None]:
arr = randn(5, 3)
arr.sort(1) # 多维数组可以在某一轴上排序

+ np.sort函数返回数组排序后的副本

In [None]:
arr = randn(8)
np.sort(arr)

+ 利用排序计算数组分位数

In [None]:
large_arr = randn(1000)
large_arr.sort()
large_arr[int(0.05 * len(large_arr))] # 5%分位数

### 唯一化以及其他的集合逻辑

+ 集合运算都是NumPy的顶级函数

+ unique(x)  
计算x中的唯一元素，并返回有序结果
+ intersect1d(x, y)  
计算x和y中的公共元素，并返回有序结果
+ union1d(x, y)  
计算x和y的并集，并返回有序结果
+ in1d(x, y)  
得到一个表示“x的元素是否包含于y”的布尔型数组
+ setdiff1d(x, y)  
集合的差，即元素在x中且不在y中
+ setxor1d(x, y)  
集合的对称差，即存在于一个数组中但不同时存在于两个数组中的元素（异或）

In [None]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
np.unique(names)

In [None]:
sorted(set(names)) # 等价的纯Python代码

In [None]:
values = np.array([6, 0, 0, 3, 2, 5, 6])
np.in1d(values, [2, 3, 6])

## 用于数组的文件输入输出

### 将数组以二进制格式保存到磁盘

+ np.save  
默认情况下，数组以未压缩的原始二进制格式保存在扩展名为**.npy**的文件中

In [None]:
arr = np.arange(10)
np.save('some_array', arr) # 文件路径末尾没有.npy，会被自动加上

+ np.load  
读取磁盘上的数组

In [None]:
np.load('some_array.npy')

+ np.savez  
将多个数组保存到一个扩展名为**.npz**的压缩文件中，数组以关键字参数的形式传入

In [None]:
np.savez('array_archive.npz', a=arr, b=arr)

In [None]:
arch = np.load('array_archive.npz') # 加载.npz文件，会得到一个类似字典的对象
arch['b'] # 通过关键字参数的键来读取数组

### 存取文本文件

+ np.loadtxt  
可以指定各种分隔符、针对特定列的转换器函数、需要跳过的函数等

In [None]:
!cat array_ex.txt # 这是Linux的，Windows得用type

In [None]:
arr = np.loadtxt('array_ex.txt', delimiter=',') # delimiter参数设置分隔符

+ np.savetxt  
将数组写到以某种分隔符隔开的文本文件中

## 线性代数

### numpy函数
+ diag  
以一维数组的形式返回方阵的对角线（或非对角线）元素，或将一维数组转换为方阵（非对角线元素为0）
+ dot  
矩阵乘法
+ trace  
计算对角线元素的和

In [None]:
x = np.array([[1., 2., 3.], [4., 5., 6.]])
y = np.array([[6., 23.], [-1, 7], [8, 9]])
x.dot(y)
np.dot(x, y) # 以上两种方式等价

In [None]:
np.dot(x, np.ones(3)) # 矩阵与向量相乘

### numpy.linalg函数
+ det  
计算矩阵行列式
+ eig  
计算方阵的本征值和本征向量
+ inv  
计算方阵的逆
+ pinv  
计算矩阵的Moore-Penrose伪逆
+ qr  
计算QR分解
+ svd  
计算奇异值分解（SVD）
+ solve  
解线性方程组Ax = b，其中A为一个方阵
+ lstsq  
计算Ax = b的最小二乘解


In [None]:
from numpy.linalg import inv, qr
X = randn(5, 5)
mat = X.T.dot(X)
inv(mat) # 求逆
mat.dot(inv(mat)) # 返回单位阵
q, r = qr(mat) # QR分解

## 随机数生成

### numpy.random函数
+ seed  
确定随机数生成器的种子
+ permutation  
返回一个序列的随机排列或返回一个随机排列的范围
+ shuffle  
对一个序列就地随机排列
+ rand  
产生均匀分布的样本值
+ randint  
从给定的上下限范围内随机选取整数
+ randn  
产生正态分布（平均值为0，标准差为1）的样本值，类似于MATLAB接口
+ binomial  
产生二项分布的样本值
+ normal  
产生正态（高斯）分布的样本值
+ beta  
产生Beta分布的样本值
+ chisquare  
产生卡方分布的样本值
+ gamma  
产生Gamma分布的样本值
+ uniform  
产生在[0, 1)中均匀分布的样本值

In [None]:
samples = np.random.normal(size=(4, 4)) # 产生标准正态分布的4 * 4样本数组

In [None]:
from random import normalvariate
N = 1000000
%timeit samples = [normalvariate(0, 1) for _ in xrange(N)]
%timeit np.random.normal(size=N) # 产生大量样本值的情况下，numpy.random比纯Python快几个数量级

## 范例：随机漫步

In [None]:
# 纯Python代码
import random
position = 0
walk = [position]
steps = 1000
for i in xrange(steps):
    step = 1 if random.randint(0, 1) else -1
    position += step
    walk.append(position)

In [None]:
# numpy.random代码
nsteps = 1000
draws = np.random.randint(0, 2, size=nsteps)
steps = np.where(draws > 0, 1, -1)
walk = steps.cumsum()

In [None]:
walk.min()
walk.max() # 对随机漫步的统计工作

In [None]:
(np.abs(walk) >= 10).argmax() # 得到本次随机漫步需要多久，才能距离0点至少10步远

### 一次模拟多个随机漫步

In [None]:
nwalks = 5000
nsteps = 1000
draws = np.random.randint(0, 2, size=(nwalks, nsteps)) # 0 or 1
steps = np.where(draws > 0, 1, -1)
walks = steps.cumsum(1)

In [None]:
walks.max()
walks.min()

In [None]:
hits30 = (np.abs(walks) >= 30).any(1)
hits30.sum() # 到达30或-30的随机漫步数量

In [None]:
crossing_times = (np.abs(walks[hits30]) >= 30).argmax(1)
crossing_times.mean() # 穿越了30步的随机漫步，所用穿越时间的均值

In [None]:
steps = np.random.normal(loc=0, scale=0.25,
                         size=(nwalks, nsteps)) # 用指定均值和标准差的正态分布生成随机漫步