In [1]:
import numpy as np

# ndarray，多维数组对象

ndarray是个同构数据多维容器，所有元素必须为同一类型。

### 生成数组

In [41]:
data=[[1,2,3,4],[5,6,7,8]]
arr=np.array(data,dtype=np.float64)
arr

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.]])

In [5]:
# 形状
arr.shape

(2, 4)

In [44]:
# dtype
arr.dtype
# arr.astype(np.float64) # or: arr.astype(float)
# arr.astype(np.string_)
# arr.astype(arr.dtype)

dtype('float64')

In [7]:
arr.ndim

2

In [27]:
# zeros, ones, empty 可以创建指定形状的ndarray，empty创建的ndarray中是无意义的垃圾值
zero_ones=np.append(np.zeros((1,3)),np.append(np.ones((2,3)),np.empty((1,3)),axis=0),axis=0)
zero_ones

array([[ 0.,  0.,  0.],
       [ 1.,  1.,  1.],
       [ 1.,  1.,  1.],
       [ 0.,  0.,  0.]])

In [28]:
# zeros_like, ones_like, empty_like 根据参数数组的形状和dtype创建新数组
np.zeros_like(data)

array([[0, 0, 0, 0],
       [0, 0, 0, 0]])

In [39]:
# eye, identity 生成对角线为1其余为0的矩阵
# np.eye(2)
np.identity(3)

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

In [40]:
# arange 类似于python内置的range，但生成的是数组
np.arange(2)
# range(2)

array([0, 1])

### 索引和切片

**切片视图与复制：**

In [49]:
# 数组切片是原始数据的一个视图，对此视图的修改会直接反映到源数据上
arr_slice=arr[1]
arr_slice[:]=12
arr

array([[  1.,   2.,   3.,   4.],
       [ 12.,  12.,  12.,  12.]])

In [50]:
# 如果不希望修改到源数据，需要显式进行复制操作
arr_slice=arr[1].copy()
arr_slice[:]=10
arr

array([[  1.,   2.,   3.,   4.],
       [ 12.,  12.,  12.,  12.]])

**切片索引：**

In [53]:
arr=np.array([[1,2,3],[4,5,6],[7,8,9]])
arr

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [69]:
# arr[0]
# arr[0,2]
arr[0:2,1:] #注意：0:2并不包括2，:2也不包括2

array([[2, 3],
       [5, 6],
       [8, 9]])

In [71]:
# 索引中每多一个确定的整数，返回的数组就会比原数据降低一个维度
arr[2,1] # 返回8
arr[2:,1] # 返回array([8])
arr[2:,:1] # 返回array([[7]])

array([[7]])

**bool索引**

通过bool索引选取的数据，总是创建数据的副本

In [93]:
import numpy.random as random
random=random.randn(2,5) # randn可生成正态分布的随机数
random

array([[-1.36613519,  2.13587721, -0.61878211,  0.82406474, -0.08940045],
       [ 0.5009189 , -2.86308665,  1.45328356, -0.60994262, -1.76603768]])

In [81]:
random>0

array([[False, False,  True,  True, False],
       [ True,  True, False,  True,  True]], dtype=bool)

In [88]:
random[random>0]

array([ 0.77456157,  0.13873403,  0.81424035,  2.04906592,  0.16235367,
        0.63163521])

In [90]:
random[random[:,1]>0,0]

array([ 0.81424035])

In [91]:
random[(random>0)&(random<0.5)]
# python关键字and和or在bool索引中无效

array([ 0.13873403,  0.16235367])

**花式索引（fancy indexing，指使用整数数组进行索引）**

通过花式索引选取的数据，总是创建数据的副本

In [96]:
arr=[[0,1,2,3],[10,11,12,13],[20,21,22,23]]
arr=np.array(arr)
arr

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23]])

In [99]:
arr[[2,1,0]]

array([[20, 21, 22, 23],
       [10, 11, 12, 13],
       [ 0,  1,  2,  3]])

In [100]:
arr[[2,1,0],2]

array([22, 12,  2])

In [103]:
arr[[2,1,0]][:,[3,1,2,0]]

array([[23, 21, 22, 20],
       [13, 11, 12, 10],
       [ 3,  1,  2,  0]])

In [104]:
arr[np.ix_([2,1,0],[3,1,2,0])]

array([[23, 21, 22, 20],
       [13, 11, 12, 10],
       [ 3,  1,  2,  0]])

### 数组转置（transpose）
转置返回的是源数据的视图，不会进行复制

In [108]:
arr=np.arange(15).reshape((3,5))
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [109]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [110]:
# 对高维数组转置
arr=np.arange(16).reshape((2,2,4))
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [111]:
# 需要指定由轴编号组成的元组
arr.transpose((1,0,2))

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

In [114]:
# 也可以使用swapaxes方法（只接受两个轴编号）
arr.swapaxes(1,2)

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

# 通用函数ufunc
对ndarray中的数据进行元素及运算的函数

In [120]:
import numpy.random as random
arr=random.randn(10)
arr

array([ 0.65030805, -0.4249115 ,  0.35149425,  0.21140486, -0.04028086,
        0.73323817,  1.8379259 ,  0.31087038, -0.87804725,  1.16242232])

### 一元unary ufunc

In [128]:
np.abs(arr)
np.fabs(arr) # 对于非复数值，fabs更快
np.sign(arr) # 返回各元素的正负号

array([ 1., -1.,  1.,  1., -1.,  1.,  1.,  1., -1.,  1.])

In [129]:
np.sqrt(np.arange(10)) # 相当于np.arange(10)))0.5
np.square(arr) # 相当于arr**2
np.exp(arr) # 计算e^x

In [134]:
np.ceil(arr) # 向上取整
np.floor(arr) # 向下取整
np.rint(arr) # 四舍五入，保留dtype
a,b=np.modf(arr) # 将arr的小数和整数部分以两个独立数组的形式返回

In [152]:
arr2=[np.nan, np.inf, 1,2,3]
np.isnan(arr2) # 返回布尔型数组，表示是否为nan
np.isfinite(arr2) # 是否非inf(nan 会返回false)
np.isinf(arr2) # 是否inf(nan 会返回false)

array([False,  True, False, False, False], dtype=bool)

### 二元binary ufunc

In [148]:
np.add(arr,arr)
np.subtract(arr,arr)
np.multiply(arr,arr)
np.divide(arr,arr)
np.floor_divide(arr,arr-1) # 舍弃余数
np.mod(arr,arr-1) # 只保留余数（求模）

array([-2.,  0., -1., -1.,  0., -3.,  2., -1.,  0.,  7.])

In [172]:
np.power(arr,np.arange(10)) # 计算a^b
np.maximum([np.inf,np.nan,1,2,3],[1,2,3,np.inf,np.nan])
np.fmax([np.inf,np.nan,1,2,3],[1,2,3,np.inf,np.nan]) # 忽略nan
np.minimum([np.inf,np.nan,1,2,3],[1,2,3,np.inf,np.nan])
np.fmin([np.inf,np.nan,1,2,3],[1,2,3,np.inf,np.nan]) # 忽略nan
# nan与数值的比较结果总是返回nan

  after removing the cwd from sys.path.


array([  1.,  nan,   1.,   2.,  nan])

In [173]:
np.copysign(arr,arr-1) # 将第二个参数的符号拷贝给第一个参数

array([-0.65030805, -0.4249115 , -0.35149425, -0.21140486, -0.04028086,
       -0.73323817,  1.8379259 , -0.31087038, -0.87804725,  1.16242232])

# 数组的数据处理
矢量化（用数组表达式替代循环）一般比纯python方式更快。

In [194]:
xarr=random.randn(2,4)
yarr=random.randn(4) # 传递给where的两个数组不必一样大小，满足这些条件也可：其中一个是标量，两个数组在某一轴上大小相等
np.where(xarr>0,xarr,yarr)

### 聚合计算（aggregation, reduction）
可以当做数组的实例方法调用，也可以作为顶级NumPy函数使用

In [206]:
arr=np.array([[1,2,3,4],[5,6,7,8]])
arr.mean() # 等同于np.mean(arr)
arr.sum(1) # 可以在指定的axis上进行聚合计算，并返回一个低一维度的数组；若不指定，则对所有数据计算，返回一个标量

array([10, 26])

In [220]:
arr.std() # 返回标准差，自由度默认为n
arr.var() # 返回方差，自由度默认为n
arr.min()
arr.max()
arr.argmax() # 返回最大元素的索引
arr.argmin() # 返回最小元素的索引
arr.cumsum(axis=0) # 返回累积和
arr.cumprod(axis=1) # 返回累积积

array([[   1,    2,    6,   24],
       [   5,   30,  210, 1680]])

### bool型数组的方法

In [227]:
bools=np.array([False,False,True])
bools.sum() # sum可以用来计算真值的数量
bools.any() # 是否有真值
bools.all() # 是否都是真值

True

In [234]:
a=np.array([0,1,1])
a.any() # 可以用来检验数组中是否有0
a.all() # 可以用来检验数组中是否都是0

False

### 排序

In [260]:
arr=np.array([[3,5,4,6],[4,7,3,8]])
arr.sort(1) # 就地排序，会直接修改arr的数值
arr

array([[3, 4, 5, 6],
       [3, 4, 7, 8]])

In [263]:
np.sort(arr,axis=0) # 作为顶级方法使用返回的是数组排序后的副本，不会修改数组本身

array([[3, 4, 5, 6],
       [3, 4, 7, 8]])

In [267]:
# 利用sort方法获取百分位数
pct=random.randn(100)
pct.sort()
pct[int(0.5*len(pct))] # 50%百分位数

-0.028461680223178725

### 集合运算

In [271]:
set1=np.array([1,2,3,4,5,4])
set2=np.array([4,5,6,7,8,5])
np.unique(set1) # 去重
np.intersect1d(set1,set2) # 交集
np.union1d(set1,set2) # 并集
np.setdiff1d(set1,set2) # 在set1中而不在set2中的
np.setxor1d(set1,set2) # 异或，即仅存在于其中一个数组中的元素

array([1, 2, 3])

In [272]:
np.in1d(set1,set2) # 判断set1的元素是否存在于set2中，返回bool数组

array([False, False, False,  True,  True,  True], dtype=bool)

# 生成随机数

In [273]:
import numpy.random as random
random.normal(size=(4,4)) # 生成标准正态分布的数组

array([[ 0.19589342,  0.17043478, -0.11506038, -0.87100713],
       [-1.12697276,  0.66203707,  0.40277461,  0.34309314],
       [ 0.62343675, -1.2323687 ,  1.20519665, -0.00941099],
       [ 0.16724803,  1.60502134, -0.19068243, -2.84752527]])

In [304]:
random.seed # 确定随机数生成器的种子
random.rand(2,3) # 产生均匀分布的样本值
random.randint(2,10) # 从给定的范围中随机选取整数
random.randn(2,3) # 产生标准正态分布的样本值
random.chisquare(1,size=(1,4)) # 产生卡方分布的样本值
# random.uniform(size=(2,4)) # 产生在[0,1]中均匀分布的样本值

array([[ 0.20235472,  0.18777635,  0.04853251,  3.19782524]])