In [4]:
# import pandas as pd
import numpy as np
# import matplotlib.pyplot as plt
# import matplotlib
# matplotlib.rcParams['font.sans-serif'] = [u'SimHei']
# matplotlib.rcParams['axes.unicode_minus'] = False
# import os

# path =str(os.getcwd()).replace('\\','/')
# s=pd.read_csv(path +'/datasets/ch08_data/tips.csv',engine = 'python')

In [5]:
# 数组形状的元组
np.ones((10,5)).shape

(10, 5)

In [6]:
# 跨度元组：其中的整数指的是为了前进到当前纬度下一个元素需要“跨度”的字节数
np.ones((3,4,5),dtype=np.float64).strides

(160, 40, 8)

# numpy 数据类型体系
需要检查数组中所包含的是否是整数、浮点数、字符数或python对象

In [7]:
# dtype都有一个超类（如np.integer 和 np.floating）,它们可以跟np.issubdtupe函数结合
ints = np.ones(10,dtype=np.uint16)
ints

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=uint16)

In [8]:
floats = np.ones(10,dtype=np.float32)
floats

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.], dtype=float32)

In [9]:
np.issubdtype(ints.dtype,np.integer)

True

In [10]:
np.issubdtype(floats.dtype,np.floating)

True

In [11]:
# 调用dtype的mro方法可以查看其所有的父类
np.float64.mro()

[numpy.float64,
 numpy.floating,
 numpy.inexact,
 numpy.number,
 numpy.generic,
 float,
 object]

# 数组重塑

In [12]:
# 需要向数组的实例犯法reshape传入一个表示新形状的元组即可实现该目的
# 将一个一维数组重新排列为一个矩阵
arr = np.arange(8)
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

In [13]:
arr.reshape((4,2))

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [14]:
# 多维数组也能被重塑
arr.reshape((4,2)).reshape((2,4))

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [15]:
# 作为参数的形状的其中一维可以是-1，它表示该维度的大小由数据本身推断而来
arr = np.arange(15)
arr.reshape((5,-1))

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [17]:
# 由于数组的shape属性是一个元组，也可以被传入reshape
other_arr = np.ones((3,5))
other_arr.shape

(3, 5)

In [18]:
arr.reshape(other_arr.shape)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [19]:
# 与reshape将一维数组转换为多维数组的运算过程相反的运算通常称为扁平化（flattening）或散开（raveling）
arr = np.arange(15).reshape((5,3))
arr

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [20]:
arr.ravel()  # ravel不会产生源数据的副本

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [21]:
# flatten方法的类似于ravel，不过它总是返回数据的副本
arr.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

# C和Fortran顺序
默认情况下，numpy数组是按行优先顺序创建的。在空间方面，这就意味着，对于一个二维数组，每行中的数据项是被存放在相邻内存位置上的。另一种顺序是列优先顺序，它意味着每列中的数据项是被存放在相邻内存位置上的。
- 行和列优先顺序又被称为C和Fortran顺序
- reshape和ravel这种函数，都可以接受一个表示数组数据存放顺序的order参数，一般是‘C’或‘F’

In [22]:
arr = np.arange(12).reshape((3,4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [23]:
arr.ravel()   # 默认是行优先顺序

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [24]:
arr.ravel('F')  # 列优先顺序

array([ 0,  4,  8,  1,  5,  9,  2,  6, 10,  3,  7, 11])

# 数组的合并和拆分

In [25]:
# np.concatenate可以按指定轴将一个由数组组成的序列（如元组、列表等）连接到一起
arr1 = np.array([[1,2,3],[4,5,6]])
arr2 = np.array([[7,8,9],[10,11,12]])
np.concatenate([arr1,arr2],axis=0)  # 按行拼接，列数保持不变

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [26]:
np.concatenate([arr1,arr2],axis=1)  # 按列拼接，行数保持不变

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [27]:
# 对于常见的连接操作，numpy提供了比较方便的方法（如vstack和hstack），因此，上面的运算可以表达为
np.vstack((arr1,arr2))  # 按行拼接，列数保持不变

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [28]:
np.hstack((arr1,arr2))  # 按列拼接，行数保持不变

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [29]:
# split用于将一个数组沿指定轴拆分为多个数组
from numpy.random import randn
arr = randn(5,2)
arr

array([[ 1.01380374, -0.01810196],
       [-1.71080339,  1.34842334],
       [-0.36396873,  1.22283839],
       [ 0.53241515,  1.12595958],
       [-0.64791228, -0.97587521]])

In [30]:
first,second,third = np.split(arr,[1,3])  # [1,3] 沿指定位置拆分，这里在行索引为1和3的位置拆分，拆分为三部分
first

array([[ 1.01380374, -0.01810196]])

In [31]:
second

array([[-1.71080339,  1.34842334],
       [-0.36396873,  1.22283839]])

In [32]:
third

array([[ 0.53241515,  1.12595958],
       [-0.64791228, -0.97587521]])

# 堆叠辅助类：r_和c_
numpy命名空间中有两个特殊的对象：r_和c_，它们可以使数组的堆叠操作更为简洁

In [34]:
arr = np.arange(6)
arr1 = arr.reshape((3,2))
arr2 = randn(3,2)

In [35]:
np.r_[arr1,arr2]  # r_:按行堆叠

array([[ 0.        ,  1.        ],
       [ 2.        ,  3.        ],
       [ 4.        ,  5.        ],
       [ 0.49711073,  0.24663361],
       [-1.20319061, -1.66109456],
       [-0.61051821,  1.22259875]])

In [36]:
np.c_[np.r_[arr1,arr2],arr]  # c_：按列堆叠

array([[ 0.        ,  1.        ,  0.        ],
       [ 2.        ,  3.        ,  1.        ],
       [ 4.        ,  5.        ,  2.        ],
       [ 0.49711073,  0.24663361,  3.        ],
       [-1.20319061, -1.66109456,  4.        ],
       [-0.61051821,  1.22259875,  5.        ]])

In [37]:
# 还可以将切片翻译为数组
np.c_[1:6,-10:-5]

array([[  1, -10],
       [  2,  -9],
       [  3,  -8],
       [  4,  -7],
       [  5,  -6]])

# 元素的重复操作：tile和repeat

In [38]:
# repeat:会将数组中的各个元素重复一定次数，从而产生一个更大的数组
# 默认情况下，如果repeat传入是一个整数，则各元素就都会重复那么多次。如果传入的是一组整数，则各元素可以重复不同次数
arr = np.arange(3)
arr.repeat(3)  # 每个元素重复3次

array([0, 0, 0, 1, 1, 1, 2, 2, 2])

In [39]:
arr.repeat([2,3,4])

array([0, 0, 1, 1, 1, 2, 2, 2, 2])

In [40]:
# 对于多维数组，还可以让它们的元素沿指定轴重复
arr = randn(2,2)
arr

array([[ 1.02342657, -0.53819093],
       [ 0.51329266, -0.60974642]])

In [41]:
arr.repeat(2,axis=0)   # 按行重复2次

array([[ 1.02342657, -0.53819093],
       [ 1.02342657, -0.53819093],
       [ 0.51329266, -0.60974642],
       [ 0.51329266, -0.60974642]])

In [42]:
# 如果没有设置轴向，则数组会被扁平化
# 在对多维进行重复时，也可以传入一组整数，这样就会使各切片重复不同次数
arr.repeat([2,3],axis=0)

array([[ 1.02342657, -0.53819093],
       [ 1.02342657, -0.53819093],
       [ 0.51329266, -0.60974642],
       [ 0.51329266, -0.60974642],
       [ 0.51329266, -0.60974642]])

In [43]:
arr.repeat([2,3],axis=1)

array([[ 1.02342657,  1.02342657, -0.53819093, -0.53819093, -0.53819093],
       [ 0.51329266,  0.51329266, -0.60974642, -0.60974642, -0.60974642]])

In [44]:
# tile是沿指定轴向堆叠数组的副本，可以想象为“铺瓷砖”
arr

array([[ 1.02342657, -0.53819093],
       [ 0.51329266, -0.60974642]])

In [45]:
# 第二个参数是瓷砖的数量。对于标量，瓷砖是水平铺设的，而不是垂直铺设。它可以是一个表示“铺设”布局的元组
np.tile(arr,2) 

array([[ 1.02342657, -0.53819093,  1.02342657, -0.53819093],
       [ 0.51329266, -0.60974642,  0.51329266, -0.60974642]])

In [46]:
arr

array([[ 1.02342657, -0.53819093],
       [ 0.51329266, -0.60974642]])

In [47]:
np.tile(arr,(2,1))  # 按行铺设2，按列铺设1

array([[ 1.02342657, -0.53819093],
       [ 0.51329266, -0.60974642],
       [ 1.02342657, -0.53819093],
       [ 0.51329266, -0.60974642]])

In [48]:
np.tile(arr,(3,2))  # 按行铺设3，按列铺设2

array([[ 1.02342657, -0.53819093,  1.02342657, -0.53819093],
       [ 0.51329266, -0.60974642,  0.51329266, -0.60974642],
       [ 1.02342657, -0.53819093,  1.02342657, -0.53819093],
       [ 0.51329266, -0.60974642,  0.51329266, -0.60974642],
       [ 1.02342657, -0.53819093,  1.02342657, -0.53819093],
       [ 0.51329266, -0.60974642,  0.51329266, -0.60974642]])

# 花式索引的等价函数：take和put
获取和设置数组子集的一个办法是通过整数数组使用花式索引

In [50]:
arr = np.arange(10)*100
inds = [7,1,2,6]
arr[inds]

array([700, 100, 200, 600])

In [51]:
# ndarray有两个方法专门用于获取和设置单个轴向上的选区
arr.take(inds)

array([700, 100, 200, 600])

In [53]:
arr.put(inds,42)  # 将inds索引上的arr值设置为42
arr

array([  0,  42,  42, 300, 400, 500,  42,  42, 800, 900])

In [54]:
arr.put(inds,[40,41,42,43])
arr

array([  0,  41,  42, 300, 400, 500,  43,  40, 800, 900])

In [55]:
# 要在其他轴上使用take，只需传入axis关键字即可
inds = [2,0,2,1]
arr = randn(2,4)
arr

array([[ 1.06867219,  0.40159351, -0.76125195, -0.27086376],
       [-0.86425268,  0.28893593,  1.08781412, -0.95991245]])

In [56]:
arr.take(inds,axis=1) # 按列取对于inds索引对应的值

array([[-0.76125195,  1.06867219, -0.76125195,  0.40159351],
       [ 1.08781412, -0.86425268,  1.08781412,  0.28893593]])

In [60]:
# 发现take和put函数的性能通常比花式索引好得多
arr = randn(1000,50)
# 500行随机样本
inds = np.random.permutation(1000)[:500]
print("花式索引耗费时间：")
%timeit arr[inds]

花式索引耗费时间：
62.4 µs ± 4.21 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [61]:
print("take函数耗费时间：")
%timeit arr.take(inds,axis=0)

take函数耗费时间：
33.3 µs ± 3.82 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


# 广播
广播（broadcasting）指的是不同形状的数组之间的算术运算的执行方式。广播的原则如下
- 如果两个数组的后缘维度（即从末尾开始算起的维度）的轴长度相符或其中一方的长度为1，则认为它们是广播兼容的。广播会在缺失和（或）长度为1的维度上进行。

In [62]:
arr = np.arange(5)
arr

array([0, 1, 2, 3, 4])

In [63]:
arr*4   # 标量值4被广播到其他所有元素上

array([ 0,  4,  8, 12, 16])

In [64]:
# 通过减去列的平均值的方式付数组的每一列进行距平化处理
# 由于arr.mean(0)的长度为3，而arr的后缘维度为3，，所以它们是兼容的，可以在0轴上进行广播
arr = randn(4,3)
arr.mean(0)

array([ 0.58608615, -0.07203884, -0.04748567])

In [65]:
demeaned = arr-arr.mean(0)
demeaned

array([[-1.36079789, -0.51131724, -0.71596015],
       [ 0.23546763, -1.88272657,  0.61642161],
       [ 0.5439745 ,  0.62952419, -1.01032826],
       [ 0.58135576,  1.76451962,  1.1098668 ]])

In [68]:
demeaned.mean(0)   # 每一列均值全为0

array([5.55111512e-17, 0.00000000e+00, 0.00000000e+00])

In [69]:
# 用广播的方式对行进行距平化的处理会稍微麻烦一些
# 根据原则，要在1轴向上做减法（即各行减去行平均值），较小的那个数组的形状必须是（4,1）
arr

array([[-0.77471174, -0.58335608, -0.76344582],
       [ 0.82155378, -1.95476541,  0.56893594],
       [ 1.13006065,  0.55748536, -1.05781393],
       [ 1.16744191,  1.69248079,  1.06238113]])

In [70]:
row_means = arr.mean(1)
row_means.reshape((4,1))

array([[-0.70717121],
       [-0.1880919 ],
       [ 0.20991069],
       [ 1.30743461]])

In [71]:
demeaned = arr - row_means.reshape((4,1))
demeaned.mean(1)   # 每一行均值全为0

array([7.40148683e-17, 3.70074342e-17, 0.00000000e+00, 7.40148683e-17])

# 沿其他轴向广播
- 根据广播的原则额，较小数组的“广播维”必须为1,。在上面行距平化例子中，将行平均值的形状变为（4,1）而不是（4，）
- 三维中的任意一维上广播其实也就是将数据重塑为兼容的形状而已。即专门为了广播而添加一个长度为1的新轴
- 虽然reshape是一个办法，但插入轴需要构造一个表示新形状的元组
- 通过特殊的np.newaxis属性以及“全”切片来插入新轴


In [72]:
arr = np.zeros((4,4))
arr_3d = arr[:,np.newaxis,:]
arr_3d

array([[[0., 0., 0., 0.]],

       [[0., 0., 0., 0.]],

       [[0., 0., 0., 0.]],

       [[0., 0., 0., 0.]]])

In [73]:
arr_3d.shape

(4, 1, 4)

In [74]:
arr_1d = np.random.normal(size=3)
arr_1d

array([-0.41618034,  0.55181002, -0.82758723])

In [76]:
arr_1d[:,np.newaxis]  # 二维数组，数组大小（3,1）

array([[-0.41618034],
       [ 0.55181002],
       [-0.82758723]])

In [77]:
arr_1d[np.newaxis,:]   # 二维数组，数组大小（1,3）

array([[-0.41618034,  0.55181002, -0.82758723]])

In [78]:
# 如果我们有一个三维数组，希望对轴2进行行距平化
arr = randn(3,4,5)
depth_means = arr.mean(2)
depth_means

array([[-0.01539042, -0.22897792,  0.0879922 , -0.01787938],
       [-0.32748453,  0.34166866,  0.14155134,  0.09560022],
       [-0.09085573, -0.80985805, -0.48755236, -0.7642863 ]])

In [79]:
demeaned = arr - depth_means[:,:,np.newaxis]
demeaned.mean(2)   # 在轴2上的均值都为0

array([[-8.88178420e-17,  2.22044605e-17,  4.44089210e-17,
         1.11022302e-17],
       [ 5.55111512e-17,  2.22044605e-17, -1.66533454e-17,
         0.00000000e+00],
       [-2.77555756e-18, -1.55431223e-16, -1.11022302e-17,
         0.00000000e+00]])

In [83]:
# 通用版的，可以对指定轴进行距平化
def demean_aixs(arr,axis=0):
    means = arr.mean(axis)
    
    # 下面这些一般化的东西类似于N维的[:,:,np.newaxis]
    indexer = [slice(None)]*arr.ndim
    indexer[axis] = np.newaxis
    return arr-means[indexer]

In [85]:
# 对轴2近距平化，结果和上面的一样，说明这个通用版方法没问题
demean_aixs(arr,axis=2).mean(2)

  


array([[-8.88178420e-17,  2.22044605e-17,  4.44089210e-17,
         1.11022302e-17],
       [ 5.55111512e-17,  2.22044605e-17, -1.66533454e-17,
         0.00000000e+00],
       [-2.77555756e-18, -1.55431223e-16, -1.11022302e-17,
         0.00000000e+00]])

# 通过广播设置数组的值

In [87]:
arr = np.zeros((4,5))
arr[:] = 5
arr

array([[5., 5., 5., 5., 5.],
       [5., 5., 5., 5., 5.],
       [5., 5., 5., 5., 5.],
       [5., 5., 5., 5., 5.]])

In [88]:
# 如果用一个一维数组来设置目标数组的各列
col = np.array([1.28,-0.42,0.44,1.6])
arr[:] = col[:,np.newaxis]
arr

array([[ 1.28,  1.28,  1.28,  1.28,  1.28],
       [-0.42, -0.42, -0.42, -0.42, -0.42],
       [ 0.44,  0.44,  0.44,  0.44,  0.44],
       [ 1.6 ,  1.6 ,  1.6 ,  1.6 ,  1.6 ]])

In [89]:
arr[:2] = [[-1.37],[0.509]]
arr

array([[-1.37 , -1.37 , -1.37 , -1.37 , -1.37 ],
       [ 0.509,  0.509,  0.509,  0.509,  0.509],
       [ 0.44 ,  0.44 ,  0.44 ,  0.44 ,  0.44 ],
       [ 1.6  ,  1.6  ,  1.6  ,  1.6  ,  1.6  ]])

# ufunc高级应用

## ufunc实例方法
numpy中各个二元ufunc都有一些用于执行特定矢量化运算的特殊方法
- reduce接受一个数组参数，并通过一系列的二元运算对其值进行聚类（可指明轴向）
- np.add.reduce：对数组中各个元素进行求和
- np.logical_and：检查数组各行中的值是否是有序的

In [90]:
# 用np.add.reduce对数组中各个元素进行求和
arr = np.arange(10)
np.add.reduce(arr)  

45

In [91]:
arr.sum()

45

In [93]:
# np.logical_and：检查数组各行中的值是否是有序的
arr = randn(5,5)
arr[::2].sort(1)  # 对部分行进行排序
arr

array([[-1.5299127 , -0.16400252,  1.0214891 ,  1.59367537,  1.69422983],
       [-0.01467686, -1.95865372,  1.3726242 ,  1.64779477, -1.31314525],
       [-1.69954055, -0.38715835, -0.13570663,  0.31059733,  0.99315308],
       [-1.08819914,  0.4661083 , -0.65579911,  0.34715112, -0.95051984],
       [-1.96765998, -0.74342154, -0.53585232, -0.22181532,  1.03131477]])

In [94]:
arr[:,:-1]

array([[-1.5299127 , -0.16400252,  1.0214891 ,  1.59367537],
       [-0.01467686, -1.95865372,  1.3726242 ,  1.64779477],
       [-1.69954055, -0.38715835, -0.13570663,  0.31059733],
       [-1.08819914,  0.4661083 , -0.65579911,  0.34715112],
       [-1.96765998, -0.74342154, -0.53585232, -0.22181532]])

In [95]:
arr[:,1:]

array([[-0.16400252,  1.0214891 ,  1.59367537,  1.69422983],
       [-1.95865372,  1.3726242 ,  1.64779477, -1.31314525],
       [-0.38715835, -0.13570663,  0.31059733,  0.99315308],
       [ 0.4661083 , -0.65579911,  0.34715112, -0.95051984],
       [-0.74342154, -0.53585232, -0.22181532,  1.03131477]])

In [96]:
# 左右两个数组都是（5,4）,判断对应元素是否满足‘<’的条件，如果满足为True,否则为False
arr[:,:-1] < arr[:,1:]  

array([[ True,  True,  True,  True],
       [False,  True,  True, False],
       [ True,  True,  True,  True],
       [ True, False,  True, False],
       [ True,  True,  True,  True]])

In [98]:
# axis=1表示按行处理，如果某一行都为True，则结果返回True,说明有序列，否则返回False，说明无序列
np.logical_and.reduce(arr[:,:-1] < arr[:,1:] ,axis=1)

array([ True, False,  True, False,  True])

In [100]:
# accumulate跟reduce的关系就像cumsum和sum的关系一样。它产生一个跟原数组大小相同的中间“累计”值数组
arr = np.arange(15).reshape((3,5))
np.add.accumulate(arr,axis=1)  # 每行中的所有列累加

array([[ 0,  1,  3,  6, 10],
       [ 5, 11, 18, 26, 35],
       [10, 21, 33, 46, 60]], dtype=int32)

In [101]:
# outer用于计算两个数组的叉积
arr = np.arange(3).repeat([1,2,2])
arr

array([0, 1, 1, 2, 2])

In [102]:
np.multiply.outer(arr,np.arange(5))  # 最终结果的形状大小为（arr大小，5），二维数组

array([[0, 0, 0, 0, 0],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 2, 4, 6, 8],
       [0, 2, 4, 6, 8]])

In [103]:
# outer输出结果的维度是两个输入数据的维度之和
result = np.subtract.outer(randn(3,4),randn(5))  # 输出结果的维度为（3,4,5）
result.shape

(3, 4, 5)

In [104]:
# reduceat用于计算“局部约简”，其实就是一个对数据各切片进行聚合的groupby运算。它接受一组用于指示如何对值进行拆分和聚合的“面元边界”
arr = np.arange(10)
np.add.reduceat(arr,[0,5,8]) # 拆分为[0,5) [5,8) [8,+),最终结果在这三部分上进行约简（这里即求和）

array([10, 18, 17], dtype=int32)

In [105]:
# 也可以传入一个axis参数
arr = np.multiply.outer(np.arange(4),np.arange(5))
arr

array([[ 0,  0,  0,  0,  0],
       [ 0,  1,  2,  3,  4],
       [ 0,  2,  4,  6,  8],
       [ 0,  3,  6,  9, 12]])

In [107]:
np.add.reduceat(arr,[0,2,4],axis=1)  # 每行中的列进行拆分

array([[ 0,  0,  0],
       [ 1,  5,  4],
       [ 2, 10,  8],
       [ 3, 15, 12]], dtype=int32)

## 自定义ufunc
- numpy.frompyfunc接受一个python函数以及两个分别表示输入输出数量的整数
- numpy.vectorize，它在类型推断方面更智能些
- 缺点是这两个函数非常慢，因为它们在计算每个元素时都要执行一次python函数调用

In [108]:
# 实现元素级加法的简单函数
def add_elements(x,y):
    return x+y
add_them = np.frompyfunc(add_elements,2,1)
add_them(np.arange(8),np.arange(8))

array([0, 2, 4, 6, 8, 10, 12, 14], dtype=object)

In [109]:
# 两一个方法：numpy.vectorize，它在类型推断方面更智能些
add_them = np.vectorize(add_elements,otypes=[np.float64])
add_them(np.arange(8),np.arange(8))

array([ 0.,  2.,  4.,  6.,  8., 10., 12., 14.])

In [110]:
# 这两个函数非常慢，因为它们在计算每个元素时都要执行一次python函数调用
arr = randn(10000)
%timeit add_them(arr,arr)

3.93 ms ± 127 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [111]:
%timeit np.add(arr,arr)

11.8 µs ± 691 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


# 结构化和记录式数组
结构化数组是一种特殊的ndarray，其中的各个元素可以被看做C语言中的结构体或SQL表中带有多个命名字段的行

In [112]:
dtype = [('x',np.float64),('y',np.int32)]
sarr = np.array([(1.5,6),(np.pi,2)],dtype=dtype)
sarr

array([(1.5       , 6), (3.14159265, 2)],
      dtype=[('x', '<f8'), ('y', '<i4')])

In [113]:
# 定义结构化dtype的方式有很多，最典型的办法是元组列表，各元组的格式为（field_name,field_data_type）。这样，数组的元素就成了元组式的对象，改对象中各个元素可以像字典那样进行访问
sarr[0]

(1.5, 6)

In [114]:
sarr[0]['y']

6

In [115]:
# 字典名保存在dtype.names属性中。在访问结构化数组的某个字段时，返回的是该数据的视图，所以不会发生数据赋值
sarr['x']

array([1.5       , 3.14159265])

## 嵌套dtype和多维字段
在定义结构化dtype时，可以再设置一个形状（可以是一个整数，也可以是一个元组）

In [116]:
dtype = [('x',np.int64,3),('y',np.int32)]  # x 里面有三个元素
arr = np.zeros(4,dtype=dtype)
arr

array([([0, 0, 0], 0), ([0, 0, 0], 0), ([0, 0, 0], 0), ([0, 0, 0], 0)],
      dtype=[('x', '<i8', (3,)), ('y', '<i4')])

In [117]:
# 在这种情况下，各个记录的x字段所表示的是一个长度为3的数组
arr[0]['x']

array([0, 0, 0], dtype=int64)

In [118]:
# 访问arr['x']即可得到一个二维数组，而不是前面那个例子中的一位数组
arr['x']

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]], dtype=int64)

In [120]:
dtype = [('x',[('a','f8'),('b','f4')]),('y',np.int32)]
data = np.array([((1,2),5),((3,4),6)],dtype = dtype)
data['x']

array([(1., 2.), (3., 4.)], dtype=[('a', '<f8'), ('b', '<f4')])

In [121]:
data['y']

array([5, 6])

In [122]:
data['x']['a']

array([1., 3.])

# 排序

In [124]:
# ndarray的sort实例方法是就地排序，也就是说，数组内容的重新排序是不会存生新数组的
arr = randn(6)
arr.sort()
arr

array([-1.79031321, -1.24987303, -1.04461402,  0.647721  ,  1.22910465,
        1.57450498])

In [125]:
# 在对数组进行就地排序时需要注意，如果目标数组只是一个视图，则原始数组将会被修改
arr = randn(3,5)
arr

array([[ 1.27420961, -0.28543804, -1.3672082 ,  2.33390177,  0.58979186],
       [-0.19801097,  0.50350491, -1.36323509, -1.42120953,  1.78859882],
       [-2.25451538,  2.41736063, -0.09707019, -1.80357494, -0.11718609]])

In [126]:
arr[:,0].sort()
arr

array([[-2.25451538, -0.28543804, -1.3672082 ,  2.33390177,  0.58979186],
       [-0.19801097,  0.50350491, -1.36323509, -1.42120953,  1.78859882],
       [ 1.27420961,  2.41736063, -0.09707019, -1.80357494, -0.11718609]])

In [127]:
# 相反，numpy.sort会为原数组创建一个已排序的副本，它所接受的采纳数跟ndarray一样
arr = randn(5)
arr

array([-0.42453729, -1.21009509,  1.16421803,  1.62325023,  1.05691202])

In [129]:
np.sort(arr)

array([-1.21009509, -0.42453729,  1.05691202,  1.16421803,  1.62325023])

In [130]:
arr

array([-0.42453729, -1.21009509,  1.16421803,  1.62325023,  1.05691202])

In [131]:
# 这两个排序方法否接受一个axis的采纳数，以便沿指定轴向对各块数据进行单独排序
arr = randn(3,5)
arr

array([[-0.23536331,  0.30898978, -0.18550905, -0.88113714,  0.29810844],
       [ 2.27982697,  0.08711155, -2.4134243 , -0.89806461,  0.52284542],
       [-1.57291265, -0.41303049, -1.07577523, -2.10564081,  0.54730772]])

In [133]:
arr.sort(axis=1)  # 每行升序排序
arr

array([[-0.88113714, -0.23536331, -0.18550905,  0.29810844,  0.30898978],
       [-2.4134243 , -0.89806461,  0.08711155,  0.52284542,  2.27982697],
       [-2.10564081, -1.57291265, -1.07577523, -0.41303049,  0.54730772]])

In [134]:
# 这两个排序方法都不可以被设置为降序，可以用values[::-1]，它能返回一个反序的列表
arr[:,::-1]  # 每行中的各个列元素反序

array([[ 0.30898978,  0.29810844, -0.18550905, -0.23536331, -0.88113714],
       [ 2.27982697,  0.52284542,  0.08711155, -0.89806461, -2.4134243 ],
       [ 0.54730772, -0.41303049, -1.07577523, -1.57291265, -2.10564081]])

## 间接排序：argsort和lexsort
在数据分析工作中，常常需要根据一个或多个键对数据集进行排序，如，一个有关学生信息的数据表可能需要以姓和名进行排序（先姓后名），这就是间接排序的一个例子
- 给定一个或多个键，可以得到一个由证书组成的索引数组，其中的索引值说明了数据在新顺序下的位置
- argsort和numpy.lensort就是实现该功能的两个主要的方法

In [135]:
values = np.array([5,0,1,3,2])
indexer = values.argsort()
indexer

array([1, 2, 4, 3, 0], dtype=int32)

In [136]:
values[indexer]

array([0, 1, 2, 3, 5])

In [137]:
# 根据数组的第一行对其进行排序
arr = randn(3,5)
arr[0] = values
arr

array([[ 5.        ,  0.        ,  1.        ,  3.        ,  2.        ],
       [ 1.38156871, -0.31117374, -0.52243502, -0.27545098, -0.7792165 ],
       [ 0.70798311,  2.4923336 , -0.74071441, -0.49113766,  1.07000622]])

In [138]:
arr[:,arr[0].argsort()]

array([[ 0.        ,  1.        ,  2.        ,  3.        ,  5.        ],
       [-0.31117374, -0.52243502, -0.7792165 , -0.27545098,  1.38156871],
       [ 2.4923336 , -0.74071441,  1.07000622, -0.49113766,  0.70798311]])

In [139]:
# lexsort和sort差不多，只不过它可以一次性对多个键数组执行间接排序（字典序）
# 假设需要对一些以姓和名标识的数据进行排序
first_name = np.array(['Bob','Jane','Steve','Bill','Barbara'])
last_name = np.array(['Jones','Arnold','Arnold','Jones','Walters'])
# lexsort键的应用顺序是从最后一个传入的算起，即last_name是先于first_name被应用的
sorter = np.lexsort((first_name,last_name))  
sorter

array([1, 2, 3, 0, 4], dtype=int32)

In [142]:
[(last_name[sorter],first_name[sorter])]

[(array(['Arnold', 'Arnold', 'Jones', 'Jones', 'Walters'], dtype='<U7'),
  array(['Jane', 'Steve', 'Bill', 'Bob', 'Barbara'], dtype='<U7'))]

## 其他排序算法
稳定的（stable）排序算法会保持等价元素的相对位置

In [145]:
# mergesort（合并排序）是唯一的稳定排序
values = np.array(['2:first','2:second','1:first','1:second','1:third'])
key = np.array([2,2,1,1,1])
indexer = key.argsort(kind='mergesort')
indexer

array([2, 3, 4, 0, 1], dtype=int32)

In [146]:
values.take(indexer)

array(['1:first', '1:second', '1:third', '2:first', '2:second'],
      dtype='<U8')

# numpy.searchsorted：在有序数组中查找元素
searchsorted是一个在有序数组上执行二分查找的数组方法，只要将值插入到它返回的那个位置就能维持数组的有序性

In [147]:
arr = np.array([0,1,7,12,15])
arr.searchsorted(9)

3

In [148]:
# 传入一组值就能得到一组索引
arr.searchsorted([0,8,11,16])

array([0, 3, 3, 5], dtype=int32)

In [149]:
# 从上面结果可以看到，对于元素0，searchsorted返回0.这是因为其默认行为是返回相等值组的左侧索引
arr = np.array([0,0,0,1,1,1,1])
arr.searchsorted([0,1])

array([0, 3], dtype=int32)

In [150]:
arr.searchsorted([0,1],side='right')  # side='right':返回相等值组的右侧索引

array([3, 7], dtype=int32)

In [151]:
# 假如有一个数组（值在1~10000之间），还有一个表示“面元边界”的数组，希望用它将数据数组拆分开来
data = np.floor(np.random.uniform(0,10000,size=50))
bins = np.array([0,100,1000,5000,10000])
data

array([2502., 5168., 7441., 4271., 7654., 5599., 7646., 9195., 1948.,
       1757., 9797., 3454., 2283., 5423., 1846., 9390., 8682., 8505.,
       6899., 9018., 3318., 9822., 3850., 5148., 2494., 4611., 8716.,
       8807., 5186.,  191.,  974., 7185., 6782., 5022., 4742., 5309.,
       3838., 8240., 2270., 7999., 6836., 6826., 5002., 5425., 2463.,
       8781., 1183., 8788., 1670., 3222.])

In [152]:
# 为了得到各数据点所属区间的编号（其中1表示面元【0,100】）,可以直接用searchsorted
labels = bins.searchsorted(data)
labels

array([3, 4, 4, 3, 4, 4, 4, 4, 3, 3, 4, 3, 3, 4, 3, 4, 4, 4, 4, 4, 3, 4,
       3, 4, 3, 3, 4, 4, 4, 2, 2, 4, 4, 4, 3, 4, 3, 4, 3, 4, 4, 4, 4, 4,
       3, 4, 3, 4, 3, 3], dtype=int32)

In [153]:
# 通过pandas.groupby使用该结果即可非常轻松地对源数据集进行拆分
import pandas as pd
pd.Series(data).groupby(labels).mean()

2     582.500000
3    2873.444444
4    7343.033333
dtype: float64

In [154]:
# 其实numpy的digitize函数也可以用于计算这种面元编号
np.digitize(data,bins)

array([3, 4, 4, 3, 4, 4, 4, 4, 3, 3, 4, 3, 3, 4, 3, 4, 4, 4, 4, 4, 3, 4,
       3, 4, 3, 3, 4, 4, 4, 2, 2, 4, 4, 4, 3, 4, 3, 4, 3, 4, 4, 4, 4, 4,
       3, 4, 3, 4, 3, 3], dtype=int32)

# numpy的matrix类
矩阵操作需要用到numpy.dot

In [158]:
X = np.array(np.random.randn(4,4)*10)
X

array([[  2.07523436,   0.93114466,   5.14880031, -10.17390131],
       [ -5.86894138,  14.0867701 , -15.84623075,  -3.49221038],
       [-23.92271464,  17.06997189,  11.37005718,  -6.79510953],
       [ 15.19272733,  -7.47888031,  -3.50710164,   8.49430393]])

In [159]:
X[:,0]  # 一维的

array([  2.07523436,  -5.86894138, -23.92271464,  15.19272733])

In [160]:
y = X[:,:1]  # 二维的
y

array([[  2.07523436],
       [ -5.86894138],
       [-23.92271464],
       [ 15.19272733]])

In [161]:
# 积yT*y会被表达为下面的样子
np.dot(y.T,np.dot(X,y))

array([[15006.65341028]])

In [162]:
# numpy提供一个matrix类，单行或列会以二维形式返回，且使用星号（*）的乘法直接就是矩阵乘法，不用编写大量的矩阵运算代码
Xm = np.matrix(X)
ym = Xm[:,0]  # 二维的
ym

matrix([[  2.07523436],
        [ -5.86894138],
        [-23.92271464],
        [ 15.19272733]])

In [163]:
ym.T*Xm*ym

matrix([[15006.65341028]])

In [167]:
# matrix还有一个特殊的属性I，其功能是返回矩阵的逆
Xm.I*X

matrix([[ 1.00000000e+00,  1.11022302e-16, -1.66533454e-16,
          3.33066907e-16],
        [ 0.00000000e+00,  1.00000000e+00, -1.66533454e-16,
          2.22044605e-16],
        [ 0.00000000e+00,  1.66533454e-16,  1.00000000e+00,
          0.00000000e+00],
        [ 0.00000000e+00,  0.00000000e+00,  2.77555756e-17,
          1.00000000e+00]])