# 常见数学运算

## 排序等算法

In [1]:
import numpy as np  
 
a = np.array([[3,7],[9,1]])  
print ('我们的数组是：')
print (a)
print ('\n')
print ('调用 sort() 函数：')
print (np.sort(a))
print ('\n')
print ('按列排序：')
print (np.sort(a, axis =  0))
print ('\n')

我们的数组是：
[[3 7]
 [9 1]]


调用 sort() 函数：
[[3 7]
 [1 9]]


按列排序：
[[3 1]
 [9 7]]




In [6]:
# 在 sort 函数中排序字段 
dt = np.dtype([('name',  'S10'),('age',  int)]) 
dt

dtype([('name', 'S10'), ('age', '<i4')])

关于dtype，可以参考：[Data type objects (dtype)](https://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html)

In [7]:
a = np.array([("raju",21),("anil",25),("ravi",  17),  ("amar",27)], dtype = dt)  
print ('我们的数组是：')
print (a)
print ('\n')
print ('按 name 排序：')
print (np.sort(a, order =  'name'))

我们的数组是：
[(b'raju', 21) (b'anil', 25) (b'ravi', 17) (b'amar', 27)]


按 name 排序：
[(b'amar', 27) (b'anil', 25) (b'raju', 21) (b'ravi', 17)]


如果要返回排序的索引，可以使用：

In [8]:
np.argsort([3,4,1,7,2])

array([2, 4, 0, 1, 3], dtype=int64)

排序里面要注意np.nan值的处理。如下例子所示，可以看出，nan是被当作最大值的。

In [7]:
import numpy as np
arr_nan = [1,2,3,4,np.nan,5,6,7,8,9]
np.sort(arr_nan)

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., nan])

## 算术运算

### 最值

首先看看取最大值：

In [8]:
import numpy as np  
a = np.arange(4).reshape((2,2))
np.amax(a)        
# np.max和np.amax是一个函数

3

这里承接上文的np.nan，补充一点需要注意的情况。根据如下例子，可以看出，nan会被当做最值，无论最大最小。

In [9]:
np.max(arr_nan)

nan

In [10]:
np.min(arr_nan)

nan

如果需要排除掉nan值来求最值，可以使用 nanmax

In [11]:
np.nanmax(arr_nan)

9.0

还有inf和nan是有区别的。

- Nan：Not a number
- Inf：Infinity(无穷大）

看例子，可以发现inf是正无穷大（负无穷大是-inf），总是最值，这时候用nanmax也没用，也仍然是inf最大

In [22]:
arr_inf = np.array([1,2,3,np.inf,4,5,6])
print(np.max(arr_inf))
print(np.min(arr_inf))
print(np.nanmax(arr_inf))

inf
1.0
inf


In [32]:
arr_neg_inf = np.array([1,2,3,-np.inf,4,5,6])
print(np.min(arr_neg_inf))
print(np.nanmin(arr_neg_inf))

-inf
-inf


另一个inf和nan的不同是inf和自己是相等的。

In [23]:
np.inf == np.inf

True

因此如果要找一个数组中inf值，可以直接使用==的方式索引判断。

In [27]:
arr_inf == np.inf

array([False, False, False,  True, False, False, False])

In [29]:
# 把inf换成别的值
arr_inf[arr_inf==np.inf] = np.nan
arr_inf

array([ 1.,  2.,  3., nan,  4.,  5.,  6.])

假定现在有一个数组a = [3, 1, 2, 4, 6, 1]现在要算数组a中最大数的索引是多少？argmax解决的就是这类问题

In [46]:
a = np.array([[1, 5, 5, 2],
              [9, 6, 2, 8],
              [3, 7, 9, 1]])
print(np.argmax(a, axis=0))
print(np.argmax(a, axis=1))

[1 2 2 1]
[1 0 2]


二维数组最值也很容易求

In [2]:
import numpy
# Create a 2D Numpy array from list of lists
arr2D = numpy.array([[11, 12, 13],
                     [14, 15, 16],
                     [17, 15, 11],
                     [12, 14, 15]])
maxValue = numpy.amax(arr2D)
maxValue

17

In [3]:
# Get the maximum values of each column i.e. along axis 0
maxInColumns = numpy.amax(arr2D, axis=0)
print('Max value of every column: ', maxInColumns)

Max value of every column:  [17 15 16]


In [4]:
# Get the maximum values of each row i.e. along axis 1
maxInRows = numpy.amax(arr2D, axis=1)
print('Max value of every Row: ', maxInRows)

Max value of every Row:  [13 16 17 15]


### 求和

numpy对一个数组的元素求和很简单：

In [1]:
import numpy as np
x = np.random.rand(2,3,4)    #生成三维随array
print("This is a 2*3rows 4cols array\n",x)

This is a 2*3rows 4cols array
 [[[0.2001844  0.59828362 0.89803567 0.19994524]
  [0.6723276  0.90640623 0.63449198 0.61039935]
  [0.48283839 0.25518871 0.07872092 0.28393224]]

 [[0.42119023 0.36297776 0.71298413 0.14999227]
  [0.54201121 0.08248969 0.45641066 0.40780454]
  [0.10365223 0.88742464 0.91143636 0.74297621]]]


In [2]:
print('instance method:',x.sum())
print('numpy function:',np.sum(x))

instance method: 11.602104284327002
numpy function: 11.602104284327002


对一个二维数组的每行或者每列求和也很简单，指定axis即可

In [5]:
arr = np.arange(20).reshape(4,5)
print(arr)
print("对每列求和",np.sum(arr,axis=0))
print("对每行求和",np.sum(arr,axis=1))

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
 [30 34 38 42 46]
 [10 35 60 85]


### 卷积

In [47]:
print(np.convolve([1, 2, 3], [0, 1, 0.5]))

[0.  1.  2.5 4.  1.5]


### 矩阵运算

首先再看看广播运算，二维数组和一维数组进行广播运算：

In [2]:
import numpy as np 
 
a = np.array([[ 0, 0, 0],
           [10,10,10],
           [20,20,20],
           [30,30,30]])
b = np.array([1,2,3])
print(a * b)

[[ 0  0  0]
 [10 20 30]
 [20 40 60]
 [30 60 90]]


In [4]:
import numpy as np 
 
a = np.array([[ 0, 0, 0],
           [10,10,10],
           [20,20,20],
           [30,30,30]])
b = np.array([[1],[2],[3], [4]])
print(a * b)

[[  0   0   0]
 [ 20  20  20]
 [ 60  60  60]
 [120 120 120]]


### 高维数组算术

指定维度数据算术运算

In [48]:
import numpy as np
a = np.array([[1, 5, 5, 2],
              [9, 6, 2, 8],
              [3, 7, 9, 1]])
b = np.array([[1, 5, 5, 2],
              [9, 6, 2, 8],
              [3, 7, 9, 1]])
a+b

array([[ 2, 10, 10,  4],
       [18, 12,  4, 16],
       [ 6, 14, 18,  2]])

In [49]:
c = np.array([[1, 5, 5],
              [9, 6, 2],
              [3, 7, 9]])
(a[:,:3]+c)/2

array([[1., 5., 5.],
       [9., 6., 2.],
       [3., 7., 9.]])

In [50]:
c = np.array([[[1], [5]],
              [[9], [6]],
              [[3], [7]]])
d = np.array([[[1], [5]],
              [[9], [6]],
              [[3], [7]]])
(c+d)/2

array([[[1.],
        [5.]],

       [[9.],
        [6.]],

       [[3.],
        [7.]]])

### 广播

广播是numpy中一个比较重要的运算形式。该部分主要参考了[广播（Broadcasting）](https://www.numpy.org.cn/user/basics/broadcasting.html)，[Array Broadcasting in Numpy](https://numpy.org/devdocs/user/theory.broadcasting.html)，[菜鸟教程](https://www.runoob.com/numpy/numpy-broadcast.html)和相关[博客](https://zhuanlan.zhihu.com/p/35010592)。

广播是指numpy的一种处理不同shape数组的算术运算的方式。

执行 broadcast 的前提在于，两个 ndarray 执行的是 **element-wise**（按位加，按位减等） 的运算，而不是矩阵乘法的运算，矩阵乘法运算时需要维度之间严格匹配。

广播的规则如下：

- 让所有输入数组都向其中shape最长的数组看齐，shape中不足的部分都通过在前面加1补齐；
- 输出数组的shape是输入数组shape的各个轴上的最大值；
- 如果输入数组的某个轴和输出数组的对应轴的长度相同或者其长度为1时，这个数组能够用来计算，否则出错；
- 当输入数组的某个轴的长度为1时，沿着此轴运算时都用此轴上的第一组值。

In [1]:
import numpy as np
# 广播运算只在某些情况下可用，比如：
arr1 = np.array([1, 2, 3])
arr2 = np.array([1, 2])
# 当维度不同的向量想要对齐，并在不足处补0时，不可以使用广播
length_zero = max(arr1.size, arr2.size) - min(arr1.size, arr2.size)
zeros = np.zeros(length_zero)
if arr1.size > arr2.size:
    arr_new = np.hstack([arr2, zeros])
    print(arr_new + arr1)
else:
    arr_new = np.hstack([arr1, zeros])
    print(arr_new + arr2)

[2. 4. 3.]


二维数组和一维数组相乘，可以看到广播默认会将二维数组的每列和一维数组的每个值对应相乘。

In [4]:
arr1 = np.arange(12).reshape(3,4)
print(arr1)
arr2 = np.arange(1,5)
print(arr2.shape)
arr1*arr2

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
(4,)


array([[ 0,  2,  6, 12],
       [ 4, 10, 18, 28],
       [ 8, 18, 30, 44]])

## 统计运算

### 基础统计计算

常见的有均值计算：直接取mean可计算，如果有nan值，就调用nanmean。

In [51]:
a = np.array([[1, np.nan], [3, 4]])
np.nanmean(a)

2.6666666666666665

In [52]:
np.nanmean(a, axis=0) # 0是每列求平均

array([2., 4.])

In [53]:
np.nanmean(a, axis=1)

array([1. , 3.5])

In [54]:
arr = np.array([
    [1, 2, 3, 4],
    [2, 4, 6, 8],
    [3, 6, 9, 12],
    [4, 8, 12, 16]
])
index=np.array([(0, 2), (3, 1),(3,3)])
# keepdims可以保持维度
data_mean = np.mean(arr[index[0],index[1]], axis=0, keepdims=True)
print(data_mean)
# 没有keepdims就直接求均值了
data_mean = np.mean(arr[index[0],index[1]], axis=0)
print(data_mean)

[5.]
5.0


多维数组求均值

In [2]:
import numpy as np
arr3d=np.arange(27).reshape(3,3,3)
print(arr3d)

[[[ 0  1  2]
  [ 3  4  5]
  [ 6  7  8]]

 [[ 9 10 11]
  [12 13 14]
  [15 16 17]]

 [[18 19 20]
  [21 22 23]
  [24 25 26]]]


In [3]:
np.mean(arr3d, axis=0)

array([[ 9., 10., 11.],
       [12., 13., 14.],
       [15., 16., 17.]])

In [4]:
np.mean(arr3d, axis=1)

array([[ 3.,  4.,  5.],
       [12., 13., 14.],
       [21., 22., 23.]])

In [5]:
np.mean(arr3d, axis=2)

array([[ 1.,  4.,  7.],
       [10., 13., 16.],
       [19., 22., 25.]])

### 随机数运算

首先，是随机数生成，以及不重复生成，就是随机抽样了，随机抽样使用np.random.choice函数，如果replace参数是True，那么就和np.random.randint是一样的了。设置为False，就是不重复均匀抽样了。

In [5]:
import numpy as np
# randint是可以重复的抽样
np.random.randint(5,size=4)

array([4, 0, 3, 3])

如果需要无重复抽样，那么需要使用choice，并设置replace为False

In [10]:
np.random.choice(5, 3, replace=False)

array([4, 2, 3])

In [4]:
# 等价方法
np.random.randint(0, 5, [10])

array([3, 3, 1, 3, 2, 4, 0, 0, 4, 2])

In [56]:
np.random.randint(low=5,high=10,size=10)

array([6, 8, 6, 9, 7, 6, 8, 7, 9, 5])

In [57]:
np.random.choice(6, 3, replace=False)

array([0, 3, 2])

还有很常见的比如生成某区间内的均匀分布的随机数：

In [2]:
np.random.uniform(1,5,4) # 生成1-5区间内的4个随机数

array([3.19502816, 2.37255754, 4.31815999, 1.30437647])

接下来重点记录下seed在随机数生成中的重要作用。

In [2]:
import numpy as np
# 随机数运算
i = 0
while i < 6:
    if i < 3:
        np.random.seed(1)
        # 种子一样，生成的随机数也是一样的
        print(np.random.randn(1, 5))
    else:
        print(np.random.randn(1, 5))
        pass
    i += 1
print("------从上面6次可以看出seed的影响-------")
i = 0
while i < 2:
    print(np.random.randn(1, 5))
    i += 1
print("----跳出原来的循环，看看新的循环里有没有不同，下面想比较个8次循环的随机内容，因为前面有三个循环是一样的，所以再补充两组随机值，凑够8个----")
print(np.random.randn(2, 5))
np.random.seed(0)
i = 0
print("----新的8次循环，和之前的8次循环进行比较-----")
while i < 8:
    print(np.random.randn(1, 5))
    i += 1
print("---可以看到，在种子一样的情况下，前后两次8个依次随机生成的数是一样的---")
# 以上结果说明，随机数种子对后面的结果一直有影响。同时，加了随机数种子以后，后面的随机数组都是按一定的顺序生成的

print("============================================================")
print("---------接下来换一个种子，看一看随机生成的数据是否一样----------")
i = 0
np.random.seed(0)
while i < 3:
    print(np.random.randn(1, 5))
    i += 1
i = 0
np.random.seed(1)
i = 0
while i < 3:
    print(np.random.randn(1, 5))
    i += 1
print("----当种子一样时，不论什么时候生成的随机数都是一样的，当种子不一样时，生成的随机数自然就不同了----")
# 不论在哪台电脑上，当随机数种子参数为0和1时，生成的随机数相同。说明该参数指定了一个随机数生成的起始位置。每个参数对应一个位置。并且在该参数确定后，其后面的随机数的生成顺序也就确定了。
# 所以随机数种子的参数怎么选择？我认为随意，这个参数只是确定一下随机数的起始位置。

# ------------------numpy all()函数---------------------
a = np.array([1, 2, 3])
b = a.copy()
print((a == b).all(axis=0).mean())
c = b.copy()
c[0] = 0
print((b == c).all(axis=0).mean())

[[ 1.62434536 -0.61175641 -0.52817175 -1.07296862  0.86540763]]
[[ 1.62434536 -0.61175641 -0.52817175 -1.07296862  0.86540763]]
[[ 1.62434536 -0.61175641 -0.52817175 -1.07296862  0.86540763]]
[[-2.3015387   1.74481176 -0.7612069   0.3190391  -0.24937038]]
[[ 1.46210794 -2.06014071 -0.3224172  -0.38405435  1.13376944]]
[[-1.09989127 -0.17242821 -0.87785842  0.04221375  0.58281521]]
------从上面6次可以看出seed的影响-------
[[-1.10061918  1.14472371  0.90159072  0.50249434  0.90085595]]
[[-0.68372786 -0.12289023 -0.93576943 -0.26788808  0.53035547]]
----跳出原来的循环，看看新的循环里有没有不同，下面想比较个8次循环的随机内容，因为前面有三个循环是一样的，所以再补充两组随机值，凑够8个----
[[-0.69166075 -0.39675353 -0.6871727  -0.84520564 -0.67124613]
 [-0.0126646  -1.11731035  0.2344157   1.65980218  0.74204416]]
----新的8次循环，和之前的8次循环进行比较-----
[[1.76405235 0.40015721 0.97873798 2.2408932  1.86755799]]
[[-0.97727788  0.95008842 -0.15135721 -0.10321885  0.4105985 ]]
[[0.14404357 1.45427351 0.76103773 0.12167502 0.44386323]]
[[ 0.33367433  1.49407907 -0.20515826  0.3130

### shuffle函数

numpy中使用shuffle函数也是十分常见的操作，shuffle是一个in-place的运算，以下给出例子

In [24]:
import numpy as np
indices = np.arange(10)
np.random.shuffle(indices)
indices

array([8, 6, 7, 0, 4, 2, 1, 5, 9, 3])

In [25]:
index = np.random.randint(0, len(indices), [5])
index

array([0, 4, 2, 9, 6])

In [29]:
indices = list(range(10))
np.array(indices)[index]

array([0, 4, 2, 9, 6])

### percentile函数

百分位数是统计中使用的度量，表示小于这个值的观察值的百分比。 函数numpy.percentile()接受三个参数：

输入数组；要计算的百分位数，在 0 ~ 100 之间；沿着它计算百分位数的轴。

In [59]:
import numpy as np 
a = np.array([[30,40,70],[80,20,10],[50,90,60]])  
print ('数组是：'  )
print (a )
print  ('调用 percentile() 函数：'  )
print (np.percentile(a,50)  )
print ( '沿轴 1 调用 percentile() 函数：'  )
print (np.percentile(a,50, axis =  1)  )
print ( '沿轴 0 调用 percentile() 函数：')  
print (np.percentile(a,50, axis =  0))

数组是：
[[30 40 70]
 [80 20 10]
 [50 90 60]]
调用 percentile() 函数：
50.0
沿轴 1 调用 percentile() 函数：
[40. 20. 60.]
沿轴 0 调用 percentile() 函数：
[50. 40. 60.]


percentile函数里面也要注意nan值的情况，和前面min，max函数类似。

In [13]:
import numpy as np 
arr_nan_percent = np.array([1,2,3,np.nan,4,5,6])
np.percentile(arr_nan_percent,0)

nan

In [14]:
np.percentile(arr_nan_percent,100)

nan

这时候如果要忽略nan值，可以考虑nanpercentile

In [17]:
print(np.nanpercentile(arr_nan_percent,0))
print(np.nanpercentile(arr_nan_percent,100))

1.0
6.0


## 集合运算

### 交并集等运算

使用intersect1d找到两个数组的交集。返回的是排序的、没有重复值的数组，还有交集中各个元素在原数组中的index。

In [60]:
from functools import reduce
lst1 = [1, 3, 4, 3]
lst2 = [3, 1, 2, 1]
print(np.intersect1d(lst1, lst2))
# 多个集合取交集，使用reduce操作
print(reduce(np.intersect1d, ([1, 3, 4, 3], [3, 1, 2, 1], [6, 3, 4, 2])))
# 返回两个交集相交的元素的index
C, ind1, ind2 = np.intersect1d(lst1, lst2, return_indices=True)
print(C)
print(ind1)
print(ind2)
# 取交集不去重
C, ind1, ind2 = np.intersect1d(lst1, lst2, return_indices=True, assume_unique=True)
print(C)
print(ind1)
print(ind2)
print("属于原数组的索引")
print([X for X in list(ind1) if (X >= 0 and X <= 3)])
print([X for X in list(ind2) if (X >= 0 and X <= 3)])

[1 3]
[3]
[1 3]
[0 1]
[1 0]
[1 1 3 3]
[0 5 1 3]
[ 1  3 -1  0]
属于原数组的索引
[0, 1, 3]
[1, 3, 0]


还有并集运算，差异运算，如下所示：

In [6]:
import numpy as np
# 创建一维 ndarray x
x = np.array([1,2,3,4,5])
# 创建一维 ndarray y
y = np.array([6,5,4,8,7])
# 输出 x
print('x = ', x)
# 输出 y
print('y = ', y)
# 比较x和y
print('使用intersect1d输出在x和y中共有的元素:', np.intersect1d(x,y))
print('使用setdiff1d输出在x中不在y中的元素:', np.setdiff1d(x,y))
print('使用setdiff1d输出在y中不在x中的元素:', np.setdiff1d(y,x))
print('使用union1d输出在x和y有的元素:',np.union1d(x,y))

x =  [1 2 3 4 5]
y =  [6 5 4 8 7]
使用intersect1d输出在x和y中共有的元素: [4 5]
使用setdiff1d输出在x中不在y中的元素: [1 2 3]
使用setdiff1d输出在y中不在x中的元素: [6 7 8]
使用union1d输出在x和y有的元素: [1 2 3 4 5 6 7 8]


注意集合运算是会自动排序的，所以使用的时候一定要注意，比如：

In [7]:
# 倒序
x_inverse = x[::-1]
y_inverse = y[::-1]
print('使用intersect1d输出在x_inverse和y_inverse中共有的元素:', np.intersect1d(x_inverse,y_inverse))
print('使用setdiff1d输出在x_inverse中不在y_inverse中的元素:', np.setdiff1d(x_inverse,y_inverse))
print('使用setdiff1d输出在y_inverse中不在x_inverse中的元素:', np.setdiff1d(y_inverse,x_inverse))
print('使用union1d输出在x_inverse和y_inverse有的元素:',np.union1d(x_inverse,y_inverse))

使用intersect1d输出在x_inverse和y_inverse中共有的元素: [4 5]
使用setdiff1d输出在x_inverse中不在y_inverse中的元素: [1 2 3]
使用setdiff1d输出在y_inverse中不在x_inverse中的元素: [6 7 8]
使用union1d输出在x_inverse和y_inverse有的元素: [1 2 3 4 5 6 7 8]


### 子集

判断一个数组中的所有元素是否在另一个数组中（即不考虑顺序，判断是否为子集）

下面的例子是判断a是否为b的子集：

In [5]:
import numpy as np
a = np.arange(3)
b = np.arange(6)
np.all(np.isin(a,b))

True

In [6]:
import numpy as np
a = np.arange(3)
b = np.array([2,3,4,5,6,7])
np.all(np.isin(a,b))

False

## 逻辑运算

### where函数

In [61]:
aa = np.arange(10)
# np.where(condition, x, y)：满足条件(condition)，输出x，不满足输出y。
print(np.where(aa, 1, -1))
print(np.where(aa > 5, 1, -1))
# np.where(condition)：只有条件 (condition)，没有x和y，则输出满足条件 (即非0) 元素的坐标
a = np.array([2, 4, 6, 8, 10])
print(np.where(a > 5))

[-1  1  1  1  1  1  1  1  1  1]
[-1 -1 -1 -1 -1 -1  1  1  1  1]
(array([2, 3, 4], dtype=int64),)


如果涉及多条件，使用python的列表生成式实现可能更方便

In [62]:
print([i for i in a if i>2 and i<5])

[4]


## 时间日期

从NumPy 1.7开始，有核心数组数据类型本身支持日期时间功能。数据类型称为 “datetime64” ， 因为 “datetime” 已被Python中包含的日期时间库所占用。

创建日期时间的最基本方法是使用ISO 8601日期或日期时间格式的字符串。

In [6]:
import numpy as np
np.datetime64('2005-02-25')

numpy.datetime64('2005-02-25')

In [7]:
np.datetime64('2005-02-25T03:30')

numpy.datetime64('2005-02-25T03:30')

可以创建日期数组：

In [8]:
np.array(['2007-07-13', '2006-01-13', '2010-08-13'], dtype='datetime64')

array(['2007-07-13', '2006-01-13', '2010-08-13'], dtype='datetime64[D]')

In [9]:
np.arange('2005-02', '2005-03', dtype='datetime64[D]')

array(['2005-02-01', '2005-02-02', '2005-02-03', '2005-02-04',
       '2005-02-05', '2005-02-06', '2005-02-07', '2005-02-08',
       '2005-02-09', '2005-02-10', '2005-02-11', '2005-02-12',
       '2005-02-13', '2005-02-14', '2005-02-15', '2005-02-16',
       '2005-02-17', '2005-02-18', '2005-02-19', '2005-02-20',
       '2005-02-21', '2005-02-22', '2005-02-23', '2005-02-24',
       '2005-02-25', '2005-02-26', '2005-02-27', '2005-02-28'],
      dtype='datetime64[D]')

datetime对象表示**单个时刻**。如果两个日期时间具有不同的单位，它们可能仍然代表相同的时刻，并且从较大的单位（如月份）转换为较小的单位（如天数）被视为“安全”投射，因为时刻仍然正好表示。

In [10]:
np.datetime64('2005') == np.datetime64('2005-01-01')

True

In [11]:
np.datetime64('2010-03-14T15Z') == np.datetime64('2010-03-14T15:00:00.00Z')

  """Entry point for launching an IPython kernel.


True

获取年月日，根据[Get year, month or day from numpy datetime64](https://stackoverflow.com/questions/13648774/get-year-month-or-day-from-numpy-datetime64)的高赞回答：

In [12]:
dates = np.arange(np.datetime64('2000-01-01'), np.datetime64('2010-01-01'))
years = dates.astype('datetime64[Y]').astype(int) + 1970
months = dates.astype('datetime64[M]').astype(int) % 12 + 1
days = dates - dates.astype('datetime64[M]') + 1
print(years)
print(months)
print(days)

[2000 2000 2000 ... 2009 2009 2009]
[ 1  1  1 ... 12 12 12]
[ 1  2  3 ... 29 30 31]


In [13]:
datetime64Obj = np.datetime64('2002-07-04T02:55:41-0700')
print (datetime64Obj.astype(object).year)
# 2002
print (datetime64Obj.astype(object).day)
# 4

2002
4


  """Entry point for launching an IPython kernel.


将numpy日期时间转为字符串：

In [1]:
import numpy as np
t = np.datetime64('2012-06-30T20:00:00')
np.datetime_as_string(t, unit='D')

'2012-06-30'

注意这里的字符串类型是numpy.str_，不是原生的str类型。

In [2]:
type(np.datetime_as_string(t, unit='D'))

numpy.str_

In [3]:
type(str(np.datetime_as_string(t, unit='D')))

str

In [5]:
np.datetime_as_string(t)

'2012-06-30T20:00:00'

日期算数运算：

In [73]:
import numpy as np
np.datetime64('2009-01-01') - np.datetime64('2008-01-01')

numpy.timedelta64(366,'D')

In [74]:
np.datetime64('2009') + np.timedelta64(20, 'D')

numpy.datetime64('2009-01-21')

In [75]:
np.datetime64('2011-06-15T00:00') + np.timedelta64(12, 'h')

numpy.datetime64('2011-06-15T12:00')

In [76]:
np.timedelta64(1,'W') / np.timedelta64(1,'D')

7.0

In [77]:
np.timedelta64(1,'W') % np.timedelta64(10,'D')

numpy.timedelta64(7,'D')

## 自定义函数

在numpy中，为了加速运算，通常尽量使用内置函数，并避免使用for循环，比如可以使用apply来执行特定函数。

In [78]:
def my_func(a):
    """Average first and last element of a 1-D array"""
    return (a[0] + a[-1]) * 0.5

b = np.array([[1,2,3], [4,5,6], [7,8,9]])
print(b)
# 0表示第0维度的方向上的运算
np.apply_along_axis(my_func, 0, b)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([4., 5., 6.])

In [79]:
np.apply_along_axis(my_func, 1, b)

array([2., 5., 8.])

In [80]:
np.apply_along_axis(lambda x: (x[0] + x[-1]) * 0.5, 1, b)

array([2., 5., 8.])

In [81]:
def my_func(a):
    """Average first and last element of a 1-D array"""
    x=a[0]
    y=a[-1]
    return (x + y) * 0.5

np.apply_along_axis(my_func, 1, b)

array([2., 5., 8.])