# Numpy 入门及实践

## Numpy 安装

通过如下方式可以方便安装Numpy：
```
pip install numpy
```

## Numpy 介绍

NumPy是一个开源的Python科学计算基础库，包含：

1. 一个强大的N维数组对象Array；
2. 比较成熟的（广播）函数库；
3. 用于整合C/C++和Fortran代码的工具包；
4. 实用的线性代数、傅里叶变换和随机数生成函数。
NumPy是SciPy、Pandas、SciKit-learn等数据处理或科学计算库的基础。


**Numpy的许多函数不仅是用C实现了，还使用了BLAS（一般Windows下link到MKL的，Linux下link到OpenBLAS）。基本上那些BLAS实现在每种操作上都进行了高度优化，例如使用AVX向量指令集，甚至能比你自己用C实现快上许多，更不要说和用Python实现的比。** 


## 数组(ndarray)部分

### 数组对象：ndarray

Python已有列表类型，为什么需要一个数组对象(类型)?

   - 数组对象可以去掉元素间运算所需的循环，使一维向量更像单个数据
   - 设置专门的数组对象，经过优化，可以提升这类应用的运算速度
   - 观察:科学计算中，一个维度所有数据的类型往往相同
   - 数组对象采用相同的数据类型，有助于节省运算和存储空间
   
   
ndarray是一个多维数组对象，由两部分构成:


   - 实际的数据
   - 描述这些数据的元数据(数据维度、数据类型等)

ndarray数组一般要求所有元素类型相同(同质)，数组下标从0开始

### ndarray对象的属性

属性 | 说明
:---| :---
.ndim  |   秩，即轴的数量或维度的数量
.shape |   ndarray对象的尺度，对于矩阵，n行m列
.size  |    ndarray对象元素的个数，相当于.shape中n\*m的值
.dtype  |    ndarray对象的元素类型
.itemsize |    ndarray对象中每个元素的大小，以字节为单位


### 如何创建numpy数组

In [None]:
import numpy as np
#np是引入模块的别名
#尽管别名可以省略或更改，建议使用上述约定的别名

#### 从列表或元组导入
最常见的一种方法是传递一个列表或如同列表的对象，并以此通过```np.array```函数创建numpy数组。

```
x = np.array(list/tuple)
x = np.array(list/tuple, dtype=np.float32)
```

In [None]:
#list to ndarray
x = np.array([1,2,3,4,5])
print(x)

#tuple to ndarray
x = np.array((1,2,3,4,5))
print(x)

#mix 
x = np.array([ [1, 2], [3, 4], (5, 6)])
print(x)

#### NumPy函数创建

函数|说明
:---|:---
np.arange(n)	|类似range()函数，返回ndarray类型，元素从0到n‐1
np.ones(shape)	|根据shape生成一个全1数组，shape是元组类型
np.zeros(shape)	|根据shape生成一个全0数组，shape是元组类型
np.full(shape,val)	|根据shape生成一个数组，每个元素值都是val
np.eye(n)	|创建一个正方的n*n单位矩阵，对角线为1，其余为0
np.ones_like(a)	|根据数组a的形状生成一个全1数组
np.zeros_like(a)|	根据数组a的形状生成一个全0数组
np.full_like(a,val)|	根据数组a的形状生成一个数组，每个元素值都是val
np.linspace() | 根据起止数据等间距地填充数据，形成数组

In [None]:
x = np.arange(1,11, dtype = 'float')
x = np.ones((1,2,3))
print(x.ndim)
print(x.shape)
print(x)

#### 其他方法

```np.tile```将整个列表或数组重复n遍。<br>
然而，```np.repeat```的用途是重复每个item n遍。

In [None]:
a = [1, 2, 3]
# Repeat whole of 'a' two times
# 单位是矩阵本身
print('Tile:   ', np.tile(a, 3))

# Repeat each element of 'a' two times
# 单位是矩阵中的每个item
print('Repeat: ', np.repeat(a, 3))

```random``` 模块提供了很好的方法，可以生成任意给定shape的随机数（包括统计学中的随机分布）

In [None]:
# Random numbers between [0,1) of shape 2,2
print('随机2x2数组：\n')
print(np.random.rand(2,2))
print('\n')
# the Normal distribution with mean=0 and variance=1 of shape 2,2
print('随机2x2正态分布数组：\n')
print(np.random.randn(2,2))
print('\n')
# Random integers between [0, 10) of shape 2,2
print('随机2x2，位于0-10之间的整数数组：\n')
print(np.random.randint(0, 10, size=[2,2]))
print('\n')
# One random number between [0,1)
print('随机数，位于0~1之间的浮点数：\n')
print(np.random.random())
print('\n')
# Random numbers between [0,1) of shape 2,2
print('随机2x2，位于0~1之间的浮点数：\n')
print(np.random.random(size=[2,2]))
print('\n')
# Pick 10 items from a given list, with equal probability
print('随机10个字母，且范围为a, e, i, o, u：\n')
print(np.random.choice(['a', 'e', 'i', 'o', 'u'], size=10))  
print('\n')
# Pick 10 items from a given list with a predefined probability 'p'
print('随机10个字母，范围为a, e, i, o, u, 且每个字母的出现概率已经给定（p参数的和应该为1）：\n')
print(np.random.choice(['a', 'e', 'i', 'o', 'u'], 
                       size=100, p=[0.3, 0.1, 0.1, 0.4, 0.1])) 

### 数组变换

#### 维度变换

方法 |说明
:---|:---
.reshape(shape)	|不改变数组元素，返回一个shape形状的数组，原数组不变
.resize(shape)	|与.reshape()功能一样，但修改原数组
.swapaxes(ax1,ax2)	|将数组n个维度中两个维度进行调换
.flatten()	|对数组进行降维，返回折叠后的一维数组，原数组不变

In [None]:
a = np.arange(24)
print(a)
b = a.reshape(2,3,4)
print(b)
print(a)
a.resize(2,3,4)
print(a)
b = a.swapaxes(0,1)
print(b)

#### 类型变换

你也可以通过设置dtype参数来指定数据类型。一些最常用的numpy dtype是：“float”、“int”、“bool”、“str”和“object”。<br>
为了控制内存分配，你可以选择使用“float32”、“float64”、“int8”、“int16”或“int32”。

In [None]:
# Create a float 2d array
list2d = [[0,1,2],[3,4,5],[6,7,8]]
arr2d_f = np.array(list2d, dtype='float32')
print(arr2d_f)
print(arr2d_f.dtype)

每个数字后面的小数点表示浮点数据类型，还可以使用astype方法将其转换为不同的数据类型。

In [None]:
# Convert to 'int' datatype
print(arr2d_f)
arr2d_i = arr2d_f.astype('int')

print(arr2d_i)
print(arr2d_i.dtype)

In [None]:
# Convert to int then to str datatype
arr2d_s = arr2d_f.astype('int').astype('str')
print(arr2d_s)


一个numpy数组必须具有相同数据类型的所有条目，这是与列表相比，另一个显著的区别。<br>
但是，如果不确定数组将持有何种数据类型，或者想要在同一个数组中共存字符和数字，可以将dtype设置为“object”。

In [None]:
# Create a boolean array
arr2d_b = np.array([1, 0, 10, -1], dtype='bool')
print(arr2d_b)


In [None]:
arr1d_obj = np.array([1, 'a'], dtype='object')
print(type(arr1d_obj))
print(arr1d_obj)

最终，可以通过```tolist()```方法，将numpy的ndarray对象，转换回python的list对象

In [None]:
print(type(arr1d_obj.tolist()))

### ndarray数组的操作

#### 数组的索引和切片

索引:获取数组中特定位置元素的过程  
切片:获取数组元素子集的过程   

In [None]:
# 一维数组的索引和切片:与Python的列表类似 
a = np.array([9, 4, 3, 8, 5, 1])
print(a[2])
print(a[ 1 : 4 : 2 ]) # 起始到结束位置，最后一个是步长

In [None]:
# 多维数组的索引
a = np.arange(24).reshape((2,3,4))
print(a)
print(a[1,2,3])
print(a[0,1,2])
print(a[-1,-2,-3])

In [None]:
# 多维数组的切片
a = np.arange(24).reshape((2,3,4))
print(a)
print(a[:, 1, 3]) # 选取一个维度使用 :
print(a[:, 1:3, :]) # 每个维度切片与一维一样
print(a[:, :, ::2]) # 每个维度可以使用步长跳跃切片

#### 数组的运算

数组与标量之间的运算作用于数组的每一个元素

In [None]:
a = np.arange(24).reshape((2,3,4))
print(a)

print(a + 1)

对ndarray中的数据执行元素级运算的函数

函数 | 说明
:--- | :---
np.abs(x) | np.fabs(x)	计算数组各元素的绝对值
np.sqrt(x)|	计算数组各元素的平方根
np.square(x)|	计算数组各元素的平方
np.log(x) np.log10(x) np.log2(x)	|计算数组各元素的自然对数、10底对数和2底对数
np.ceil(x) np.floor(x)	|计算数组各元素的ceiling值 或 floor值
np.rint(x)	|计算数组各元素的四舍五入值
np.modf(x)	|将数组各元素的小数和整数部分以两个独立数组形式返回
np.cos(x) np.cosh(x) np.sin(x) np.sinh(x) np.tan(x) np.tanh(x)	|计算数组各元素的普通型和双曲型三角函数
np.exp(x)	|计算数组各元素的指数值
np.sign(x)	|计算数组各元素的符号值，1(+), 0, ‐1(‐)

In [None]:
x = np.array([3,1,-3],dtype=np.float32)
print(x)
print(np.exp(x))
print(np.exp(x)/sum(np.exp(x)))

例子：计算神经元网络中softmax层输出。假设z = [3,1,-3]
![](img/softmax.png)

### Numpy中的数组拼接、合并操作

Numpy中提供了concatenate,append, stack类(包括hsatck、vstack、dstack、row_stack、column_stack),r_和c_等类和函数用于数组拼接的操作。
各种函数的特点和区别如下标：



方法 | 说明
:--- | :---
concatenate |提供了axis参数，用于指定拼接方向
append	| 默认先ravel再拼接成一维数组，也可指定axis
stack  |	提供了axis参数，用于生成新的维度
hstack	|水平拼接，沿着行的方向，对列进行拼接
vstack	|垂直拼接，沿着列的方向，对行进行拼接
dstack	|沿着第三个轴（深度方向）进行拼接
column_stack	|水平拼接，沿着行的方向，对列进行拼接
row_stack	|垂直拼接，沿着列的方向，对行进行拼接
r_	|垂直拼接，沿着列的方向，对行进行拼接
c_	|水平拼接，沿着行的方向，对列进行拼接

ndarray(多维数组)是Numpy处理的数据类型。多维数组的维度即为对应数据所在的空间维度，1维可以理解为直线空间，2维可以理解为平面空间，3维可以理解为立方体空间。

轴是用来对多维数组所在空间进行定义、描述的一组正交化的直线，根据数学惯例可以用i , j , k来表示。  
在一维空间中，用一个轴就可以表示清楚，numpy中规定为axis0，空间内的数可以理解为直线空间上的离散点$x_i$。  
在二维空间中，需要用两个轴表示，numpy中规定为axis 0和axis 1，空间内的数可以理解为平面空间上的离散点$(x_i, y_j)$。  
在三维空间中，需要用三个轴才能表示清楚，在二维空间的基础上numpy中又增加了axis 2，空间内的数可以理解为立方体空间上的离散点$(x_i,y_j,z_k)$。  

Python中可以用numpy中的ndim和shape来分别查看维度，以及在对应维度上的长度。直观上可以根据符号“[ ]”的层数来判断，有m层即为m维，最外面1层对应axis0， 依次为axis1，axis2…

In [None]:
a = np.array([1,2,3])
print(a.ndim)      # 一维数组
print(a.shape)     # 在这个维度上的长度为3


b = np.array([[1,2,3], [4,5,6]])
print(b.ndim)     # 二维数组
print(b.shape)      # 在axis 0 上的长度为2， 在axis 1上的长度为3.或者可以感性的理解为2行3列

c = np.array([[[1,2,3], [4,5,6]]])
print(c.ndim)     # 三维数组
print(c.shape)      # 在axis 0 上的长度为1，在axis 1上的长度为2, 在axis 2上的长度为3. 或者可以感性的理解为1层2行3列


1. concatenate(a_tuple, axis=0, out=None)  
"""  
参数说明：  
a_tuple:对需要合并的数组用元组的形式给出  
axis: 沿指定的轴进行拼接，默认0，即第一个轴  
""" 


In [None]:
ar1 = np.array([[1,2,3], [4,5,6]])
ar2 = np.array([[7,8,9], [11,12,13]])
ar3 = np.array([[14,15,16]])
ar4 = np.array([[17],[18]])

print("ar1 + ar2: \n ", np.concatenate((ar1, ar2), axis= 0 ))
print("ar1 + ar2: \n ", np.concatenate((ar1, ar2), axis= 1 ))

2. append(arr, values, axis=None)  
"""  
参数说明：  
arr：array_like的数据  
values: array_like的数据，若axis为None，则先将arr和values进行ravel扁平化,再拼接；否则values应当与arr的shape一致，或至多在拼接axis的方向不一致  
axis：进行append操作的axis的方向，默认无  
"""  

In [None]:
print(np.append(ar1, ar2))    # 先ravel扁平化再拼接，所以返回值为一个1维数组
print(np.append(ar1, ar2, axis=0))     # 沿第一个轴拼接，这里为行的方向 
print(np.append(ar1, ar2, axis=1))     # 沿第二个轴拼接，这里为列的方向 

3. stack(arrays, axis=0, out=None)  
"""  
沿着指定的axis对arrays(每个array的shape必须一样)进行拼接，返回值的维度比原arrays的维度高1  
axis：默认为0，即第一个轴，若为-1即为第二个轴  
"""  

In [None]:
print(np.stack((ar1, ar2)))     # 增加第一个维度（axis0，之后的axis向后顺延：0—>1, 1—>2）
print()
print(np.stack((ar1, ar2), axis=1))     # 增加第二个维度（axis1，之后的axis向后顺延, 1—>2）
print()
print(np.stack((ar1, ar2), axis=2))     # 增加第三个维度（axis2，和axis=-1的效果一样，原来的axis0和axis1保持不变）

In [None]:
print(np.hstack((ar1,ar2)))    # 水平拼接，沿着行的方向，对列进行拼接
print(np.vstack((ar1,ar2)))    # 垂直拼接，沿着列的方向，对行进行拼接
print(np.dstack((ar1,ar2)))    # 对于2维数组来说，沿着第三轴（深度方向）进行拼接, 效果相当于stack(axis=-1)

In [None]:
print(np.column_stack((ar1,ar2)))   # 水平拼接，沿着行的方向，对列进行拼接
print(np.row_stack((ar1,ar2)))    # 垂直拼接，沿着列的方向，对行进行拼接

In [None]:
np.r_[ar1,ar2]     # 垂直拼接，沿着列的方向，对行进行拼接
np.c_[ar1,ar2]   # 水平拼接，沿着行的方向，对列进行拼接

### 如何表示缺失的值，以及无穷大？

缺失的值，可以通过```np.nan```对象表示，而无穷大可以用```np.inf```对象表示。如例：

In [None]:
print(arr2)
# insert a nan and an inf
arr2[1, 1] = np.nan # not a number
arr2[1, 2] = np.inf # ininite
print(arr2)

In [None]:
# replace nan and inf with -1. Don't use arr2 == np.nan
missing_bool = np.isnan(arr2) | np.isinf(arr2)
print('missing_bool\n', missing_bool)
arr2[missing_bool] = -1
print(arr2)

### Numpy中array和matrix用于矩阵乘法及其区别

在NumPy中，array用于表示通用的N维数组，matrix则特定用于线性代数计算。<br>
array和matrix都可以用来表示矩阵，二者在进行乘法操作时，有一些不同之处。

使用array时，运算\*用于计算数量积（点乘），函数```dot()```用于计算[矢量积（叉乘）](https://baike.baidu.com/item/%E7%9F%A9%E9%98%B5%E4%B9%98%E6%B3%95)，例子如下：

In [None]:
import numpy as np
a = np.array([[1, 2], 
              [3, 4]])
b = np.array([[5, 6], 
              [7, 8]])
print('矩阵a与b点乘的计算方法: \n')
print('1x5=5  2x6=12')
print('3x7=21 4x8=32')
print('a * b = \n', a * b)
print()
print('矩阵a与b叉乘的计算方法: \n')
print('1x5+2x7=19  1x4+2x8=22')
print('3x5+4x7=43  3x6+4x8=50')
print(a)
print(b)
print('np.dot(a, b) = \n', np.dot(a, b))

可见，当a和b为array时， ```a * b``` 计算了a和b的数量积（对应Matlab的 ```a .* b``` ）， ```dot(a, b)``` 计算了a和b的矢量积（对应Matlab的 ```a * b``` ）

与array不同的是，使用matrix时，运算符 \* 用于计算矢量积，函数 ```multiply()``` 用于计算数量积，例子如：

In [None]:
a = np.mat('1 2; 3 4')
b = np.mat('5 6; 7 8')

print(a)
print(b)

## Numpy中重要的函数

上一节中，重点介绍ndarray的使用，这篇着重介绍Numpy中重要的函数

### 如何使用np.where获得满足给定条件的索引位置？

在此之前，已经介绍了如何从满足给定条件的矩阵中提取item, 即布尔检索。<br>
但有时我们想知道项目的索引位置（满足某条件），并做任何想做的事情。<br>
```np.where```可以定位矩阵中一个给定条件为True的位置。

In [None]:
# Create an array
import numpy as np
np.random.seed(55)
arr_rand = np.random.randint(0, 10, size=10)
print("Array: ", arr_rand)

# Positions where value > 5
index_gt5 = np.where(arr_rand > 5)
print("Positions where value > 5: ", index_gt5)

通过np.where获取的是满足条件的item的索引数组，一旦获取到这个索引数组，就可以通过```take```方法，获取对应矩阵的值

In [None]:
print(arr_rand.take(index_gt5))

此外，```np.where```也接受额外的可选参数：x与y。<br>
只要条件为真，即得到x，否则得到y<br>
下面的例子中，将尝试创建一个数组：大于5的位置将设置为1；否则设置为0

In [None]:
print(np.where(arr_rand > 5, 1, 0))

此外，可以通过```np.argmax```获得最大值所在的索引；```np.argmin```获得最小值所在的索引

In [None]:
print(arr_rand)
# Location of the max
print('Position of max value: ', np.argmax(arr_rand))  
print('Max value is: ', arr_rand[np.argmax(arr_rand)])

# Location of the min
print('Position of min value: ', np.argmin(arr_rand)) 
print('Min value is: ', arr_rand[np.argmin(arr_rand)])

### 如何从csv文件导入与导出数据？

导入数据集的标准方法是使用```np.genfromtxt```函数。它可以从本地文件或者web url导入数据集。<br>
该函数可以处理csv中缺失的值（事实上，对于csv中非数值型的单元值，其都会用缺失值进行填充），多个分隔符，处理不规则的列数等。<br>
一个不太通用的版本是```np.loadtxt```，它假设数据集没有丢失的值。<br>
下面试着读取一个.csv文件。由于numpy数组中的所有元素都应该是相同的数据类型，所以最后一列是文本，而设置的dtype是float，所以文本在默认情况下被作为“nan”识别。<br>
设定fillingvalues参数，即可替代nan，当然也可以用其他数值替换缺失的值，比如0或-1。

CSV的数据大致如下（这里用了pandas进行较美观格式输出，就不用贴截图图片了哈~~~）：

In [None]:
import pandas as pd
from IPython.display import display, HTML 
df = pd.read_csv('./csv/Auto.csv', encoding='utf-8')
display(HTML(df[:10].to_html()))

In [None]:
# Turn off scientific notation
np.set_printoptions(suppress=True)  

# Import data from csv file url
path = './csv/Auto.csv'
data = np.genfromtxt(path, delimiter=',', skip_header=1, filling_values=-999, dtype='float')
# see first 10 rows
print(data[:10])

看起来很整洁，但是有没有注意到最后一列的所有值都有相同的值'-999'？<br>
这是因为，之前提到过```dtype='float'```。<br>
而文件的最后一列包含文本值，因为numpy数组中的所有值都必须是相同的'dtype'，所以```np.genfromtxt```不知道如何将其转换为浮点数，只能讲其转为'nan'，此时filling_values就起作用了。

### 如何处理既有数字又有文本列的数据集(datasets)?

如果必须处理文本列，而不是使用占位符替代文本，那么可以使用```object```或者```None```这种dtype

In [None]:
datawithobject = np.genfromtxt(path, delimiter=',', 
                               skip_header=1, 
                               dtype='object', 
                               encoding='utf-8')
print(datawithobject[:10])

In [None]:
datawithNone = np.genfromtxt(path, delimiter=',', skip_header=1, dtype=None, encoding='utf-8')
print(datawithNone[:10])

处理完数据之后，可以通过```savetxt```方法，将ndarray对象导出为csv文件

In [None]:
np.savetxt('./csv/out.csv', data, delimiter=',', encoding='utf-8')

## 如何save与load numpy对象？

在某种程度上，我们将希望把numpy array对象保存到磁盘，并在不重新运行数据转换代码的情况下直接将其加载回控制台。<br>
Numpy为这个目的提供了.npy和.npz文件类型。
如果你想存储一个ndarray对象，那么使用```np.save```将它存储为.npy文件。这可以通过```np.load```返回。
如果您想在一个文件中存储多于1个ndarray对象，那么使用```np.savez```将其保存为.npz文件。（类似于压缩的方式）

In [None]:
list2d = [[0, 1, 2], [3, 4, 5], [6, 7, 8]]
arr2d = np.array(list2d)
print('arr2d is \n')
print(arr2d)

In [None]:
# Create a float 2d array
arr2d_f = np.array(list2d, dtype='float')
print(arr2d_f)
# Create a boolean array
arr2d_b = np.array([1, 0, -1], dtype='bool')
print(arr2d_b)

将numpy数据保存到本地磁盘的方法：

In [None]:
# Save single numpy array object as .npy file
np.save('myarray.npy', arr2d)  
np.save('myarray1.npy', arr2d) 
# Save multile numy arrays as a .npz file
np.savez('array.npz', arr2d_f, arr2d_b)

将.npy文件加载到numpy：

In [None]:
myarray = np.load('myarray.npy')
print(myarray)

将.npz文件加载到numpy：

In [None]:
dataunzip = np.load('array.npz')
print(dataunzip.files)

In [None]:
print('arr_0: \n')
print(dataunzip['arr_0'])
print('arr_1: \n')
print(dataunzip['arr_1'])

## 如何基于一列或更多列，对numpy的数组排序？

首先，基于第一列对一个2维数组排序, 这里我们设置了种子数88，目的是为了随机数是固定的，方便演示：

In [None]:
np.random.seed(88)
arr = np.random.randint(1, 6, size=[8, 4])
print(arr)

通过上面的做法，创建了一个8行4列的随机数组。

如果你使用```np.sort```函数与```axis=0```的参数，所有的列都将按升序排序，独立于彼此。<br>
但相应的，每行的数据将完全被重构，与原始数据将不再有任何联系。

In [None]:
print(np.sort(arr, axis=0))

如果不希望破坏原有数据中行数据，建议使用间接的排序方法：```np.argsort```，请参见下方的内容：

### 如何使用argsort方法，基于第1列对numpy的数组进行排序? （即保留每行数据）

首先需要理解```np.argsort```是如何运作的。

```np.argsort```返回作为已排序之后的1维数组的各个数据项的索引，如：

In [None]:
x = np.array([1, 10, 5, 2, 8, 9])
sort_index = np.argsort(x)
print('index positions of sorted array: \n')
print(sort_index)
print()
print('sorted array: \n')
print(x[sort_index])

现在，为了对初始数组:arr排序，将要对第一列做一次```argsort```，并且将获得的索引结果，尝试对arr进行排序：

In [None]:
print(arr)
print('The 1st column data of arr: \n')
print(arr[:, 0])
print()
sorted_index_1stcol = arr[:, 0].argsort()
print('The sorted index of 1st column: \n')
print(sorted_index_1stcol)

In [None]:
print('original arr is: \n')
print(arr)
print()
print('Sort arr by the result of sorted index of 1st column: \n')
print(arr[sorted_index_1stcol])

这是升序排列，那么如何降序排列呢？简单来说，仅仅翻转sorted_index_1stcol就可以了：

In [None]:
print(arr[sorted_index_1stcol[::-1]])

###  如何基于2列甚至更多列对numpy的数组进行排序?

可以使用```np.lexsort```方法，通过基于该数组所应的排序，传递一个列的元组。<br>
<b>需要记住的是，将列首先在元组内的最右边进行排序</b>

In [None]:
print('arr \n')
print(arr)
print()
print('arr[:, 1] \n')
print(arr[:, 1])
print()
print('arr[:, 0] \n')
print(arr[:, 0])
print()
lexsorted_index = np.lexsort((arr[:,0], arr[:, 1], arr[:, 3]))
print('lexsorted_index \n')
print(lexsorted_index)
print()
print('sort arr by lextsorted_index: \n')
print(arr[lexsorted_index])
print()
print(arr[lexsorted_index[::-1]])

具体意思，就是先按照第一列进行排序，然后按照第二列进行排序。

## 处理日期

Numpy通过```np.datetime64```对象实现日期，它支持的精度可以到纳秒。<br>
可以使用标准YYYY-MM-DD格式化的日期字符串来创建一个日期对象。

In [None]:
# Create a datetime64 object
date64 = np.datetime64('2018-10-06 23:10:10')
print(date64)

当然，也可以传递hours, minutes, seconds一直到nanoseconds (纳秒)。<br>
下面的例子，是如何只显示日期，而不显示时间部分：

In [None]:
dt64 = np.datetime64(date64, 'D')
print(dt64)

默认情况下，如果你添加一个数字，就会增加天数。<br>
但是如果你需要增加其他时间单位比如月、小时、秒等，那么```timedelta64```对象就很方便了。

In [None]:
# Create the timedeltas (individual units of time)
tenminutes = np.timedelta64(10, 'm')  # 10 minutes
tenseconds = np.timedelta64(10, 's')  # 10 seconds
tennanoseconds = np.timedelta64(10, 'ns')  # 10 nanoseconds

print('Add 10 days: ', dt64 + 10)
print('Add 10 minutes: ', dt64 + tenminutes)
print('Add 10 seconds: ', dt64 + tenseconds)
print('Add 10 nanoseconds: ', dt64 + tennanoseconds)

下面的例子，是如何将dt64转换为字符串：

In [None]:
# Convert np.datetime64 back to a string
print(np.datetime_as_string(dt64))

在处理日期时，通常需要从数据中过滤出业务时间。可以通过使用```np.is_busday```方法，知道给定的日期是否为business day

In [None]:
dt64 = np.datetime64('2018-01-01', 'D')
print('Date: ', dt64)
print("Is it a business day?: ", np.is_busday(dt64))  
# 'forward' and 'following' mean to take the first valid day later in time.
print("Add 2 business days, rolling forward to nearest biz day: ", 
      np.busday_offset(dt64, 2, roll='forward')) 
# 'backward' and 'preceding' mean to take the first valid day earlier in time.
print("Add 2 business days, rolling backward to nearest biz day: ", 
      np.busday_offset(dt64, 2, roll='backward')) 

### 如何创建一个日期序列?

这个需求可以简单的通过```np.arange```方法实现：

In [None]:
# Create date sequence
dates = np.arange(np.datetime64('2018-10-01'), np.datetime64('2018-10-10'))
print(dates)

# Check if its a business day
print(np.is_busday(dates))

### 如何将numpy.datetime64转换为datetime.datetime对象?

In [None]:
# Convert np.datetime64 to datetime.datetime
import datetime
dt = dt64.tolist()
print(type(dt))
print(dt)

一旦你把它转换成一个```datetime.date```对象，您有更多的工具来提取各种日期相关的数据：

In [None]:
print('Year: ', dt.year)  
print('Day of month: ', dt.day)
print('Month of year: ', dt.month)  
print('Day of Week: ', dt.weekday())

## 更多numpy的函数

###  向量化(Vectorize) - 使用一个标量(Scalar)函数作用于向量(Vector)

通过使用vectorize()的函数，可以创建一个用于处理单个数字的函数，以便处理数组。

如同这个简单的例子：
函数foo（参见下面的代码）接受一个数字：如果这个数字是“奇数”，则将其平方；否则则将其除以2。<br>
当在一个标量（单独的数字）上应用这个函数时，它可以很好的运作，但是在应用于数组时却失败了。<br>
使用numpy的vectorize()，即可以令其在数组中工作。

In [None]:
# Define a scalar function
def foo(x):
    if x % 2 == 1:
        return x**2
    else:
        return x/2

# On a scalar
print('x = 10 returns ', foo(10))
print('x = 11 returns ', foo(11))


In [None]:
# On a vector, doesn't work
print('x = [10, 11, 12] returns ', foo([10, 11, 12]))  # Error 

下面，将函数foo()向量化，使其可以运行数组参数：

In [None]:
# Vectorize foo(). Make it work on vectors.
foo_v = np.vectorize(foo, otypes=[float])

print('x = [10, 11, 12] returns ', foo_v([10, 11, 12]))
print('x = [[10, 11, 12], [1, 2, 3]] returns ', foo_v([[10, 11, 12], [1, 2, 3]]))

当我们需要将作用于标量的函数，也适用于数组，vectorize方法就非常有用了。

```vectorize```方法也接受可选的参数：otypes，这个参数将告诉输出的结果应该是什么类型。<br>
显式的声明输出结果的数据类型，也会令```vectorize```方法，运行的更快。

### apply_along_axis – 使得某个函数作用于列或行

首先创建一个2维数组：

In [None]:
# Create a 4x10 random array
np.random.seed(100)
arr_x = np.random.randint(1,10,size=[4,10])
print(arr_x)

先理解如何解决下述问题：

<font color='red'><b>如何在每一行发现最大值与最小值的差异？</b></font>

通常的方法是写一个for循环，遍历每一行，然后在每次迭代中计算max-min。<br>
这个方法看起来还行，但是如果想要基于列做同样的事情，或者想要实现一个更复杂的计算，它可能会变得很麻烦。<br>
你可以用```numpy.apply_along_axis```来优雅地做这件事。

此方法接受如下参数：<br>
* 作用于一维向量（fund1d）的函数 (下面的例子是max_minus_min函数)
* Axis的作用是应用: func1d。对于2D数组，1是行，0是列。
* 作用于参数: func1d的数组，应该被适用。

这种描述看起来太费解，直接看例子好了：

In [None]:
print(arr_x)
print()
# Define func1d
def max_minus_min(x):
    print(x)
    return np.max(x) - np.min(x)

# Apply along the rows
print('基于行轴，所以数组成员为4个: ', 
      np.apply_along_axis(max_minus_min, 1, arr=arr_x))

# Apply along the columns
print('基于列轴，所以数组成员为10个: ', 
      np.apply_along_axis(max_minus_min, 0, arr=arr_x))

### 如何向一个numpy的数组添加新的Axis?

有时，可能想要将1D数组转换成2D数组（如电子表格），而不需要添加任何额外的数据?<br>
为了达到这个目的，可能会这样做，以便将1D数组作为csv文件中的单个列，或者可能想要将它与另一个类似形状的数组连接起来。<br>
不管原因是什么，都可以通过使用np.newaxis插入一个新的轴来做到这一点。<br>
实际上，使用这个可以将一个较低维度的数组提升到一个更高的维度（升维）

In [None]:
# Create a 1D array
x = np.arange(5)
print('Original array: ', x)

# Introduce a new column axis
x_col = x[:, np.newaxis]
print('x_col shape: ', x_col.shape)
print(x_col)

# Introduce a new row axis
x_row = x[np.newaxis, :]
print('x_row shape: ', x_row.shape)
print(x_row)

### 更多有用的numpy函数

#### Digitize

使用```np.digitize```方法，可以返回每个元素所属的bin的索引位置。

In [None]:
# Create the array and bins
x = np.arange(10)
print(x)
bins = np.array([2, 5, 11])
print(bins)
print('''注意：bins事实上成为digitize函数对应的01234，
      原数组：012都是0，34对应1，56对应2，78对应3，9对应4''')
# Get bin allotments
print(np.digitize(x, bins))

#### Clip

通过```np.clip```方法，在给定的截止范围内限制数字。<br>
所有小于下限的数字将被下限所取代。同样的道理也适用于上限。

In [None]:
print(x)
# Cap all elements of x to lie between 3 and 8
print(np.clip(x, 3, 8))

## 8. Numpy不能做什么？

到目前为止，我们已经介绍了大量使用numpy进行数据操作的技术。<br>
但是有很多事情是不能直接用numpy做的。<br>
基于有限的知识，这里列举一些：<br>
* 1. 没有直接的功能来合并两个基于普通列的2维数组。
* 2. 直接创建透视表
* 3. 没有直接的方法来做二维交叉表。
* 4. 没有直接的方法根据数组中的某个唯一值计算统计数据（如平均值）。
* 5. 其他。。。

但是这些numpy中无法做到的事情，pandas可以很方便的做到。。。<br>

可见，当a和b为matrix时， ```a * b``` 计算了a和b的矢量积， ```multiply(a, b)``` 计算了a和b的数量积。当使用matrix时，无论是生成矩阵还是计算，Numpy的风格和Matlab更加贴近，降低了语言切换时的负担。