# Numpy中重要的函数

上一篇文章中，重点介绍ndarray的使用，这篇着重介绍Numpy中重要的函数

## 1. 如何使用np.where获得满足给定条件的索引位置？

在此之前，已经介绍了如何从满足给定条件的矩阵中提取item, 即布尔检索。<br>
但有时我们想知道项目的索引位置（满足某条件），并做任何想做的事情。<br>
```np.where```可以定位矩阵中一个给定条件为True的位置。

In [4]:
# Create an array
import numpy as np
np.random.seed(55)
arr_rand = np.random.randint(0, 10, size=10)
print("Array: ", arr_rand)

# Positions where value > 5
index_gt5 = np.where(arr_rand > 5)
print("Positions where value > 5: ", index_gt5)

Array:  [7 8 5 7 5 1 6 0 3 8]
Positions where value > 5:  (array([0, 1, 3, 6, 9], dtype=int64),)


通过np.where获取的是满足条件的item的索引数组，一旦获取到这个索引数组，就可以通过```take```方法，获取对应矩阵的值

In [7]:
print(arr_rand.take(index_gt5))

[[7 8 7 6 8]]


此外，```np.where```也接受额外的可选参数：x与y。<br>
只要条件为真，即得到x，否则得到y<br>
下面的例子中，将尝试创建一个数组：大于5的位置将设置为gt5；否则设置为le5

In [6]:
print(np.where(arr_rand > 5, 1, 0))

[1 1 0 1 0 0 1 0 0 1]


此外，可以通过```np.argmax```获得最大值所在的索引；```np.argmin```获得最小值所在的索引

In [8]:
print(arr_rand)
# Location of the max
print('Position of max value: ', np.argmax(arr_rand))  
print('Max value is: ', arr_rand[np.argmax(arr_rand)])

# Location of the min
print('Position of min value: ', np.argmin(arr_rand)) 
print('Min value is: ', arr_rand[np.argmin(arr_rand)])

[7 8 5 7 5 1 6 0 3 8]
Position of max value:  1
Max value is:  8
Position of min value:  7
Min value is:  0


## 2. 如何从csv文件导入与导出数据？

导入数据集的标准方法是使用```np.genfromtxt```函数。它可以从本地文件或者web url导入数据集。<br>
该函数可以处理csv中缺失的值（事实上，对于csv中非数值型的单元值，其都会用缺失值进行填充），多个分隔符，处理不规则的列数等。<br>
一个不太通用的版本是```np.loadtxt```，它假设数据集没有丢失的值。<br>
下面试着读取一个.csv文件。由于numpy数组中的所有元素都应该是相同的数据类型，所以最后一列是文本，而设置的dtype是float，所以文本在默认情况下被作为“nan”识别。<br>
设定fillingvalues参数，即可替代nan，当然也可以用其他数值替换缺失的值，比如0或-1。

CSV的数据大致如下（这里用了pandas进行较美观格式输出，就不用贴截图图片了哈~~~）：

In [9]:
import pandas as pd
from IPython.display import display, HTML 
df = pd.read_csv('./csv/Auto.csv', encoding='utf-8')
display(HTML(df[:10].to_html()))

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,year,origin,name
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140,3449,10.5,70,1,ford torino
5,15.0,8,429.0,198,4341,10.0,70,1,ford galaxie 500
6,14.0,8,454.0,220,4354,9.0,70,1,chevrolet impala
7,14.0,8,440.0,215,4312,8.5,70,1,plymouth fury iii
8,14.0,8,455.0,225,4425,10.0,70,1,pontiac catalina
9,15.0,8,390.0,190,3850,8.5,70,1,amc ambassador dpl


In [13]:
# Turn off scientific notation
np.set_printoptions(suppress=True)  

# Import data from csv file url
path = './csv/Auto.csv'
data = np.genfromtxt(path, delimiter=',', skip_header=1, filling_values=-999, dtype='float')
# see first 10 rows
print(data[:10])

[[  18.     8.   307.   130.  3504.    12.    70.     1.  -999. ]
 [  15.     8.   350.   165.  3693.    11.5   70.     1.  -999. ]
 [  18.     8.   318.   150.  3436.    11.    70.     1.  -999. ]
 [  16.     8.   304.   150.  3433.    12.    70.     1.  -999. ]
 [  17.     8.   302.   140.  3449.    10.5   70.     1.  -999. ]
 [  15.     8.   429.   198.  4341.    10.    70.     1.  -999. ]
 [  14.     8.   454.   220.  4354.     9.    70.     1.  -999. ]
 [  14.     8.   440.   215.  4312.     8.5   70.     1.  -999. ]
 [  14.     8.   455.   225.  4425.    10.    70.     1.  -999. ]
 [  15.     8.   390.   190.  3850.     8.5   70.     1.  -999. ]]


看起来很整洁，但是有没有注意到最后一列的所有值都有相同的值'-999'？<br>
这是因为，之前提到过```dtype='float'```。<br>
而文件的最后一列包含文本值，因为numpy数组中的所有值都必须是相同的'dtype'，所以```np.genfromtxt```不知道如何将其转换为浮点数，只能讲其转为'nan'，此时filling_values就起作用了。

### 2.1 如何处理既有数字又有文本列的数据集(datasets)?

如果必须处理文本列，而不是使用占位符替代文本，那么可以使用```object```或者```None```这种dtype

In [11]:
datawithobject = np.genfromtxt(path, delimiter=',', 
                               skip_header=1, 
                               dtype='object', 
                               encoding='utf-8')
print(datawithobject[:10])

[[b'18' b'8' b'307' b'130' b'3504' b'12' b'70' b'1'
  b'"chevrolet chevelle malibu"']
 [b'15' b'8' b'350' b'165' b'3693' b'11.5' b'70' b'1'
  b'"buick skylark 320"']
 [b'18' b'8' b'318' b'150' b'3436' b'11' b'70' b'1'
  b'"plymouth satellite"']
 [b'16' b'8' b'304' b'150' b'3433' b'12' b'70' b'1' b'"amc rebel sst"']
 [b'17' b'8' b'302' b'140' b'3449' b'10.5' b'70' b'1' b'"ford torino"']
 [b'15' b'8' b'429' b'198' b'4341' b'10' b'70' b'1' b'"ford galaxie 500"']
 [b'14' b'8' b'454' b'220' b'4354' b'9' b'70' b'1' b'"chevrolet impala"']
 [b'14' b'8' b'440' b'215' b'4312' b'8.5' b'70' b'1'
  b'"plymouth fury iii"']
 [b'14' b'8' b'455' b'225' b'4425' b'10' b'70' b'1' b'"pontiac catalina"']
 [b'15' b'8' b'390' b'190' b'3850' b'8.5' b'70' b'1'
  b'"amc ambassador dpl"']]


In [16]:
datawithNone = np.genfromtxt(path, delimiter=',', skip_header=1, dtype=None, encoding='utf-8')
print(datawithNone[:10])

[(18., 8, 307., 130, 3504, 12. , 70, 1, '"chevrolet chevelle malibu"')
 (15., 8, 350., 165, 3693, 11.5, 70, 1, '"buick skylark 320"')
 (18., 8, 318., 150, 3436, 11. , 70, 1, '"plymouth satellite"')
 (16., 8, 304., 150, 3433, 12. , 70, 1, '"amc rebel sst"')
 (17., 8, 302., 140, 3449, 10.5, 70, 1, '"ford torino"')
 (15., 8, 429., 198, 4341, 10. , 70, 1, '"ford galaxie 500"')
 (14., 8, 454., 220, 4354,  9. , 70, 1, '"chevrolet impala"')
 (14., 8, 440., 215, 4312,  8.5, 70, 1, '"plymouth fury iii"')
 (14., 8, 455., 225, 4425, 10. , 70, 1, '"pontiac catalina"')
 (15., 8, 390., 190, 3850,  8.5, 70, 1, '"amc ambassador dpl"')]


处理完数据之后，可以通过```savetxt```方法，将ndarray对象导出为csv文件

In [17]:
np.savetxt('./csv/out.csv', data, delimiter=',', encoding='utf-8')

## 3. 如何save与load numpy对象？

在某种程度上，我们将希望把numpy array对象保存到磁盘，并在不重新运行数据转换代码的情况下直接将其加载回控制台。<br>
Numpy为这个目的提供了.npy和.npz文件类型。
如果你想存储一个ndarray对象，那么使用```np.save```将它存储为.npy文件。这可以通过```np.load```返回。
如果您想在一个文件中存储多于1个ndarray对象，那么使用```np.savez```将其保存为.npz文件。（类似于压缩的方式）

In [18]:
list2d = [[0, 1, 2], [3, 4, 5], [6, 7, 8]]
arr2d = np.array(list2d)
print('arr2d is \n')
print(arr2d)

arr2d is 

[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [20]:
# Create a float 2d array
arr2d_f = np.array(list2d, dtype='float')
print(arr2d_f)
# Create a boolean array
arr2d_b = np.array([1, 0, -1], dtype='bool')
print(arr2d_b)

[[0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]]
[ True False  True]


将numpy数据保存到本地磁盘的方法：

In [37]:
# Save single numpy array object as .npy file
np.save('./output/numpy/myarray.npy', arr2d)  
np.save('./output/numpy/myarray1.npy', arr2d) 
# Save multile numy arrays as a .npz file
np.savez('./output/numpy/array.npz', arr2d_f, arr2d_b)

将.npy文件加载到numpy：

In [29]:
myarray = np.load('./output/numpy/myarray1.npy')
print(myarray)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


将.npz文件加载到numpy：

In [38]:
dataunzip = np.load('./output/numpy/array.npz')
print(dataunzip.files)

['arr_0', 'arr_1']


In [25]:
print('arr_0: \n')
print(dataunzip['arr_0'])
print('arr_1: \n')
print(dataunzip['arr_1'])

arr_0: 

[[0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]]
arr_1: 

[ True False  True]


## 4. 如何按照列式与行式连接两个numpy 数组？

有三种不同的连接两个或多个numpy阵列的方法。<br>
* 方法1:```np.concatenate```, 将axis参数更改为0和1
* 方法2:```np.vstack```和```np.hstack```
* 方法3:```np.r_```和```np.c_```

这三种方法都提供相同的输出。<br>
注意:一个关键区别不同于其他两种方法，即```np.r_```和```np.c_```用方括号来堆叠数组。但是首先，需要创建要连接的数组。<br>

In [48]:
a = np.zeros([4, 4])
b = np.ones([4, 4])
print('a: \n')
print(a)
print('b: \n')
print(b)

a: 

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
b: 

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


首先演示如何使用这三种方法<b>垂直</b>堆叠数组：<br>
<font color='red'>注意：垂直堆叠数组的前提是，堆叠数组的列的数目相等！！</font>

In [49]:
print(np.concatenate([a, b], axis=0))

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [50]:
print(np.vstack([a, b]))

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [51]:
print(np.r_[a, b])

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


下面演示如何用三种方法<b>水平</b>堆叠数组：<br>
<font color='red'>注意：水平堆叠数组的前提是，堆叠数组的行的数目相等！！</font>

In [52]:
print(np.concatenate([a, b], axis=1))

[[0. 0. 0. 0. 1. 1. 1. 1.]
 [0. 0. 0. 0. 1. 1. 1. 1.]
 [0. 0. 0. 0. 1. 1. 1. 1.]
 [0. 0. 0. 0. 1. 1. 1. 1.]]


In [55]:
print(np.hstack([a, b]))

[[0. 0. 0. 0. 1. 1. 1. 1.]
 [0. 0. 0. 0. 1. 1. 1. 1.]
 [0. 0. 0. 0. 1. 1. 1. 1.]
 [0. 0. 0. 0. 1. 1. 1. 1.]]


In [56]:
print(np.c_[a, b])

[[0. 0. 0. 0. 1. 1. 1. 1.]
 [0. 0. 0. 0. 1. 1. 1. 1.]
 [0. 0. 0. 0. 1. 1. 1. 1.]
 [0. 0. 0. 0. 1. 1. 1. 1.]]


此外，还可以使用```np.r_```创建更复杂1维数组数字序列：

In [56]:
print(np.r_[[1,2,3], 0, 0, [4, 5, 6]])

[1 2 3 0 0 4 5 6]


## 5. 如何基于一列或更多列，对numpy的数组排序？

首先，基于第一列对一个2维数组排序, 这里我们设置了种子数88，目的是为了随机数是固定的，方便演示：

In [57]:
np.random.seed(88)
arr = np.random.randint(1, 6, size=[8, 4])
print(arr)

[[1 1 2 3]
 [5 2 1 5]
 [3 1 3 2]
 [4 5 3 2]
 [3 4 2 1]
 [1 5 4 1]
 [1 4 2 3]
 [4 4 4 2]]


通过上面的做法，创建了一个8行4列的随机数组。

如果你使用```np.sort```函数与```axis=0```的参数，所有的列都将按升序排序，独立于彼此。<br>
但相应的，每行的数据将完全被重构，与原始数据将不再有任何联系。

In [65]:
print(np.sort(arr, axis=0))

[[1 1 1 1]
 [1 1 2 1]
 [1 2 2 2]
 [3 4 2 2]
 [3 4 3 2]
 [4 4 3 3]
 [4 5 4 3]
 [5 5 4 5]]


如果不希望破坏原有数据中行数据，建议使用间接的排序方法：```np.argsort```，请参见下方的内容：

### 5.1 如何使用argsort方法，基于第1列对numpy的数组进行排序? （即保留每行数据）

首先需要理解```np.argsort```是如何运作的。

```np.argsort```返回作为已排序之后的1维数组的各个数据项的索引，如：

In [58]:
x = np.array([1, 10, 5, 2, 8, 9])
sort_index = np.argsort(x)
print('index positions of sorted array: \n')
print(sort_index)
print()
print('sorted array: \n')
print(x[sort_index])

index positions of sorted array: 

[0 3 2 4 5 1]

sorted array: 

[ 1  2  5  8  9 10]


现在，为了对初始数组:arr排序，将要对第一列做一次```argsort```，并且将获得的索引结果，尝试对arr进行排序：

In [59]:
print(arr)
print('The 1st column data of arr: \n')
print(arr[:, 0])
print()
sorted_index_1stcol = arr[:, 0].argsort()
print('The sorted index of 1st column: \n')
print(sorted_index_1stcol)

[[1 1 2 3]
 [5 2 1 5]
 [3 1 3 2]
 [4 5 3 2]
 [3 4 2 1]
 [1 5 4 1]
 [1 4 2 3]
 [4 4 4 2]]
The 1st column data of arr: 

[1 5 3 4 3 1 1 4]

The sorted index of 1st column: 

[0 5 6 2 4 3 7 1]


In [60]:
print('original arr is: \n')
print(arr)
print()
print('Sort arr by the result of sorted index of 1st column: \n')
print(arr[sorted_index_1stcol])

original arr is: 

[[1 1 2 3]
 [5 2 1 5]
 [3 1 3 2]
 [4 5 3 2]
 [3 4 2 1]
 [1 5 4 1]
 [1 4 2 3]
 [4 4 4 2]]

Sort arr by the result of sorted index of 1st column: 

[[1 1 2 3]
 [1 5 4 1]
 [1 4 2 3]
 [3 1 3 2]
 [3 4 2 1]
 [4 5 3 2]
 [4 4 4 2]
 [5 2 1 5]]


这是升序排列，那么如何降序排列呢？简单来说，仅仅翻转sorted_index_1stcol就可以了：

In [76]:
print(arr[sorted_index_1stcol[::-1]])

[[5 2 1 5]
 [4 4 4 2]
 [4 5 3 2]
 [3 4 2 1]
 [3 1 3 2]
 [1 4 2 3]
 [1 5 4 1]
 [1 1 2 3]]


### 5.2 如何基于2列甚至更多列对numpy的数组进行排序?

可以使用```np.lexsort```方法，通过基于该数组所应的排序，传递一个列的元组。<br>
需要记住的是，将列首先在元组内的最右边进行排序

In [63]:
print('arr \n')
print(arr)
print()
print('arr[:, 1] \n')
print(arr[:, 1])
print()
print('arr[:, 0] \n')
print(arr[:, 0])
print()
lexsorted_index = np.lexsort((arr[:,1], arr[:, 0]))
print('lexsorted_index \n')
print(lexsorted_index)
print()
print('sort arr by lextsorted_index: \n')
print(arr[lexsorted_index])
print()
print(arr[lexsorted_index[::-1]])

arr 

[[1 1 2 3]
 [5 2 1 5]
 [3 1 3 2]
 [4 5 3 2]
 [3 4 2 1]
 [1 5 4 1]
 [1 4 2 3]
 [4 4 4 2]]

arr[:, 1] 

[1 2 1 5 4 5 4 4]

arr[:, 0] 

[1 5 3 4 3 1 1 4]

lexsorted_index 

[0 6 5 2 4 7 3 1]

sort arr by lextsorted_index: 

[[1 1 2 3]
 [1 4 2 3]
 [1 5 4 1]
 [3 1 3 2]
 [3 4 2 1]
 [4 4 4 2]
 [4 5 3 2]
 [5 2 1 5]]

[[5 2 1 5]
 [4 5 3 2]
 [4 4 4 2]
 [3 4 2 1]
 [3 1 3 2]
 [1 5 4 1]
 [1 4 2 3]
 [1 1 2 3]]


具体意思，就是先按照第一列进行排序，然后按照第二列进行排序。

## 6. 处理日期

Numpy通过```np.datetime64```对象实现日期，它支持的精度可以到纳秒。<br>
可以使用标准YYYY-MM-DD格式化的日期字符串来创建一个日期对象。

In [64]:
# Create a datetime64 object
date64 = np.datetime64('2018-10-06 23:10:10')
print(date64)

2018-10-06T23:10:10


当然，也可以传递hours, minutes, seconds一直到nanoseconds (纳秒)。<br>
下面的例子，是如何只显示日期，而不显示时间部分：

In [66]:
dt64 = np.datetime64(date64, 'D')
print(dt64)

2018-10-06


默认情况下，如果你添加一个数字，就会增加天数。<br>
但是如果你需要增加其他时间单位比如月、小时、秒等，那么```timedelta64```对象就很方便了。

In [67]:
# Create the timedeltas (individual units of time)
tenminutes = np.timedelta64(10, 'm')  # 10 minutes
tenseconds = np.timedelta64(10, 's')  # 10 seconds
tennanoseconds = np.timedelta64(10, 'ns')  # 10 nanoseconds

print('Add 10 days: ', dt64 + 10)
print('Add 10 minutes: ', dt64 + tenminutes)
print('Add 10 seconds: ', dt64 + tenseconds)
print('Add 10 nanoseconds: ', dt64 + tennanoseconds)

Add 10 days:  2018-10-16
Add 10 minutes:  2018-10-06T00:10
Add 10 seconds:  2018-10-06T00:00:10
Add 10 nanoseconds:  2018-10-06T00:00:00.000000010


下面的例子，是如何将dt64转换为字符串：

In [69]:
# Convert np.datetime64 back to a string
print(np.datetime_as_string(dt64))

2018-10-06


在处理日期时，通常需要从数据中过滤出业务时间。可以通过使用```np.is_busday```方法，知道给定的日期是否为business day

In [71]:
dt64 = np.datetime64('2018-01-01', 'D')
print('Date: ', dt64)
print("Is it a business day?: ", np.is_busday(dt64))  
# 'forward' and 'following' mean to take the first valid day later in time.
print("Add 2 business days, rolling forward to nearest biz day: ", np.busday_offset(dt64, 2, roll='forward')) 
# 'backward' and 'preceding' mean to take the first valid day earlier in time.
print("Add 2 business days, rolling backward to nearest biz day: ", np.busday_offset(dt64, 2, roll='backward')) 

Date:  2018-01-01
Is it a business day?:  True
Add 2 business days, rolling forward to nearest biz day:  2018-01-03
Add 2 business days, rolling backward to nearest biz day:  2018-01-03


### 6.1 如何创建一个日期序列?

这个需求可以简单的通过```np.arange```方法实现：

In [72]:
# Create date sequence
dates = np.arange(np.datetime64('2018-10-01'), np.datetime64('2018-10-10'))
print(dates)

# Check if its a business day
print(np.is_busday(dates))

['2018-10-01' '2018-10-02' '2018-10-03' '2018-10-04' '2018-10-05'
 '2018-10-06' '2018-10-07' '2018-10-08' '2018-10-09']
[ True  True  True  True  True False False  True  True]


### 6.2 如何将numpy.datetime64转换为datetime.datetime对象?

In [73]:
# Convert np.datetime64 to datetime.datetime
import datetime
dt = dt64.tolist()
print(type(dt))
print(dt)

<class 'datetime.date'>
2018-01-01


一旦你把它转换成一个```datetime.date```对象，您有更多的工具来提取各种日期相关的数据：

In [74]:
print('Year: ', dt.year)  
print('Day of month: ', dt.day)
print('Month of year: ', dt.month)  
print('Day of Week: ', dt.weekday())

Year:  2018
Day of month:  1
Month of year:  1
Day of Week:  0


## 7. 更多numpy的函数

### 7.1 向量化(Vectorize) - 使用一个标量(Scalar)函数作用于向量(Vector)

通过使用vectorize()的函数，可以创建一个用于处理单个数字的函数，以便处理数组。

如同这个简单的例子：
函数foo（参见下面的代码）接受一个数字：如果这个数字是“奇数”，则将其平方；否则则将其除以2。<br>
当在一个标量（单独的数字）上应用这个函数时，它可以很好的运作，但是在应用于数组时却失败了。<br>
使用numpy的vectorize()，即可以令其在数组中工作。

In [78]:
# Define a scalar function
def foo(x):
    if x % 2 == 1:
        return x**2
    else:
        return x/2

# On a scalar
print('x = 10 returns ', foo(10))
print('x = 11 returns ', foo(11))


x = 10 returns  5.0
x = 11 returns  121


In [79]:
# On a vector, doesn't work
print('x = [10, 11, 12] returns ', foo([10, 11, 12]))  # Error 

TypeError: unsupported operand type(s) for %: 'list' and 'int'

下面，将函数foo()向量化，使其可以运行数组参数：

In [80]:
# Vectorize foo(). Make it work on vectors.
foo_v = np.vectorize(foo, otypes=[float])

print('x = [10, 11, 12] returns ', foo_v([10, 11, 12]))
print('x = [[10, 11, 12], [1, 2, 3]] returns ', foo_v([[10, 11, 12], [1, 2, 3]]))

x = [10, 11, 12] returns  [  5. 121.   6.]
x = [[10, 11, 12], [1, 2, 3]] returns  [[  5. 121.   6.]
 [  1.   1.   9.]]


当我们需要将作用于标量的函数，也适用于数组，vectorize方法就非常有用了。

```vectorize```方法也接受可选的参数：otypes，这个参数将告诉输出的结果应该是什么类型。<br>
显式的声明输出结果的数据类型，也会令```vectorize```方法，运行的更快。

### 7.2 apply_along_axis – 使得某个函数作用于列或行

首先创建一个2维数组：

In [81]:
# Create a 4x10 random array
np.random.seed(100)
arr_x = np.random.randint(1,10,size=[4,10])
print(arr_x)

[[9 9 4 8 8 1 5 3 6 3]
 [3 3 2 1 9 5 1 7 3 5]
 [2 6 4 5 5 4 8 2 2 8]
 [8 1 3 4 3 6 9 2 1 8]]


先理解如何解决下述问题：

<font color='red'><b>如何在每一行发现最大值与最小值的差异？</b></font>

通常的方法是写一个for循环，遍历每一行，然后在每次迭代中计算max-min。<br>
这个方法看起来还行，但是如果想要基于列做同样的事情，或者想要实现一个更复杂的计算，它可能会变得很麻烦。<br>
你可以用```numpy.apply_along_axis```来优雅地做这件事。

此方法接受如下参数：<br>
* 作用于一维向量（fund1d）的函数 (下面的例子是max_minus_min函数)
* Axis的作用是应用: func1d。对于2D数组，1是行，0是列。
* 作用于参数: func1d的数组，应该被适用。

这种描述看起来太费解，直接看例子好了：

In [82]:
print(arr_x)
print()
# Define func1d
def max_minus_min(x):
    return np.max(x) - np.min(x)

# Apply along the rows
print('基于行轴，所以数组成员为4个: ', 
      np.apply_along_axis(max_minus_min, 1, arr=arr_x))

# Apply along the columns
print('基于列轴，所以数组成员为10个: ', 
      np.apply_along_axis(max_minus_min, 0, arr=arr_x))

[[9 9 4 8 8 1 5 3 6 3]
 [3 3 2 1 9 5 1 7 3 5]
 [2 6 4 5 5 4 8 2 2 8]
 [8 1 3 4 3 6 9 2 1 8]]

基于行轴，所以数组成员为4个:  [8 8 6 8]
基于列轴，所以数组成员为10个:  [7 8 2 7 6 5 8 5 5 5]


### 7.3 searchsorted - 即按照已有的排序方式，找到需要添加的位置

```numpy.searchsorted```：如果我们需要向一个既有数组添加项目，这个方法可以告诉我们，需要在哪个位置添加该项目

In [83]:
# example of searchsorted
x = np.arange(10)
print(10)
print('Where should 5 be inserted?: ', np.searchsorted(x, 5))
print('Where should 5 be inserted (right)?: ', np.searchsorted(x, 5, side='right'))

10
Where should 5 be inserted?:  5
Where should 5 be inserted (right)?:  6


可以使用```searchsorted```方法，去做带有概率的元素采样，这将比```np.choice```快很多

In [95]:
# Randomly choose an item from a list based on a predefined probability
np.random.seed(49)
lst = range(10000)  # the list
probs = np.random.random(10000)
print('probs.sum()')
print(probs.sum())
probs /= probs.sum()  # probabilities
print(probs[:100])
print('probs.cumsum()')
print(probs.cumsum()[:10])
%timeit listbysearchsorted = lst[np.searchsorted(probs.cumsum(), np.random.random())]
%timeit listbychoice = np.random.choice(lst, p=probs)
print('listbysearchsorted is: \n')
print(lst[np.searchsorted(probs.cumsum(), np.random.random())])
print()
print('listbychoice is: \n')
print(np.random.choice(lst, p=probs))

probs.sum()
4960.142678045143
[0.00006068 0.00004981 0.00018676 0.00017975 0.00013775 0.00011429
 0.00011027 0.00004242 0.00015519 0.00018069 0.00014549 0.00010056
 0.00008915 0.00016178 0.00017032 0.0000462  0.00019398 0.00001188
 0.00005843 0.00006293 0.00014151 0.00014266 0.00019012 0.00012225
 0.00007162 0.00008484 0.00018276 0.00005079 0.00006107 0.00001533
 0.0000507  0.00018359 0.00017008 0.00012846 0.00019961 0.00018949
 0.00017236 0.00018571 0.00013422 0.00007924 0.00011749 0.00007609
 0.00009684 0.00007287 0.00003359 0.00018043 0.00010949 0.00016598
 0.00011448 0.00000135 0.00012657 0.00015496 0.00006449 0.00000554
 0.0000183  0.00005157 0.00012443 0.00016758 0.00000205 0.00013812
 0.00002763 0.00018722 0.00012535 0.00019952 0.0000547  0.00011982
 0.00010539 0.00014804 0.00012655 0.0001211  0.00019554 0.00012294
 0.00013421 0.00015352 0.00001326 0.00017649 0.00014341 0.00018142
 0.00010691 0.00000107 0.00016216 0.00011418 0.00018654 0.00002591
 0.00005073 0.00014956 0.0000145

In [97]:
help(np.random)

Help on package numpy.random in numpy:

NAME
    numpy.random

DESCRIPTION
    Random Number Generation
    
    Utility functions
    random_sample        Uniformly distributed floats over ``[0, 1)``.
    random               Alias for `random_sample`.
    bytes                Uniformly distributed random bytes.
    random_integers      Uniformly distributed integers in a given range.
    permutation          Randomly permute a sequence / generate a random sequence.
    shuffle              Randomly permute a sequence in place.
    seed                 Seed the random number generator.
    choice               Random sample from 1-D array.
    
    
    Compatibility functions
    rand                 Uniformly distributed values.
    randn                Normally distributed values.
    ranf                 Uniformly distributed floating point numbers.
    randint              Uniformly distributed integers in a given range.
    
    Univariate distributions
    beta                 

### 7.4 如何向一个numpy的数组添加新的Axis?

有时，可能想要将1D数组转换成2D数组（如电子表格），而不需要添加任何额外的数据?<br>
为了达到这个目的，可能会这样做，以便将1D数组作为csv文件中的单个列，或者可能想要将它与另一个类似形状的数组连接起来。<br>
不管原因是什么，都可以通过使用np.newaxis插入一个新的轴来做到这一点。<br>
实际上，使用这个可以将一个较低维度的数组提升到一个更高的维度（升维）

In [110]:
# Create a 1D array
x = np.arange(5)
print('Original array: ', x)

# Introduce a new column axis
x_col = x[:, np.newaxis]
print('x_col shape: ', x_col.shape)
print(x_col)

# Introduce a new row axis
x_row = x[np.newaxis, :]
print('x_row shape: ', x_row.shape)
print(x_row)

Original array:  [0 1 2 3 4]
x_col shape:  (5, 1)
[[0]
 [1]
 [2]
 [3]
 [4]]
x_row shape:  (1, 5)
[[0 1 2 3 4]]


### 7.5 更多有用的numpy函数

#### Digitize

使用```np.digitize```方法，可以返回每个元素所属的bin的索引位置。

In [89]:
# Create the array and bins
x = np.arange(10)
print(x)
bins = np.array([2, 5, 11])
print(bins)
print('''注意：bins事实上成为digitize函数对应的01234，
      原数组：012都是0，34对应1，56对应2，78对应3，9对应4''')
# Get bin allotments
print(np.digitize(x, bins))

[0 1 2 3 4 5 6 7 8 9]
[ 2  5 11]
注意：bins事实上成为digitize函数对应的01234，
      原数组：012都是0，34对应1，56对应2，78对应3，9对应4
[0 0 1 1 1 2 2 2 2 2]


#### Clip

通过```np.clip```方法，在给定的截止范围内限制数字。<br>
所有小于下限的数字将被下限所取代。同样的道理也适用于上限。

In [120]:
# Cap all elements of x to lie between 3 and 8
print(np.clip(x, 3, 8))

[3 3 3 3 4 5 6 7 8 8]


#### Histogram and Bincount

histogram()和bincount()都给出了发生的频率。但是有一些区别。<br>
虽然histogram()给出了bins的频率计数，但是bincount()给出了在最小值和最大值之间的数组范围内所有元素的频率计数，包括那些没有发生的值。

In [99]:
# Bincount example
x = np.array([1,1,2,2,2,4,4,5,6,6,6]) # doesn't need to be sorted
print(np.bincount(x)) # 0 occurs 0 times, 1 occurs 2 times, 2 occurs thrice, 3 occurs 0 times, ...

[0 2 3 0 2 1 3]


In [100]:
# Histogram example
print('x: ', x)
counts, bins = np.histogram(x, [0, 2, 4, 6, 8])
print('''解释： bins为 [0, 2, 4, 6, 8]。
需要明确的是，当bins为序列时，其应该是升序排列的数字，而且需要两两计算，
并且除了最后一组，其他的右区间都是开区间而不是闭区间。
首先看[0, 2)，x中满足的有:1,1 ，所以count为2
然后看[2,4)，x中满足的有：2,2,2，所以count为3
然后看[4,6)，x中满足的有：4,4,5，所以count为3
然后看[6, 8]，注意最后一项组成的bin，右区间是闭合的，
x中满足的有: 6, 6, 6，所以count为3
所以构成了counts数组:[2 3 3 3]
''')
print('Counts: ', counts)
print('Bins: ', bins)

x:  [1 1 2 2 2 4 4 5 6 6 6]
解释： bins为 [0, 2, 4, 6, 8]。
需要明确的是，当bins为序列时，其应该是升序排列的数字，而且需要两两计算，
并且除了最后一组，其他的右区间都是开区间而不是闭区间。
首先看[0, 2)，x中满足的有:1,1 ，所以count为2
然后看[2,4)，x中满足的有：2,2,2，所以count为3
然后看[4,6)，x中满足的有：4,4,5，所以count为3
然后看[6, 8]，注意最后一项组成的bin，右区间是闭合的，
x中满足的有: 6, 6, 6，所以count为3
所以构成了counts数组:[2 3 3 3]

Counts:  [2 3 3 3]
Bins:  [0 2 4 6 8]


同理，可以使用更复杂的数组来计算直方：

In [144]:
counts, bins = np.histogram([10, 9, 256, 22, 25, 78, 100,33, 88, 56, 98], bins=[9, 10, 33, 45, 56, 78])
print('Counts: ', counts)
print('Bins: ', bins)

Counts:  [1 3 1 0 2]
Bins:  [ 9 10 33 45 56 78]


## 8. Numpy不能做什么？

到目前为止，我们已经介绍了大量使用numpy进行数据操作的技术。<br>
但是有很多事情是不能直接用numpy做的。<br>
基于有限的知识，这里列举一些：<br>
* 1. 没有直接的功能来合并两个基于普通列的2维数组。
* 2. 直接创建透视表
* 3. 没有直接的方法来做二维交叉表。
* 4. 没有直接的方法根据数组中的某个唯一值计算统计数据（如平均值）。
* 5. 其他。。。

但是这些numpy中无法做到的事情，pandas可以很方便的做到。。。<br>