# 阅读笔记

** 作者：方跃文 **

** Email: fyuewen@gmail.com **

** 时间：始于2017年9月12日， 结束写作于 **

** 第四章笔记始于2017年10月17日，结束于_____**



# 第四章 Numpy基础：数组和矢量计算

** 时间： 2017年10月17日早晨**

Numpy，即 numerical python的简称，是高性能科学计算和数据分析的基础包。它是本书所介绍的几乎所有高级工具的构建基础。其部分功能如下：

1. ndarray，一个具有矢量算数运算和复杂广播能力的快速且节省空间的多维数组

2. 在不需要循环的情况下，用于对数组快速运算的标准数学函数

3. 用于读写磁盘数据的工具以及用于操作内存映射文件的工具

4. 线性代数、随机数生成以及傅里叶变化

5. 用于集成由 C、C++、Fortran 等语言编写的代码的工具

Numpy 本身功能不复杂，但是理解 Numpy 有助于更高效地使用诸如 Pandas 之类的工具。

原书作者主要从事数据分析，所以他关注的功能主要集中于：

1. 用于数据整理和清理、子集构造和过滤、转换等快速的矢量化数组运算

2. 常用的数组算法，如排序、唯一化、集合运算等。

3. 高效地描述统计和数据聚合/摘要运算

4. 用于异构数据集的合并/连接运算的数据和关系型数据运算

5. 将条件逻辑表述为数组表达式（而不是带有if-elif-else分支的循环）

6. 数据的分组运算（聚合、转换、函数应用等）第五章将对此进行详细解释。

注：建议总是使用 import numpy as np； 而不是用 from numpy import *

## Numpy 的 ndarray：一种多维数组对象

** 时间： 2017年10月18日晚**

Numpy 一个重要特点就是其 N 维数组对象，即 ndarray，该对象是一个快速而灵活的数据集容器。我们可以利用这种数组对整块数据进行一些运算，它的语法跟标量元素之间的运算相同：

In [61]:
import numpy.random as nrandom
data = nrandom.randn(3,2)

In [62]:
data

array([[ 1.85384898,  0.73799708],
       [ 2.24584278, -0.53030782],
       [ 0.00228661, -1.52194656]])

In [63]:
data*10

array([[ 18.5384898 ,   7.37997083],
       [ 22.45842785,  -5.30307816],
       [  0.02286606, -15.21946555]])

In [64]:
data + data

array([[ 3.70769796,  1.47599417],
       [ 4.49168557, -1.06061563],
       [ 0.00457321, -3.04389311]])

ndarray 是 **同构**数据多维容器，that is to say, 所有元素必须是同类型的。

每个数组都有一个 shape （一个表示各维度大小的元祖）和一个 dtype （一个用于说明数组数据类型的对象）：

In [65]:
data.shape # 数组的维数，即行数和列数

(3, 2)

In [66]:
data.dtype #数组中元素的类型

dtype('float64')

虽然大多数数据分析工作不需要深入理解Numpy，但是精通面向数组的编程和思维方式是成为 Python 科学计算达人的一大步骤。

**注意**：第一版翻译版本中有个批注，说“本书中的数组、Numpy数组、ndarray 基本指的都是同一样东西，即 ndarray 对象”

### 创建 ndarray

创建数组最简单的办法就是使用 array 函数。它接受一切序列行的对象（包括其他数组），然后产生一个新的含有传入数据的 NumPy 数组。以列表转换为数组方式为例：

In [67]:
import numpy as np
data1 = [2,3,3,5,6,9]
array1 = np.array(data1)

In [68]:
array1

array([2, 3, 3, 5, 6, 9])

In [69]:
print(array1)
print(array1.dtype)
print(array1.shape)

[2 3 3 5 6 9]
int64
(6,)


嵌套序列（比如由一组等长列表组成的列表），将会被转换为一个多维数组：

In [70]:
import numpy as np

data2=[[23,5,5,6], [4,56,2,8],[3,5,6,7],[2,3,4,5]]
arr2=np.array(data2)

In [71]:
arr2

array([[23,  5,  5,  6],
       [ 4, 56,  2,  8],
       [ 3,  5,  6,  7],
       [ 2,  3,  4,  5]])

In [72]:
arr2.ndim #Number of array dimensions.

2

In [73]:
arr2.shape

(4, 4)

除非显示说明，np.array 会尝试为新建的这个数组推断出一个较为合适的数据类型。数据类型保存在一个特殊的 dtype 对象中。比如说，在上面的两个examples中，我们有

In [74]:
data.dtype

dtype('float64')

In [75]:
arr2.dtype

dtype('int64')

除 np.array 之外，还有一些函数可以新建数组。比如，zeros 和 ones 分别可创建指定长度或形状的全 0 和 全 1 数组。empty 可创建一个没有任何具体值的数组。要用这些方法创建多维数组，只需要传入一个表示形状的元祖即可：

In [76]:
np.zeros(10)

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [77]:
arr4 = np.zeros((3,6,3))
arr4

array([[[ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.]],

       [[ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.]],

       [[ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.]]])

In [78]:
arr4.ndim

3

In [79]:
arr3 = np.empty((2,4,2))
arr3

array([[[ -2.31584178e+077,  -2.31584178e+077],
        [  5.43472210e-323,   0.00000000e+000],
        [  0.00000000e+000,   0.00000000e+000],
        [  0.00000000e+000,   0.00000000e+000]],

       [[  0.00000000e+000,   0.00000000e+000],
        [ -2.31584178e+077,  -2.31584178e+077],
        [  2.96439388e-323,   0.00000000e+000],
        [  0.00000000e+000,   0.00000000e+000]]])

In [80]:
arr3.ndim

3

In [81]:
arr5 = np.empty((2,3,4,2))
arr5

array([[[[ -2.31584178e+077,   2.00389491e+000],
         [  1.18575755e-322,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000]],

        [[  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000]],

        [[  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000]]],


       [[[  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000]],

        [[  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  2.12199579e-314,   2.12199579e-314],
         [  0.00000000e+000,   0.00000000e+000]],

        

** 警告 ** 认为 np.emptry 会返回全 0 数组的想法是不安全的。很多情况下（如上所示），它返回的都是一些未初始化的垃圾值。

arange 是 Python 内置函数range 的数组版：

In [82]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [83]:
np.arange(2)

array([0, 1])

下表列出了一些数组创建函数。由于Numpy关注的是数值计算，因此，如果没有特别的制定，数据类型一般都是 float64。


|函数 | 说明 |
|-------------|---------------|
| array | 将输入数据(列表、元祖、数字或者其他数据类型)转换为 ndarray。要么推断出 dtype，要么显示地指定dtype。默认直接复制输入数据|
| asarray | 将输入转为 ndarray，如果输入本身就是一个ndarray就不进行复制|
| arange | 类似于python内置的range,但是返回的是一个ndarray,而不是一个列表|
| ones、ones_like | 根据指定的形状和dtype创建一个全1数组。ones_like以另一个数组为参数，并根据其形状和dtype创建一个全1数组|
|zeros、zeros_like | 类似上述命令，只是改为全0数组|
|empty、empty_like|创建新数组，只分配内存空间但不填充任何值|
|eye、identity|创建一个正方的N * N 单位矩阵（对角线为1，其余为0）|

In [84]:
data1 = (1,2,3,4)

In [85]:
np.asarray(data1)

array([1, 2, 3, 4])

In [86]:
np.array(data1)

array([1, 2, 3, 4])

In [87]:
data2 = ([2,2])
np.asarray(data2)


array([2, 2])

In [88]:
import numpy as np
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [90]:
ones

NameError: name 'ones' is not defined

In [91]:
np.ones(19)

array([ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.])

In [92]:
np.zeros(10)

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [93]:
np.empty(4)

array([ -2.31584178e+077,  -2.31584178e+077,   1.97626258e-323,
         0.00000000e+000])

In [94]:
np.eye(3)

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

In [95]:
np.eye(4)

array([[ 1.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.],
       [ 0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  1.]])

In [96]:
np.identity(2)

array([[ 1.,  0.],
       [ 0.,  1.]])

In [97]:
np.identity(3)

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

### ndarray 的数据类型

Recently I jsut moved from Shanghai to Kyoto, hence I have stopped taking notes for almost two weeks. 
From now on, I will continue writing this notes. Let's note~

YWFANG @Kyoto University November, 2017

dtype()

dtype 是一个特殊的对象，它含有ndarray将一块内存解释为特定数据类型的所需信息：

In [98]:
import numpy as np

arr1 = np.array([1,2,3], dtype = np.float64)
arr2 = np.array([1,2,3], dtype = np.int32)

In [99]:
arr1.dtype

dtype('float64')

In [100]:
arr2.dtype

dtype('int32')

dtype 是 NumPy 强大的原因之一。在多数情况下，它们直接映射到相应的机器表示，这使得“读写磁盘上的二进制数据流”以及“集成低级语言，如fortran"等工作变得简单。

下表记录了NumPy所支持的全部数据类型：（记不住没有关系，刚开始记不住也很正常）

|类型|类型代码|说明
|-------------|---------------|
|int8、unit8| i1、u1| 有符号和无符号的8位（1个字节）整型|
|int16、unit16| i2、u2| 有符号和无符号的16位（2字节）整型|
|int32、unit32| i4、u4| 。。。32位。。。|
|int64、unit64| i8、u8|。。。64位。。。|
| float16| f2| 半精度浮点数|
| flaot32| f4或者f| 标准单精度浮点数，与C的float兼容|
| float64| f8或d | 标准双精度浮点数，与C的double和Python的float对象兼容|
|float128| f16或者g| 扩展精度浮点数|
|complex64、complex128|c8、c16| 分别用两个32位、64位或128位浮点数表示的复数|
|complex256|c32|复数|
| bool|？|存储True 或Flase 值的布尔类型|
|object | O | Python多象类型|
| string_|S|固定长度的字符串类型（每个字符1个字节）。例如，要创建一个长度位10的字符串，应使用S10|
|unicode|U|固定长度的unicode类型（字节数由平台决定）。跟字符串定义方式一样（如U10）|


我们可以通过 ndarray 的 astype 方法显示地转换其dtype：

In [101]:
import numpy as np

arr = np.array([1,2,3,4,5], dtype='i2')
print(arr.dtype)
print(arr)

int16
[1 2 3 4 5]


In [102]:
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

In the above example, an integer array was converted into a floating array.

In the following example, I will show you how to convert a float array to an int array. You will see that, if I cast some floating point numbers to be of interger type, the decimal part will be truncated.

In [1]:
import numpy as np
arr = np.array([1.2, 2.3, 4.5, 53.4,3.2,4.2])
print(arr.dtype)
print(arr)
print(id(arr)) #memoery address of arr

print('\n')
#conversion to integer
int_arr = arr.astype(np.int32)
print(int_arr.dtype)
print(int_arr)

float64
[  1.2   2.3   4.5  53.4   3.2   4.2]
4598287456


int32
[ 1  2  4 53  3  4]


If you have an array of strings representing numbers, you can also use 'astype' to convert them into numberic form:

In [104]:
import numpy as np
num_strings_arr = np.array(['1.25', '-9.6', '42'], dtype = np.string_)
print(num_strings_arr)
print(num_strings_arr.dtype)

float_arr = num_strings_arr.astype(np.float64)
# num_strings_arr.astype(float)
print(float_arr.dtype)
print(float_arr)

# alternatively, we can use a lazy writing
float1_arr = num_strings_arr.astype(float)
print(float_arr.dtype)
print(float_arr)

[b'1.25' b'-9.6' b'42']
|S4
float64
[  1.25  -9.6   42.  ]
float64
[  1.25  -9.6   42.  ]


In addition, we can use another array’s dtype attribute:

In [105]:
# in this example, we can see that the int_arry will converted into
# a floating array, in particular, the dtype of calibers was used
# during the conversion using astype(calibers.dtype)
import numpy as np
int_array = np.arange(10)
print(int_array, int_array.dtype)

calibers = np.array([.22, .20, .23,.45, .44], dtype=np.float64)
print(calibers , calibers.dtype)

int_array_new = int_array.astype(calibers.dtype)
print(int_array_new, int_array_new.dtype)

[0 1 2 3 4 5 6 7 8 9] int64
[ 0.22  0.2   0.23  0.45  0.44] float64
[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9.] float64


In [2]:
#when stating an array, we can use the short code in the table to assign
# the dtype of the array
# for example

import numpy as np

empty_array = np.empty(8, dtype='u4')
print(empty_array)

print('\n')

zero_array = np.zeros(12, dtype='u4')
print(zero_array, zero_array.dtype)

print('\n')

one_array = np.ones(9, dtype='f8')
print(one_array, one_array.dtype)
print(*one_array)

[         0 2147483648 2826369055 3758098424 2272133122      32650
 1651076143     131072]


[0 0 0 0 0 0 0 0 0 0 0 0] uint32


[ 1.  1.  1.  1.  1.  1.  1.  1.  1.] float64
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0


点数（比如float64和float32）只能表示近似的分数值。因此复杂计算中，由于可能积累的浮点错误，比较浮点数字大小时，只能在一定的小数位数以内有效。

### 数组和标量之间的运算

数据的便利之处在于即使我们不用loop，也可以对批量数据进行运算和操作。这种方式通常叫做“矢量化”（vectorization）。大小相等的数组之间的任何算数运算都会将运算应用到元素级：

In [107]:
import numpy as np

arr = np.array([[1., 2., 3.,],[3.,5.,6.]])
print(arr.shape)

print(arr)

(2, 3)
[[ 1.  2.  3.]
 [ 3.  5.  6.]]


In [108]:
arr*arr

array([[  1.,   4.,   9.],
       [  9.,  25.,  36.]])

In [109]:
arr-arr

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [110]:
arr+arr

array([[  2.,   4.,   6.],
       [  6.,  10.,  12.]])

同样地，当数组与标量进行算数运算时，也会遍历到各个元素

In [111]:
1/arr

array([[ 1.        ,  0.5       ,  0.33333333],
       [ 0.33333333,  0.2       ,  0.16666667]])

In [112]:
arr*2

array([[  2.,   4.,   6.],
       [  6.,  10.,  12.]])

不同大小的数组之间的运算叫做广播 broadcasting，我们之后还会在第12章进行深度的学习。

### 基本的索引和切片

NumPy 数组的索引是一个内容丰富的主题，因为选取数据子集或者单个元素的方式非常多。一维数组很简单。从表面看，它们跟python列表的功能差不多。

In [113]:
import numpy as np

arr = np.arange(10, dtype='i1')
print(arr)
print(arr.dtype)

[0 1 2 3 4 5 6 7 8 9]
int8


In [114]:
print(arr[0],arr[5])
print(arr[0:2])

0 5
[0 1]


In [115]:
arr[5:8]=12
print(arr)

[ 0  1  2  3  4 12 12 12  8  9]


In [116]:
#作为对比，我们回顾下之前列表的一些操作

list1=[0,1,2,3,4,5,6,7,8,9]
print(list1[:])
print(list1[0:2])

list1[5] = 12
print(list1[:])

list1[5:8]=12 #这里是跟数组很不同的地方
#如果不使用一个iterable，这里并无法赋值
print(list1[:])

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[0, 1]
[0, 1, 2, 3, 4, 12, 6, 7, 8, 9]


TypeError: can only assign an iterable

如上面例子中看到的那种，当我们将标量赋值给一个切片时（arr[5:8]=12)，该值会自动传播（也就是12章将降到的broadcasting）到整个选区。跟列表最重要的区别在于，数组切片是原始数组的视图。这意味着数据不会被复制，视图上任何的修改都会直接反映到源数组上。

In [117]:
import numpy as np

arr = np.arange(10)
print(arr)
arr_slice = arr[5:8]
arr_slice[1] = 12345


print(arr)

arr_slice[:]=123
print(arr)

[0 1 2 3 4 5 6 7 8 9]
[    0     1     2     3     4     5 12345     7     8     9]
[  0   1   2   3   4 123 123 123   8   9]


由于python常用来处理大数据，这种通过操作数组视图就可以改变源数组的方式，可以避免对数据的反复复制所带来的性能和内存问题。

如果我们想要得到的是一个数组切片的副本，而不是视图，就需要显式地进行复制操作，例如

In [118]:
import numpy as np

arr = np.arange(10)
arr_slice = arr[5:8]
arr_slice[1] = 12345

arr1 = arr[5:8]
print(arr1)
arr2 = arr[5:8].copy()
print(arr2)

#in this example，arr1仍然是数组的视图，
#但是arr2已经是通过复制得到的副本了
arr[5:8]=78
print('arr1 = ', arr1)
print('arr2 = ', arr2)

[    5 12345     7]
[    5 12345     7]
arr1 =  [78 78 78]
arr2 =  [    5 12345     7]


对于高维数组，能做的事情更多。在一个二维数组中，各个索引位置上的元素不再是标量，而是一维数组：

In [119]:
import numpy as np
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])

arr2d[2]

array([7, 8, 9])

因此可以对各个元素进行递归的访问，不过这样需要做的事情有点多。我们可以传入一个以逗号隔开的索引列表来选区单个元素。也就是说，下面两种方式是等价的：

In [120]:
arr2d[0][2]

3

In [121]:
arr2d[0,2]

3

下图说明了二维数组的索引方式

![Indexing Eelements in a NumPy array](chapter04/fig-for-note/Indexing-elements-NumPy-array.png)

在多维数组中，如果省略了后面的索引，则返回对象会是一个维度低一点的ndarray（它含有高一级维度上的所有数据）。

这里中文版的作者特别说明了上面这句话。括号外面的“维度”是一维、二维、三维之类的意思，而括号外面的应该理解为“轴”。也就是说，这里指的是“返回的低维度数组含有原始高维度数组某条轴上的所有数据。

下面看个例子来理解：

In [122]:
import numpy as np

arr3d = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])
print(arr3d)

[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


In [123]:
arr3d[0] #它是一个 2*3 数组

array([[1, 2, 3],
       [4, 5, 6]])

标量值和数值都可以赋值给 arr3d[0]:

In [124]:
arr3d[0] = 42

print(arr3d)

[[[42 42 42]
  [42 42 42]]

 [[ 7  8  9]
  [10 11 12]]]


In [125]:
print(arr3d[0,1])
print(arr3d[1,0])

[42 42 42]
[7 8 9]


注意，上面所有选取数组子集的例子中，返回的数组都是视图。

#### 切片索引

ndarray 的切片语法跟python列表这样的一维对象差不多：

In [126]:
import numpy as np

arr = np.arange(10)
print(arr)

arr[4]=54

print(arr[1:6])

[0 1 2 3 4 5 6 7 8 9]
[ 1  2  3 54  5]


高维度对象的花样更多，我们可以在一个或者多个轴上进行切片、也可以跟整数索引混合使用。


In [127]:
import numpy as np

arr2d = np.array([[2,3,4],[3,5,5],[3,5,5]])
print(arr2d)

[[2 3 4]
 [3 5 5]
 [3 5 5]]


In [128]:
arr2d[:2]

array([[2, 3, 4],
       [3, 5, 5]])

上述我们可以看出，这里的切片是沿着第0轴（即第一个轴）切片的。换句话说，切片是沿着一个轴向选取元素的。我们可以单次传入多个切片，就像传入多个索引那样：

In [129]:
arr2d[:2, :2]

array([[2, 3],
       [3, 5]])

像上述这样的切片方式，只能得到相同维数的数组视图。我们还可以将整数索引与切片混合使用，从而得到低纬度的切片：

In [130]:
arr2d[2,:2]

array([3, 5])

In [131]:
arr2d[:,:1] #这里，我们实现了对高维轴进行了切片

array([[2],
       [3],
       [3]])

自然地，对切片表达式的赋值操作也会被扩散到整个选区：

In [132]:
arr2d[:,:1] = 0
print(arr2d)

[[0 3 4]
 [0 5 5]
 [0 5 5]]


### 布尔型索引

来看这样一个例子，假设我们有一个用于存储数据的数组以及一个存储姓名的数组（含有重复项）。在这里，我将使用 numpy.random 中的randn函数生成一些正态分布的随机数据。

In [133]:
%reset

Once deleted, variables cannot be recovered. Proceed (y/[n])? y


In [134]:
import numpy as np
from numpy.random import randn

names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
#please make a comparison, if you use
# names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='S4')
print(names, names.dtype)
type(names)
print('\n')

data = randn(7,4)
print(data, data.dtype, data.shape)
type(data)


['Bob' 'Joe' 'Will' 'Bob' 'Will' 'Joe' 'Joe'] <U4


[[-0.0526961  -0.62558165 -1.95658846  2.09276089]
 [-0.8615726  -1.59729721  1.20123106 -1.32764619]
 [ 0.22679057  1.42690056  0.8430225  -1.48632226]
 [-0.44237571  0.08485409  0.40211727 -0.46740007]
 [ 0.48274331 -0.66653691 -0.97011593  1.09635867]
 [ 0.91013039  0.44635849  0.12212023  2.13551073]
 [-0.31066572 -0.08050205 -1.07050733  1.02987568]] float64 (7, 4)


numpy.ndarray

假设 names 数组中的每个名字都对应 data数组中的一行，而我们想要选出对应于名字‘Bob'的所有行。跟算数运算一样，数组的比较运算（如==）也是矢量化的。因此，对于names和字符串"Bob"的比较运算将会产生一个boolean array

In [135]:

names == 'Will'

array([False, False,  True, False,  True, False, False], dtype=bool)

这个Boolean array可以用于数组索引，This boolean array can be passed when indexing the array:

In [149]:
data[names =='Will']

array([[ 0.22679057,  1.42690056,  0.8430225 , -1.48632226],
       [ 0.48274331, -0.66653691, -0.97011593,  1.09635867]])

当利用布尔型数组进行索引时候，必须注意布尔型数组的长度需要与被索引的轴长度一致。此外，还可以将布尔型数组跟切片、整数（或者整数序列，稍后对此进行详细的介绍）混合使用:

In [150]:
data[names =='Will', 2:]

array([[ 0.8430225 , -1.48632226],
       [-0.97011593,  1.09635867]])

In [151]:
data[names =='Will', 2]

array([ 0.8430225 , -0.97011593])

要选择除了will以外的其他值，既可以使用不等于符号(!=)，也可以通过符号（-）对条件进行否定

In [152]:
names != 'Will'


array([ True,  True, False,  True, False,  True,  True], dtype=bool)

In [153]:
print(data[names != 'Will'])

[[-0.0526961  -0.62558165 -1.95658846  2.09276089]
 [-0.8615726  -1.59729721  1.20123106 -1.32764619]
 [-0.44237571  0.08485409  0.40211727 -0.46740007]
 [ 0.91013039  0.44635849  0.12212023  2.13551073]
 [-0.31066572 -0.08050205 -1.07050733  1.02987568]]


In [154]:
data[-(names == 'Will')]
#this '-' was discarded in python3, alternatively we 
# use '~'

TypeError: The numpy boolean negative, the `-` operator, is not supported, use the `~` operator or the logical_not function instead.

In [156]:
data[~(names == 'Bob')]  
# in python2, it should be
# data[-(names == 'Bob')]  

array([[-0.8615726 , -1.59729721,  1.20123106, -1.32764619],
       [ 0.22679057,  1.42690056,  0.8430225 , -1.48632226],
       [ 0.48274331, -0.66653691, -0.97011593,  1.09635867],
       [ 0.91013039,  0.44635849,  0.12212023,  2.13551073],
       [-0.31066572, -0.08050205, -1.07050733,  1.02987568]])

如果我们要选取这三个名字中的两个进行组合来应用多个布尔条件，需要使用&（和）、|（或）之类的布尔运算符：（注意，python关键字and和or在布尔型数组中是无效的）

In [157]:
mask = (names =='Bob') | (names == 'Will')
mask

array([ True, False,  True,  True,  True, False, False], dtype=bool)

In [158]:
data[mask]

array([[-0.0526961 , -0.62558165, -1.95658846,  2.09276089],
       [ 0.22679057,  1.42690056,  0.8430225 , -1.48632226],
       [-0.44237571,  0.08485409,  0.40211727, -0.46740007],
       [ 0.48274331, -0.66653691, -0.97011593,  1.09635867]])

值得注意的是，通过布尔索引选取数组中的数据，将总是创建数据的副本，即使返回一模一样的数组也是如此。

通过布尔型数组设置值是一种常用的方法。为了将data中的所有负数变为0，我们只需要

In [159]:
data[data<0] = 0
data

array([[ 0.        ,  0.        ,  0.        ,  2.09276089],
       [ 0.        ,  0.        ,  1.20123106,  0.        ],
       [ 0.22679057,  1.42690056,  0.8430225 ,  0.        ],
       [ 0.        ,  0.08485409,  0.40211727,  0.        ],
       [ 0.48274331,  0.        ,  0.        ,  1.09635867],
       [ 0.91013039,  0.44635849,  0.12212023,  2.13551073],
       [ 0.        ,  0.        ,  0.        ,  1.02987568]])

通过一维布尔数组设置整行或列的值也很简单：

In [160]:
data[names != 'Will'] = 7
data

array([[ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.22679057,  1.42690056,  0.8430225 ,  0.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 0.48274331,  0.        ,  0.        ,  1.09635867],
       [ 7.        ,  7.        ,  7.        ,  7.        ],
       [ 7.        ,  7.        ,  7.        ,  7.        ]])

### 花式索引

fancy indexing，即花式索引，是一个NumPy专业术语，代指利用整数数组进行索引。

In [4]:
#Suppose we had an 8 × 4 array:

import numpy as np

arr1 = np.zeros((8,4))
print(arr1)
print('\n')

for i in range(8):
    arr1[i] = i+1
    
print(arr1)



[[ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]]


[[ 1.  1.  1.  1.]
 [ 2.  2.  2.  2.]
 [ 3.  3.  3.  3.]
 [ 4.  4.  4.  4.]
 [ 5.  5.  5.  5.]
 [ 6.  6.  6.  6.]
 [ 7.  7.  7.  7.]
 [ 8.  8.  8.  8.]]


为了以特定顺序选取行子集，只需传入一个用于指定顺序的整数列表或ndarray即可：

In [5]:
arr1[[4,3,0,6]]

array([[ 5.,  5.,  5.,  5.],
       [ 4.,  4.,  4.,  4.],
       [ 1.,  1.,  1.,  1.],
       [ 7.,  7.,  7.,  7.]])

上面的代码的，我们用一个列表[4,3,0,6]就选出了arra1中的第4，3，0，6的子集。

如果我们使用负数进行索引，则选择的顺序将是从末尾到开头。


** 注意-0和0是一样的，还是开头的第一行作为0. 这是值得注意的地方。**

In [10]:
arr1[[-4,-3,-1,-6,-0]] 

array([[ 5.,  5.,  5.,  5.],
       [ 6.,  6.,  6.,  6.],
       [ 8.,  8.,  8.,  8.],
       [ 3.,  3.,  3.,  3.],
       [ 1.,  1.,  1.,  1.]])

一次传入多个索引数组会会比较特别。它返回的是一个一维数组，其中的元素对应各个索引元组：

In [16]:
# 在第12章，我们会展开讲讲reshape，在这个例子中，我们只是使用 reshape

import numpy as np

arr = np.arange(32).reshape((8,4))
print(arr)

print('\n')

arr_select = arr[[1,5,7,2],[0,3,1,2]]
print(arr_select) 

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]


[ 4 23 29 10]


从上述代码的结果看不难看出，得出来的结果是[1,0] [5,3] [7,1] 和 [2,2]

那么怎么选取矩阵的行列子集呢？下面，我们只需要稍微改动下代码即可实现：（这部分最好再读几遍原书，字句不好理解）

In [3]:
import numpy as np

arr = np.arange(32).reshape((8,4))
print(arr)

print('\n')

arr_select = arr[[1,5,7,2]][:, [0,3,1,2]]
#1 5 7 2 选取行
#0 3 2 1 选取列
print(arr_select) 

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]


[[ 4  7  5  6]
 [20 23 21 22]
 [28 31 29 30]
 [ 8 11  9 10]]


此外，还可以使用 np.ix_函数来实现上述的功能，它可以将两个一维整数数组转换为一个用于选取方形区域的索引器：

In [20]:
import numpy as np

arr = np.arange(32).reshape((8,4))
print(arr)

print('\n')

arr_select = arr[np.ix_([1,5,7,2],[0,3,1,2])]
print(arr_select) 

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]


[[ 4  7  5  6]
 [20 23 21 22]
 [28 31 29 30]
 [ 8 11  9 10]]


** It should be mentioned that, ** 花式索引与切片不一样，它总是将数据复制到新数组中。

#### 数组转置和轴对称

转置，即 transpose，是重塑的一种重要特殊形式，它返回的是原数据的视图（不会进行任何复制操作）。数组不禁有transpose方法，还有一个特殊的T属性。

In [22]:
import numpy as np
arr = np.arange(15).reshape((3,5))
print(arr)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


In [24]:
print(arr.T)
print('\n')
print(arr)

[[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]


[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


当我们进行矩阵预算时候，进行需要用到转置操作。例如，要用 np.dot计算矩阵内积X$^T$X：

In [27]:
import numpy
from numpy.random import randn

arr = randn(6,3)
print(arr, '\n')

np.dot(arr.T, arr)


[[ 0.88305947  0.67164992 -1.63705893]
 [-1.97015874 -0.60133121 -0.80996363]
 [ 0.23510669 -1.56947524  1.34273132]
 [ 0.43400038 -0.09749082 -0.03115376]
 [ 1.17980899  1.75850292 -0.51941239]
 [ 0.17019689 -0.35324296  0.14117386]] 



array([[ 6.32586721,  3.38109629, -0.13647915],
       [ 3.38109629,  6.50258296, -3.68007732],
       [-0.13647915, -3.68007732,  5.42962028]])

** 对于更高维的数组，transpose 时需要得到一个由轴编号组成的元祖才能对这些轴进行转置（这个可能不好理解，得多阅读几次）：**

In [7]:
#这里我简单举个例子

import numpy as np


arr = np.arange(16).reshape((2,2,4))
print(arr)


arr_transpose = arr.transpose((1))

[[[ 0  1  2  3]
  [ 4  5  6  7]]

 [[ 8  9 10 11]
  [12 13 14 15]]]


ValueError: axes don't match array

从上面几个例子，我们可以看出，对于简单的低维矩阵，使用.T就可以实现转置，毕竟只是进行轴对换而已；但是对于高维数组，就显得麻烦好多。ndarray还有一个swapaxes方法，它需要接受一对轴编号：(注意swapaxes也是返回源数据的视图，并不会进行任何复制操作。)

In [43]:
import numpy as np

arr = np.arange(18).reshape(3,3,2)
print(arr, '\n')

arr_axes1 = arr.swapaxes(0,1)
print(arr_axes1)

print('\n')
arr_axes2 = arr.swapaxes(1,2)
print(arr_axes2)

[[[ 0  1]
  [ 2  3]
  [ 4  5]]

 [[ 6  7]
  [ 8  9]
  [10 11]]

 [[12 13]
  [14 15]
  [16 17]]] 

[[[ 0  1]
  [ 6  7]
  [12 13]]

 [[ 2  3]
  [ 8  9]
  [14 15]]

 [[ 4  5]
  [10 11]
  [16 17]]]


[[[ 0  2  4]
  [ 1  3  5]]

 [[ 6  8 10]
  [ 7  9 11]]

 [[12 14 16]
  [13 15 17]]]


## 通用函数：快速的元素级数组函数。

通用函数（即ufuc）是一种对ndarray中对数据执行元素级运算对函数。我们可以将其看作简单对函数（接受一个或者多个标量值，并产生一个或者多个标量值）的矢量化包装器。

许多 unfunc 都是简单的元素级变体，如sqrt和exp：

In [45]:
import numpy as np

arr = np.arange(10)

In [50]:
print(arr, '\n')
print(np.sqrt(arr))

[0 1 2 3 4 5 6 7 8 9] 

[ 0.          1.          1.41421356  1.73205081  2.          2.23606798
  2.44948974  2.64575131  2.82842712  3.        ]


In [52]:
print(arr,'\n')
np.exp(arr) #the results are e^N (N = 0, 1, 2,...)

[0 1 2 3 4 5 6 7 8 9] 



array([  1.00000000e+00,   2.71828183e+00,   7.38905610e+00,
         2.00855369e+01,   5.45981500e+01,   1.48413159e+02,
         4.03428793e+02,   1.09663316e+03,   2.98095799e+03,
         8.10308393e+03])

上述这些都是一元（unary）ufunc。另外一些（如add或maximum）接受2个数组（因此也叫二元binary ufunc），并返回一个结果数组：

In [55]:
import numpy as np
from numpy.random import randn

x = randn(8)
print(x,'\n')

y = randn(8)
print(y,'\n')

max_number = np.maximum(x,y)
print(max_number,'\n')

[ 0.60703832  0.38092492  0.49084739 -1.55153343 -0.48241815  1.48735727
  1.00238936  0.56350961] 

[ 1.50091573  0.67545989 -0.22802608 -1.2981973  -1.09840274 -0.32402223
  0.50021931 -0.77911811] 

[ 1.50091573  0.67545989  0.49084739 -1.2981973  -0.48241815  1.48735727
  1.00238936  0.56350961] 



此外，有一小部分的ufunc，它们可以返回多个数组。mof就是一个例子，它是Python内置函数
divmod的矢量化版本，用于分离浮点数组的小数和整数部分。通过下面的例子，我们会发现，mof其实得到的是几个数组组成的tuple

In [61]:
import numpy as np
from numpy.random import randn

arr = randn(7)*5
print(arr,'\n')

arr_1 = np.modf(arr)
print(arr_1)
print(type(arr_1))
print(arr_1[1])

[ -6.43669755   7.88911122  -3.69700764   0.69285877   0.41362021
  10.72595567  -7.50092385] 

(array([-0.43669755,  0.88911122, -0.69700764,  0.69285877,  0.41362021,
        0.72595567, -0.50092385]), array([ -6.,   7.,  -3.,   0.,   0.,  10.,  -7.]))
<class 'tuple'>
[ -6.   7.  -3.   0.   0.  10.  -7.]


下表中列出了一些一元和二元ufunc

#### 一元ufunc

|函数|说明|
|------|-----|
|abs, fabs|计算整数、浮点数和负数的绝对值。对于复数值，可以使用更快的fabs|
|sqrt|计算各元素的平方根。相当于 arr ** 0.5|
|square|计算各元素的平方。相当于是 arr ** 2 |
|exp|计算各元素的e指数，即 e$^x$|
|log,log10,log2,log1p|分别对应自然对数（以e为底），底数是10的log，底数是2的log，以及log(1+x)|
|sign|计算各元素的正负号：1代表整数，0代表零，-1代表负数|
|ceil|计算各元素的ceiling值，即大于等于该值的最小整数|
|floor|计算各元素的floor值，即小于等于该值的最大整数|
|rint|将各元素之四舍五入到最接近的整数，保留dtype|
|modf|将数组的小数和整数部分以两个独立的数组形式返回|
|isnan| 返回一个表示“哪些值是NaN（这不是一个数字）”的boolean数组|
|isfinite、isinf|分别返回一个表示“哪些元素是有穷的（非inf，非NaN）” 或者 “哪些元素是无穷的”的布尔型数组|
|cos、cosh、sin、sinh、tan，tanh|普通型和双曲型三角函数|
|arccos、arccosh、arcsin、arcsinh、arctan、arctanh|反三角函数|
|logical_not| 计算各个元素not x的真值。相当于-arr|



#### 二元ufunc
|函数|说明|
|------|-----|
|add|将数组中对应的元素相加|
|substract|从第一个数组中减去第二个数组中的元素|
|multiply|数组元素相乘|
|divide、floor_divide|除法或向下圆整除法（丢弃余数）|
|power|对第一个数组中的元素A，根据第二个数组中的相应好元素B，计算A$^B$|
|maximum, fmax|元素级的最大值计算。fmax将忽略NaN|
|minimum、fmin|元素级的最小值计算。fmin将忽略NaN|
|mod|元素级的求模计算（除法的余数）|
|copysign|将第二个数组中的值的符号复制给第一个数组中的值|
|greater、greater_equal、less、less_equal、equal、not_equal|执行元素级的比较运算，最终产生boolean型数组。相当于中缀运算>, >=, <, <=, ==, !=|
|logical_and、logical_or、logical_xor | 执行元素级的真值逻辑运算。相当于中缀运算符 '&'，'$|$'，'^'|

In [70]:
import numpy as np
from numpy.random import randn

new = randn(10)

In [71]:
new

array([-0.02466453, -0.23606097, -0.58305391, -0.37264278, -1.12309828,
       -1.97846328,  1.817992  , -0.07794466,  2.35676092,  0.45949919])

In [72]:
np.sign(new)

array([-1., -1., -1., -1., -1., -1.,  1., -1.,  1.,  1.])

In [77]:
import numpy as np

new = np.arange(10)
new = new+0.1
print(new,'\n')


np.ceil(new)

[ 0.1  1.1  2.1  3.1  4.1  5.1  6.1  7.1  8.1  9.1] 



array([  1.,   2.,   3.,   4.,   5.,   6.,   7.,   8.,   9.,  10.])

In [84]:
import numpy as np
from numpy.random import randn

new = randn(10)
print(new,'\n')
print('rint function:', np.rint(new))
print('isnan function: ', np.isnan(new))
print('isfinite function', np.isfinite(new))
print('isinf function: ', np.isinf(new))
print('logical_not function: ', np.logical_not(new))

[ 0.5160579  -1.12667861  0.364676   -2.349709    0.67440326 -0.39702861
 -0.34850077 -1.10279863  1.25342033  0.12239631] 

rint function: [ 1. -1.  0. -2.  1. -0. -0. -1.  1.  0.]
isnan function:  [False False False False False False False False False False]
isfinite function [ True  True  True  True  True  True  True  True  True  True]
isinf function:  [False False False False False False False False False False]
logical_not function:  [False False False False False False False False False False]


## 利用数组进行数据处理

NumPy数组的矢量化在很大程度上简化了数据处理方式。一般而言，矢量化运算要比等价的纯python方式快1-2个数量级，尤其是在数值计算处理过程中这个优势更加的明显。在后面的第12章节中，我们将了解到广播，它是一种针对矢量化计算的强大手段。

假设我们想要在一组值（网格型）上计算sqrt(x^2+y^2)。np.meshgrid 函数接受两个一维数组，并产生两个二维矩阵（对英语两个数组中所有的(x,y)对）：

In [12]:
import numpy as np

points = np.arange(-5,5,0.01) # 产生1000个间隔同为0.01的点。
print(points[:10])
xs, ys = np.meshgrid(points, points)
print(xs[:10])

[-5.   -4.99 -4.98 -4.97 -4.96 -4.95 -4.94 -4.93 -4.92 -4.91]
[[-5.   -4.99 -4.98 ...,  4.97  4.98  4.99]
 [-5.   -4.99 -4.98 ...,  4.97  4.98  4.99]
 [-5.   -4.99 -4.98 ...,  4.97  4.98  4.99]
 ..., 
 [-5.   -4.99 -4.98 ...,  4.97  4.98  4.99]
 [-5.   -4.99 -4.98 ...,  4.97  4.98  4.99]
 [-5.   -4.99 -4.98 ...,  4.97  4.98  4.99]]
