# 阅读笔记

** 作者：方跃文 **

** Email: fyuewen@gmail.com **

** 时间：始于2017年9月12日， 结束写作于 **

** 第四章笔记始于2017年10月17日，结束于_____**



# 第四章 Numpy基础：数组和矢量计算

** 时间： 2017年10月17日早晨**

Numpy，即 numerical python的简称，是高性能科学计算和数据分析的基础包。它是本书所介绍的几乎所有高级工具的构建基础。其部分功能如下：

1. ndarray，一个具有矢量算数运算和复杂广播能力的快速且节省空间的多维数组

2. 在不需要循环的情况下，用于对数组快速运算的标准数学函数

3. 用于读写磁盘数据的工具以及用于操作内存映射文件的工具

4. 线性代数、随机数生成以及傅里叶变化

5. 用于集成由 C、C++、Fortran 等语言编写的代码的工具

Numpy 本身功能不复杂，但是理解 Numpy 有助于更高效地使用诸如 Pandas 之类的工具。

原书作者主要从事数据分析，所以他关注的功能主要集中于：

1. 用于数据整理和清理、子集构造和过滤、转换等快速的矢量化数组运算

2. 常用的数组算法，如排序、唯一化、集合运算等。

3. 高效地描述统计和数据聚合/摘要运算

4. 用于异构数据集的合并/连接运算的数据和关系型数据运算

5. 将条件逻辑表述为数组表达式（而不是带有if-elif-else分支的循环）

6. 数据的分组运算（聚合、转换、函数应用等）第五章将对此进行详细解释。

注：建议总是使用 import numpy as np； 而不是用 from numpy import *

## Numpy 的 ndarray：一种多维数组对象

** 时间： 2017年10月18日晚**

Numpy 一个重要特点就是其 N 维数组对象，即 ndarray，该对象是一个快速而灵活的数据集容器。我们可以利用这种数组对整块数据进行一些运算，它的语法跟标量元素之间的运算相同：

In [1]:
import numpy.random as nrandom
data = nrandom.randn(3,2)

In [2]:
data

array([[-0.15245034, -0.35509214],
       [ 0.10517632,  0.88062225],
       [-0.85545925,  0.13379565]])

In [3]:
data*10

array([[ -2.85657252,   3.03701223],
       [ -3.94973582,   2.15621824],
       [  0.97940757, -11.2065684 ]])

In [4]:
data + data

array([[-0.5713145 ,  0.60740245],
       [-0.78994716,  0.43124365],
       [ 0.19588151, -2.24131368]])

ndarray 是 **同构**数据多维容器，that is to say, 所有元素必须是同类型的。

每个数组都有一个 shape （一个表示各维度大小的元祖）和一个 dtype （一个用于说明数组数据类型的对象）：

In [5]:
data.shape # 数组的维数，即行数和列数

(3, 2)

In [6]:
data.dtype #数组中元素的类型

dtype('float64')

虽然大多数数据分析工作不需要深入理解Numpy，但是精通面向数组的编程和思维方式是成为 Python 科学计算达人的一大步骤。

**注意**：第一版翻译版本中有个批注，说“本书中的数组、Numpy数组、ndarray 基本指的都是同一样东西，即 ndarray 对象”

### 创建 ndarray

创建数组最简单的办法就是使用 array 函数。它接受一切序列行的对象（包括其他数组），然后产生一个新的含有传入数据的 NumPy 数组。以列表转换为数组方式为例：

In [5]:
import numpy as np
data1 = [2,3,3,5,6,9]
array1 = np.array(data1)

In [6]:
array1

array([2, 3, 3, 5, 6, 9])

In [9]:
print(array1)
print(array1.dtype)
print(array1.shape)

[2 3 3 5 6 9]
int64
(6,)


嵌套序列（比如由一组等长列表组成的列表），将会被转换为一个多维数组：

In [4]:
import numpy as np

data2=[[23,5,5,6], [4,56,2,8],[3,5,6,7],[2,3,4,5]]
arr2=np.array(data2)

In [5]:
arr2

array([[23,  5,  5,  6],
       [ 4, 56,  2,  8],
       [ 3,  5,  6,  7],
       [ 2,  3,  4,  5]])

In [6]:
arr2.ndim #Number of array dimensions.

2

In [7]:
arr2.shape

(4, 4)

除非显示说明，np.array 会尝试为新建的这个数组推断出一个较为合适的数据类型。数据类型保存在一个特殊的 dtype 对象中。比如说，在上面的两个examples中，我们有

In [8]:
data.dtype

dtype('float64')

In [9]:
arr2.dtype

dtype('int64')

除 np.array 之外，还有一些函数可以新建数组。比如，zeros 和 ones 分别可创建指定长度或形状的全 0 和 全 1 数组。empty 可创建一个没有任何具体值的数组。要用这些方法创建多维数组，只需要传入一个表示形状的元祖即可：

In [31]:
np.zeros(10)

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [48]:
arr4 = np.zeros((3,6,3))
arr4

array([[[ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.]],

       [[ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.]],

       [[ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.],
        [ 0.,  0.,  0.]]])

In [49]:
arr4.ndim

3

In [57]:
arr3 = np.empty((2,4,2))
arr3

array([[[ 0.,  0.],
        [ 0.,  0.],
        [ 0.,  0.],
        [ 0.,  0.]],

       [[ 0.,  0.],
        [ 0.,  0.],
        [ 0.,  0.],
        [ 0.,  0.]]])

In [58]:
arr3.ndim

3

In [67]:
arr5 = np.empty((2,3,4,2))
arr5

array([[[[  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000]],

        [[  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000]],

        [[  0.00000000e+000,   0.00000000e+000],
         [  1.39067116e-308,   1.39069238e-308],
         [  1.39069238e-308,   3.23795802e-318],
         [  0.00000000e+000,   0.00000000e+000]]],


       [[[  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000]],

        [[  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   0.00000000e+000],
         [  0.00000000e+000,   1.39069238e-308],
         [  1.39069238e-308,   1.39069238e-308]],

        

** 警告 ** 认为 np.emptry 会返回全 0 数组的想法是不安全的。很多情况下（如上所示），它返回的都是一些未初始化的垃圾值。

arange 是 Python 内置函数range 的数组版：

In [68]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [78]:
np.arange(2)

array([0, 1])

下表列出了一些数组创建函数。由于Numpy关注的是数值计算，因此，如果没有特别的制定，数据类型一般都是 float64。


|函数 | 说明 |
|-------------|---------------|
| array | 将输入数据(列表、元祖、数字或者其他数据类型)转换为 ndarray。要么推断出 dtype，要么显示地指定dtype。默认直接复制输入数据|
| asarray | 将输入转为 ndarray，如果输入本身就是一个ndarray就不进行复制|
| arange | 类似于python内置的range,但是返回的是一个ndarray,而不是一个列表|
| ones、ones_like | 根据指定的形状和dtype创建一个全1数组。ones_like以另一个数组为参数，并根据其形状和dtype创建一个全1数组|
|zeros、zeros_like | 类似上述命令，只是改为全0数组|
|empty、empty_like|创建新数组，只分配内存空间但不填充任何值|
|eye、identity|创建一个正方的N * N 单位矩阵（对角线为1，其余为0）|

In [85]:
data1 = (1,2,3,4)

In [84]:
np.asarray(data1)

array([1, 2, 3, 4])

In [92]:
np.array(data1)

array([1, 2, 3, 4])

In [91]:
data2 = ([2,2])
np.asarray(data2)


array([2, 2])

In [4]:
import numpy as np
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [10]:
ones

NameError: name 'ones' is not defined

In [9]:
np.ones(19)

array([ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.])

In [10]:
np.zeros(10)

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [12]:
np.empty(4)

array([  1.87062952e-077,   3.21450328e+164,   1.85692977e+216,
         1.99392236e-077])

In [14]:
np.eye(3)

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

In [12]:
np.eye(4)

array([[ 1.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.],
       [ 0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  1.]])

In [15]:
np.identity(2)

array([[ 1.,  0.],
       [ 0.,  1.]])

In [11]:
np.identity(3)

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

### ndarray 的数据类型

Recently I jsut moved from Shanghai to Kyoto, hence I have stopped taking notes for almost two weeks. 
From now on, I will continue writing this notes. Let's note~

YWFANG @Kyoto University November, 2017

dtype()

dtype 是一个特殊的对象，它含有ndarray将一块内存解释为特定数据类型的所需信息：

In [1]:
import numpy as np

arr1 = np.array([1,2,3], dtype = np.float64)
arr2 = np.array([1,2,3], dtype = np.int32)

In [2]:
arr1.dtype

dtype('float64')

In [3]:
arr2.dtype

dtype('int32')

dtype 是 NumPy 强大的原因之一。在多数情况下，它们直接映射到相应的机器表示，这使得“读写磁盘上的二进制数据流”以及“集成低级语言，如fortran"等工作变得简单。

下表记录了NumPy所支持的全部数据类型：（记不住没有关系，刚开始记不住也很正常）

|类型|类型代码|说明
|-------------|---------------|
|int8、unit8| i1、u1| 有符号和无符号的8位（1个字节）整型|
|int16、unit16| i2、u2| 有符号和无符号的16位（2字节）整型|
|int32、unit32| i4、u4| 。。。32位。。。|
|int64、unit64| i8、u8|。。。64位。。。|
| float16| f2| 半精度浮点数|
| flaot32| f4或者f| 标准单精度浮点数，与C的float兼容|
| float64| f8或d | 标准双精度浮点数，与C的double和Python的float对象兼容|
|float128| f16或者g| 扩展精度浮点数|
|complex64、complex128|c8、c16| 分别用两个32位、64位或128位浮点数表示的复数|
|complex256|c32|复数|
| bool|？|存储True 或Flase 值的布尔类型|
|object | O | Python多象类型|
| string_|S|固定长度的字符串类型（每个字符1个字节）。例如，要创建一个长度位10的字符串，应使用S10|
|unicode|U|固定长度的unicode类型（字节数由平台决定）。跟字符串定义方式一样（如U10）|


我们可以通过 ndarray 的 astype 方法显示地转换其dtype：

In [5]:
import numpy as np

arr = np.array([1,2,3,4,5], dtype='i2')
print(arr.dtype)
print(arr)

int16
[1 2 3 4 5]


In [13]:
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

In the above example, an integer array was converted into a floating array.

In the following example, I will show you how to convert a float array to an int array. You will see that, if I cast some floating point numbers to be of interger type, the decimal part will be truncated.

In [20]:
import numpy as np
arr = np.array([1.2, 2.3, 4.5, 53.4,3.2,4.2])
print(arr.dtype)
print(arr)
print(id(arr)) #memoery address of arr

print('\n')
#conversion to integer
int_arr = arr.astype(np.int32)
print(int_arr.dtype)
print(int_arr)

float64
[  1.2   2.3   4.5  53.4   3.2   4.2]
140558535658272


int32
[ 1  2  4 53  3  4]


If you have an array of strings representing numbers, you can also use 'astype' to convert them into numberic form:

In [32]:
import numpy as np
num_strings_arr = np.array(['1.25', '-9.6', '42'], dtype = np.string_)
print(num_strings_arr)
print(num_strings_arr.dtype)

float_arr = num_strings_arr.astype(np.float64)
# num_strings_arr.astype(float)
print(float_arr.dtype)
print(float_arr)

# alternatively, we can use a lazy writing
float1_arr = num_strings_arr.astype(float)
print(float_arr.dtype)
print(float_arr)

[b'1.25' b'-9.6' b'42']
|S4
float64
[  1.25  -9.6   42.  ]
float64
[  1.25  -9.6   42.  ]


In addition, we can use another array’s dtype attribute:

In [41]:
# in this example, we can see that the int_arry will converted into
# a floating array, in particular, the dtype of calibers was used
# during the conversion using astype(calibers.dtype)
import numpy as np
int_array = np.arange(10)
print(int_array, int_array.dtype)

calibers = np.array([.22, .20, .23,.45, .44], dtype=np.float64)
print(calibers , calibers.dtype)

int_array_new = int_array.astype(calibers.dtype)
print(int_array_new, int_array_new.dtype)

[0 1 2 3 4 5 6 7 8 9] int64
[ 0.22  0.2   0.23  0.45  0.44] float64
[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9.] float64


In [62]:
#when stating an array, we can use the short code in the table to assign
# the dtype of the array
# for example

import numpy as np

empty_array = np.empty(8, dtype='u4')
print(empty_array)

print('\n')

zero_array = np.zeros(12, dtype='u4')
print(zero_array, zero_array.dtype)

print('\n')

one_array = np.ones(9, dtype='f8')
print(one_array, one_array.dtype)
print(*one_array)

[0 0 0 0 0 0 0 0]


[0 0 0 0 0 0 0 0 0 0 0 0] uint32


[ 1.  1.  1.  1.  1.  1.  1.  1.  1.] float64
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0


点数（比如float64和float32）只能表示近似的分数值。因此复杂计算中，由于可能积累的浮点错误，比较浮点数字大小时，只能在一定的小数位数以内有效。

### 数组和标量之间的运算

数据的便利之处在于即使我们不用loop，也可以对批量数据进行运算和操作。这种方式通常叫做“矢量化”（vectorization）。大小相等的数组之间的任何算数运算都会将运算应用到元素级：

In [9]:
import numpy as np

arr = np.array([[1., 2., 3.,],[3.,5.,6.]])
print(arr.shape)

print(arr)

(2, 3)
[[ 1.  2.  3.]
 [ 3.  5.  6.]]


In [10]:
arr*arr

array([[  1.,   4.,   9.],
       [  9.,  25.,  36.]])

In [11]:
arr-arr

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [12]:
arr+arr

array([[  2.,   4.,   6.],
       [  6.,  10.,  12.]])

同样地，当数组与标量进行算数运算时，也会遍历到各个元素

In [13]:
1/arr

array([[ 1.        ,  0.5       ,  0.33333333],
       [ 0.33333333,  0.2       ,  0.16666667]])

In [14]:
arr*2

array([[  2.,   4.,   6.],
       [  6.,  10.,  12.]])

不同大小的数组之间的运算叫做广播 broadcasting，我们之后还会在第12章进行深度的学习。

### 基本的索引和切片

NumPy 数组的索引是一个内容丰富的主题，因为选取数据子集或者单个元素的方式非常多。一维数组很简单。从表面看，它们跟python列表的功能差不多。

In [20]:
import numpy as np

arr = np.arange(10, dtype='i1')
print(arr)
print(arr.dtype)

[0 1 2 3 4 5 6 7 8 9]
int8


In [23]:
print(arr[0],arr[5])
print(arr[0:2])

0 5
[0 1]


In [24]:
arr[5:8]=12
print(arr)

[ 0  1  2  3  4 12 12 12  8  9]


In [29]:
#作为对比，我们回顾下之前列表的一些操作

list1=[0,1,2,3,4,5,6,7,8,9]
print(list1[:])
print(list1[0:2])

list1[5] = 12
print(list1[:])

list1[5:8]=12 #这里是跟数组很不同的地方
#如果不使用一个iterable，这里并无法赋值
print(list1[:])

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[0, 1]
[0, 1, 2, 3, 4, 12, 6, 7, 8, 9]


TypeError: can only assign an iterable

如上面例子中看到的那种，当我们将标量赋值给一个切片时（arr[5:8]=12)，该值会自动传播（也就是12章将降到的broadcasting）到整个选区。跟列表最重要的区别在于，数组切片是原始数组的视图。这意味着数据不会被复制，视图上任何的修改都会直接反映到源数组上。

In [34]:
import numpy as np

arr = np.arange(10)
print(arr)
arr_slice = arr[5:8]
arr_slice[1] = 12345


print(arr)

arr_slice[:]=123
print(arr)

[0 1 2 3 4 5 6 7 8 9]
[    0     1     2     3     4     5 12345     7     8     9]
[  0   1   2   3   4 123 123 123   8   9]


由于python常用来处理大数据，这种通过操作数组视图就可以改变源数组的方式，可以避免对数据的反复复制所带来的性能和内存问题。

如果我们想要得到的是一个数组切片的副本，而不是视图，就需要显式地进行复制操作，例如

In [43]:
import numpy as np

arr = np.arange(10)
arr_slice = arr[5:8]
arr_slice[1] = 12345

arr1 = arr[5:8]
print(arr1)
arr2 = arr[5:8].copy()
print(arr2)

#in this example，arr1仍然是数组的视图，但是arr2已经是副本了
arr[5:8]=78
print('arr1 = ', arr1)
print('arr2 = ', arr2)

[    5 12345     7]
[    5 12345     7]
arr1 =  [78 78 78]
arr2 =  [    5 12345     7]
