NumPy在处理数据时，使用的时间更少。

In [1]:
import numpy as np
np.random.seed(42)

In [2]:
my_arr = np.arange(1000000)     # numpy ndarry
my_list = list(range(1000000))  # list

In [3]:
# 序列中每个元素乘2
%time for _ in range(10): my_arr2 = my_arr * 2

Wall time: 25.9 ms


In [4]:
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

Wall time: 838 ms


**NumPy-based算法通常比对应的pure Python快10-100倍，而且使用的内存更少。**

# 1 NumPy ndarray——一个多维数组对象

NumPy最重要的一个特性是N维数组对象（ndarray）——是Python快速，灵活的大数据集container。

可以对整个数组中的元素进行数学操作，语法类似于标量元素。

In [5]:
data = np.random.randn(2, 3)
data

array([[ 0.49671415, -0.1382643 ,  0.64768854],
       [ 1.52302986, -0.23415337, -0.23413696]])

In [6]:
data * 10

array([[ 4.96714153, -1.38264301,  6.47688538],
       [15.23029856, -2.34153375, -2.34136957]])

In [7]:
data + data

array([[ 0.99342831, -0.2765286 ,  1.29537708],
       [ 3.04605971, -0.46830675, -0.46827391]])

ndarray是一个多维container，内部元素是同质的，即元素类型均相同。

In [8]:
data.shape  # 元组，表示ndarray每一维的size

(2, 3)

In [9]:
data.dtype  # ndarray内元素类型

dtype('float64')

**精通面向数组的编程和思考方式是成为Python数分大师的关键。**

## 1.1 创建ndarray

![创建ndarry的方式](https://raw.githubusercontent.com/libingallin/python-for-data-anlysis/master/numpy/figs/ndarray-creation%20funcs.png)

|函数|描述|
| :-- | :-- |
|`np.array`|将输入数据（列表，元组，数组或其他序列类型）转换成一个ndarray，指定数据类型或自己推断；默认复制输入数据|
|`np.asarray`|转换输入数据，若输入数据是ndarray则不复制|
|`np.arange`|类似于Python内建`range`，返回ndarray而不是list|
|`np.ones`|根据给定的dtype和shape生成一个元素全为1的ndarray|
|`np.ones_like`|根据其他ndarray的dtype和shape生成一个元素全为1的ndarray|
|`np.zeros`|根据给定的dtype和shape生成一个元素全为0的ndarray|
|`np.zeros_like`|根据其他ndarray的dtype和shape生成一个元素全为0的ndarray|
|`np.empty`|通过分配新内存生成一个新ndarray，但不会有任何值|
|`np.empty_like`|根据其他ndarray的dtype和shape，通过分配新内存生成一个新ndarray，但不会有任何值|
|`np.full`|根据给定的dtype和shape生成一个元素值（通过参数指定）相同的ndarray|
|`np.full_like`|根据其他ndarray的dtype和shape生成一个元素值（通过参数指定）相同的ndarray|
|`np.eye`, `np.identity`|创建一个NxN的单位矩阵（ndarray）|

> 因为NumPy是用来做数值计算的，因此，数据类型若未指定，都是`float64`类型。

**最简单创建ndarray的方式是使用`np.array`函数**，这个函数接收任何sequence-like对象（也可以是其他数组）。

In [10]:
data1 = [6, 7.5, 8, 0, 1]

In [11]:
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

嵌套序列将会被转换成一个多维数组：

In [12]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]

In [13]:
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

因为`arr2`是list of list，因此`arr2`有两个维度（从数据推断）。可以使用**自省属性**`ndarray.ndim`和`ndarray.shape`来验证。

In [14]:
arr2.ndim

2

In [15]:
arr2.shape

(2, 4)

除非具体指定，`np.array`自动推断出一个合适的数据类型。ndarray数据类型存在`ndarray.dtype`对象中。

In [16]:
arr1.dtype

dtype('float64')

In [17]:
arr2.dtype

dtype('int32')

**其他创建ndarray的方法。**

+ 创建全是0的ndarray

In [18]:
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [19]:
np.zeros(3, dtype='int32')

array([0, 0, 0])

In [20]:
np.zeros_like(arr2)

array([[0, 0, 0, 0],
       [0, 0, 0, 0]])

In [21]:
np.zeros_like(arr1)

array([0., 0., 0., 0., 0.])

> 继承了数据类型。

+ 创建全是1的ndarray

与上面类似。

+ 创建空的ndarray

In [22]:
np.empty(10)

array([            nan, 0.00000000e+000, 1.01572069e-311, 2.02369289e-320,
       0.00000000e+000, 0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
       0.00000000e+000, 0.00000000e+000])

> 认为`np.empty`返回全0ndarray的想法是不安全的。在某些情况下，它返回的都是尚未初始化的辣鸡值。

`np.arange`类似于Python的`range`函数

In [23]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

+ 创建元素值相同的ndarray

In [24]:
np.full((2, 3,), 100)

array([[100, 100, 100],
       [100, 100, 100]])

+ 创建一个单位矩阵（ndarray）

In [25]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

## 1.2 ndarray的数据类型

`dtype`/数据类型是一个特殊对象，含有ndarray将一块内存解释为特定数据类型所需的信息：

In [26]:
arr1 = np.array([1, 2, 3,], dtype=np.float64)
arr2 = np.array([1, 2, 3], dtype=np.float32)

In [27]:
arr1.dtype

dtype('float64')

In [28]:
arr2.dtype

dtype('float32')

`dtype`是NumPy强大和灵活的原因之一。多数情况下，他们将直接映射到相应的机器表示，这使得“读写磁盘上的二进制数据流”以及“集成低级语言(如，C、Fortran)”等工作变得简单。
**`dtype`由一个类型名+表各元素位长的数字组成。**标准的双精度浮点型（Python float）需要占用8字节或64位。

|类型|类型代码（Type code）|说明|
| :---| :-- | :--|
|int8, uint8|i1, u1|有符号和无符号的8位（1字节）整型
|int16, uint16|i2, u2|有符号和无符号的16位（2字节）整型
|int32, uint32|i4, u4|有符号和无符号的32位（4字节）整型
|float16|f2|半精度（half-precision）浮点数|
|float32|f4 or f|标准的单精度浮点数；与C的float兼容|
|float64|f8 or d|标准的双精度浮点数；与C的double和Python的float兼容|
|float128|f16 or g|扩展的精度浮点数|
|complex64|c8|两个32位表示的浮点数|
|complex128|c16|两个64位表示的浮点数|
|complex264|c32|两个128位表示的浮点数|
|bool|?|Bolearn型，`True` or `Fasle`|
|object|O|Python object类型；可以是任何Python对象的值|
|string_|S|固定长度的ASCII字符串类型（每个字符character1字节），如创建一个长度为10的字符串，使用'S10'|
|unicode_|U|固定长度的Unicode类型（字节数由平台决定），如`U10'|

> 记不住没关系，记住大概就行了。当需要控制数据在内存和磁盘中的存储方式时（尤其是对大数据集），就得了解如何控制存储类型。

**可以通过`ndarray.astype`显示地转换ndarray.dtype。**

+ 第一种，指定数据类型：

In [29]:
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

dtype('int32')

In [30]:
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

将浮点型转成整型，小数部分被丢弃，没有四舍五入。

In [31]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
arr

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

In [32]:
arr.astype(np.int32)

array([ 3, -1, -2,  0, 12, 10])

将字符串型转成浮点型。

In [33]:
numeric_strings = np.array(['1.25', '-9.7', '42'], dtype=np.string_)
numeric_strings

array([b'1.25', b'-9.7', b'42'], dtype='|S4')

In [34]:
numeric_strings.astype(float)

array([ 1.25, -9.7 , 42.  ])

> 当使用`np.string_`时要小心，因为在NumPy中字符串数据大小被固定，而且可能会在没有警告的情况下截断数据。pandas对non-numeric数据有更直观的开箱即用行为。

+ 第二种：根据其他ndarray的数据类型来转换：

In [38]:
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)

In [39]:
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

可以用简单的代码类型来表示数据类型。

In [40]:
empty_unit32 = np.empty(8, dtype='u4')
empty_unit32

array([2835280424,        478, 1661424176, 1988385690, 1324770695,
            12290,          0,    7929968], dtype=uint32)

**使用`np.astype`总会创建一个新的ndarray（复制数据），即使数据类型相同。**

## 1.3 ndarray算术运算

不用循环就可以对数据进行批运算，这叫**矢量化（vectorization）**。**大小相同的ndarray之间的任何算术运算都会将运算应用到元素级。**

In [43]:
arr = np.array([[1., 2., 3.], [4., 5, 6]])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [44]:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

In [45]:
arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

数组和标量值之间的运算也会将标量值传播到各个元素：

In [46]:
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [47]:
arr ** 0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

比较两个数组将会产生一个同大小的布尔型数组：

In [48]:
arr2 = np.array([[0., 4., 1.], [7, 2., 12.]])
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [49]:
arr2 > arr1

array([[False,  True, False],
       [ True, False,  True]])

shape不同数组之间的操作叫做**广播（broadcasting）**。详细见高阶部分。

## 1.4 基本的索引(indexing)和切片(slicing)
### 1.4.1 indexing

这块内容丰富，选择数组子集和单个元素的方法有很多。

1. 一维数组（和list类似）

In [50]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [52]:
arr[5]  # 获取单个元素

5

In [53]:
arr[5:8]   # 切片

array([5, 6, 7])

In [56]:
arr[5:8] = 12

arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

> 将单个值赋给一个切片，值会被传播到整个被选择的部分。

**数组切片和list切片最重要的区别是，数组切片是原始数组的视图。这意味着数据不会被复制，视图上的任何修改都会直接反映到源数组上。**因为NumPy是用来处理非常大的数组的，因此每次复制数据将会出现性能和内存问题。

In [57]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [58]:
arr_slice[1] = 10000

In [59]:
arr

array([    0,     1,     2,     3,     4,    12, 10000,    12,     8,
           9])

> 对切片的操作将会反映到源数组中。

In [60]:
list1 = list(range(10))
list1

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [61]:
list_slice = list1[3:5]
list_slice[1] = 100000

In [63]:
list_slice

[3, 100000]

In [64]:
list1

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

要想数组切片达到同样的效果，可以使用明显地复制数据，如，`arr[5:8].copy()`。

2. 二维数组

多维数组有更多的选择。

In [65]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]   # 二维数组的单个索引

array([7, 8, 9])

In [66]:
arr2d[0][2]   # 获取二维数组的单个值

3

In [68]:
arr2d[0, 2]  # 获取二维数组的单个值

3

二维数组的索引如图所示。

![ndarray的索引](https://raw.githubusercontent.com/libingallin/python-for-data-anlysis/master/numpy/figs/indexing-elements-in-a-numpy-array.png)

> `axis=0`表示行，`axis=1`表示列。

3. 多维数组

如果省略后面的索引，则会产生一个低维的数组。

In [70]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [71]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

单个值和数组都可以被赋给`arr3d[0]`:

In [72]:
old_values = arr3d[0].copy()
old_values

array([[1, 2, 3],
       [4, 5, 6]])

In [74]:
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [75]:
arr3d[0] = np.zeros((2, 3))

In [76]:
arr3d

array([[[ 0,  0,  0],
        [ 0,  0,  0]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [77]:
arr3d[1, 0]

array([7, 8, 9])

> **注意：**上面所有这些选取数组子集的例子中，返回的都是视图。

### 1.4.2 切片索引Indexing with slices

In [78]:
arr

array([    0,     1,     2,     3,     4,    12, 10000,    12,     8,
           9])

In [79]:
arr[1:5]

array([1, 2, 3, 4])

In [80]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [81]:
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

> 沿轴0（第一个轴）切片。

In [82]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

整数索引和切片混合：

In [83]:
arr2d[1, :2]

array([4, 5])

In [84]:
arr2d[1:, 2]

array([6, 9])

仅仅`:`表示该轴全选。

In [85]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

对切片赋值，将会反映到源数组中：

In [87]:
arr2d[:2, 1:] = 0

In [88]:
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

**二维数组的切片：**
![二维数组的切片](https://raw.githubusercontent.com/libingallin/python-for-data-anlysis/master/numpy/figs/two-dimensional-array-slicing.png)