# Numpy

NumPy（Numerical Python 的简称）是 Python 数值计算最重要的基础包。大多数提供科学计算的包都是用 NumPy 的数组作为构建基础。

NumPy 本身并没有提供多么高级的数据分析功能，理解 NumPy 数组以及面向数组的计算将有助于你更加高效地使用诸如 pandas 之类的工具。

NumPy 之于数值计算特别重要的原因之一，是因为它可以高效处理大数组的数据。

In [1]:
import numpy as np

## ndarray

NumPy 最重要的一个特点就是其 N 维数组对象（即ndarray），该对象是一个快速而灵活的大数据集容器。

In [2]:
data = np.random.randn(2, 3)

In [3]:
data

array([[-1.21170302,  0.89996478, -0.69770912],
       [ 0.12538575, -0.94790559, -1.64044581]])

In [4]:
data * 10

array([[-12.11703021,   8.99964778,  -6.97709121],
       [  1.25385754,  -9.47905592, -16.40445813]])

ndarray是一个通用的同构数据多维容器，也就是说，其中的所有元素必须是相同类型的。每个数组都有一个shape（一个表示各维度大小的元组）和一个dtype（一个用于说明数组数据类型的对象)。

In [5]:
data.shape

(2, 3)

In [6]:
data.dtype

dtype('float64')

## 创建ndarray

创建ndarray最简单的办法就是使用array函数。它接受一切序列型的对象（包括其他数组），然后产生一个新的含有传入数据的 NumPy 数组。

In [7]:
data1 = [1, 3, 5, 7, 10]
ndarray1 = np.array(data1)

In [8]:
ndarray1

array([ 1,  3,  5,  7, 10])

In [9]:
ndarray1.shape

(5,)

In [10]:
ndarray1.dtype

dtype('int64')

np.array会尝试为新建的这个数组推断出一个较为合适的数据类型。

### np.zeros & np.ones

In [11]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [12]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

### np.arange()

In [13]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [14]:
np.arange(4, 10)

array([4, 5, 6, 7, 8, 9])

### ndarray的数据类型

dtype（数据类型）是一个特殊的对象，它含有ndarray将一块内存解释为特定数据类型所需的信息。dtype是 NumPy 灵活交互其它系统的源泉之一。多数情况下，它们直接映射到相应的机器表示，这使得“读写磁盘上的二进制数据流”以及“集成低级语言代码（如 C、Fortran）”等工作变得更加简单。

In [15]:
array1 = np.array([1, 3, 5], dtype=np.float64)

In [16]:
array1

array([1., 3., 5.])

### astype转化

In [17]:
array1 = np.ones(10)

In [18]:
array1.dtype

dtype('float64')

In [19]:
array2 = array1.astype(np.float32)

In [20]:
array2.dtype

dtype('float32')

## ndarray 向量化

ndarray数组很重要，因为它使你不用编写循环即可对数据执行批量运算。NumPy 用户称其为向量化（vectorization）。大小相等的数组之间的任何算术运算都会将运算应用到元素级。

In [21]:
array2

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.], dtype=float32)

In [22]:
array2 * 10

array([10., 10., 10., 10., 10., 10., 10., 10., 10., 10.], dtype=float32)

In [23]:
array2

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.], dtype=float32)

### 大小相同的数组之间的比较会生成布尔值数组

In [24]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])

In [25]:
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [26]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])

In [27]:
arr2

array([[ 0.,  4.,  1.],
       [ 7.,  2., 12.]])

In [28]:
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

## 索引和切片

当你将一个标量值赋值给一个切片时（如arr[5:8]=12），该值会自动传播（也就说后面将会讲到的“广播”）到整个选区。跟列表最重要的区别在于，数组切片是原始数组的视图。这意味着数据不会被复制，视图上的任何修改都会直接反映到源数组上。

In [29]:
arr = np.arange(12).reshape(3,4)

In [30]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [31]:
arr[1:] = 2

In [32]:
arr

array([[0, 1, 2, 3],
       [2, 2, 2, 2],
       [2, 2, 2, 2]])

In [33]:
arr[1:, :2]

array([[2, 2],
       [2, 2]])

### 布尔型索引

跟算术运算一样，数组的比较运算（如==）也是向量化的。

In [34]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])

In [35]:
names == 'Will'

array([False, False,  True, False,  True, False, False])

这个布尔型数组可用于数组索引。

布尔型数组的长度必须跟被索引的轴长度一致。

In [36]:
data = np.random.randn(7, 4)
data[names == 'Bob']

array([[ 0.80760812,  0.91765463, -0.75847575,  1.95760275],
       [-1.04374561,  0.16147225,  1.40897461,  1.08732609]])

**注意：Python 关键字and和or在布尔型数组中无效。要使用&与|。**

通过布尔型数组设置值是一种经常用到的手段。

In [37]:
data = np.arange(20).reshape(4,5)

In [38]:
data

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [39]:
data[data < 10] = 10

In [40]:
data

array([[10, 10, 10, 10, 10],
       [10, 10, 10, 10, 10],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

## 花式索引

花式索引（Fancy indexing）是一个 NumPy 术语，它指的是利用整数数组进行索引。

为了以特定顺序选取行子集，只需传入一个用于指定顺序的整数列表或ndarray即可。

In [41]:
data[[2,1]]

array([[10, 11, 12, 13, 14],
       [10, 10, 10, 10, 10]])

## 矩阵的转置

In [42]:
arr = np.arange(15).reshape((3, 5))

In [43]:
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [44]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [45]:
np.dot(arr, arr.T)

array([[ 30,  80, 130],
       [ 80, 255, 430],
       [130, 430, 730]])

## 通用函数

通用函数（即ufunc）是一种对ndarray中的数据执行元素级运算的函数。你可以将其看做简单函数（接受一个或多个标量值，并产生一个或多个标量值）的向量化包装器。

许多ufunc都是简单的元素级变体，如sqrt和exp。

In [46]:
arr = np.arange(10)

In [47]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [48]:
np.square(arr)

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [49]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [50]:
np.max(arr)

9

## 利用数组进行数据处理

NumPy 数组使你可以将许多种数据处理任务表述为简洁的数组表达式（否则需要编写循环）。用数组表达式代替循环的做法，通常被称为向量化。一般来说，向量化数组运算要比等价的纯 Python 方式快上一两个数量级（甚至更多），尤其是各种数值计算。

In [51]:
def hello():
    a = np.random.randn(12).reshape(4,3)
    z = np.sqrt(a ** 2)
    return z

In [52]:
%time hello()

CPU times: user 28 µs, sys: 1 µs, total: 29 µs
Wall time: 31 µs


array([[0.45228048, 1.15242153, 0.64778968],
       [1.41950211, 0.1017577 , 1.08423186],
       [0.39621465, 0.11085691, 0.28508279],
       [1.65256111, 1.89182991, 0.24904101]])

## 将条件逻辑表述为数组运算

numpy.where函数是三元表达式x if condition else y的向量化版本。

In [53]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])

yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])

cond = np.array([True, False, True, True, False])

In [54]:
np.where(cond, xarr, yarr)

array([1.1, 2.2, 1.3, 1.4, 2.5])

np.where的第二个和第三个参数不必是数组，它们都可以是标量值。

In [55]:
arr = np.random.randn(4, 4)

In [56]:
arr

array([[ 0.18677809, -0.44479686,  0.37745132,  0.36358621],
       [ 2.27477086,  2.10333527, -0.30837592,  0.73293598],
       [-1.42141892,  0.39672278,  0.96813123,  0.12399673],
       [-0.71852892,  1.46868592, -0.97854386,  1.2774977 ]])

In [57]:
np.where(arr > 0, 1, -1)

array([[ 1, -1,  1,  1],
       [ 1,  1, -1,  1],
       [-1,  1,  1,  1],
       [-1,  1, -1,  1]])

## 数学和统计方法

可以通过数组上的一组数学函数**对整个数组或某个轴向**的数据进行统计计算。

sum、mean以及标准差std等聚合计算（aggregation，通常叫做约简（reduction））既可以当做数组的实例方法调用，也可以当做顶级 NumPy 函数使用。

In [58]:
arr = np.random.randn(5, 4)

In [59]:
arr

array([[-0.15773096, -0.78863866, -0.04992814,  0.05846459],
       [-0.01924973, -0.19377896, -0.06580106,  0.81579584],
       [-0.7787    , -0.31609976, -1.0236385 , -1.3306121 ],
       [-0.24547624, -1.40751074,  0.20095122, -0.35048333],
       [ 0.72150158, -0.77912134,  0.17589754,  1.27416163]])

In [60]:
np.sum(arr)

-4.259997121671216

In [61]:
arr.sum()

-4.259997121671216

In [62]:
arr.sum(axis = 0)

array([-0.47965535, -3.48514947, -0.76251893,  0.46732663])

In [63]:
arr.sum(0)

array([-0.47965535, -3.48514947, -0.76251893,  0.46732663])

In [64]:
arr.sum(1)

array([-0.93783316,  0.53696609, -3.44905036, -1.80251909,  1.39243941])

注意：arr.mean(1)是“计算行的平均值”，arr.sum(0)是“计算每列的和”。

也就是axis = 0是列，列是默认的（优先的）。

## 布尔数组的方法

计算的时候，布尔值会被强制转换为 1（True）和 0（False）。

In [65]:
arr = np.random.randn(100)

In [66]:
arr

array([ 1.08021759,  2.16715816, -1.47535593, -1.22108607, -0.09437722,
       -0.72356338, -1.35861406,  0.44822746, -0.23408294, -1.15006987,
       -0.50252863,  0.36974357,  0.53214887, -0.93572346, -1.12796226,
       -0.94250836,  1.90480213,  1.88440237,  1.0024288 , -1.24826558,
       -1.35263597,  0.17718241, -0.41175296, -0.4730496 ,  0.2488056 ,
        0.33691726, -2.0174986 ,  0.06640781,  1.03544018, -1.0092215 ,
       -1.26973111,  0.97090134,  0.43875349, -0.75660607,  0.02391446,
       -1.34567883, -1.43069089,  1.82534918,  0.69332201, -0.27593907,
        0.50899667, -0.52930474, -1.03275864,  0.59121777,  1.11096151,
        0.08411606, -0.15173979, -1.58144167, -0.77975699,  0.25167477,
        0.55230451,  0.04277382, -0.38197575,  0.39598754,  0.41970716,
       -0.76557803,  0.15503844,  1.36965394,  0.68641866,  0.16868101,
        0.19887181,  0.5555696 , -1.35437613, -0.47158917,  0.94199245,
        1.28528903,  1.52271801,  0.04909305,  0.53874006,  0.02

In [67]:
(arr > 0).sum()

56

any用于测试数组中是否存在一个或多个True，而all则检查数组中所有值是否都是True。

In [68]:
bools = np.array([False, False, True, False])

In [69]:
bools.any()

True

In [70]:
bools.all()

False

## 排序

多维数组可以在任何一个轴向上进行排序，只需将轴编号传给sort即可。

In [71]:
arr = np.random.randn(12).reshape(3,4)

In [72]:
arr

array([[-0.36845817,  0.17355054,  0.9099485 , -1.0209173 ],
       [ 0.70218126,  0.55386638, -2.11306091,  0.46484104],
       [-0.11384223, -0.05708629, -0.57142665,  0.27091409]])

In [73]:
arr.sort()

由此可见，默认axis = 1, 默认是行排序。

In [74]:
arr

array([[-1.0209173 , -0.36845817,  0.17355054,  0.9099485 ],
       [-2.11306091,  0.46484104,  0.55386638,  0.70218126],
       [-0.57142665, -0.11384223, -0.05708629,  0.27091409]])

In [75]:
arr.sort(axis = 0)

In [76]:
arr

array([[-2.11306091, -0.36845817, -0.05708629,  0.27091409],
       [-1.0209173 , -0.11384223,  0.17355054,  0.70218126],
       [-0.57142665,  0.46484104,  0.55386638,  0.9099485 ]])

## 文件输入输出

NumPy 能够读写磁盘上的文本数据或二进制数据。

但是一般pandas来做这个。跳过。

## 伪随机数

numpy.random模块对 Python 内置的random进行了补充，增加了一些用于高效生成多种概率分布的样本值的函数。

从范围内随机选

In [77]:
arr = np.random.randint(1, 10)

In [78]:
arr

6

正态分布

In [79]:
arr = np.random.randn(4)

In [80]:
arr

array([-0.22600338,  1.33638099, -0.71760341, -1.82093724])

random.rand(d0, d1, ..., dn)

Random values in a given shape.

In [81]:
arr = np.random.rand(10)

In [82]:
arr

array([0.18566954, 0.62963536, 0.1380449 , 0.88628583, 0.25004907,
       0.63428579, 0.16748967, 0.06026877, 0.06829608, 0.90407237])