# ndarray
NumPy最重要的一个特点就是其N维数组对象（即ndarray）

该对象是一个快速而灵活的大数据集容器

In [2]:
import numpy as np

C:\code\Anaconda\lib\site-packages\numpy\.libs\libopenblas.CSRRD7HKRKC3T3YXA7VY7TAZGLSWDKW6.gfortran-win_amd64.dll
C:\code\Anaconda\lib\site-packages\numpy\.libs\libopenblas.IPBC74C7KURV7CB2PKT5Z5FNR3SIBV4J.gfortran-win_amd64.dll
  stacklevel=1)


In [3]:
data = np.random.randn(2, 3)

In [4]:
data

array([[ 0.10276721, -2.51764408,  1.76786281],
       [-0.67509368, -0.54355751,  0.03039276]])

In [5]:
data * 10

array([[  1.02767206, -25.17644078,  17.67862809],
       [ -6.7509368 ,  -5.43557512,   0.30392763]])

In [6]:
data + data

array([[ 0.20553441, -5.03528816,  3.53572562],
       [-1.35018736, -1.08711502,  0.06078553]])

> 常见用法：import numpy as np，不建议from numpy import *
>
> numpy 的命名空间很大，包含许多函数，其中一些的名字与Python的内置函数重名（比如min和max）。

ndarray是一个通用的**同构**数据多维容器，也就是说，其中的所有元素必须是**相同类型**的。

每个数组都有一个shape（一个表示各维度大小的元组）和一个dtype（一个用于说明数组数据类型的对象）

In [7]:
data.shape

(2, 3)

In [8]:
data.dtype

dtype('float64')

创建数组最简单的办法就是使用*array函数*。

它接受一切*序列型*的对象（包括其他数组），然后产生一个新的含有传入数据的NumPy数组。

In [9]:
data1 = [6, 7.5, 8, 0, 1]

In [10]:
arr1 = np.array(data1)

In [11]:
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [12]:
arr1.dtype

dtype('float64')

In [13]:
# 多维数组
data2 = [[1, 2, 3, 4],
        [5, 6, 7, 8]]

In [14]:
arr2 = np.array(data2)

In [15]:
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [16]:
arr2.ndim

2

In [17]:
arr2.shape

(2, 4)

In [18]:
arr2.dtype

dtype('int32')

zeros和ones分别可以创建指定长度或形状的全0或全1数组。

empty可以创建一个没有任何具体值的数组。

只需传入一个表示形状的元组即可

In [19]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [20]:
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [21]:
np.empty((2, 3, 2))

array([[[1.29393068e-311, 2.47032823e-322],
        [0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 1.61590357e+184]],

       [[7.42259286e-091, 5.88362214e-062],
        [6.55123589e-043, 5.64697818e-038],
        [3.99910963e+252, 1.46030983e-319]]])

>  认为np.empty会返回全0数组的想法是不安全的。很多情况下（如前所示），它返回的都是一些未初始化的垃圾值。

arange是Python内置函数range的数组版

In [22]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

![](array-creation-function.jpg)

## ndarray的数据类型

dtype（数据类型）是一个特殊的对象，它含有ndarray将一块内存解释为特定数据类型所需的信息

In [23]:
arr1 = np.array([1, 2, 3], dtype=np.float64)

In [24]:
arr1.dtype

dtype('float64')

In [25]:
arr2 = np.array([1, 2, 3], dtype=np.int32)

In [26]:
arr2.dtype

dtype('int32')

![](numpy数据类型1.jpg)

![](numpy数据类型2.jpg)

可以通过ndarray的*astype*方法明确地将一个数组从一个dtype转换成另一个dtype

In [27]:
arr = np.array([1, 2, 3, 4, 5])

In [28]:
arr.dtype

dtype('int32')

In [29]:
float_arr = arr.astype(np.float64)

In [30]:
float_arr.dtype

dtype('float64')

如果某字符串数组表示的全是数字，也可以用astype将其转换为数值形式

In [31]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)

In [32]:
numeric_strings.astype(float)

array([ 1.25, -9.6 , 42.  ])

> 使用numpy.string_类型时，一定要小心，因为NumPy的字符串数据是大小固定的，发生截取时，不会发出警告。
> 
> pandas提供了更多非数值数据的便利的处理方法。
> 
> 调用astype总会创建一个**新的数组（一个数据的备份）**，即使新的dtype与旧的dtype相同。

## NumPy数组的运算

**矢量化（vectorization）**使你不用编写循环即可对数据执行批量运算

In [33]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])

In [34]:
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [35]:
arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

不同大小的数组之间的运算遵循**广播（broadcasting）机制**，具体规则可以参考Python数据科学手册或本书附录

In [36]:
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [37]:
arr ** 0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

In [38]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])

In [39]:
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

### 基本的索引和切片

In [40]:
arr = np.arange(10)

In [41]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [42]:
arr[5]

5

In [43]:
arr[5:8]

array([5, 6, 7])

In [44]:
arr[5:8] = 12

In [45]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

如上所示，当你将一个标量值赋值给一个切片时（如arr[5:8]=12），该值会自动传播（也就说后面将会讲到的“广播”）到整个选区。

跟列表最重要的区别在于，数组切片是原始数组的**视图**。这意味着数据**不会被复制**，视图上的任何修改都会**直接反映到源数组**上。

In [46]:
arr_slice = arr[5:8]

In [47]:
arr_slice

array([12, 12, 12])

In [48]:
arr_slice[1] = 12345

In [49]:
arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

> 由于NumPy的设计目的是处理大数据，所以你可以想象一下，假如NumPy坚持要将数据复制来复制去的话会产生何等的性能和内存问题。
> 
> 如果你想要得到的是ndarray切片的一份副本而非视图，就需要明确地进行**复制**操作，例如 arr[5:8].copy()

可以传入一个以逗号隔开的索引列表来选取单个元素。也就是说，下面两种方式是等价的：

In [50]:
arr2d = np.array([[1, 2, 3],
                 [4, 5, 6],
                 [7, 8, 9]])

In [51]:
arr2d[0][2]

3

In [52]:
arr2d[0, 2]

3

在多维数组中，如果省略了后面的索引，则返回对象会是一个维度低一点的ndarray（它含有高一级维度上的所有数据）

In [53]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])

In [54]:
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [55]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

In [56]:
arr3d[1, 0]

array([7, 8, 9])

>arr3d[1,0]可以访问索引以(1,0)开头的那些值（以一维数组的形式返回）

In [57]:
arr3d.shape

(2, 2, 3)

### 切片索引

![](切片索引.jpg)

跟算术运算一样，数组的比较运算（如==）也是**矢量化**的。

通过布尔型索引选取数组中的数据，将总是创建数据的**副本**，即使返回一模一样的数组也是如此。

>注意：Python关键字and和or在布尔型数组中无效。要使用&与|。

In [58]:
data = np.random.randn(7, 4)

In [59]:
data

array([[-1.0549501 ,  1.59145161,  0.40191262,  0.7990798 ],
       [ 0.49626348, -1.19359176,  0.31886084, -1.31180091],
       [ 1.71620001,  1.1172677 , -0.89779838,  0.86957988],
       [ 0.44576004,  0.71124869,  0.76655635,  0.15456441],
       [ 1.55413763, -0.9485247 ,  0.02281778,  1.30716873],
       [ 0.86997852,  1.03555443,  1.50280629, -0.92639389],
       [-1.1678184 ,  0.01672603,  0.06301155, -1.67553819]])

In [60]:
data[data < 0] = 0

In [61]:
data

array([[0.        , 1.59145161, 0.40191262, 0.7990798 ],
       [0.49626348, 0.        , 0.31886084, 0.        ],
       [1.71620001, 1.1172677 , 0.        , 0.86957988],
       [0.44576004, 0.71124869, 0.76655635, 0.15456441],
       [1.55413763, 0.        , 0.02281778, 1.30716873],
       [0.86997852, 1.03555443, 1.50280629, 0.        ],
       [0.        , 0.01672603, 0.06301155, 0.        ]])

### 花式索引

花式索引（Fancy indexing）是一个NumPy术语，它指的是利用**整数数组**进行索引。

In [62]:
arr = np.arange(32).reshape((8, 4))

In [63]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [64]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

无论数组是多少维的，花式索引总是**一维**的。

选取矩阵的行列子集应该是矩形区域的形式才对。下面是得到该结果的一个办法：

In [65]:
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

### 数组转置和轴对换

转置是重塑的一种特殊形式，它返回的是源数据的**视图**（不会进行任何复制操作）。

数组不仅有*transpose*方法，还有一个特殊的*T*属性：

In [66]:
arr = np.arange(15).reshape((3, 5))

In [67]:
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [68]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

# 通用函数：快速的元素级数组函数

通用函数（即ufunc）是一种对ndarray中的数据执行**元素级**运算的函数。

你可以将其看做简单函数（接受一个或多个标量值，并产生一个或多个标量值）的**矢量化包装器**。

![](一元ufunc-1.jpg)

![](一元ufunc-2.jpg)

![](一元ufunc-3.jpg)

![](二元ufunc-1.jpg)

![](二元ufunc-2.jpg)

# 利用数组进行数据处理

用数组表达式代替循环的做法，通常被称为**矢量化**。

一般来说，矢量化数组运算要比等价的纯Python方式快上一两个数量级（甚至更多），尤其是各种数值计算。

## 将条件逻辑表述为数组运算

numpy.where函数是三元表达式 x if condition else y 的**矢量化**版本

In [71]:
arr = np.random.randn(3, 4)

In [72]:
arr

array([[-0.13587844,  0.56422664, -1.327472  ,  0.46229522],
       [ 0.93060264, -0.45078815, -0.37887677,  0.52406262],
       [ 0.5755999 , -0.27410876,  0.68612167, -1.50956625]])

In [73]:
np.where(arr > 0, 2, -2)

array([[-2,  2, -2,  2],
       [ 2, -2, -2,  2],
       [ 2, -2,  2, -2]])

## 数学和统计方法

![](数组统计方法-1.jpg)

![](数组统计方法-2.jpg)

这类的函数可以接受一个axis选项参数，用于计算该轴向上的统计值，最终结果是一个少一维的数组

In [74]:
arr = np.random.randn(5, 4)

In [75]:
arr

array([[ 1.09702332,  0.36998948,  0.08092302,  1.52163591],
       [-0.90983837,  1.20391454,  0.61010704,  0.61682462],
       [-2.1366281 ,  1.30863998, -0.02646709,  0.78693813],
       [ 0.27370022,  0.24317773,  1.7317589 ,  0.08037303],
       [-0.21627556,  2.05639682,  1.27258442, -1.16787637]])

In [76]:
arr.mean(axis=1)

array([ 0.76739293,  0.38025196, -0.01687927,  0.58225247,  0.48620733])

In [77]:
arr.mean(axis=0)

array([-0.3784037 ,  1.03642371,  0.73378126,  0.36757906])

在多维数组中，累加函数（如cumsum）返回的是同样大小的由**中间结果**组成的数组，但是会根据每个低维的切片沿着标记轴计算部分聚类

In [78]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])

In [79]:
arr

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [80]:
arr.cumsum(axis=0)

array([[ 0,  1,  2],
       [ 3,  5,  7],
       [ 9, 12, 15]], dtype=int32)

In [81]:
arr.cumprod(axis=1)

array([[  0,   0,   0],
       [  3,  12,  60],
       [  6,  42, 336]], dtype=int32)

## 用于布尔型数组的方法

sum经常被用来对布尔型数组中的True值计数：

In [82]:
arr = np.random.randn(100)

In [83]:
(arr > 0).sum()

43

In [84]:
arr

array([ 1.10666045, -0.82055071,  0.68035453, -0.06681968,  0.39466242,
       -0.19349061, -0.12489106,  1.85253419,  0.53026125,  1.15437281,
        1.33558406,  0.39896715, -1.18581242, -0.03059816, -0.94082086,
        0.39121504, -0.24006907,  0.17532686,  1.4637062 ,  0.22045376,
       -0.29571263, -2.18630866, -0.6984322 , -2.10410863, -0.873336  ,
        1.82412762, -0.43847466, -0.52789003,  0.60408248, -1.44900181,
       -1.95607285, -0.73187918, -0.2845134 , -0.13248414, -0.06316558,
       -0.43032238, -0.98788062,  0.18686535,  0.9173665 ,  0.748986  ,
       -0.90552212,  1.23121111,  0.91017446, -0.8020839 ,  0.68909937,
       -0.18700132, -0.11489485, -0.5113378 ,  0.19959151, -1.05162858,
        0.47027436, -0.35002501, -0.18972398,  1.43530079,  0.32828013,
       -0.29886213, -0.29324868, -0.05350896, -0.28395663, -0.45433507,
       -1.29820155, -0.06298113,  0.2420036 , -0.26613826,  0.52310017,
        0.7267418 ,  0.7563212 ,  1.1675884 ,  1.51295345, -0.66

any用于测试数组中是否存在一个或多个True

all检查数组中所有值是否都是True：

In [85]:
arr.any()

True

In [86]:
arr.all()

True

>这两个方法也能用于非布尔型数组，所有**非0**元素将会被当做True

## 排序

NumPy数组也可以通过sort方法就地排序

顶级方法np.sort返回的是数组的已排序副本，而就地排序则会修改数组本身。

In [87]:
arr = np.random.randn(6)

In [88]:
arr

array([ 2.31708015, -0.20043359,  1.35143168,  0.45573604, -1.63007575,
       -1.08600485])

In [89]:
np.sort(arr)

array([-1.63007575, -1.08600485, -0.20043359,  0.45573604,  1.35143168,
        2.31708015])

In [90]:
arr

array([ 2.31708015, -0.20043359,  1.35143168,  0.45573604, -1.63007575,
       -1.08600485])

In [91]:
arr.sort()

In [92]:
arr

array([-1.63007575, -1.08600485, -0.20043359,  0.45573604,  1.35143168,
        2.31708015])

计算数组分位数最简单的办法是对其进行排序，然后选取特定位置的值：

In [93]:
large_arr = np.random.randn(1000)
large_arr.sort()
large_arr[int(0.05) * len(large_arr)]

-2.965504870611094

## 唯一化以及其它的集合逻辑

![](数组的集合运算.jpg)

>np.unique 等价于 sorted

NumPy能够读写磁盘上的文本数据或二进制数据。

np.save和np.load是读写磁盘数组数据的两个主要函数。默认情况下，数组是以未压缩的原始二进制格式保存在扩展名为.npy的文件中的。如果文件路径末尾没有扩展名.npy，则该扩展名会被自动加上。

In [95]:
arr = np.arange(10)

In [97]:
np.save('some_arr', arr)

In [98]:
np.load('some_arr.npy')

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

通过np.savez可以将多个数组保存到一个未压缩文件中，将数组以关键字参数的形式传入

加载.npz文件时，你会得到一个类似字典的对象，该对象会对各个数组进行延迟加载

In [99]:
np.savez('array_archive.npz', a=arr, b=arr)

In [100]:
arch = np.load('array_archive.npz')

In [102]:
arch['a']

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

如果要将数据压缩，可以使用numpy.savez_compressed

In [104]:
np.savez_compressed('arrays_compressed.npz', a=arr, b=arr)

# 线性代数

![](numpy.linalg.jpg)

通过* 对两个二维数组相乘得到的是一个元素级的积，而不是一个矩阵点积。

dot和@符可以用于矩阵乘法

In [105]:
x = np.array([[1., 2., 3.], [4., 5., 6.]])
y = np.array([[6., 23.], [-1, 7], [8, 9]])

In [113]:
timeit x.dot(y)

1.2 µs ± 32.2 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [114]:
timeit np.dot(x, y)

1.25 µs ± 18.9 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [115]:
timeit x @ y

2.4 µs ± 39.8 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


# 伪随机数生成

![](numpy-random-1.jpg)

![](numpy-random-2.jpg)

可以用NumPy的np.random.seed更改随机数生成种子,它是全局性的

要避免全局状态，你可以使用numpy.random.RandomState，创建一个与其它隔离的随机数生成器

In [116]:
np.random.seed(1234)

In [117]:
arr = np.random.rand(5)

In [118]:
arr

array([0.19151945, 0.62210877, 0.43772774, 0.78535858, 0.77997581])

In [119]:
rng = np.random.RandomState(10)

In [121]:
rng.rand(5)

array([0.81262096, 0.61252607, 0.72175532, 0.29187607, 0.91777412])