# 第2章 NumPy入门

Numerical（数值的） Python

NumPy提供了高效存储和操作密集数据数据的缓存接口。

In [128]:
import numpy as np

np.__version__

'1.23.5'

## 2.1 理解Python中的数据类型

### 2.1.3 Python中提供固定类型数组

In [129]:
import array

L = list(range(10))
A = array.array('i', L)
A

array('i', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

### 2.1.4 从Python列表创建数组


In [130]:
# 整型数组
np.array([1, 4, 2, 5, 3])

array([1, 4, 2, 5, 3])

In [131]:
# NumPy要求数组必须包含同一类型的数据，类型不匹配时会向上转型
np.array([3.14, 4, 2, 3])

array([3.14, 4.  , 2.  , 3.  ])

In [132]:
# dtype显示设置数组的数据类型
np.array([1, 2, 3], dtype='float32')

array([1., 2., 3.], dtype=float32)

In [133]:
# 嵌套列表结构构成的多维数组
np.array([range(i, i + 3) for i in [2, 4, 6]])

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

### 2.1.5 从头创建数组


In [134]:
# 创建一个长度为10，数组的值都是0
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [135]:
np.ones((3, 5), dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [136]:
np.full((3, 5), 3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [137]:
np.arange(0, 20, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [138]:
# 5个数均匀地分布到0~1
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [139]:
# 3x3的、在0~1均匀分布的随机数组成的数组
np.random.random((3, 3))

array([[0.25241011, 0.97572458, 0.1197632 ],
       [0.20856888, 0.23983126, 0.39034023],
       [0.61318864, 0.8603706 , 0.34645385]])

In [140]:
# 3x3的、均值为0、标准差为1的正态分布的随机数组
np.random.normal(0, 1, (3, 3))

array([[-0.80846432, -1.55328005,  1.09581535],
       [ 1.0034082 , -0.96307811,  0.38494418],
       [-2.10187333,  0.43009583, -0.66377698]])

In [141]:
# 3x3、[0, 10)区间随机整型数组
np.random.randint(0, 10, (3, 3))

array([[1, 8, 6],
       [9, 9, 7],
       [6, 0, 9]])

In [142]:
# 3x3单位矩阵
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [143]:
# 长度为3的未初始化的数组
np.empty(3)

array([1., 1., 1.])

### 2.1.6 NumPy标准数据类型

NumPy数组包含同一类型的值。

In [144]:
# 用字符串参数来指定数据类型
np.zeros(10, dtype='int16')
# 用NumPy对象来指定数据类型
np.zeros(10, np.int16)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int16)

NumPy数据类型
![NumPy数据类型](../images/NumPyDataTypes.PNG "NumPy数据类型")

## 2.2 NumPy数组基础

基本的数组操作：
* 数组的属性
    * 确定数组的大小、形状、存储大小、数据类型
* 数组的索引
    * 获取和设置数组各个元素的值
* 数组的切分
    * 在大的数组中获取或设置更小的子数组
* 数组的变形
    * 改变给定数组的形状
* 数组的拼接和分裂
    * 将多个数组拼接合并为一个，以及将一个数组分裂成多个

### 2.2.1 NumPy数组的属性

In [145]:
import numpy as np

np.random.seed(0)  # 设置随机数种子

x1 = np.random.randint(10, size=6)  # 一维数组
x2 = np.random.randint(10, size=(3, 4))  # 二维数组
x3 = np.random.randint(10, size=(3, 4, 5))  # 三维数组

x1, x2, x3

(array([5, 0, 3, 3, 7, 9]),
 array([[3, 5, 2, 4],
        [7, 6, 8, 8],
        [1, 6, 7, 7]]),
 array([[[8, 1, 5, 9, 8],
         [9, 4, 3, 0, 3],
         [5, 0, 2, 3, 8],
         [1, 3, 3, 3, 7]],
 
        [[0, 1, 9, 9, 0],
         [4, 7, 3, 2, 7],
         [2, 0, 0, 4, 5],
         [5, 6, 8, 4, 1]],
 
        [[4, 9, 8, 1, 1],
         [7, 9, 9, 3, 6],
         [7, 2, 0, 3, 5],
         [9, 4, 4, 6, 4]]]))

In [146]:
print("x3 ndim：", x3.ndim)  # 数组维度
print("x3 shape：", x3.shape)  # 数组每个维度大小
print("x3 size：", x3.size)  # 数组总大小
print("x3 dtype：", x3.dtype)  # 数组元素的数据类型
print("x3 itemsize：", x3.itemsize, "bytes")  # 数组元素的字节大小
print("x3 nbytes：", x3.nbytes, "bytes")  # 数组总字节大小

x3 ndim： 3
x3 shape： (3, 4, 5)
x3 size： 60
x3 dtype： int32
x3 itemsize： 4 bytes
x3 nbytes： 240 bytes


### 2.2.2 数组索引：获取单个元素



In [147]:
x1

array([5, 0, 3, 3, 7, 9])

In [148]:
x1[0]

5

In [149]:
x1[-1]

9

In [150]:
x2[0, 0]

3

In [151]:
x2[2, -1]

7

In [152]:
x2[0, 0] = 12
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

### 2.2.3 数组切片：获取子数组

x[start, stop, step]

In [153]:
# 一维子数组
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [154]:
x[::2]
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [155]:
x[::-1]  # 逆序
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [156]:
x[5::-2]  # 从索引5开始每隔一个元素逆序

array([5, 3, 1])

In [157]:
# 多维子数组
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

In [158]:
x2[:2, :3]  # 两行三列

array([[12,  5,  2],
       [ 7,  6,  8]])

In [159]:
x2[:3, ::2]  # 所有行，每隔一列

array([[12,  2],
       [ 7,  8],
       [ 1,  7]])

In [160]:
# 3.获取数组的行和列
# :表示空切片
print(x2[:, 0])  # x2第一列

[12  7  1]


In [161]:
print(x2[0, :])  # x2的第一行

[12  5  2  4]


In [162]:
# x2[0, :] 等价于 x2[0]
print(x2[0])

[12  5  2  4]


#### 4.非副本视图的子数组

NumPy数组切片返回的是数组数据的视图,Python列表切片是值的副本。


#### 5.创建数组的副本

copy()方法

In [163]:
x2_sub_copy = x2[:2, :2].copy()
x2_sub_copy

array([[12,  5],
       [ 7,  6]])

### 2.2.4 数组的变形

reshape()
元素数组的必须大小必须和形变后数组的大小一致。
如果满足这个条件，reshape方法将会用到原始数组的一个非副本视图。
实际情况是，在非连续数据缓存的情况下，返回非副本视图往往不可能实现。

ValueError: cannot reshape array of size 18 into shape (3,3)

In [164]:
grid = np.arange(1, 10).reshape((3, 3))  # 通过形变获得行向量
print(grid)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [165]:
grid[0, 0] = 99
print(grid)

[[99  2  3]
 [ 4  5  6]
 [ 7  8  9]]


In [166]:
x = np.array([1, 2, 3])
print(x)
# 通过形变获得行向量
print(x.reshape((1, 3)))

[1 2 3]
[[1 2 3]]


In [167]:
# 通过 newaxis 获得行向量
x[np.newaxis, :]
print(x[np.newaxis, :])

[[1 2 3]]


In [168]:
# 通过形变获得列向量
print(x.reshape((3, 1)))

[[1]
 [2]
 [3]]


In [169]:
# 通过 newaxis 获得列向量
x[:, np.newaxis]
print(x[:, np.newaxis])

[[1]
 [2]
 [3]]


### 2.2.5 数组的拼接和分裂


#### 1.数组拼接

In [170]:
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
print(np.concatenate([x, y]))

[1 2 3 3 2 1]


In [171]:
z = [99, 99, 99]
np.concatenate(np.concatenate([grid, grid]))

array([99,  2,  3,  4,  5,  6,  7,  8,  9, 99,  2,  3,  4,  5,  6,  7,  8,
        9])

In [172]:
grid = np.array([[1, 2, 3],
                 [4, 5, 6]])
# 沿着第一个轴拼接
print(np.concatenate([grid, grid]))

[[1 2 3]
 [4 5 6]
 [1 2 3]
 [4 5 6]]


In [173]:
# 沿着第二个轴拼接（从0开始索引）
print(np.concatenate([grid, grid], axis=1))

[[1 2 3 1 2 3]
 [4 5 6 4 5 6]]


In [174]:
x = np.array([1, 2, 3])
grid = np.array([[9, 8, 7],
                 [6, 5, 4]])
# 垂直栈数组
np.vstack([x, grid])

array([[1, 2, 3],
       [9, 8, 7],
       [6, 5, 4]])

In [175]:
y = np.array([[99],
              [99]])
np.hstack([grid, y])

array([[ 9,  8,  7, 99],
       [ 6,  5,  4, 99]])

In [176]:
# np.dstack() 沿着第三个维度拼接的数组

#### 2.数组的分裂

np.split、np.hsplit、np.vsplit、np.dsplit

In [177]:
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])  # 将x从索引3、5分裂
x1, x2, x3

(array([1, 2, 3]), array([99, 99]), array([3, 2, 1]))

In [178]:
grid = np.arange(16).reshape(4, 4)
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [179]:
upper, lower = np.vsplit(grid, [2])
upper, lower

(array([[0, 1, 2, 3],
        [4, 5, 6, 7]]),
 array([[ 8,  9, 10, 11],
        [12, 13, 14, 15]]))

In [180]:
left, right = np.hsplit(grid, [2])
left, right

(array([[ 0,  1],
        [ 4,  5],
        [ 8,  9],
        [12, 13]]),
 array([[ 2,  3],
        [ 6,  7],
        [10, 11],
        [14, 15]]))

## 2.3 NumPy数组的计算：通用函数

NumPy变快的关键是利用*向量化*操作，通常在*通用函数*中实现。可以提高数组元素重复计算的效率。


### 2.3.2 缓慢的循环

下面处理的瓶颈并不是运算本身，而是CPython每次循环时必须做数据类型的检查和函数的调度。

In [181]:
import numpy as np

np.random.seed(0)


def compute_reciprocals(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
    return output


values = np.random.randint(1, 10, size=5)
compute_reciprocals(values)

array([0.16666667, 1.        , 0.25      , 0.25      , 0.125     ])

In [182]:
big_array = np.random.randint(1, 100, size=1000000)
% timeit compute_reciprocals(big_array)

UsageError: Line magic function `%` not found.


### 2.3.2 通用函数介绍

NumPy为很多类型的操作提供了非常方便的、静态类型的、可编译程序的接口，也称作*向量操作*。

In [None]:
print(compute_reciprocals(values))
print(1.0 / values)

In [None]:
% timeit (1.0 / big_array)

In [None]:
np.arange(5) / np.arange(1, 6)

In [None]:
x = np.arange(9).reshape(3, 3)
2 ** x

### 2.3.3 探索NumPy的通用函数

通用函数的两种形式
* 一元通用函数对一个输入操作
* 二元通用函数对两个输入操作


In [None]:
# 1. 数组的运算
x = np.arange(4)
print("x =", x)
print("x + 5=", x + 5)
print("x - 5=", x - 5)
print("x * 2=", x * 2)
print("x / 2=", x / 2)
print("x // 2=", x // 2)  # 向下整除

In [None]:
print("-x = ", -x)
print("x ** 2 = ", x ** 2)
print("x % 2 = ", x % 2)


这些运算符都是NumPy内置函数的简单封装

---

| 运算符 | 对应的通用函数         | 描述     |
|-----|-----------------|--------|
| +   | np.add          | 加法运算   |
| -   | np.subtract     | 减法运算   |
| -   | np.negative     | 负数运算   |
| *   | np.multiply     | 乘法运算   |
| /   | np.divide       | 除法运算   |
| //  | np.floor_divide | 向下整除运算 |
| **  | np.power        | 指数运算   |
| %   | np.add          | 模/余数   |

In [None]:
# 2.绝对值
x = np.array([-2, -1, 0, 1, 2])
np.absolute(x)
np.abs(x)

In [None]:
# 处理复数的绝对值返回值是它的模
x = np.array([3 - 4j, 4 - 3j, 2 + 0j, 0 + 1j])
np.abs(x)

In [None]:
# 3.三角函数
theta = np.linspace(0, np.pi, 3)  # 生成0~pi之间的三个数
print('theta = ', theta)
print('sin(theta) = ', np.sin(theta))
print('cos(theta) = ', np.cos(theta))
print('tan(theta) = ', np.tan(theta))


In [None]:
x = [-1, 0, 1]
print('arcsin(x) = ', np.arcsin(x))
print('arccos(x) = ', np.arccos(x))
print('arctan(x) = ', np.arctan(x))

In [None]:
# 4.指数和对数
x = [1, 2, 3]
print('x = ', x)
print('e^x = ', np.exp(x))
print('2^x = ', np.exp2(x))
print('3^x = ', np.power(3, x))

In [None]:
# 5.专用通用函数

### 2.3.4 高级函数特性

scipy.special 子模块

conda环境安装scipy：
conda activate 环境名或者环境的路径
conda install scipy

In [None]:
from scipy import special

# Gamma函数和相关函数
x = [1, 5, 10]
print("gamma(x) = ", special.gamma(x))
print("ln|gamma(x) = ", special.gammaln(x))
print("beta(x, 2) = ", special.beta(x, 2))


### 2.3.4 高级的通用函数特性



In [None]:
# 1.指定输出
# 通过out参数指定
x = np.arange(5)
y = np.empty(5)
np.multiply(x, 10, out=y)
y

In [None]:
y = np.zeros(10)
np.power(2, x, out=y[::2])
y

#### 2.聚合

二元通用函数有些聚合功能，可以直接在对象上计算。
reduce方法会对给定对象的元素和操作重复执行，直至的到单个的结果。

In [None]:
x = np.arange(1, 6)
print(x)
np.add.reduce(x)  # 返回所有元素的和

In [None]:
np.multiply.reduce(x)

In [None]:
np.add.accumulate(x)  # 存储每次计算的中间结果

#### 3.外积

outer方法获得两个不同输入数组所有元素对的函数运算结果。

In [None]:
x = np.arange(1, 6)
np.multiply.outer(x, x)

## 2.4 聚合：最小值、最大值和其他值


### 2.4.1 数组值求和

In [None]:
import numpy as np

L = np.random.random(100)
sum(L)

In [None]:
np.sum(L)

In [None]:
# NumPy的sum函数在编译码中执行，所以更快
big_array = np.random.random(1000000)
% timeit sum(big_array)
% timeit np.sum(big_array)

### 2.4.2 最大值和最小值


In [None]:
min(big_array), max(big_array)

In [None]:
np.min(big_array), np.max(big_array)

In [None]:
big_array.min(), big_array.max(), big_array.sum()

#### 1.多维度聚合

沿着一行或一列聚合

In [None]:
M = np.random.random((3, 4))
M

In [None]:
M.sum()

In [None]:
# axis指定沿哪个轴方向进行聚合
M.min(axis=0)

#### 2.其他聚合函数

大多数聚合函数都有对NaN值的安全处理策略，即计算时忽略索引缺失值。

| 函数名           | NaN安全版本          | 描述 |
|---------------|------------------|--|
| np.sum        | np.nansum        | 元素的和 |
| np.prod       | np.nanprod       | 元素的积 |
| np.mean       | np.nanmean       | 元素的平均值 |
| np.std        | np.nanstd        | 元素的标准差 |
| np.var        | np.nanvar        | 元素的方差 |
| np.min        | np.nanmin        | 元素的最小值 |
| np.max        | np.nanmax        | 元素的最大值 |
| np.argmin     | np.nanargmin     | 元素的最小值的索引 |
| np.argmax     | np.nanargmax     | 元素的最大值的索引 |
| np.median     | np.nanmedian     | 元素的中位数 |
| np.percentile | np.nanpercentile | 基于元素排序的统计值 |
| np.any        | N/A              | 验证是否存在元素为真 |
| np.all        | N/A              | 验证所有元素是否为真 |

### 2.4.3 示例：美国总统的身高


In [None]:
import pandas as pd

data = pd.read_csv('../data/president_heights.csv')
heights = np.array(data['height(cm)'])
heights

In [None]:
print('平均身高： ', heights.mean())
print('标准差： ', heights.std())
print('最低的身高： ', heights.min())
print('最高的身高： ', heights.max())

In [None]:
print('排序后第25的身高：', np.percentile(heights, 25))
print('中位数：', np.median(heights))
print('排序后第75的身高：', np.percentile(heights, 75))

In [None]:
import matplotlib.pyplot as plt
import seaborn;

seaborn.set()  # 设置绘图风格
plt.rcParams['font.sans-serif'] = ['SimHei']  # Windows中使得图标的中文能够正常显示

plt.hist(heights)
# plt.title('Height Distribution of US President')
plt.title('美国总统的身高分布')
plt.xlabel('height(cm)')
plt.ylabel('numer')

## 2.5 数组的计算：广播

广播可以简单理解为用于不同大中小的数组的二元通用函数（加、减、乘等）的一组规则。

### 2.5.1 广播的介绍

In [None]:
import numpy as np

a = np.array([0, 1, 2])
b = np.array([5, 5, 5])
a + b

In [None]:
a + 5

In [None]:
M = np.ones((3, 3))
M

In [None]:
M + a

In [None]:
a = np.arange(3)
b = np.arange(3)[:, np.newaxis]
a, b

In [None]:
a + b

### 2.5.2 广播的规则

* 规则1：如果两个数组的维度数不相同，那么小维度数组的形状将会在最左边补1。
* 规则2：如果两个数组的形状在任何一个维度上都不匹配，那么数组的形状会沿着维度为1的维度扩展以匹配另外一个数组的形状。
* 规则3：如果两个数组的形状在任何一个维度上都不匹配并且没有任何一个维度等于1，那么会引发异常。


#### 1.广播示例1

In [None]:
M = np.ones((2, 3))
a = np.arange(3)
M, a

In [None]:
M.shape, a.shape

In [None]:
'''
根据规则1，数组a的左边补1，形状变为(1, 3)，
根据规则2，第一个维度不匹配，因此扩展这个维度以匹配数组。
'''

M + a

#### 2.广播示例2

In [None]:
a = np.arange(3).reshape((3, 1))
b = np.arange(3)
a, b

In [None]:
a.shape, b.shape

In [None]:
a + b

#### 3.广播示例3

In [None]:
# 两个数组不兼容
M = np.ones((3, 2))
a = np.arange(2)
M, a

In [None]:
M.shape, a.shape

### 2.5.3 广播的实际应用

#### 1.数组归一化

In [None]:
X = np.random.random((10, 3))
Xmean = X.mean(0)
Xmean

In [None]:
X, Xmean

In [None]:
X_centered = X - Xmean
X_centered.mean(0)

#### 2.画一个二维函数

In [None]:
# x和y表示0~5区间50个步长的序列
x = np.linspace(0, 5, 50)
y = np.linspace(0, 5, 50)[:, np.newaxis]
z = np.sin(x) ** 10 + np.cos(10 + y * x) * np.cos(x)
%matplotlib inline
import matplotlib.pyplot as plt

# plt.rcParams['axes.unicode_minus']=False # 解决负号显示不正常

plt.imshow(z, origin='lower', extent=[0, 5, 0, 5], cmap='viridis')
plt.colorbar()

## 2.6 比较、掩码和布尔逻辑

### 2.6.1 示例：统计下雨天数

In [None]:
import numpy as np
import pandas as pd

# 利用Pandas抽取降雨量，放入NumPy数组
rainfall = pd.read_csv('../data/Seattle2014.csv')['PRCP'].values
inches = rainfall / 254  # 1/10mm -> inches
inches.shape

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn;

seaborn.set()  # 设置绘图风格

plt.hist(inches, 40);

### 2.6.2 和通用函数类似的比较操作

逐元素比较的通用函数：>、>=、<、<=、!=、==

In [None]:
x = np.array([1, 2, 3, 4])
x < 3

In [None]:
x > 3

In [None]:
(2 * x) == (2 ** x)

和算数运算符一样，比较运算符操作在NumPy中也是借助通用函数来说实现。
x < 3 在NumPy内部会使用np.less(x, 3)

| 运算符 | 对应的通用函数          |
|-----|------------------|
| ==  | np.equal         |
| !=  | np.not_equal     |
| <   | np.less          |
| <=  | np.less_equal    |
| >   | np.greater       |
| >=  | np.greater_equal |

In [None]:
rng = np.random.RandomState(0)
x = rng.randint(10, size=(3, 4))
x

In [None]:
x < 6

### 2.6.3 操作布尔函数

#### 1.统计记录的个数

In [None]:
print(x)

In [None]:
# 有多少个值小于6
np.count_nonzero(x < 6)

In [None]:
# 等价于，True会被解释成1
np.sum(x < 6)

In [None]:
# sum()函数可以沿着行或列进行
np.sum(x < 6, axis=1)

In [None]:
# 是否有大于8的值
np.any(x > 8)

In [None]:
# 是否所有的值都小于10
np.all(x < 10)

In [None]:
# 是否每行的值都小于8
np.all(x < 8, axis=1)

#### 2.布尔运算符

NumPy重载了Python的逐位逻辑运算符：&、|、^、~

| 运算符    | 对应通用函数         |
|--------|----------------|
| &      | np.bitwise_and |
| &#124; | np.bitwise_or  |
| ^      | np.bitwise_xor |
| ~      | np.bitwise_not |

In [None]:
np.sum((inches > 0.5) & (inches < 1))

### 2.6.4 将布尔数组作为掩码

In [None]:
print(x)

In [None]:
x < 5

In [None]:
# 将数组中小于5的值选出来，可以进行简单的索引，即掩码操作。
x[x < 5]

and 和 or 判断整个对象是真或假，& 和 | 是指每个对象中的比特位。
Python中所有非零整数都被当作True。

## 2.7 花哨的索引

### 2.7.1 探索花哨的索引

In [None]:
import numpy as np

rand = np.random.RandomState(42)
x = rand.randint(100, size=10)
x

In [None]:
[x[3], x[7], x[2]]

In [None]:
ind = [3, 7, 2]
x[ind]

In [None]:
ind = np.array([[3, 7],
                [4, 5]])
x[ind]

In [None]:
X = np.arange(12).reshape(3, 4)
X

In [None]:
row = np.array([0, 1, 2])
col = np.array([2, 1, 3])
X[row, col]

In [None]:
X[row[:, np.newaxis], col]

### 2.7.2 组合索引

In [None]:
print(X)

In [None]:
X[2, [2, 0, 1]]

In [183]:
X[1:, [2, 0, 1]]

IndexError: too many indices for array: array is 1-dimensional, but 2 were indexed

In [None]:
mask = np.array([1, 0, 1, 0], dtype=bool)
X[row[:, np.newaxis], mask]

### 2.7.3 示例：选择随机点

In [None]:
mean = [0, 0]
cov = [[1, 2],
       [2, 5]]
# 二维正态分布的点组成的数组
X = rand.multivariate_normal(mean, cov, 100)
X.shape

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn;

seaborn.set()  # 设置绘图风格

plt.scatter(X[:, 0], X[:, 1])

In [None]:
# 选取20个随机的、不重复的索引值，并利用这些索引值选取到原始数组对应的值
indices = np.random.choice(X.shape[0], 20, replace=False)
indices

In [None]:
selection = X[indices]
selection.shape

In [None]:
plt.scatter(X[:, 0], X[:, 1], alpha=0.3)
plt.scatter(selection[:, 0], selection[:, 1],
            facecolor='none', edgecolor='b', s=200)

### 2.7.4 用花哨的的索引修改值


In [None]:
x = np.arange(10)
i = np.array([2, 1, 8, 4])
x[i] = 99
x

In [None]:
x[i] -= 10
x

In [None]:
x = np.zeros(10)
x[[0, 0]] = [4, 6]
x

In [None]:
i = [2, 3, 3, 4, 4, 4]
x[i] += 1  # 3，4号元素只加1，没有累加
x

In [None]:
x = np.zeros(10)
np.add.at(x, i, 1)  # 3，4号元素累加
x

### 2.7.5 示例：数据区间划分

In [None]:
np.random.seed(42)
x = np.random.randn(100)
# 手动计算直方图
bins = np.linspace(-5, 5, 20)
counts = np.zeros_like(bins)
# 为每个x找到合适的区间
i = np.searchsorted(bins, x)
# 为每个区间加上1
np.add.at(counts, i, 1)
plt.plot(bins, counts, drawstyle='steps')

In [None]:
plt.hist(x, bins, histtype='step')

In [None]:
print("NumPy routine:")
% timeit counts, edges=np.histogram(x, bins)
print("Custom routine:")
% timeit np.add.at(counts, np.searchsorted(bins, x), 1)

## 2.8 数组的排序

### 2.8.1 NumPy的快速排序：np.sort和np.argsort

In [None]:
x = np.array([2, 1, 4, 3, 5])
np.sort(x)  # 不修改原始数组

In [None]:
x.sort()  # 修改原始数组
x

In [None]:
x = np.array([2, 1, 4, 3, 5])
i = np.argsort(x)  # 返回原始数组排好序的索引值
i

In [None]:
x[i]

#### 沿着行或列排序

In [None]:
rand = np.random.RandomState(42)
X = rand.randint(0, 10, (4, 6))
X

In [None]:
# 对X的每一行排序
np.sort(X, axis=1)

### 2.8.2 部分排序：分隔

np.partition(x, K)
输出结果是左边是第K小的值

In [None]:
x = np.array([7, 2, 3, 1, 6, 5, 4])
np.partition(x, 3)

In [None]:
np.partition(X, 2, axis=1)

### 2.8.3 K个最近邻

In [None]:
X = rand.rand(10, 2)  # 10 * 2的数组
X

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn;

seaborn.set()
plt.scatter(X[:, 0], X[:, 1], s=100)

In [None]:
dist_sq = np.sum((X[:, np.newaxis, :] - X[np.newaxis, :, :]) ** 2, axis=-1)
dist_sq

In [None]:
# 在坐标系中计算每对点的差值
differences = X[:, np.newaxis, :] - X[np.newaxis, :, :]
differences.shape

In [None]:
# 插值的平方
sq_differences = differences ** 2
sq_differences.shape

In [None]:
# 将插值求和获得平方距离
dist_sq = sq_differences.sum(-1)
dist_sq.shape

In [None]:
dist_sq.diagonal()

In [None]:
nearest = np.argsort(dist_sq, axis=1)
nearest

In [None]:
K = 2
nearest_partition = np.argpartition(dist_sq, K + 1, axis=1)

In [None]:
plt.scatter(X[:, 0], X[:, 1], s=100)
# 将每个点与它的两个最近邻连接
K = 2
for i in range(X.shape[0]):
    for j in nearest_partition[i, :K + 1]:
        # 画一条从X[i]到X[j]的线段，一片用zip方法实现
        plt.plot(*zip(X[j], X[i]), color='black')

 ## 2.9 结构化数据：NumPy的结构化数组

 NumPy 的*结构化数组*和*记录数组*，它们为复合的、异构的数据提供了非常有效的存储。
 这些场景通常也可以用 Pandas 的 DataFrame 来实现。

In [None]:
name = ['Alice', 'Bob', 'Cathy', 'Doug']
age = [25, 45, 37, 19]
weight = [55.0, 85.5, 68.0, 61.5]

In [None]:
x = np.zeros(4, dtype=int)  # dtype指定数组元素的类型

In [None]:
# 使用复合数据结构的结构化数组
data = np.zeros(4, dtype={'names':('name', 'age', 'weight'),
                            'formats':('U10', 'i4', 'f8')})
print(data.dtype)
# U10 表示“长度不超过 10 的 Unicode 字符串”，i4 表示“4 字节（即 32 比特）整型”，
# f8 表示“8 字节（即 64 比特）浮点型”

In [None]:
data['name'] = name
data['age'] = age
data['weight'] = weight
print(data)

In [None]:
# 获取所有名字
data['name']

In [None]:
# 获取数据第一行
data[0]

In [None]:
# 获取最后一行的名字
data[-1]['name']

In [None]:
# 利用布尔掩码，还可以做一些更复杂的操作，如按照年龄进行筛选：# 获取年龄小于30岁的人的名字
data[data['age'] < 30]['name']

| NumPy数据类型符号  | 描述                    | 示例                               |
|--------------|-----------------------|----------------------------------|
| 'b'          | 字节型                   | np.dtype('b')                    |
| 'i'          | 有符号整型                 | np.dtype('i4') == np.int32       |
| 'u'          | 无符号整型                 | np.dtype('u1') == np.uint8       |
| 'f'          | 浮点型                   | np.dtype('f8') == np.int64       |
| 'c'          | 复数浮点型                 | np.dtype('c16') == np.complex128 |
| 'S'、'a'      | 字符串                   | np.dtype('S5')                   |
| 'U'          | Unicode 编码字符串         | np.dtype('U') == np.str_         |
| 'V'          | 原生数据，raw data（空，void） | np.dtype('V') == np.void         |

### 2.9.2 更高级的复合类型



In [None]:
# 创建一种类型，其中每个元素都包含一个数组或矩阵
tp = np.dtype([('id', 'i8'), ('mat', 'f8', (3, 3))])
X = np.zeros(1, dtype=tp)
print(X[0])
print(X['mat'][0])

为什么我们宁愿用这种方法存储数据，也不用简单的多维数组，或者 Python 字典呢？原因是 NumPy 的 dtype 直接映射
到 C 结构的定义，因此包含数组内容的缓存可以直接在 C 程序中使用。如果你想写一个Python 接口与一个遗留的 C 语言或 Fortran 库交互，
从而操作结构化数据，你将会发现结构化数组非常有用！

### 2.9.3 记录数组：结构化数组的扭转

NumPy 还提供了 np.recarray 类。它和前面介绍的结构化数组几乎相同，但是它有一个独
特的特征：域可以像属性一样获取，而不是像字典的键那样获取。

In [None]:
print(data['age'])

In [None]:
data_rec = data.view(np.recarray)
data_rec.age

In [None]:
# 记录数组的不好的地方在于，即使使用同样的语法，在获取域时也会有一些额外的开销
%timeit data['age']
%timeit data_rec['age']
%timeit data_rec.age