# NumPy基础

**NumPy** (https://www.numpy.org/, pronounced **[nᴧmpᴧɪ]**，
是 **Numerical Python** 的简称）是高性能科学计算和数据分析的基础包。

其部分功能如下：

* **ndarray** ，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。
* 用于对数组数据进行快速运算的标准数学函数。
* 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。
* 线性代数、随机数生成以及傅里叶变换功能。
* 用于集成由C、C++、Fortran等语言编写的代码的工具。

除了为Python提供快速的数组处理能力，NumPy在数据分析方面还有另外一个主要作用，
即作为算法之间传递数据的容器。对于数值型数据，NumPy数组在存储和处理数据时要比
内置的Python数据结构高效得多。此外，由低级语言（比如C和Fortran）编写的库可以
直接操作NumPy数组中的数据，无需进行任何数据复制工作。

## import numpy library as np

这种导入方式对于编写代码有帮助，在科学计算领域几乎成为一种标准写法。

In [None]:
import numpy as np

## **ndarray** ：一种多维数组对象

NumPy最重要的一个特点就是N维数组对象—— **ndarray** （整个库的核心对象），
该对象是一个快速而灵活的大数据集容器，可以用它高效地存储大量的数值元素，
提高数组计算的运算速度，还能用它与各种扩展库进行数据交换。

可以利用ndarray对整块数据执行一些数学运算，其语法跟标量元素之间的运算一样。

In [None]:
data_set = np.random.random((2, 4))
data_set

In [None]:
data_set * 10

In [None]:
data_set + data_set

ndarray是一个通用的同构数据多维容器，**其中的所有元素必须是相同类型的**。

每个数组都有一个**shape**（一个表示各维度大小的元组）和
一个**dtype**（一个用于说明数组数据类型的对象）属性。

In [None]:
print(data_set.shape)  # (2, 4)
print(data_set.dtype)  # float64

可以通过修改数组的shape属性，在保持数组元素个数不变的情况下，改变数组每个维度的大小。

In [None]:
data_set.shape = (4, 2)
data_set

⚠️️ 只是改变每个轴的大小，数组元素在内存中的位置没有改变。

当设置某个轴的元素个数为 **-1** 时，将自动计算次此此轴的长度。

In [None]:
data_set.shape = (3, -1)
data_set

如果改变shape失败，会报`ValueError`错误。

## ndarray的数据类型

**dtype** 是一个特殊的对象，它含有ndarray将一块内存解释为特定数据类型所需的信息。
多数情况下，它们直接映射到相应的机器表示，使得“读写磁盘上的二进制数据流”以及
“集成低级语言代码（如C、Fortran）”等工作变得更加简单。

**数值型`dtype`的命名方式：一个类型名（如`float`），后面跟一个用于表示各元素位长的数字。**
标准的双精度浮点值（即Python中的`float`对象）需要占用8字节（即64位）。
因此，该类型在NumPy中就计作`float64`。

通常只需知道所处理的数据的大致类型是浮点数、复数、整数、布尔值、字符串还是普通
的Python对象即可。当需要控制数据在内存和磁盘中的存储方式时（尤其是大数据集），
就得了解如何控制存储类型。

可以通过ndarray的`astype`方法显式地转换其`dtype`：

In [None]:
arr = np.array([1, 2, 3])
arr.dtype

In [None]:
float_arr = arr.astype(np.float64)
print(float_arr)
float_arr.dtype

如果将浮点数转换成整数，则小数部分将会被截断。

如果某字符串数组表示的全是数字，可以用`astype`将其转换为数值形式：

In [None]:
numeric_strings = np.array(['1.25', '-1.5', '40'], dtype=np.str_)
numeric_strings.astype(float)

传递给`dtype`参数的都是类型（type）对象，如果转换失败，就会引发一个`ValueError`。

需要指定`dtype`参数时，也可以传递一个字符串来表示元素的数值类型。
NumPy中每个数值类型都有几种字符串表示方式，字符串和类型之间的对应关系
都存在`typeDict`字典中。

获得与float64类型（与Python内置的float类型相同）对应的所有键值：

In [None]:
[key for key, value in np.typeDict.items() if value is np.float64]

用简洁的类型代码来表示dtype：

In [None]:
empty_uint32 = np.empty(8, dtype='u4')
empty_uint32.dtype

完整的类型列表可以通过下面的语句得到，将`np.typeDict`字典中所有的值转换为一个集合：

In [None]:
set(np.typeDict.values())

上面显示的数值类型与数组的`dtype`属性是不同的对象。
通过`dtype`对象的`type`属性可以获得与其对应的数值类型：

In [None]:
data_set.dtype.type

通过NumPy的数值类型也可创建数值对象：

In [None]:
a = np.int16(200)
a * a

⚠️️ NumPy的数值对象的运算速度比Python的内置类型的运算速度慢很多，
如果程序中需要大量地对单个数值运算，应当尽量避免使用NumPy的数值对象。

In [None]:
v1 = 3.14
v2 = np.float64(v1)

%timeit v1*v1
%timeit v2*v2

⚠️️ 浮点数只能表示近似的分数值。在复杂计算中，由于可能会积累一些浮点错误，
因此比较操作只能在一定小数位以内有效。

## 检查ndarray

In [None]:
ds = np.arange(1, 10, 2)
ds

In [None]:
ds.ndim

In [None]:
ds.shape

In [None]:
ds.dtype

In [None]:
ds.itemsize

In [None]:
x = ds.data
list(x)

In [None]:
ds

In [None]:
# Memory Usage
ds.size * ds.itemsize

## 创建ndarray

**array(object, dtype=None, copy=True, order='K', subok=False, ndmin=0)**

In [None]:
np.array?

In [None]:
data_1 = [6, 7.5, 8, 0, 1]
array_1 = np.array(data_1)
array_1

嵌套序列（比如由一组等长列表组成的列表）将会被转换为一个多维数组：

In [None]:
data_2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
array_2 = np.array(data_2)
array_2

除非显式说明，`np.array` 会尝试为新建的这个数组推断出一个较为合适的数据类型。
数据类型保存在一个特殊的**dtype**对象中。

In [None]:
array_1.dtype

In [None]:
array_2.dtype

### 新建数组的函数

创建指定形状和类型的数组：

**zeros(shape, dtype=float, order='C')**

In [None]:
np.zeros((2, 5))

**np.ones(shape, dtype=None, order='C')**

In [None]:
np.ones((2, 5))

**empty(shape, dtype=float, order='C')**

In [None]:
np.empty((2, 3, 2))

`np.empty`创建的数组中都是一些未初始化的垃圾值。

Python内置函数range的数组版：

**arange([start,] stop[, step,], dtype=None)**

Python内置函数**range**的数组版：

In [None]:
list(range(1, 10, 2))

In [None]:
np.arange(10)

In [None]:
np.arange(1, 10)

In [None]:
np.arange(1, 10, 0.5)

In [None]:
np.arange(1, 10, 2, dtype=np.float64)

如果没有特别制定，创建的数组其数据类型都是**float64**(浮点数)。

## Most Common Function

### Multi dimensional array

**np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)**

In [None]:
np.linspace(1, 5)

In [None]:
np.linspace(0, 2, num=4)

In [None]:
np.linspace(0, 2, num=4, endpoint=False)

**np.random.random_sample(size=None)**

In [None]:
np.random.random((2, 3))

In [None]:
np.random.random_sample((2, 3))

### 统计分析

In [None]:
data_set = np.random.random((2, 3))
data_set

**np.max(a, axis=None, out=None, keepdims=<class 'numpy._globals._NoValue'>)**

In [None]:
np.max(data_set)

In [None]:
np.max(data_set, axis=0)

In [None]:
np.max(data_set, axis=1)

**np.min(a, axis=None, out=None, keepdims=<class 'numpy._globals._NoValue'>)**

In [None]:
np.min(data_set)

**mean(a, axis=None, dtype=None, out=None, keepdims=<class 'numpy._globals._NoValue'>)**

In [None]:
np.mean(data_set)

In [None]:
np.sum(data_set)

### Reshaping

In [None]:
data_set

In [None]:
np.reshape(data_set, (3, 2))

In [None]:
np.reshape(data_set, (6, 1))

In [None]:
np.reshape(data_set, (6))

In [None]:
np.ravel?

In [None]:
np.ravel(data_set)

## 基本的索引和切片

一维数组表面上看和Python列表的功能差不多：

In [None]:
arr = np.arange(10)
arr

In [None]:
arr[5]

In [None]:
arr[2:5]

In [None]:
arr[2:5] = 11
arr

将一个标量值赋值给一个切片时，该值会自动传播到整个选区。

**跟列表最重要的区别在于，数组切片是原始数组的视图。**
这意味着数据不会被复制，视图上的任何修改都会直接反映到源数组上。

In [None]:
arr_slice = arr[5:8]
arr_slice[1] = 12345
arr

In [None]:
arr_slice[:]=64
arr

**如果你想要得到的是ndarray切片的一份副本而非视图，需要显式地进行复制操作，
例如：arr[5:8].copy()。**

In [None]:
arr[5:8].copy()

对于高维数组，能做的事情更多。在一个二维数组中，各索引位置上的元素不再是标量而是一维数组：

In [None]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d

In [None]:
arr2d[2]

因此，可以对各个元素进行递归访问。另外，可以传入一个以逗号隔开的索引列表来选取单个元素。

In [None]:
arr2d[1]

In [None]:
arr2d[1][0]

In [None]:
arr2d[1, 0]

在多维数组中，如果省略了后面的索引，则返回对象会是一个维度低一点的ndarray
（即返回的低维数组含有原始高维数组某条轴上的所有数据。
括号外面的“维度”是一维、二维、三维、四维之类的意思，而括号里面的应该理解为“轴”。）

In [None]:
data_set = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
data_set

In [None]:
data_set[0]

In [None]:
data_set[1, 0]

### 高维数组的切片索引

可以在一个或多个轴上进行切片，也可以跟整数索引混合使用。

In [None]:
arr2d

In [None]:
arr2d[:2]

可以看出，其是沿着第0轴（第一个轴）切片的，即切片是沿着一个轴向选取元素的。

In [None]:
data_set = np.random.random((5, 10))
data_set

In [None]:
data_set[2:4]

可以一次传入多个切片，就像传入多个索引那样：

In [None]:
data_set[2:4, 0]

In [None]:
data_set[2:4, 0:2]

“只有冒号”表示选取整个轴，因此可以这样对高维轴进行切片：

In [None]:
data_set[:, 0]

In [None]:
data_set[:, :2]

#### Stepping

In [None]:
data_set[2:4:1]

In [None]:
data_set[::]

In [None]:
data_set[::2]

In [None]:
data_set[2:4, ::2]

### 花式索引（Fancy indexing）

指的是利用整数数组进行索引。假设有一个 8 * 4 数组：

In [None]:
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i

arr

为了以特定顺序选取行子集，只需传入一个用于指定顺序的整数列表或ndarray即可：

In [None]:
arr[[4, 3, 0, 6]]

使用负数索引将会从末尾开始选取行：

In [None]:
arr[[-3, -5, -7]]

一次传入多个索引数组会有一点特别。它返回的是一个一维数组，其中的元素对应各个索引元组：

In [None]:
arr = np.arange(32).reshape((8, 4))
arr

In [None]:
arr[[1, 5, 7, 2]]

In [None]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

最终选出的是元素(1, 0)、(5, 3)、(7, 1)和(2, 2)。

In [None]:
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]

花式索引跟切片不一样，它总是将数据复制到新数组中。