# NumPy基础

## 简介

`NumPy`是Numerical Python的缩写，它是Python的一个第三方模块，支持数组与矩阵的运算，并且针对数组运算提供大量便捷的数学函数库。

`NumPy`大大简化了向量和矩阵的操作及处理流程，降低了数据开发的门槛。

`Numpy`在数据分析、机器学习和科学计算领域，有着举足轻重的定位。数据分析用到的`Pandas`，数据挖掘和深度学习用到的`Scikit-learn`和`Tensorflow`，以及科学计算常用的`SciPy`，都是以`NumPy`为基础进行开发的。

避免没有安装`numpy`库，可以每次都在开头加上以下命令。如果没有安装`numpy`，则会安装。

In [None]:
!pip install numpy

导入`numpy`模块，设置别名为`np`。注意不要修改为别的名字，`np`已经成为了约定俗成的规范。

In [None]:
import numpy as np

### 特点

`NumPy`是一个运行速度非常快的数学库，主要包含如下能力：

- 一个高效的N维数组对象`ndarray`
- 广播功能函数，无须循环即可对数组进行快速运算
- 读写磁盘以及操作内存映射文件
- 一个用于集成 C / C++ / Fortran 代码的工具；
- 线性代数、傅里叶变换、随机数生成等功能。

其中`ndarray`对象是`NumPy`包的核心，`ndarray`对象和标准的Python序列数据结构的显著区别在于：

- `ndarray`对象在创建时有固定的大小，这一点不同于Python列表
- `ndarray`对象中的元素都具有相同的数据类型，因此在存储器中将具有相同的大小
- `ndarray`对象便于对大量据进行高级数学和其它类型的操作。在大数据时代，对几百万甚至更大的数据进行频繁的循环迭代计算，于每一个数据开发者而言都是一场巨大的灾难，而`NumPy`利用矢量化运算，可以有效地避免这一点。

【例】比较原生Python和`NumPy`

In [None]:
import time

N = 10000000

In [None]:
start = time.time()
data = [x**2 for x in range(N)]
end = time.time()
end - start

In [None]:
start = time.time()
data = np.arange(N) ** 2
end = time.time()
end - start

`NumPy`是基于C开发，因此继承了C运算速度快、消耗资源少等优点，`NumPy`被广泛应用于数据分析、机器学习和深度学习等领域。

## 应用领域

1. 科学计算

`NumPy`通常与`SciPy` (Scientific Python)和`Matplotlib`一起使用，进行数值计算或者统计分析。

2. 数据分析

`NumPy`专注于数组数据的处理，其和`Pandas`一起使用的时候，这种组合则将应用范畴从数据拓展到各种表格和杂乱的数据格式，是一个非常有用的工作助力。在大数据时代，经过合理的优化编排，`Numpy`和`Pandas`组合处理几个G的数据绰绰有余，甚至处理能力上探到几十个G。

## ndarray对象

`ndarray`是一个N维数组对象，是`NumPy`最核心的组成部分。你可以把它视为一个快速而灵活的大数据集容器，利用这种数组你可以便捷地执行一些数学运算。

`ndarray`有两个显著特点：

1. `ndarray`是一个通用的同构数据多维容器，也就是说，该容器中的每一个元素都必须是相同类型的，且每个元素在内存中都有相同存储大小的区域。

2. `ndarray`具有矢量算术运算能力和复杂的广播能力，并具有执行速度快和节省空间的特点。

### np.array()

`np.array(object, dtype=None, copy=True, ndmin=0)`

| 参数 | 说明 |
| --- | --- |
| object | 序列类型 |
| dtype | 数据类型，指定数组的元素类型 |
| copy | 对象是否被复制，默认为`True` |
| ndmin | 返回数组的最小维度 |

In [None]:
arr = np.array([1, 4, 3, 7, 2])
arr

在未指定`dtype`时，会根据传入的序列类型推断一个合理的数据类型。

In [None]:
arr.dtype

当然也可以直接在创建时利用`dtype`参数指定数据类型。

In [None]:
arr = np.array([[1, 2, 3.2], [4, 5.1, 6], [7.3, 8, 9]], dtype='float')
print(arr)
print(arr.dtype)

利用`ndmin`参数可以指定数组的维度。

In [None]:
arr = np.array([1, 4, 3, 7, 2], ndmin=2)
arr

### np.zeros()

`np.zeros()`用于创建一个指定大小、以`0`填充的数组。

In [None]:
np.zeros(4)

多维数组需要传入元组。

In [None]:
np.zeros((2, 3), dtype='int')

### np.ones()

`np.ones()`用于创建一个指定大小、以`1`填充的数组。

In [None]:
np.ones((3, 3))

也可以指定类型。

In [None]:
np.ones(5, dtype=np.int32)

### np.empty()

`np.empty()`用于创建一个指定大小、**没有具体值**的数组。

In [None]:
np.empty((3, 2, 3))

`np.empty()`并不会将数组初始化，返回的是一些没有规律的垃圾值。

### np.identity()

`np.identity()`用于创建一个指定大小的单位矩阵（对角线为`1`）。

In [None]:
np.identity(3)

### np.eye()

`np.eye()`用于创建一个指定大小、对角线为`1`的数组。

`np.eye(N, M=None, k=0, dtype=<type 'float'>)`

| 参数 | 说明 |
| --- | --- |
| N | 行 |
| M | 列，省略时与`N`相同 |
| k | 对角线偏移量，为`0`时为主对角线 |
| dtype | 数据类型 |

In [None]:
np.eye(N=3, M=4)

In [None]:
np.eye(3)

In [None]:
np.eye(N=3, M=4, k=1)

## 数据类型

`NumPy`支持的常用数据类型：

| 类型 | 说明 |
| --- | --- |
| int8、uint8 | 有符号、无符号8位整型，范围为-128 ~ 127、0 ~ 255 |
| int16、uint16 | 有符号、无符号16位整型，范围为-32768 ~ 32767、0 ~ 65535 |
| int32、uint32 | 有符号、无符号32位整型，范围为-2147483648 ~ 2147483647、0 ~ 4294967295 |
| int64、uint64 | 有符号、无符号64位整型，范围为-9223372036854775808 ~ 9223372036854775807、0 ~ 18446744073709551615 |
| float16、float32、float64、float128 | 半精度浮点数、单精度浮点、双精度浮点、扩展精度浮点数 |
| complex64、complex128、complex256 | 64位、128位、256位浮点数表示的复数 |
| bool_ | True / False |
| Object | Python对象类型 |
| string_ | 类型代号`S`，表示固定长度字符串。如果要创建一个长度为10的字符串，则使用S10 |
| unicode_ | 类型代号`U`，固定长度的`unicode`类型，跟字符串的定义方式一样，例如U8 |

In [None]:
arr = np.array([[1, 2, 3], [4, 5, 6]], dtype=np.int8)
arr

In [None]:
arr = np.array([[-1, 0, -3], [4, -5, 6]], dtype=np.bool_)
print(arr)
print(arr.dtype)

### 更改数据类型

对于已经定义好的数组，也可以通过`astype()`对`dtype`进行修改。

In [None]:
arr = np.array([1, 2, 3, 4], dtype=np.int16)
arr

In [None]:
arr = arr.astype(np.float32)
arr

对于保存数值的字符串，也是可以直接转换为数值类型的。

In [None]:
arr = np.array([['1.2', '2.8'], ['4.3', '5.7']], dtype=np.string_)
arr.astype(np.float16)

## 数组属性与方法

### `ndim`

数组的维度，即秩，用于表示数组轴的数量或维度的数量。

对于一维数组，秩为1，也就是只有一个轴（axis）。

In [None]:
arr = np.array([1, 2, 3])
arr.ndim

对于二维数组，秩为2，也就是有两个轴。

In [None]:
arr = np.array([[1, 2, 3], [4, 5, 6],[7,8,9]])
arr.ndim

<img src="./img/axis.jpg" style="background-color: white; width: 800px"/>

### `shape`

数组的维度，对应于矩阵的行和列。

通过`shape`可以查询数组的维度，该方法返回一个元组，这个元组的长度就是数组的维度。

In [None]:
arr = np.array([1, 2, 3])
arr.shape

In [None]:
arr = np.array([[1, 2, 3], [4, 5, 6]])
arr.shape

### `reshape()`

`reshape()`用于改变数组的维度，对数组重排。

`ndarray.reshape(newshape, order="C")`

| 参数 | 说明 |
| --- | --- |
| newshape | 变更后的数组维度 |
| order | 重排方式，可选C、F、A，用于指定读写顺序。C指按C语言风格按行顺序；F指按Fortran语言风格按列顺序；A指根据内存顺序。

In [None]:
arr = np.array(range(20))
arr

In [None]:
arr.reshape((5, 4))

In [None]:
arr.reshape((5, 4), order='F')

### size

`size`用于查看数组中的元素总个数。

In [None]:
arr = np.array(range(15)).reshape((3, 5))
print(arr)
print(arr.size)

### itemsize

`itemsize`返回数组中单个元素所占字节数。

In [None]:
arr = np.array([1, 2, 3, 4], dtype=np.int32)
arr.itemsize

In [None]:
arr = np.array([1, 2, 3, 4], dtype=np.float64)
arr.itemsize