## 计算机算术 | Computer Arithmetic

在数值计算中，系统性地出现两种误差来源：
1. 截断误差（Truncation errors）
    - 由于数学模型的简化（例如，离散化、用有限差分代替导数）所致。
2. 舍入误差（Rounding errors）
    - 由于在计算机中无法精确表示实数所致
    > it is impossible to represent real numbers exactly in a computer

---

### 数值计算 | Numerical Computation

> 使用计算机近似求解数学问题的方法。
>
> The use of computers to approximate solutions to mathematical problems.

例如求解微分方程、优化问题或积分计算。由于许多数学问题无法得到解析解（即精确的公式解），我们依赖数值方法（如迭代算法或离散化）来获得近似解。
> Many mathematical problems lack analytical solutions (i.e., exact formula-based solutions), so we rely on numerical methods (e.g., iterative algorithms or discretization) to obtain approximate results.

然而，这些方法不可避免地引入误差，主要分为**截断误差**和**舍入误差**。

#### 1. 截断误差（Truncation Errors）

> 源于对数学模型的简化或近似处理。
> 
> Arise from the simplification or approximation of mathematical models.

在数值计算中，我们经常将连续问题（如微分方程）转换为离散问题（如差分方程），以便计算机处理。
> In numerical computation, we often convert continuous problems (e.g., differential equations) into discrete problems (e.g., difference equations) to make them computable.

这种转换会丢失一些信息，导致误差。

> 截断误差通常与步长或近似阶数相关。
>
> Truncation errors are typically related to step size or approximation order.

#### 2. 舍入误差（Rounding Errors）

> 由于计算机无法精确表示所有实数所致。
>
> Computers cannot represent all real numbers exactly.

计算机使用有限位数的二进制表示数字（如浮点数标准 IEEE 754），这导致某些数字（如无理数或循环小数）必须被舍入到最接近的可表示值。

> 舍入误差是系统性的，可能在迭代算法中累积，导致结果偏离真实值。
>
> Rounding errors are systematic and can accumulate in iterative algorithms, causing results to deviate from true values.


---

## Integers Arithmetic | 整数算术

In Python integers can be arbitrarily large.<br>
The interpreter simply uses as many bits as needed to represent the number.

In [None]:
a = 1
a.bit_length()

1

In [3]:
a = 10 ** 100
a.bit_length()

333

In [4]:
a = 10 ** 30003
a.bit_length()

99668

NumPy 不兼容 Python 的可扩展整数
> Numerical packages such as NumPy are not compatible with this extensible integer type

核心：NumPy 的核心设计目标（高速的批量数组运算）与 Python 可变长整数带来的开销和不确定性存在根本性冲突。

NumPy 使用固定数量的比特位来存储整数，通常是 32 位（np.int32）或 64 位（np.int64，默认值）。<br>
超出最大取值范围的运算会产生溢出（超出固定范围的比特位被截断）。
> NumPy uses a fixed number of bits to store integers, usually 32 bits (np.int32) or 64 bits (np.int64, default).<br>
> Computations outside the maximum range of values generate overflows (truncation of the bits outside the fixed range).


In [5]:
import numpy as np

In [6]:
print(np.iinfo(np.int64))

Machine parameters for int64
---------------------------------------------------------------
min = -9223372036854775808
max = 9223372036854775807
---------------------------------------------------------------



---

## Floating-point Arithmetic | 浮点数算术

In a computer, a real number $x\ne 0$ is represented as:
$$
x = \pm n \times b^e
$$
- $\pm$：符号位（Sign）
  - `0`代表正数，`1`代表负数。
- $n$：尾数/有效数字（Mantissa/Significand）
  - 数字的精度部分。
  - 一个规范化的小数（fractional part），通常满足：$$1 \le n < b$$
- $b = 2$：基数（The base）
  - 通常是 `2`（二进制）
- $e$：指数（The exponent）
  - 决定了数的范围（数量级）。

<img src="./image/float_binary.png" alt="image.png" style="width: 700px; height: auto; display: block; margin: 0 auto;"><br>

<img src="./image/float_16bits_demo.png" alt="image.png" style="width: 700px; height: auto; display: block; margin: 0 auto;">


---

In [8]:
print(0.1 + 0.1 + 0.1 == 0.3)

False


In [9]:
print(0.1)
print(format(0.1, ".50g"))

0.1
0.1000000000000000055511151231257827021181583404541


In [10]:
(0.1).as_integer_ratio()

(3602879701896397, 36028797018963968)

In [11]:
print(3602879701896397 / 36028797018963968)

0.1


---

For real numbers, Python uses 64 bits:

It can represent real numbers from $\pm\mathbf{2.23\times10^{-308}}$ to $\pm\mathbf{1.80\times10^{308}}$

- If $x$ is smaller than $m=2.23\times10^{-308}$, we get an ***underflow***
- If $x$ is greater than $M=1.80\times10^{308}$, we get an ***overflow***


In [12]:
print(np.finfo(np.float64))

Machine parameters for float64
---------------------------------------------------------------
precision =  15   resolution = 1.0000000000000001e-15
machep =    -52   eps =        2.2204460492503131e-16
negep =     -53   epsneg =     1.1102230246251565e-16
minexp =  -1022   tiny =       2.2250738585072014e-308
maxexp =   1024   max =        1.7976931348623157e+308
nexp =       11   min =        -max
smallest_normal = 2.2250738585072014e-308   smallest_subnormal = 4.9406564584124654e-324
---------------------------------------------------------------



---

### 机器精度 | Machine Precision

机器精度是满足 $\text{float}(1 + \epsilon_1) > 1$ 的最小正数 $\varepsilon_1$。
> The machine precision of a floating point arithmetic is defined as the smallest positive number $\varepsilon_1$ such that $\text{float}(1 + \epsilon_1) > 1$


In [13]:
print(np.spacing(1))

2.220446049250313e-16


`np.space(1)`: 
- 在浮点数系统中，表示比 $x$ 大的、最邻近 $x$ 的那个数，与 $x$ 本身之间的绝对差值。
- In the floating-point system, the absolute difference between $x$ and the next largest representable floating-point number.

> 在 $x$ 这个位置，浮点数之间的“最小步长”或“绝对间隔”<br>
> the "minimum step size" or the "absolute interval" between floating-point numbers at the location $x$.

在计算机中，由于用有限的内存（通常是64位）来表示无限多的实数，所以浮点数在数轴上的分布是离散的，而不是连续的。<br>
数字越大，相邻两个可表示的浮点数之间的“间隔”就越大。

> In computing, because we use a finite amount of memory (typically 64 bits) to represent an infinite set of real numbers, floating-point numbers are discrete on the number line, not continuous. <br>
> The larger the number, the larger the "gap" or "interval" between two adjacent representable floating-point numbers.

#### 金融数值计算的实际意义

处理大金额时需要格外小心：如果你计算1亿美金（$10^8$）的期权价格，绝对精度间隔是：

```
ε ≈ 10⁸ × 1.57 × 10⁻¹⁶ ≈ 1.57 × 10⁻⁸ ≈ 0.0000000157
```

这意味着价格变化小于这个量级时可能被"淹没"。

- 算法稳定性分析：在设计数值算法时，必须考虑当前计算规模的精度限制。
- 变量缩放策略：有时需要将问题缩放到"单位量级"附近进行计算，以最大化精度。

---

### 不等间距网格

**浮点数精度的根本性质：绝对误差随着数值增大而线性增大。**

浮点数（在数轴上的分布不是均匀的，而是对数尺度的。）

- 在`0`附近，数字非常密集，间隔很小（例如，小数的精度高）。
- 随着数值变大，间隔逐渐变大（稀疏）（网格变粗糙）。

这是因为浮点数使用科学计数法：$(-1)^s \times m \times 2^e$
- $s$：符号位
- $m$：尾数
- $e$：指数，间隔由指数决定。

当指数`e`增加时，相邻数字之间的差值（即`np.spacing`）会乘以`2`的幂次。<br>


#### 金融工程含义

精度损失的风险分布不均匀
- 在价格接近0的资产（如深度虚值期权）计算中，相对精度较高
- 在大金额计算（如机构级交易）中，绝对误差可能显著放大
```py
# 不好的做法：直接处理极大数值
large_value = 1e8  # 1亿美元
result = large_value + 0.01  # 这个加法可能被"淹没"

# 更好的做法：缩放处理
scaled_value = 1.0  # 以百万为单位
result = scaled_value + 0.01/1e6  # 在单位尺度下计算
```

---

### 浮点数舍入：几何级数 | Float rounding: Geometric series

几何级数 $$\sum_{p=-10}^{10}10^p = (10^{10}-10^{-10})/9$$ 在数学上是精确的等式。这个级数包含从 $10^{-10}$ 到 $10^{10}$ 的`21`项。


In [19]:
print((10 ** 10 - 10 ** (-10)) / 9)

1111111111.1111112


1. 大数与小数的相减（相差`20`个数量级）
2. 精度丢失
    - 在64位浮点数中，当两个相差巨大的数相减时，较小数的有效数字会被舍入
3. 二进制表示限制
    - $10^{-10}$ 在二进制中是无限循环小数，无法精确表示

---

#### 高精度

decimal模块的优势:
- 任意精度计算
- 十进制表示，避免二进制舍入误差
- 精确处理极大和极小的数值

> 但是，和 Numpy 不兼容。<br>
> 计算速度较慢<br>
> 需要手动管理精度设置

In [20]:
from decimal import Decimal

In [21]:
a = Decimal(10)
b = Decimal(-10)
c = Decimal(9)
print((a ** a - a ** b) / c)

1111111111.1111111111


---

#### 求和顺序的重要性

$$
\Large
\text{从小到大求和产生更小舍入误差}
$$

> Summing from smaller to larger numbers generates less rounding error

In [27]:
total = 0.0
for p in range(10, -11, -1):  # 从大到小
    total += 10**p
# 舍入误差累积，小数值被大数"淹没"
print(total)

11111111111.11111


In [23]:
total = 0.0
for p in range(-10, 11):  # 从小到大
    total += 10**p
# 小数值先累加，减少舍入误差
print(total)

11111111111.11111


#### 浮点数使用建议

避免直接比较浮点数。

In [28]:
from math import isclose

In [31]:
isclose(0.1 + 0.1 + 0.1, 0.3, rel_tol = 1e-9, abs_tol = 0.0)
# rel_tol: 相对容差（默认1e-9）
# abs_tol: 绝对容差


True

---

## 数值微分 | Numerical differentiation