# 二次型系统的参数估计和异常检测

二次型系统（[Quadratic form](https://en.wikipedia.org/wiki/Quadratic_form)）是只包含二次项，不包含常数和一次项的单变量或者多变量系统，例如下面分别是包含1, 2 和 3个特征变量的二次型系统：

$$
\begin{align}
y &= a x^2 \\\\
y &= a x^2 + b xy + c y^2 \\\\
y &= a x^2 + b y^2 + c z^2 + d xy + e xz + f yz \\\\
\end{align}
$$

算子的 **输入** 是一个包含n个特征量（自变量）和1个响应变量的 dataframe，
根据算子 **参数** `label` 和 `features` 指定。

## 实例分析

创建一个包含3个特征变量和一个响应变量的 dataframe 作为示例输入:

In [1]:
import pandas as pd
import numpy as np
from itertools import combinations
import statsmodels.api as sm
from statsmodels.stats.outliers_influence import OLSInfluence

n = 200
x1 = np.random.uniform(-10, 10, n)
x2 = np.random.uniform(-4, 4, n)
x3 = np.random.uniform(-2, 8, n)
y = 2.89 * x1 ** 2 + 4.33 * x2 ** 2 + 6.1 * x1 * x2 + 5.9 * x2 * x3 + np.random.normal(size=n)

label = 'y'
features = 'x1,x2,x3'
data = pd.DataFrame(data=[x1, x2, x3, y]).T

定义公式生成函数，输入特征变量名称列表和向量变量名称，返回对应的二次型计算公式：

In [2]:
def build_formula(label: str, features: str) -> str:
    featlist = features.split(',')
    quads = ' + '.join(map(lambda feat: 'I(' + feat + ' ** 2)', featlist))
    ints = ' + '.join(
        map(lambda feat_pair: 'I(%s * %s)' % (feat_pair[0], feat_pair[1]),
                 combinations(featlist, 2)))
    return "%s ~ %s + %s" % (label, quads, ints)

用上面定义的特征量和响应量名称测试公式输出：

In [3]:
build_formula(label, features)

'y ~ I(x1 ** 2) + I(x2 ** 2) + I(x3 ** 2) + I(x1 * x2) + I(x1 * x3) + I(x2 * x3)'

使用上面的测试数据，结合二次型生成函数，检验计算结果：

In [4]:
res = sm.OLS.from_formula(build_formula(label, features), data=data).fit()
print(res.params)

Intercept     0.012694
I(x1 ** 2)    2.890727
I(x2 ** 2)    4.336708
I(x3 ** 2)   -0.005270
I(x1 * x2)    6.100649
I(x1 * x3)   -0.006394
I(x2 * x3)    5.900841
dtype: float64


## 系统评估

二次型系统评估的目标是找出系统中的异常值。
一个观测的 [studentized residual](https://en.wikipedia.org/wiki/Studentized_residual) 值标示了它的异常程度，大于阈值的被作为异常值标记出来。下面使用 `student_resid` 参数给出模型中每个观测的 studentized residual，并筛选出大于阈值 `threshold` 的观测：

In [6]:
rst = OLSInfluence(res).summary_frame().student_resid
rst.head()

0   -0.467812
1   -0.658238
2    0.830224
3    0.818714
4   -0.298083
Name: student_resid, dtype: float64

筛选出异常值：

In [14]:
threshold = 2
rst[lambda x: abs(x) > threshold]

20     2.166376
23     2.419564
41    -2.813418
49    -2.866460
88     2.252464
103    2.115861
146   -2.084009
199    2.463653
Name: student_resid, dtype: float64