# 大数据开发工程师证书(初级)

## 对于来自正态总体的 $n$ 个简单随机样本 $X$, $S^2$ 是 $n$ 个样本的样本方差, $\delta^2$ 是总体方差, 那么比值 $\frac{(n-1)S^2}{\delta^2}$ 可近似服从:

> 答: **自由度为 $n-1$ 的 $X^2$ 分布**

考点: 卡方分布和 F 分布


## 预计项目 A 在 7 年后可获利 800 万元, 如年利率为 10% 时, 该项目收益现值为:

> 答: 410.53

考点: 现值 present value (PV), 未来值 future value (FV)

$$
\begin{align*}
FV &= PV(1 + i)^n \\

PV &= \frac{FV}{(1 + i)^n}
\end{align*}
$$

Where:

- i = nominal annual interest rate in percentage terms 利率
- n = number of compounding periods 期数

本题中 $FV = 800, i = 0.1, n = 7$, 求 $PV$, 带入公式

$$
\begin{align*}
PV &= \frac{FV}{(1 + i)^n} \\
   &= \frac{800}{(1 + 0.1)^7} \\
   &= 410.53
\end{align*}
$$

复利 compound interest

$$
\begin{align*}
CompoundInterest &= [P(1+i)^n]-P \\
                  &= P[(1+i)^n-1]
\end{align*}
$$

Where:

- P = principal 本金
- i = nominal annual interest rate in percentage terms 利率
- n = number of compounding periods 期数

参考:

- [compound interest](https://www.investopedia.com/terms/c/compoundinterest.asp)


## 有 10 支股票, 3 支可以获利, 7 支将会亏损. 你打算从 10 支股票中选择 4 支, 那么 3 支能够获利的股票中, 至少有 2 支被购买到的概率为:

> 答: 0.33

这道题未解出.


已知一批产品次品率为 0.04, 从中任意有放回的抽取 5 个, 恰好有 3 个以下次品的概率为:

> 答: 0.994

考点: 二项式分布 binomial distribution

Probability mass function for binomial distribution

$$
\begin{align*}
  f(k, n, p) &= Pr(k; n, p) \\
             &= Pr(X = k) \\
             &= \binom{n}{k}p^k(1 - p)^{n-k}
\end{align*}
$$

Where:

- k: 成功的次数
- n: 实验的次数
- p: 成功的概率

本题中问的是 3 个以下次品的概率, 也就是 0 个次品的概率, 1 个次品的概率和 2 个次品的概率, 把他们加到一起就是答案.

- 0 个次品的概率, 这里 k=0, n=4, p=0.04, 带入公式得到概率 p=0.84934656
- 1 个次品的概率, 这里 k=1, n=4, p=0.04, 带入公式得到概率 p=0.14155776
- 2 个次品的概率, 这里 k=2, n=4, p=0.04, 带入公式得到概率 p=0.00884736

上面三个概率相加等于 0.99975168


## 一个离散型的随机变量 X, X=0 的概率为 0.75, X=1 的概率为 0.12, X=2 的概率为 0.08, X=3 的概率为 0.05, 那么 X 的期望值为:

> 答: 0.43

考点: 期望值 expected

Random variables with countably many outcomes

$$
E[X] = \sum_{i=1}^{\infty}x_ip_i
$$

本题 $E[X] = 0*0.75 + 1*0.12 + 2*0.08 + 3*0.05 = 0.43$

参考:

- [Expected Value vs. Mean: What's the Difference](https://www.statology.org/expected-value-vs-mean/#:~:text=Expected%20value%20is%20used%20when,value%20of%20a%20given%20sample.)


## ID3 算法是通过什么来选择特征的?

> 答: 信息增益

解析:

- ID3 是一种分类算法, 用于决策树, 只要通过计算信息增益来决定用数据中的那个属性进行分类
- 信息增益是在属性 $A$ 上分割集合 $S$ 之前和之后的熵差的度量. 换句话说, 属性 $A$ 上分割集合 $S$ 后, $S$ 中的不确定性降低了多少.

$$
\begin{align*}
  IG(S, A) &= H(S) - \sum_{t \in T} p(t) H(t) \\
           &= H(S) - H(S|A)
\end{align*}
$$

## 逻辑回归中可以用以下那种方法来调整数据?

> 答: 最大似然预估 (存疑) 

解析:

- 最大似然预估: 用于参数预估, 比如: 根据测试者对 10 次抛硬币猜对了 7 次的情况, 可以估算出二项式分布函数中的参数 $p$ 的最有可能是 0.7
- 最小二乘法: 用于评估拟合效果, 应该也属于一种模型参数调整的方法;


## 回归分析

### 指数系数 R2

R2 在线性回归模型中称为"确定系数"(coefficient determination), 其值越大表示模型效果约好.

公式:

$$
R^2 = 1 - \frac{SS_{res}}{SS_{tot}}
$$

WHere,

- $SS_{res}$ 残差平方和
- $SS_{tot}$ 误差和

如果实际值是 $y$, 预测值是 $\hat{y}$, 实际值的均值是 $\bar{Y}$, 那么

- 残差 $E1 = y - \hat{y}$
- 误差 $E2 = y - \bar{Y}$

上面的 $R^2$ 公式可以改写为

$$
R^2 = 1 - \frac{\displaystyle\sum_i^n (y_i - \hat{y_i})^2}{\displaystyle\sum_i^n (y_i - \bar{Y})^2}
$$

> References: [Coefficient of Determination-R2 score](https://www.geeksforgeeks.org/python-coefficient-of-determination-r2-score/?ref=lbp)

### 残差平方和

### 相关系统 r

### 残差图

## 多元回归

### 多重判定系数

## 主成分分析和因子分析

### 选出主成分分析的步骤