Skip to content

Latest commit

 

History

History
35 lines (27 loc) · 2.31 KB

ch2_习题.md

File metadata and controls

35 lines (27 loc) · 2.31 KB

CH2 模评估与选择

  1. 正例和返利应比例一样多,即总共1000 * 30% = 300用于留出法评估,各从正反的五百样本中选150个 因此有 (C_500^150)^2 种划分方法

  • 10折交叉验证:由于每次训练样本正反例一样多,预测结果为正或反概率相同,因此错误率期望为50%
  • 留一法:假设留下的是正,则训练样本中反例数量大于正例数量,因此会被预测为反;同理留下的是反例时则会被预测为正例,也就是说错误率为100%
  1. F1是P和R的加权调和平均,BEP是仅当P=R时的特殊情况时取值,不能反映整体的情况。F1和BEP值的大小没有明确关系。

  • TRP: 真实正例/预测正例 = TP / (TP+FP)
  • P: 真实正例/预测正例 TRP = P
  • FPR: 真是反例/预测正例 = FN / (TP+FP)
  • R: 预测正例/所有正例 = TP / (TP+FN) FRP和R没有关系
  1. lrank中, f(x^+) < f(x^-)对应扫描到反例,之后正例个数n代表向上延伸n个单位;f(x^+) = f(x^-)表示同位置是正例,斜向上延伸,因此前面乘以1/2。而ROC是归一化的,因此求和之前除以系数(m^+m^-),整个式子就是ROC曲线上方空白区域面积,而ROC下方区域面积为AUC,相加得1。即AUC = 1 - lrank

  2. ROC曲线每个点对应了一个TPR与FPR,此时对应了一个错误率。 E_{cost}=(m^+ *(1-TPR)*cost_{01}+m^-FPRcost_{10})/(m^+ +m^-)

  3. ROC曲线上每一点(FPR,TPR)对应了代价平面上的一条线段。 FNR = 1 - TPR,即可在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段,线段下的面积即表示该条件下的期望总体代价

  • Min−max规范化方法简单,而且保证规范化后所有元素都是正的,每当有新的元素进来,只有在该元素大于最大值或者小于最小值时才要重新计算全部元素。但是若存在一个极大(小)的元素,会导致其他元素变的非常小(大)。
  • z−score标准化对个别极端元素不敏感,且把所有元素分布在0的周围,一般情况下元素越多,0周围区间会分布大部分的元素,每当有新的元素进来,都要重新计算方差与均值。
  1. 卡方检验:
  • 提出假设H0 H1
  • 计算统计量卡方 = (n-1)s^2 / σ^2
  • 计算拒绝域 X^2_1/α (n-1) and X^2_(1-1/α) (n-1)
  • 根据拒绝域,接受or拒绝假设