In [1]:
%matplotlib inline
%load_ext autoreload
%autoreload 2
from nmc_verification.nmc_vf_method.multi_category import *
import numpy as np

***通过随机函数生成测试数据，用于后续检验函数调用示例***

In [26]:
ob = np.random.rand(2,10) * 10
fo = np.random.rand(2,10) * 10
ob_int = ob.astype(np.int8)
fo_int = fo.astype(np.int8)
grade_list = [3,5]

In [27]:
ob_int

array([[4, 2, 3, 5, 6, 0, 2, 8, 3, 2],
       [9, 4, 6, 7, 9, 8, 1, 1, 3, 3]], dtype=int8)

In [28]:
fo_int

array([[6, 2, 4, 6, 7, 0, 7, 8, 3, 4],
       [2, 1, 4, 3, 8, 8, 8, 3, 7, 3]], dtype=int8)

###  准确率  
**accuracy(ob, fo, grade_list=None)**  
统计观测和预报分类一致的样本数占比  

**参数说明：**  
 Ob:实况数据，任意维numpy数组   
 Fo:预测数据，任意维numpy数组,Fo.shape 和Ob.shape一致  
 grade_list: 如果该参数为None，观测或预报值出现过的值都作为分类标记，如果该参数不为None，它必须是一个从小到大排列的实数，以其中列出的数值划分出的多个区间作为分类标签。对比预报和观测值不为整数的情况，grade_list 不能设置为None。  
 return:  0-1的实数，0代表无技巧，最优预报为1  
**调用示例：**  

In [29]:
accuracy(ob_int,fo_int)

0.3

In [30]:
accuracy(ob_int,fo_int,grade_list)

0.5

###  hss评分   
**hss(ob,fo,grade_list = None)**  
Heidke skill score，统计准确率相对于随机预报的技巧

**参数说明：**  
 Ob:实况数据，任意维numpy数组   
 Fo:预测数据，任意维numpy数组,Fo.shape 和Ob.shape一致  
 grade_list: 如果该参数为None，观测或预报值出现过的值都作为分类标记，如果该参数不为None，它必须是一个从小到大排列的实数，以其中列出的数值划分出的多个区间作为分类标签。对比预报和观测值不为整数的情况，grade_list 不能设置为None。  
 return:  负无穷到1的实数，0代表无技巧，最优预报为1  
**调用示例：**  

In [31]:
hss(ob_int,fo_int)

0.20903954802259886

In [32]:
hss(ob_int,fo_int,grade_list)

0.23664122137404583

###  hk评分   
**hk(ob,fo,grade_list = None)**  
Hanssen and Kuipers discriminant，统计准确率相对于随机预报的技巧

**参数说明：**  
 Ob:实况数据，任意维numpy数组   
 Fo:预测数据，任意维numpy数组,Fo.shape 和Ob.shape一致  
 grade_list: 如果该参数为None，观测或预报值出现过的值都作为分类标记，如果该参数不为None，它必须是一个从小到大排列的实数，以其中列出的数值划分出的多个区间作为分类标签。对比预报和观测值不为整数的情况，grade_list 不能设置为None。  
 return:  负无穷到1的实数，0代表无技巧，最优预报为1  
**调用示例：**  

In [33]:
hk(ob_int,fo_int)

0.21022727272727273

In [34]:
hk(ob_int,fo_int,grade_list)

0.23484848484848492

在以上示例中，观测和预报的数据都直接输入到评分函数中进行计算，然而有些情况下待检验的数据太大不能整体存入一个numpy数组中，或者不方便整体存入一个numpy数组中，此时就不能调用上面的方式调用评分函数。为此本程序库设计了一套可分块计算的检验程序。  
其检验步骤如下：  
***步骤1：根据需要将分块数据逐一输入到中间结果计算函数***  
***步骤2：将中间结果进行累加或合并***  
***步骤3：根据累加或合并的中间结果计算检验指标***  
通常上述计算中步骤1是最耗费计算资源，为了提高效率步骤1也可以采用**并行**的方式执行。此外，步骤1执行的结果也可**输出到文件**中，在后续的检验可以从中读入部分中间结果执行后续步骤，从而可以实现各种方式的分组检验，大大提高检验计算效率。

### 总样本数、正确样本数     
**tc(ob, fo, grade_list=None)**  
用来计算accuracy等检验指标的中间量  

**参数说明：**  
 Ob:实况数据，任意维numpy数组   
 Fo:预测数据，任意维numpy数组,Fo.shape 和Ob.shape一致  
 grade_list: 如果该参数为None，观测或预报值出现过的值都作为分类标记，如果该参数不为None，它必须是一个从小到大排列的实数，以其中列出的数值划分出的多个区间作为分类标签。对比预报和观测值不为整数的情况，grade_list 不能设置为None。  
 return: 长度为2的一维numpy数组，其内容依次为总样本数、正确分类的样本数  
    
   
   
  
  
### 总样本数、正确样本数、 预报观测频率表    
**tcof(ob,fo,grade_list)**  
用来计算accuracy等检验指标的中间量  

**参数说明：**  
 Ob:实况数据，任意维numpy数组   
 Fo:预测数据，任意维numpy数组,Fo.shape 和Ob.shape一致  
 grade_list: 一个从小到大排列的实数列表，以其中列出的数值划分出的多个区间作为分类标签，该参数不能设置为None。 
 return: shape为(len(grade_list)+2,2)的二维numpy数组,记为返回值为re，其中re[0,0] 为总样本数，re[0,1]为正确样本数据、re[1:,0]为观测频率表，re[1:,1]为预报频率表。  
   
 **调用示例：**  

In [1]:
tc_array = np.zeros((2))
tcof_array = np.zeros((len(grade_list)+2,2))
for i in range(2):
    ob1 = ob_int[i,:]
    fo1 = fo_int[i,:]
    tc_array += tc(ob,fo,grade_list)
    tcof_array += tcof(ob,fo,grade_list)
    

NameError: name 'np' is not defined

 **以下为根据合并后的中间统计量计算最终检验指标的函数：**
###  准确率  
**accuracy_tc(tc_array)**  
统计观测和预报分类一致的样本数占比  

**参数说明：**  
 tc_array:包含总样本数和正确样本数的多维数组，其中最后一维长度为2，分别记录了总样本数、正确样本数     
 return:  numpy数组，其中每个元素为0-1的实数，0代表无技巧，最优预报为1  
**调用示例：**  

In [37]:
accuracy_tc(tc_array)

0.5

### 准确率   
**accuracy_tcof(tcof_array)**  
统计观测和预报分类一致的样本数占比

**参数说明：**   
 tcof_array:包含总样本数和正确样本数的多维数组，其中最后一维长度为2，其中tcof_array[...,0,0]记录了总样本数矩阵，其中tcof_array[...,0,1]记录了正确本数矩阵，tcof_array[...,1:,0]记录了观测频率表，tcof_array[...,1:,1]记录了预报频率表   
 return: numpy数组，其中每个元素为0-1的实数，0代表无技巧，最优预报为1  
**调用示例：**  

In [38]:
accuracy_tcof(tcof_array)

0.5

### hss评分   
**hss_tcof(tcof_array)**  
Heidke skill score，统计准确率相对于随机预报的技巧

**参数说明：**   
 tcof_array:包含总样本数和正确样本数的多维数组，其中最后一维长度为2，其中tcof_array[...,0,0]记录了总样本数矩阵，其中tcof_array[...,0,1]记录了正确本数矩阵，tcof_array[...,1:,0]记录了观测频率表，tcof_array[...,1:,1]记录了预报频率表   
 return: numpy数组，其中每个元素为负无穷到1的实数，0代表无技巧，最优预报为1  
**调用示例：**  

In [41]:
hss_tcof(tcof_array)

0.23664122137404583

### hk评分   
**hk_tcof(tcof_array)**  
Hanssen and Kuipers discriminant，统计准确率相对于随机预报的技巧

**参数说明：**   
 tcof_array:包含总样本数和正确样本数的多维数组，其中最后一维长度为2，其中tcof_array[...,0,0]记录了总样本数矩阵，其中tcof_array[...,0,1]记录了正确本数矩阵，tcof_array[...,1:,0]记录了观测频率表，tcof_array[...,1:,1]记录了预报频率表   
 return: numpy数组，其中每个元素为负无穷到1的实数，0代表无技巧，最优预报为1   
**调用示例：**  

In [42]:
hk_tcof(tcof_array)

0.23484848484848492

在预报检验经常需要进行分组检验，获得不同类别预报的评分指标并进行对比。此时可以应用上述基于中间结果的检验函数对多维中间统计量的整体计算能力来简化代码的复杂度。  
**示例如下：**

In [46]:
day_count = 100
model_count = 3
ob = np.random.rand(day_count,10) * 10
fo = np.random.rand(model_count,day_count,10) * 10
ob_int = ob.astype(np.int8)
fo_int = fo.astype(np.int8)
tcof_array = np.zeros((model_count,len(grade_list)+2,2))
for i in range(day_count):
    ob1 = ob_int[i,:]
    for j in range(model_count):
        fo1 = fo_int[j,i,:]
        tcof_array[j,:,:] += tcof(ob1,fo1,grade_list)

In [47]:
accuracy_tcof(tcof_array)

array([0.365, 0.355, 0.364])

In [48]:
hss_tcof(tcof_array)

array([-0.01989682, -0.04356267, -0.01980604])

In [49]:
hk_tcof(tcof_array)

array([-0.02000187, -0.04347356, -0.01994375])

以上只是展示了分类检验的维度为1的情况，实际上上述思路可以扩展至任意高维的情况。熟练使用中间统计量计算和合并方法，基于中间统计量整体计算分类问题下的检验指标数组，是提高代码编写效果的关键。上述检验函数的内部也都采用了numpy的整体计算方式实现，在计算效率上进行了最大程度的优化。