* 论文名：Classification of functional data: A segmentation approach
* 作者：Bin Li ∗, Qingzhao Yu
* Louisiana State University, 70803 Baton Rouge, LA, United States

# 论文概况

主要方法：
* FSDA(functional segment discriminant analtsis) 函数段判别分析——主要是将LDA和SVM相结合。

优点：
* 对不规则的功能数据特别有用(spatial heterogeneity"空间异构性" and spikes)
* fraction of the spectrum 减少计算量
* 可以识别重要的预测值和提取特征
* 灵活——易于合并来自其他数据源的信息或来自调查人员的先验知识

## 方法简介

**LDA**（Linear discriminant analysis）：


* 对非正态分布以及不同类别的协方差相当**稳健**


* 对高度非线性的类边界过于严格
* 对FDA中常出现的许多高度相关的预测因子这种情况，他太灵活了

**SVM**：

* 很容易扩展到非线性空间


* 由于一视同仁的利用所有变量，SVM存在冗余变量

**FSDA**（本文的方法）

* F统计量找marker,将数据切成短曲线，进行处理，方便计算与储存
* LDA作数据简化、降维(data reduction), SVM作分类器
* 对不规则的函数型数据和没有明显局部特征的数据都有很好的分类效果

## 论文展示内容

* Fig. 3. Sample curves for phoneme data. Each class has five sample curves
* five-fold cross-validation}
* 在音素的例子中，我们$\color{red}{随机地选取1000个样本作为训练集，剩余3509个样本作为测试集。}$
* 作为一个多类分类问题，本例中提取的特征采用前三个线性判别变量，即$l=3$，因为达到了最佳的预测性能。
* $\color{red}{图4所示的分类结果是基于两个实例的50次重复。}$
* 在每次复制中，随机分配的训练集用于拟合模型，其中性能在测试集上进行评估。
* 在音素的例子中，FSDA在45次试验中是最好的，平均每一次试验只比最好的高0.22%。
* 通过Wilcoxon符号秩检验(三个p值均小于0.0001)，fsda与其他三个竞争者之间的差异在统计学上也是显著的。

图4 ![image.png](attachment:image.png)

表2 ![image.png](attachment:image.png)

* 关注于“aa”和“ao”的二元分类问题，因为这是最困难的子问题。

* 圆括号中的数字是基于50个随机划分的训练集和测试集的平均测试误差的标准误差，并且FSDA实现了比FSVM更低的测试错误率。

<!-- 在保护器和音素的例子中，FSDA都比FSVM获得了更好的预测性能。一个自然的解释是，标准支持向量机存在不相关的输入变量(即基系数)，这意味着与FSDA不同，FSVM在特征提取过程中不考虑类别标签(即通过滤波/投影过程来降维)。 -->

* 随着h的增加，测试误差减小，并在h达到6后稳定。最优m在7左右。相对较大的最优。
* 对调谐参数的灵敏度分析图5示出了在上述50次重复中使用调谐参数m和h的不同值的平均测试误差。
* 由于交叉验证提供了预测误差的期望值的无偏估计，图5可以被视为交叉验证误差的近似分布。

图5 ![image.png](attachment:image.png)

$\color{red}{不同发声者是否需要分开}$

## LDA函数包

In [2]:
'''
函数包示例代码
    print(__doc__)

    import matplotlib.pyplot as plt

    from sklearn import datasets
    from sklearn.decomposition import PCA
    from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

    iris = datasets.load_iris()

    X = iris.data
    y = iris.target
    target_names = iris.target_names

    pca = PCA(n_components=2)
    X_r = pca.fit(X).transform(X)

    lda = LinearDiscriminantAnalysis(n_components=2)
    X_r2 = lda.fit(X, y).transform(X)

    # Percentage of variance explained for each components
    print('explained variance ratio (first two components): %s'
          % str(pca.explained_variance_ratio_))

    plt.figure()
    colors = ['navy', 'turquoise', 'darkorange']
    lw = 2

    for color, i, target_name in zip(colors, [0, 1, 2], target_names):
        plt.scatter(X_r[y == i, 0], X_r[y == i, 1], color=color, alpha=.8, lw=lw,
                    label=target_name)
    plt.legend(loc='best', shadow=False, scatterpoints=1)
    plt.title('PCA of IRIS dataset')

    plt.figure()
    for color, i, target_name in zip(colors, [0, 1, 2], target_names):
        plt.scatter(X_r2[y == i, 0], X_r2[y == i, 1], alpha=.8, color=color,
                    label=target_name)
    plt.legend(loc='best', shadow=False, scatterpoints=1)
    plt.title('LDA of IRIS dataset')

    plt.show()
'''

"\n函数包示例代码\n    print(__doc__)\n\n    import matplotlib.pyplot as plt\n\n    from sklearn import datasets\n    from sklearn.decomposition import PCA\n    from sklearn.discriminant_analysis import LinearDiscriminantAnalysis\n\n    iris = datasets.load_iris()\n\n    X = iris.data\n    y = iris.target\n    target_names = iris.target_names\n\n    pca = PCA(n_components=2)\n    X_r = pca.fit(X).transform(X)\n\n    lda = LinearDiscriminantAnalysis(n_components=2)\n    X_r2 = lda.fit(X, y).transform(X)\n\n    # Percentage of variance explained for each components\n    print('explained variance ratio (first two components): %s'\n          % str(pca.explained_variance_ratio_))\n\n    plt.figure()\n    colors = ['navy', 'turquoise', 'darkorange']\n    lw = 2\n\n    for color, i, target_name in zip(colors, [0, 1, 2], target_names):\n        plt.scatter(X_r[y == i, 0], X_r[y == i, 1], color=color, alpha=.8, lw=lw,\n                    label=target_name)\n    plt.legend(loc='best', shadow=False, sc

## SVM函数包

In [55]:
# X = [[0], [1], [2], [3]]
# Y = [0, 1, 2, 3]
# clf = svm.SVC(decision_function_shape='ovo')
# clf.fit(X, Y)
# # SVC(decision_function_shape='ovo')
# dec = clf.decision_function([[1]])
# dec.shape[1] # 4 classes: 4*3/2 = 6
# # 6
# # clf.decision_function_shape = "ovr"
# # dec = clf.decision_function([[1]])
# # dec.shape[1] # 4 classes  
# clf.predict(X)

array([0, 1, 2, 3])

# 代码实现
## 导入数据

In [1]:
import math
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import sklearn
from sklearn import datasets
from sklearn.decomposition import PCA
from sklearn import svm
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.metrics import accuracy_score

df = pd.read_csv('F:\\Data and code\\data\\FSDA\\phoneme.data',index_col = 0)
pd.set_option('display.max_rows',5)

* speaker共有437个取值分类，太多了，应该没有分，$\color{red}{先试试没有分的情况}$【50个说话者的每个音素大约有2个示例】
* test.dr1.mdab0.sa1——第3341行【索引是3340】是第一个测试集行
* 3340行df.iloc[:3340]训练集
* 1169行df.iloc[3340:]测试集

## Data Split

In [3]:
Xtrain = df.iloc[:3340,:-2]
Ytrain = df.iloc[:3340,-2]

Xtest = df.iloc[3340:,:-2]
Ytest = df.iloc[3340:,-2]

## 代码实现

### F统计量
* 通过F统计量选出m个marker，以及对应的段
* 这里首先尝试论文中交叉验证后的参数，m为7，h为6

选出F统计量最大的m=7个值，以及对应的m=7个段，再把这7个段放入一个list——features

In [44]:
# 按组把训练集划分出5个对应输出['ao', 'aa', 'sh', 'iy', 'dcl']

Xtrain_ao, Ytrain_ao = Xtrain.loc[Ytrain == 'ao', :], Ytrain.loc[Ytrain == 'ao']
Xtrain_aa, Ytrain_aa = Xtrain.loc[Ytrain == 'aa', :], Ytrain.loc[Ytrain == 'aa']
Xtrain_sh, Ytrain_sh = Xtrain.loc[Ytrain == 'sh', :], Ytrain.loc[Ytrain == 'sh']
Xtrain_iy, Ytrain_iy = Xtrain.loc[Ytrain == 'iy', :], Ytrain.loc[Ytrain == 'iy']
Xtrain_dcl, Ytrain_dcl = Xtrain.loc[Ytrain == 'dcl', :], Ytrain.loc[Ytrain == 'dcl']

Xtrain_phoneme = [Xtrain_ao, Xtrain_aa, Xtrain_sh, Xtrain_iy, Xtrain_dcl]

In [72]:
# 定义F统计量
def F(marker, Xtrain, Xtrain_phoneme,K = 5,  n=3340):
  
    up = 0
    down = 0
    
    for k in range(K):
        
        X_marker_bar = Xtrain.mean()[marker] # X_j这里的marker从0开始
        X_marker_k_bar = Xtrain_phoneme[k].mean()[marker] # X_jk
        X_marker_in = Xtrain_phoneme[k].iloc[:, marker] # x_ij
        
        up += len(Xtrain_phoneme[k]) * math.pow((X_marker_k_bar - X_marker_bar), 2) / (K - 1)
        down += sum((X_marker_in - X_marker_k_bar) * (X_marker_in - X_marker_k_bar)) / (n - K)
    
    F_marker = up / down
    
    return F_marker

In [81]:
# 将256个变量的F统计量存在一个数组里

F_all = np.zeros(256)
for i in range(256):
    F_all[i] = F(i, Xtrain, Xtrain_phoneme)

In [120]:
'''
    输出最大的m=7个值得索引,segment长度，h=6
    
'''
m, h = 7, 6
S = np.zeros(m)
F_temp = F_all.copy()

for i in range(m):
    S[i] = F_temp.argmax().copy()
    
    for j in range(h):
        
        if S[i] < h:
            F_temp[int(S[i]+j)] = 0
            F_temp[:int(S[i])] = 0
        elif S[i] > (len(F_temp) - h):
            F_temp[int(S[i]):] = 0
            F_temp[int(S[i]-j)] = 0
        else:
            F_temp[int(S[i]+j)] = 0
            F_temp[int(S[i]-j)] = 0
S

array([ 29.,  22.,  35.,  16.,   3.,  41., 107.])

In [140]:
features = []
for i in range(m):
    
    if S[i] < h:      
        temp = np.arange(int(S[i]+h+1)) # 索引左开右闭，加一
    elif S[i] > (len(F_temp) - h):
        temp = np.arange(int(S[i]-h),len(F_all)+1)
    else:
        temp = np.arange(int(S[i]-h),int(S[i]+h+1))
    features.append(temp)
features

[array([23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35]),
 array([16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28]),
 array([29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41]),
 array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22]),
 array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47]),
 array([101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113])]

### LDA

In [168]:
'''
    输入:
        训练集/测试集
        一个features列表【m=7,h=6】
        m和n
              
    输出:
        经过LDA压缩处理过后的3*m * n 的自变量(train or test)X_all_LDA, 和对应的标签Y
'''
def all_LDA(X,Y,features,m):
    lda = LinearDiscriminantAnalysis(n_components=3)
    X_all_LDA = np.zeros((len(X),m*3))
    for i in range(m):
        X_lda = lda.fit(X.iloc[:,features[i]], Y).transform(X.iloc[:,features[i]])
        X_all_LDA[:,i*3:(i+1)*3] = X_lda

    return X_all_LDA

Xtrain_lda = all_LDA(Xtrain,Ytrain,features,m=7)
Xtest_lda = all_LDA(Xtest, Ytest,features, m=7)

### SVM

In [185]:
# SVM
'''
    输入:经过LDA压缩处理过后的3*m * n 的自变量Xtrain_all_LDA, 和对应的标签Y
    输出：训练集和测试集的准确率
    
    未做：更换核函数
'''

X = Xtrain_lda
Y = Ytrain
clf = svm.SVC(decision_function_shape='ovo',kernel = 'rbf')
clf.fit(X, Y)
acc_train = accuracy_score(Ytrain,clf.predict(Xtrain_lda))
acc_test = accuracy_score(Ytest, clf.predict(Xtest_lda))

print(
    '训练集准确率为:%.10f'%(acc_train)
)
print(
    '测试集准确率为:%.10f'%(acc_test)
)

训练集准确率为:0.9365269461
测试集准确率为:0.3729683490


In [82]:
## LDA
# '''
#     还没有写完，应该加一段循环，每一段都各自放入LDA压成三个
#     最后再拼到一起
# '''
# X = Xtrain
# Y = Ytrain # 是要用数字

# lda = LinearDiscriminantAnalysis(n_components=3)
# Xtrain_lda = lda.fit(X, Y).transform(X)

# colors = ['navy', 'turquoise', 'darkorange','aquamarine', 'dodgerblue']

# # plt.figure()
# for color, i in zip(colors, ['ao', 'aa', 'sh', 'iy', 'dcl']):
#     plt.scatter(Xtrain_lda[y == i, 0], Xtrain_lda[y == i, 1], alpha=.8, color=color,
#                 label=i)
# plt.legend(loc='best', shadow=False, scatterpoints=1)
# plt.title('LDA of phoneme dataset')