# 其他种类的回归分析

## 离散数据的回归分析

有时,收集到的数据可能是**离散的**,这是因为:  
* 数据是以离散的方式获得的:问卷中的水平/结果  
* 研究范式只给出了离散的结果:掷骰子

此时一般需要使用**广义线性回归模型/Generalized Linear Regression**

我们在建模的时候，关心的目标变量/因变量Y可能服从**很多种分布**。像线性回归，我们会假设目标变量Y服从正态分布，而逻辑回归，则假设服从伯努利分布  
在广义线性模型的理论框架中，则假设**目标变量Y则是服从指数分布族**，正态分布和伯努利分布都属于指数分布族，因此线性回归和逻辑回归可以看作是广义线性模型的特例  

在广义线性模型的框架下:  
* **因变量不再要求连续、正态**  
* 自变量更加没有特殊的要求  
能够对正态分布、二项分布、泊松分布、Gamma分布等随机因变量进行建模

通俗来说，广义线性模型是普通线性模型的**普遍化**，如果把普通线性回归模型称为狭义线性模型，那么它就是广义线性模型中因变量服从正态分布的一个特例

**建模方法论**:  
1. 假设因变量服从某个随机分布，如正态分布、二项分布  
2. 根据上述的假设分布构建因变量的转换形式（参考下文的链接函数）  
3. 对转换后的随机变量进行线性拟合

广义线性回归/GLM的三个元素:  
1. 概率分布:指数族的概率分布  
2. 一个线性预测器:$\eta = X.\beta$  
3. 一个连接函数g:比如$E(Y) = \mu = g^{-1}(\eta)$

GLM 有三个假设：  
1. y| x;$\theta$ 满足一个以$\eta$为参数的指数分布，那么可以求得$\eta$的表达式。
2. 给定x，我们的目标是要预测T(y)的期望值，大多数情况下T(y) = y，那么我们实际上要确定一个h(x)，使得h(x)=E[y| x]  
3. $\eta=\theta Tx$(如果=θTx是向量，那么$\eta i=\theta Tix$)  

### **随机分布和指数分布族**

构建广义线性模型前，需要对因变量做必要的随机分布假设。例如逻辑回归默认了随机变量服从二项分布  
**正态分布二项分布泊松分布Gamma分布**  

指数分布族，是下面指定的某种形式的概率分布集合，选择这种特殊形式，是为了数学上的方便，  
由于它们有一些有用的代数特性及通用性，因为指数族在某种意义上是非常自然的分布集合

如上分布有一个共同的特点：**它们都可以写成一致的指数统计表达式，所以称为指数分布族**  
此外指数分布族还包括正态/指数/卡方/伯努利/泊松/负二项分布、Tweedie分布等

那什么是指数分布族呢？若一个分布的概率密度或者概率分布可以写成这个形式，那么它就属于指数分布族：
$$p(y,\eta) = b(y)exp(\eta^TT(y)-a(\eta))$$
其中:  
* $\eta$:分布的自然参数/Nature parameter  
* T(y):充分统计量/sufficient statistic,通常T(y)=y  
当参数 a、b、T 都固定的时候，就定义了一个以$\eta$为参数的函数族

在指数分布族中，随机变量的均值和方差分别为： μ=b'(θ) 和Var(y)=b''(θ)φ  
另外，指数函数具有优良的数学特性，在参数估计过程中直接使用最大似然估计求解即可（连乘取对数似然后转化为累加）

### **线性预测器和连接函数**

GLM中的线性预测器，和线性模型中的一样:  
* 一般线性模型:形如$y = X.\beta + \epsilon$的模型,其中:$\epsilon$需为正态分布  
* 广义线性模型:包括更加广泛的模型,包括指数族的所有分布和连接函数  
其中的**线性预测器**$\eta = X.\beta$仅仅为分布函数的一个元素，这给GLM带来了灵活性

线性模型拟合的是目标变量y的（条件）期望E(y)，即y所服从分布的均值，可以得到变换，其中带-1上标的表示反函数
$$E(y)=\mu=b^' (\theta) \to b^{'-1}(E(y)) = \theta$$

我们把g称为链接函数（Link Function），它一般使用g(.) 来表示

**连接函数可以是任意函数,唯一的要求是它:必须是连续且可逆的**

链接函数链接了均值和线性表达式，从而构成了统一形式的广义线性模型

Statmodel中实现了这些广义线性模型：Binomial、Gamma、Gaussian、InverseGaussian、NegativeBinomial、Poisson、Tweedie

可以看出：  
* 链接函数是线性和非线性的桥梁  
* 广义线性模型是随机变量期望变换后的线性模型或原期望的非线性模型

### 逻辑回归/Logistic Regression:GLM的特殊情况

之前接触的都是线性模型,即:  
**输入的线性变化导致对应输出的线性变化**:
$$y = k*x + d + \epsilon$$

但是对于许多应用,这种模型并不适合

例如:基于一个病人接受的麻醉量(自变量/连续数据)计算其在手术后存活的概率(因变量/离散数据)  
这个概率在两端是有界的因为其必须是0~1之间的值

为了达到此种有界的关系，一般需要使用logistic函数来包装它:
$$p(y) = \frac{1}{1+e^{\alpha+\beta y}}$$

逻辑回归的三个元素:  
1. 概率分布:确定给定试验结果(Family)  
2. 将协变量/自变量和因变量相关联的线性模型  
3. 将线性模型包起来，以产生概率分布的参数(logistic函数)的连接函数

#### ***逻辑回归的拓展:有序逻辑回归/比例概率模型***

有序逻辑回归模型专门针对:**预测有序变量,即:离散的(如分类),但可以排序(如回归)的变量**

可以看作**逻辑回归模型对于有序数据的延申**

$$p(y \leq j|X_i) = \phi(\theta_j-w^T X_i) = \frac{1}{1+exp(w^T X_i - \theta_j)}$$
其中:  
* $w和\theta$是从数据估计的向量  
* $\phi$是logistic函数,定义为$\phi(t) = \frac{1}{1+exp(-t)}$  

和**多分类logistic函数比较**

我们给所有分类都增加了一个限制:**分割不同分类的平面是平行的，也就是说w向量通常传过各个类别**  
为了决定$X_i$将会预测为哪一类,我们使用向量$\tehta$作为阈值

如果有k个不同分类，则$\theta$是一个K-1大小的非递减向量,即:$\theta_1 \leq \theta_2 \leq ... \leq \theta_{k-1}$  
如果其预测值$w^T X$在区间$[\theta_{j-1},\theta_j]$中,则将其赋值为j类

为了保持在极端分类下定义的一致性,我们定义:  
* $\theta_0 = -\infty$  
* $\theta_k = +\infty$  

直觉理解,需要寻找一个向量w,使得X.W会产生一系列的值,这些值被不同的阈值$\theta_i$分隔在不同的类别中

则最后选择logistic函数对概率$P(y \leq j| X_i)$进行建模,但也可以是其他选择

在风险比例模型中，被建模的概率是:
$$-log(1-P(y \leq j| X_i)) = exp(\theta_j-w^T X_i)$$

只要满足$link(P(y \leq j| X_i)) = \theta_j-w^T X_i$,实际其他连接函数也是可行的

在此框架下,有序logistic回归模型有一个logistic连接函数,比例模型有一个对数-对数(log-log)连接函数

有序logistic回归模型也叫做比例概率模型,因为两个不同样本$X_1 和 X_2$对应的概率的比例是$exp(w^T(X_1 - X_2))$,并且:  
其不取决于类别j,而是取决于样本$X_1和X_2$之间的差$(X_1 - X_2)$

### 优化

模型的估计可以被认为是一个优化问题,在这里需要将模型的**损失函数**最小化

损失函数为负数的对数似然值可以定义为:  
$$L(w,\theta) = -\sum^{n}_{i=1}log(\phi(\theta_{y_i} -w^T X_i) - \phi(\theta_{y_{i-1}} -w^T X_i))$$
在上述求和公式中,每一项都对w是凸函数,因此，整个损失函数对于w也是凸的

实际可以使用scipy.optimize中的fmin_slsqp，在$\theta$是单调非减向量的限制下,来对L进行优化  
scipy.optimize.fmin_slsqp接受3个参数:损失函数,梯度,当满足$\theta$不等式时函数值大于0的一个函数

通过公式:$log(\phi(t))^' = (1-\phi(t))$,可以计算出**损失函数的梯度**为：
$$\nabla_w L(w,\theta) = \sum^n_{i=1}X_i(1-\phi(\theta_{y_i} -w^T X_i) - \phi(\theta_{y_{i-1}} -w^T X_i))$$
$$\nabla_{\theta} L(w,\theta) = \sum^n_{i=1}e_{y_i}\bigg(1-\phi(\theta_{y_i} -w^T X_i)-\frac{1}{1-exp(\theta_{y_{i-1}}-\theta_{y_{i}})}\bigg)+e_{y_i - 1}\bigg(1-\phi(\theta_{y_{i-1}} -w^T X_i)-\frac{1}{1-exp(-(\theta_{y_{i-1}}-\theta_{y_{i}}))}\bigg)$$
其中:  
* $e_i$是第i个正则向量

# 贝叶斯统计学初探

当前的所有的统计学知识，大概率基于**频率学派**，  
其将**概率p**解释为**出现的频率**:如果一个实验结果有着p的概率,那意味着如果试验重复N次(其中N的取值很大)，那么我们期望观察到NxP次该结果

换句话说：**给定一个模型,我们看看找到所观察到的数据集的可能性***=

**贝叶斯学派**对概率P的解释不同:  
**P被解释为对一个特定结果可能性的信心；即:将观察到的数据固定下来,观察找到特定模型参数的可能性;概率表示的是客观上事实的可信程度，也可以说成是主观上主体对事件的信任程度，它是建立在对事件的已有认识基础上的。**

贝叶斯学派的理论，在**只发生一次且无法重复进行的事件**中更有意义,例如:  
**一次总统选举，是一个只发生一次的事件，这个事件永远不会有一个很大的N次重复**

## 贝叶斯学派与频率学派

贝叶斯方法存在其他的优势:**在计算概率p的时候,通过应用贝叶斯定理,引入了*先验知识***

其一般形式为:
$$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$$

在贝叶斯解释中:概率的测量是置信度:贝叶斯定理，将考虑一个事情之前和之后的对一个提议的置信度联系了起来

例如:  
有50%的程度，相信一个硬币正面朝上的概率，是背面朝上的2倍；  
如果硬币抛了很多次，并且观察到了结果，那么基于这个结果，置信度可能上升，下降或不变

贝叶斯学派在**看到证据的时候改变自己信念的方式**：**当事实改变了，我也改变了我的想法，那你会怎么做**

对于提议A和证据B:  
* P(A):先验概率,是对A最初的置信度  
* P(A|B):后验概率,是考虑了B之后的置信度,可被认为:在B的情况下A的概率  
* 商值P(B|A)P(B):B为A提供的支持

如果可用的数据点很多，则解释上的差异性通常不会显著改变，  
然而如果数据点很少，则引入外部知识的可能性，可能会显著提高p的估计值

简单地说，频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。频率学派从「自然」角度出发，试图直接为「事件」本身建模，即事件A在独立重复试验中发生的频率趋于极限p，那么这个极限就是该事件的概率。举例而言，想要计算抛掷一枚硬币时正面朝上的概率，我们需要不断地抛掷硬币，当抛掷次数趋向无穷时正面朝上的频率即为正面朝上的概率。

然而，贝叶斯学派并不从试图刻画「事件」本身，而从「观察者」角度出发。贝叶斯学派并不试图说「事件本身是随机的」，或者「世界的本体带有某种随机性」，这套理论根本不言说关于「世界本体」的东西，而只是从「观察者知识不完备」这一出发点开始，构造一套在贝叶斯概率论
的框架下可以对不确定知识做出推断的方法。

频率学派下说的「随机事件」在贝叶斯学派看来，并不是「事件本身具有某种客观的随机性」，而是「观察者不知道事件的结果」而已，只是「观察者」知识状态中尚未包含这一事件的结果。但是在这种情况下，观察者又试图通过已经观察到的「证据」来推断这一事件的结果，因此只能靠猜。贝叶斯概率论就想构建一套比较完备的框架用来描述最能服务于理性推断这一目的的「猜的过程」。因此，在贝叶斯框架下，同一件事情对于知情者而言就是「确定事件」，对于不知情者而言就是「随机事件」，随机性并不源于事件本身是否发生，而只是描述观察者对该事件的知识状态。

总的来说，贝叶斯概率论为人的知识（knowledge）建模来定义「概率」这个概念。频率学派试图描述的是「事物本体」，而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新。为了描述这种更新过程，贝叶斯概率论假设观察者对某事件处于某个知识状态中（例如：小明先验地相信一枚硬币是均匀的，可能是出于认为均匀硬币最常见这种信念），之后观察者开始新的观测或实验（小明开始不断地抛硬币
，发现抛了100次后，居然只有20次是正面朝上）。经过中间的独立重复试验，观察者获得了一些新的观测结果，这些新的观测将以含有不确定性的逻辑推断的方式影响观察者原有的信念（小明开始怀疑这枚硬币究竟是不是均匀的，甚至开始断定硬币并不均匀）。在这一过程中，观察者无法用简单的逻辑来推断，因为观察者并没有完全的信息作为证据，因此只能采用似真推断（plausible reasoning），对于各种各样可能的结果赋予一个「合理性」（plausibility）。例子中，小明原先认为硬币的分布是均匀的，于是根据小明原有的信念，这个论断合理性非常高；在观察到100次抛掷中只有20次正面朝上后，小明开始怀疑硬币的均匀性，此时小明很可能认为「硬币不均匀」这一推断的合理性很高，支持的证据就是他刚刚实验的观测结果。

上面的例子用贝叶斯概率论的语言来描述，就是观察者持有某个前置信念（prior belief），通过观测获得统计证据（evidence），通过满足一定条件的逻辑一致推断得出的关于该陈述的「合理性」，从而得出后置信念（posterior belief）来最好的表征观测后的知识状态（state of knowledge）。这里，贝叶斯概率推断所试图解决的核心问题就是如何构建一个满足一定条件的逻辑体系赋予特定论断一个实数所表征的论断合理性的度量（measure of plausibility），从而可以允许观测者

在不完全信息的状态下进行推断。这里，观察者对某变量的信念或知识状态就是频率学派所说的「概率分布」，也就是说，观察者的知识状态就是对被观察变量取各种值所赋予的「合理性」的分布。

从这个意义上来讲，贝叶斯概率论试图构建的是知识状态的表征，而不是客观世界的表征。因此，在机器学习、统计推断
中，许多情况下贝叶斯概率推断更能解决观察者推断的问题，而绕开了关于事件本体的讨论，因为没有讨论本体的必要性。

贝叶斯概率仍然只是一个实数，而概率分布是推断者根据自己的知识状态赋予参数在某集合内取各个值的可信度，因此概率分布表征了推断者的知识状态。 例如：一个硬币可能取正面或反面，某推断者的知识状态是对于「下一次会得到正面」赋予1／3的可信度（概率），「下一次得到反面」赋予2／3的可信度（概率），总的这个知识状态才是表证这个推断者的概率分布，这边是一个先验分布

贝叶斯学派和频率学派的最大区别并不在于信息的利用和整合上。虽然贝叶斯方法可以用先验分布来引入以往的信息，但是频率学派也有方法来整合各种domain knowledge，比如在最优化likelihood的时候加入各种constrain。以麻将为例，频率学派的人同样可以把每个人的信息加入的模型中进而找出最有策略，这也是“统计决策”（Statistical decision theory）领域里早期大牛们的做法（虽然他们的定理证明了所有可能的决策选择中最佳的决策就是贝叶斯后验的Mode）。从这个意义上来说两者其实差别并不大。

频率学派和贝叶斯学派最大的差别其实产生于对参数空间的认知上。所谓参数空间，就是你关心的那个参数可能的取值范围。频率学派（其实就是当年的Fisher）并不关心参数空间的所有细节，他们相信数据都是在这个空间里的”某个“参数值下产生的（虽然你不知道那个值是啥），所以他们的方法论一开始就是从“哪个值最有可能是真实值”这个角度出发的。

于是就有了最大似然（maximum likelihood）以及置信区间（confidence interval）这样的东西，你从名字就可以看出来他们关心的就是我有多大把握去圈出那个唯一的真实参数。而贝叶斯学派恰恰相反，他们关心参数空间里的每一个值，因为他们觉得我们又没有上帝视角，怎么可能知道哪个值是真的呢？所以参数空间里的每个值都有可能是真实模型使用的值，区别只是概率不同而已。于是他们才会引入先验分布（prior distribution）和后验分布（posterior distribution）这样的概念来设法找出参数空间上的每个值的概率。最好诠释这种差别的例子就是想象如果你的后验分布是双峰的，频率学派的方法会去选这两个峰当中较高的那一个对应的值作为他们的最好猜测，而贝叶斯学派则会同时报告这两个值，并给出对应的概率。

如果从概率的角度看，贝叶斯学派的想法其实更为自然，这也是为什么贝叶斯学派的产生远早于频率学派（去年是贝叶斯250周年）。但是贝叶斯方法本身有很多问题，比如当先验选的不好或者模型不好的时候你后验分布的具体形式可能都写不出来，跟别说做统计推断了。在当年电子计算机还没发展出来的时候，对这些情况做分析几乎是不可能的，这也就大大限制了贝叶斯方法的发展。而频率学派主要使用最优化的方法，在很多时候处理起来要方便很多。所以在频率学派产生后就快速地占领了整个统计领域。直到上世纪90年代依靠电子计算机的迅速发展，以及抽样算法的进步（Metropolis-hastings, Gibbs sampling）使得对于任何模型任何先验分布都可以有效地求出后验分布，贝叶斯学派才重新回到人们的视线当中。就现在而言，贝叶斯学派日益受到重视当然是有诸多原因的，所以这并不意味这频率学派就不好或者不对。两个学派除了在参数空间的认知上有区别以外，方法论上都是互相借鉴也可以相互转化的。当代学术领域批评的最多的仅仅是频率学派里的Hypothesis testing的问题，尤其是对于p-value的误用造成了很多问题，最近有一个心理学杂志BASP也已经禁用了Hypothesis testing （Psychology journal bans P values : Nature News & Comment）。 不过这只是Hypothesis testing这种研究方法

本身的问题（testing是Fisher自己脑补出来的方法，confidence interval是Neyman提出来相对应的方法）。对应于Hypothesis testing，贝叶斯学派有自己的一套方法称为Bayes factor。虽然Bayes factor本身比p-value要合理很多（个人见解），但是我并不觉得单靠Bayes factor的方法就可以有效解决当下p-value滥用导致的问题，因为Bayes factor同样可以导致Multiple comparisons problem

核心思想:  
* 频率学派相信概率是一个确定的值，讨论概率的分布没有意义。虽然没有上帝视角，还不知道具体的概率值，但相信概率就是确定的，它就在那里。而数据是由这个确定的概率产生的，因此数据是随机的  
* 贝叶斯认为待估计值的概率是随机的变量，而用来估计的数据反过来是确定的常数，讨论观测数据的概率分布才是没有意义的  

## 贝叶斯案例

假设有个男人告诉你，他在火车上和一个人聊得来

在不知道这段对话的任何信息的情况下，他和一个女性聊天的概率为50%，即这个人和男性/女性对话的可能性相同

现在假设他告诉你：和他聊天的人有着长发，则**贝叶斯定理可以用来计算对方为女性的概率**

过程:

使用:  
* w:代表和女性聊天的事件  
* L:代表和长发的人聊天的事件

可以假定，在此事件中:  
* 女性占总体的一半  

故,在不知道其他信息的情况下:  
* w发生的概率为:p(w) = 0.5  

假设:  
* 75%的女性留有长发,表示为:P(L|w)=75%,  
  即:在w事件发生的条件下L事件的概率为0.75  
  意思是:我们已经知道一个人是女性(w事件)的情况下,该人有长发(L事件)的概率  
* 15%的男性有长发:P(L|M) = 0.15,其中:  
  * M事件是w事件的补集,即:和男性聊天的事件(假定每个人,不是男性就是女性)

目标:计算当一个人有长发时,为女性的概率,即:P(W|L)

基于朴素贝叶斯定理,得到:
$$P(W|L) = \frac{P(L|W)P(W)}{P(L)} = \frac{P(L|W)P(W)}{P(L|W)P(W)+P(L|M)P(M)}$$
其中使用了**全概率法则**P(L)

将上述数据带入可得:
$$P(W|L) = \frac{P(L|W)P(W)}{P(L|W)P(W)+P(L|M)P(M)} = \frac{0.75*0.50}{0.75*0.50+0.15*0.50} = \frac{5}{6} \approx 0.83$$
即:当和我们聊天的人有长发时，其为女性的概率为83%

另一种计算方法:  

* 最开始,聊天对象为男/女的可能性是相同的,所以其**先验比**为1:1  
* 男性和女性有长发的概率为15%和75%,女性有长发的概率是男性的5倍,故似然比/贝叶斯因子是5:1  

**概率形式的贝叶斯定理，被称为贝叶斯法则**

告诉这个人为女性的后验概率为5:1(先验概率1:1乘以似然比5:1),公式如下:
$$\frac{P(W|L)}{P(M|L)} = \frac{P(W)}{P(M)}*\frac{P(L|W)}{P(L|M)}$$

## 现代的贝叶斯方法

在计算机时代，贝叶斯方法的优点在于:**可以使用大量廉价的计算能力，这允许对每一个证据进行一次一次的后验概率的经验计算**  
通过结合类似**马尔科夫链**和**蒙特卡洛模拟/MCMC**等统计方法,形成了全新的统计分析程序



# 生存分析

生存分析基本概念在医学或者公共卫生研究中，慢性疾病的发生、发展、预后一般不适用于治愈率、病死率等指标来考核，因为其无法在短时间内明确判断预后情况，为此，只能对患者进行长期随访，统计一定时期后的生存或死亡情况以判断诊疗效果；这样的研究往往会产生带有结局的生存时间资料，英文是time-to-event资料。在分析方法上，需要采用生存分析方法。

## 生存分析定义

对“生存”两字，不能顾名思义。生存数据不仅仅指的是生命是生、是死的数据；广义而言，生存结局指的是研究对象是否出现我们研究者感兴趣的阳性终点事件；更广泛来说，生存结局是某一现象是否出现失效（failure）事件。

比如说：

研究某病治疗后的复发情况，复发就是“死亡”，未复发就是“生存”。复发是终点事件，这里生存分析主要研究“复发”有关的医学规律。  
研究戒烟后复吸的因素，复吸就是“死亡”，未复吸就是“生存”。复吸是终点事件，这里生存分析主要研究“复吸”有关的医学规律不仅医学，各个学科都有生存数据的影子，比如:研究工作后升迁的因素有哪些，升迁就是“死亡”，未升迁就是“生存”。  
工业生产中，也需要分析一种仪器设备的生存情况，比如:一个零部件如果出现破损，即为“死亡”，否则为生存。企业管理者可能感兴趣，为什么有些零部件会“死亡”呢？

所以学习生存分析，首先要理解生存分析的终点事件，往往不是死亡！不要被“生存”两字所迷惑

案例一：
为了研究什么因素会影响直肠癌患者生存时间。会收集患者的资料。例如有年龄、性别、婚姻状态、TMN分期、T分期、肿瘤直径、肿瘤分化程度、治疗手段等。还有会收集患者在一定时间内发生死亡事件的时间，即生存时间。采用Kaplan–Meier 曲线单变量进行分析，那个因素是影响直肠癌患者的生存时间，或者采用Cox 比例风险回归进行多因素分析。并对新患有直肠癌患者进行生存时间预测。

案例二：为了对某种抗癌药物做临床试验，将癌症患者随机分成两组，一组服用该抗癌药物，另一组服用对照药。并记录两组患者开始服药直到死亡的生存时间。并分析两组中死亡事件发生与时间关系是否存在差异，来判断药物是否有效。

通过两个案例可以看出生存分析就是研究在不同条件下，事件发生与时间的关系 ，不仅考虑事件是否出现，还有考虑事件出现的时间长短。

**生存数据的分析主要是比较不同的处理方法以及各种因素（变化）对生存函数的影响，而不是单纯的寻找拟合的模型**

## 生存数据的组成

生存数据可不仅仅是生存或者死亡、复发/不复发、阴性/阳性等这一二分类结局，它其实包括了2个结局指标，是否出现终点事件和所经历的生存时间。它所包含的关于结局的信息量远高于单一研究结局。

比如说，有临床医生开展新冠肺炎中西医结合资料临床试验，分别比较中西医结合和西医组治疗新冠肺炎的疗效。中西医结合在患者接受治疗后的2个月内，治愈率是98%，西医组治愈率是95%，这里的**阳性事件是治愈**，两个指标阳性率非常接近，在统计学上应该无统计学差异  
又比如，分析两种临床药物治疗晚期肝癌的有效率，发现两种药治疗后2年内肝癌死亡率分别是92.2%，96.5%，也没有统计学差异。很不幸，这是两个**失败的临床案例**。两种治疗方案与对照组相比，效果看起来无差别。

中西医结合和西医来的旗鼓相当吗？也不见得。可能两组人群**治愈的速度不同**。比如，中西医结合100个人基本1个月内全部治愈，而西医需要一个半月，虽然2个月后治愈率相差无几，但很明显可以看出，中西医结合和中医治疗效果不一致。那为什么得不到差异性结果呢？一般情况下，两组率的比较，可以采用卡方检验，但是只针对**二分类结局（2组率）的比较**，有些时候能得到信息量实在太少了。  
为了评价中西医结合和西医的效果差异性，我们可以把生存现象视为一场“速度与激情”的健康追逐赛。或者说，评价**哪一组“死”的更快**（这里的是指的是阳性事件或失效事件）。

如同激烈赛车一般，随时因为各种原因退出赛道，甚至车毁人亡。显然，如果你越早出现故障原因，退出赛道，那么你完成的赛车里程越短。人生也是一场健康的赛车大赛。“阳性事件”出现地越快，里程越短。对于治疗新冠肺炎的疗效来说，治愈速度越快，里程约短，疗效越好；对于肝癌死亡风险来说，则是里程越长，生存时间越长，他们死得越慢。死亡风险越低。刺激的人生啊~~~~因此，生存分析中，首先非常重要的数据就是**反映里程的生存时间，即从观察期到阳性事件的出现，其阴性状态所持续的时间**。“治愈”是我们所关心的阳性结局，那么病人接受治疗到治愈的一段时间是新冠肺炎中西医结合资料临床试验的生存时间。

## 生存分析的目的与方法

针对生存数据，**核心目标便是评价一个群体的“死亡速度”，具体比较的是生存时间长短**；

生存分析的主要目的  
* 估计研究对象的生存率  
* 比较2不同组(影响因素)的生存率  
* 分析影响研究对象生存期长短的因素有哪些和贡献度  

此外，我们还可以分析**由“死亡速度”产生的另外一个里程概念，“死亡”率或者“生存”率**。（再次提醒，这里的生存与死亡不是狭义上的概念，而是是否出现阳性事件）

“死亡”率或者“生存”率很容易理解，一个群体在规定时间内，“死亡速度”越快，则“死亡”率越高或者“生存”率越低，同时，该生存时间越短。因此，死亡速度、死亡率、生存时间是一事三表，以不同方式展现了研究对象生存状况

**生存分析的主要目的就是研究与分析死亡速度、生存率（死亡率）、生存时间**

比如，有10名肝癌患者，三年内，第一年死亡4人，第二年死亡3人，第三年死亡1人。我们便可以计算年死亡速度，第一年死亡速度是40%（4/10），第二年为50.0%（3/6），第三年为33.3%（1/3）；三年累计死亡率是80%，生存率为20%。当然也可以计算10名患者总的生存时间

死亡速度的计算死亡速度：t时刻存活的个体在t时刻的瞬时死亡率。(仔细品品，这一概念不是有速度的味道）

具体可以用以下函数来表达：
$$h(t) = lim_{\Delta t \to 0}\frac{P(t \leq T + \Delta t|T \geq t)}{\Delta t}$$
在专业上，我们把它称之为风险h(t)，上述公式称之为风险函数（hazard function）

## 生存分析的基本术语

* Event（事件）：在癌症研究中，事件可以是Relapse，Progression以及Death
* Survival time（生存时间）：一般指某个事件的开始到终止这段事件，如癌症研究中的疾病确诊到缓解或者死亡，其中有几个比较重要的肿瘤临床试验终点：  
    * OS（overall survival）：指从开始到任意原因死亡的时间，我们一般见到的5年生存率、10年生存率都是基于OS的总生存期（Overall survival，OS）指的是从病人确认患有疾病开始至因任何原因引起死亡的时间。该指标常常被认为是肿瘤临床试验中最佳的疗效终点。确认病人因病或其他因素引起死亡的日期通常几乎没有困难，并且死亡的时间有其独立的因果关系。如果在生存期上有小幅度的提高，可以认为是有意义的临床受益证据。作为一个终点，生存期应每天进行评价，可通过在住院就诊时或随访时，通过与患者直接接触或者通过电话与患者交谈来确认并进行相关记录，了解病人患病期间的生活质量和用药后各种症状的变化，了解并分析引起病人的死因  
    * progression-free survival（PFS，无进展生存期）：指从开始到肿瘤发生任意进展或者发生死亡的时间；PFS相比OS包含了恶化这个概念，可用于评估一些治疗的临床效益  
      所谓无病进展生存期（Progression-Free Survival，PFS）通常定义为病人经过治疗，随机选择某个时间直到肿瘤复发或因各种原因出现死亡，病人总的生存时间。PFS的优点在于它能反映肿瘤的生长（这个现象可能反映了肿瘤相关疾病或死亡的因果联系），可以于生存获益证实前被评价，不会受到后续治疗的潜在的易混淆的指标或症状影响。而且PFS的结果比生存期结果出现得更早，治疗过程中，病人一旦出现了症状，肿瘤复发了，过了无病进展生存期就要采取其他积极治疗手段，从而进一步改善患者的症状，延长生存时间。PFS作为支持药品上市许可的终点指标角色随不同肿瘤而变化。在一些情况下，PFS延长可能是一个支持药品常规批准的可接受的临床获益替代终点指标，在其它情况下，它可能作为加快通过的反映临床获益的替代指标。需重点考虑的是治疗效应大小、治疗中的毒性方面、临床获益以及可利用治疗的毒性。
    * time to progress（TTP，疾病进展时间）：从开始到肿瘤发生任意进展或者进展前死亡的时间；TTP相比PFS只包含了肿瘤的恶化，不包含死亡  
    * disease-free survival（DFS，无病生存期）：指从开始到肿瘤复发或者任何原因死亡的时间；常用于根治性手术治疗或放疗后的辅助治疗，如乳腺癌术后内分泌疗法等：  
    * event free survival（EFS，无事件生存期）：指从开始到发生任何事件的时间，这里的事件包括肿瘤进展，死亡，治疗方案的改变，致死副作用等（主要用于病程较长的恶性肿瘤、或该实验方案危险性高等情况下）  
    * 中位生存期（Median Survival Time，MST）又称半数生存期，即当累积生存率为50%时所对应的生存时间，表示有且只有50%的生病个体可以活过这个时间。通俗地讲，就是指病人经过某种药物或治疗手段治疗时，只剩下一半（50%）的病人的生存时间。如果有9个病人（奇数），按生存期从短到长排列，第5个病人的生存时间就是中位生存时间；如果有10个病人（偶数），按生存期从短到长排列，第5、6个病人的生存时间就是中位生存时间  

* Censoring（删失）：这经常会在临床资料中看到，生存分析中也有其对应的参数，一般指不是由死亡引起的的数据丢失，可能是失访，可能是非正常原因退出，可能是时间终止而事件未发等等，一般在展示时以‘+’号显示
    – left censored（左删失）：只知道实际生存时间小于观察到的生存时间  
    – right censored（右删失）：只知道实际生存时间大于观察到的生存时间  
    – interval censored（区间删失）：只知道实际生存时间在某个时间区间范围内  
* 失效事件（Failure Event）：常被简称为事件，研究者规定的终点结局，医学研究中可以是患者死亡，也可以是疾病的发生、某种治疗的反应、疾病的复发等。与之对应的起始事件可以是疾病的确诊、某种治疗的开始等  
* 生存时间（Survival Time）：常用t表示，从规定的起始事件开始到失效事件出现所持续的时间。对于失访者，是失访前最后一次随访的时间  
* 删失/截尾（Censoring）：由于某些原因在随访中并没有观测到失效事件而不知道确切的生存时间，此部分数据即删失数据。常见原因有失访、患者退出试验、事件发生是由于非研究性疾病（如研究病人发生脑卒中后的生存时间，结果病人因为车祸死亡）、研究结束时研究对象仍未发生失效事件。删失数据的生存时间为起始事件到截尾点所经历的时间  
* 生存函数（Survival Function）与风险函数（Hazard Function）：生存函数也称为积累生存函数/概率（Cumulative Survival Function）或生存率，符号S(t)，表示观察对象生存时间越过时间点t的概率，t=0时生存函数取值为1，随时间延长生存函数逐渐减小。以生存时间为横轴、生存函数为纵轴连成的曲线即为生存曲线。风险函数表示生存时间达到t后瞬时发生失效事件的概率，用h(t)表示，h(t)=f(t)/S(t)。其中f(t)为概率密度函数（Probability Density Function），f(t)是F(t)的导数。F(t)为积累分布函数（Cumulative Distribution Function），F(t)=1-S(t)，表示生存时间未超过时间点t的概率。累积风险函数H(t)=-logS(t)。本人数学很差，概率密度和积累分布的关系类似于速度与位移的关系。
* 中位生存时间（Median Survival Time）/平均生存时间（Mean Survival Time）：中位生存时间又称半数生存期，表示恰好一半个体未发生失效事件的时间，生存曲线上纵轴50%对应的时间。平均生存时间则表示生存曲线下的面积。

我们前面了解到生存分析需要计算生存率，而生存率（survival rate）则可以看作条件生存概率（conditional probability of survival）的累积，比如三年生存率则是第1-3年每年存活概率的乘积.

生存率又叫生存概率或者生存函数，表示一个病人的生存时间长于时间t的概率，用s(t)表示，s(t)=P(T≥t)，生存率曲线是一条下降的曲线；

## 生存率的计算

生存率（survival rate）：0 时刻存活的个体经历 t 时后仍存活的可能性，简写为S（t）。生存率根据死亡速度计算得到，这一概念的原理性和计算方式在这里就不再叙述（否则诸位真的看不懂生存分析了）。这一指标，临床上用的非常多，比如我们经常计算肺癌患者3年生存率、10年生存率；乳腺癌患者5年复发率等。研究者可以根据研究对象的生存结局出现的速度，来计算生存率。

## 生存时间的计算

生存时间的计算，最常见的采用中位生存时间

来描述。中位生存时间（median survival time）：也称半数生存期，是生存时间中位数，表示恰有50%的个体存活的时间，即生存率为50％时对应的生存时间，是描述集中趋势的指标。中位生存期越长，表示疾病的预后越好。

一般来说，一个群体的死亡速度一般都随时间的变化而变化。一般早期h（t）值较高，晚期较低。因此早期死亡率高，由此造成研究对象生存时间往往都是偏态分布，是正偏态分布。

具体来说，根据研究目的，生存分析的研究内容可以分为以下4点：  
* 描述生存过程，计算生存时间、计算生存率（或者死亡率）、计算死亡速度  
* 比较生存过程，比较生存时间、比较生存率（或者死亡率）、比较死亡速度  
* 探讨影响生存时间（生存速度）的影响因素  
* 预测生存概率

## 生存分析的方法

一般可以分为三类：  
1. 参数法：知道生存时间的分布模型，然后根据数据来估计模型参数，最后以分布模型来计算生存率,参数法是求出一个函数来表示是s(t)和t的关系  
2. 非参数法：不需要生存时间分布，根据样本统计量来估计生存率，常见方法Kaplan-Meier法（乘积极限法）、寿命法,参数法是求出几个时间点的生存率，然后再用直线连接起来，画出的生存曲线是呈阶梯型的；  
3. 半参数法：也不需要生存时间的分布，但最终是通过模型来评估影响生存率的因素，最为常见的是Cox回归模型,而生存曲线（survival curve）则是将每个时间点的生存率连接在一起的曲线，一般随访时间为X轴，生存率为Y轴；曲线平滑则说明高生存率，反之则低生存率；中位生存率（median survival time）越长，则说明预后较好  

不同的生存分析内容，有不同的统计分析策略：

1. 描述生存过程方面，一般采用经典的**寿命表**法或者**Kaplan-Meier法**来计算生存率、计算中位生存时间、并且用生存曲线的方式来描述生存过程  
2. 比较生存过程方面，一般采用logRank或者广义秩和检验的方法开展生产时间资料分布的组间差异性  
3. 探讨影响生存时间（生存速度）的影响因素、预测生存概率方面，最常用也是最经典的便是Cox回归分析  

几种方法中:  
* logRank和广义秩和检验的方法是属于基础统计学方法领域新的方法，和t检验、F检验、卡方检验地位相同，主要探讨差异性或者简单关联性  * Cox回归和线性回归、Logistic回归地位相同，主要可以用于开展多因素的回归分析

基础统计学方法和高级统计学方法往往紧密合作，在生存分析领域，logRank方法和Cox方法也往往成双成对地出现

生存分析的主要方法:  
1. 寿命表法和Kaplan-Meier法（属于统计描述)  
2. Log-rank检验（属于统计推断)  
3. Cox比例风险回归模型（属于统计推断)  

【1】寿命表和KM法，都属于非参数法，都是用来对生存数据进行统计描述，例如估计各个时间段的生存函数并绘制生存曲线。寿命法多用于，样本庞大，随访时间跨间较大的数据，例如间隔1年才对研究对象随访一次，KM法和寿命法计算生存函数都是用到乘积极限法，但在实际情况中，寿命表分析不是太常用，多用KM法进行分析。KM法可以计算中位生存时间，对数据进行分组分别绘制生存曲线进行单因素分析（单因素分析只能对分类变量进行分析，如果对连续变量分析，需要对连续变量进行分组，变成分类)。

【2】Log-rank检验，属于非参数检验，用于比较两组或多组生存曲线或生存时间是否相同，可以比较KM法中分组后绘制生存曲线。

【3】Cox比例风险回归模型 ，属于半参数法，可以估计生存函数，可以比较两组或多组生存函数，可以单因素分析也可以多因素分析，单因素分析包括分类变量和连续变量，可以建立生存时间与影响因素之间的关系模型，计算影响因素的分险比。注意Cox回归要求满足比例风险假定，就是影响因素是不随时间变化而变化

### 删失和Kaplan-Meier生存曲线

删失,指的是**在统计学中,只知道部分测量值**的情况

在使用数据进行**生存分析**时,在试验结束后可能存在相当的群体/试验单位依旧“存活”,  
而针对这些试验单位,如果想**估计总体的平均生存时间**，则应把**删失**的数据一并囊括进去,  
否则**平均生存时间**将会被大大低估

故:**当对象最终*死亡*时,生存曲线才会改变**,  
删失的条目,描述的:  
* 要么是一个对象推出了研究  
* 要么是研究结束了

而**删失的条目最终会被计入失败的次数,单不应影响生存曲线**

例如:研究针对某个Youtuber账号的订阅时间，在试验结束后,相当的观察对象依旧订阅了作者,  
如果估计平均订阅时间,则需要囊括这些**直到试验结束仍旧订阅的对象**，否则该时间将会被低估

为了处理上述问题，Kaplan-Meier生存曲线被发明

首先,时间被细分为多个小时期,然后计算一个对象在某一个特定时期内的存活可能性

生存概率由以下算式得到:
$$p_k = p_{k-1} x \frac{r_k-f_k}{r_k}$$
其中:  
* $p_k$:生存期间k的概率  
* $r_k$:恰好在k天之后仍然有风险的对象数量(即:还在随访的)  
* $f_k$:在第k天观察到的失败对象个数

描述**结果的生存概率的曲线**被叫做**生存曲线或Kaplan-Meier生存曲线**

可以使用python的 matplotlib包绘制

## 生存分析的应用场合

在当今医学领域，无论在临床领域、还是公共卫生领域、甚至是针对动物的实验研究，都可能用到生存分析。原因在于:目前随访性研究越来越多，公共卫生领域喜欢开展大型随访性队列研究，而临床领域，也喜欢开展患者预后分析，也需要随访。

总的来说，生存分析主要用在两种研究设计类型的数据分析中：实验性研究和队列研究。

实验性研究是随访性研究，研究者可以通过比较实验组和对照组在**生存率、中位生存时间方面是否存在着统计学差异**，来探讨干预措施对患者临床结局的改善作用。目前大型临床试验，将近1/3采用的统计学方法是生存分析方法。

队列研究，研究者可以通过比较**暴露组和对照组在生存率、中位生存时间方面是否存在着统计学差异**。队列研究可以用于**临床研究评价治疗措施疗效，也可以用于公共卫生开展病因学的研究**。  
由于队列研究不如实验性研究，在患者控制上往往心有余而力不足，所以缺失现象非常严重，缺失的数据，一般的统计学方法很难应付，但是生存分析可以解决，因此基本上大型队列研究，生存分析是主要的方法

### 生存分析的三个研究内容：

* 生存描述-描述不同时间的总体生存率，计算中位生存时间，绘制生存函数曲线，一般用Kaplan-Meier方法和寿命表法  
* 生存曲线比较-比较不同处理组的生存率，一般用logrank检验  
* 生存相关因素的分析：回归模型；由于logrank检验仅能分析一个因素，因此两个或者两个以上因素的分析需要使用Cox比例风险模型  

### 生存分析使用的方法：

* Kaplan-Meier plots to visualize survival curves（根据生存时间分布，估计生存率以及中位生存时间，以生存曲线方式展示，从而分析生存特征，一般用Kaplan-Meier法，还有寿命法）  
* Log-rank test to compare the survival curves of two or more groups（通过比较两组或者多组之间的的生存曲线，检验两组数据来自同一个潜在总体的概率，一般是生存率及其标准误，从而研究之间的差异，一般用log rank检验）  
* Cox proportional hazards regression to describe the effect of variables on survival（用Cox风险比例模型来分析多个变量对生存的影响，可以两个及两个以上的因素，很常用）  

所以一般做生存分析，可以用KM（Kaplan-Meier）方法估计生存率，做生存曲线，然后可以根据分组检验一下多组间生存曲线是否有显著的差异，最后用Cox风险比例模型来研究下某个因素对生存的影响

## 生存分析的数据

生存分析的数据和**分类数据有点类似**。但是生存分析**多了一列关于时间数据，这列时间数据是从特定事件发生了，记录整个观察期间研究对象多久才发生失效事件**(例如死亡事件）  
生存分析就是研究生存时间和结局与众多影响因素间的关系

例如下面表格记录了6位癌症患者在2年观测期间中的存活时间和感兴趣的影响因素。这里的失效事件是死亡事件，是我们关心的。  
生存时间对应表格的生存时间。研究的影响因素有：年龄、性别、是否吸烟、肿瘤大小。

在表格中有个患者生存时间只有21个月，结局却是存活，可能由于是患者中途退出观察或者换了电话号码，不能联系患者，无法继续进行研究，这种数据属于删失数据，可见在现实生活中生存分析数据通常会含有删失数据  
再例如在表格中有个患者生存时间是19个月，结局是死亡，这种数据属于完整数据。不过这些删失数据在进行生存分析时，也是会一起进行分析

|年龄|性别|是否吸烟|肿瘤大小(mm)|生存时间(月)|事件|
|:---|:---|:---|:---|:---|:---|
|55|男|是|17|23|存活|
|65|女|是|20|24|存活|
|36|女|否|16|19|死亡|
|38|男|是|25|21|存活|
|69|男|否|16|23|存活|
|70|男|否|28|20|死亡|

## 完整的生存分析流程

从Time-Dependent 生存模型分析用户流失来看一个完整的生存分析可归纳为：

1. 原始数据格式处理：把数据处理为用户、生存时长、是否删失的数据格式  
2. KM估计及生存曲线的绘制  
3. 判断协变量是否存在时变变量，如果有，进行数据格式的二次处理，将数据打断为用户、起始时间、结束时间、是否删失的格式  
4. 判断协变量系数是否存在时变效果，即著名的PH假设检验。如果检验不通过，对时变效果进行绘制，并基于绘制结果进行数据分层（stratify）  
5. 建立Extended Cox PH Model，对风险因子进行影响估计  

## 生存分辨

一般情况下,weibull分布/Frechet分布,通常用于**可靠性/生存性数据**的建模