# 第十章 广义线性回归模型

## 10.1 广义线性回归模型的简介

* 若因变量不是数值型变量而是分类变量，如何构建回归模型？
* 当自变量数量较少（1-2个）时，可以通过描述统计、列联表分析、卡方拟合优度检验等来分析因变量和自变量之间的关系，而当变量比较多时，如何构建回归模型？

当出现上述两种情况时，我们需要采用广义回归模型。广义回归指的是：因变量与自变量的通用回归模型。The term general linear model (GLM) usually refers to conventional linear regression models for a continuous response variable given continuous and/or categorical predictors.

Eberly College of Science<br>
当我们介绍被称为广义线性模型的一类模型时，我们应该澄清一些关于术语的潜在误解。术语 “广义”线性模型（GLM）通常是指在给定连续和/或分类预测因素的情况下，对连续响应变量的传统线性回归模型。它包括多元线性回归，以及ANOVA和ANCOVA（仅有固定效应）。该形式是$y_i～N(x_i^T\beta,\sigma^2)$,$x_i$包含已知协变量的地方，$\beta$包含要估计的系数。这些模型通过最小二乘法和加权最小二乘法进行拟合，例如，使用SAS的GLM程序或R的lm()函数。<p>
术语 “广义”线性模型（GLIM或GLM）是指由McCullagh和Nelder（1982年，1989年第二版）推广的较大一类模型。在这些模型中，响应变量$y_i$被假定为遵循指数族分布，其平均值$\mu_i$ ，被假定为某种（通常是非线性）的函数$x_i^T\beta$。 有些人将这些模型称为 "非线性"，因为$\mu_i$通常是协变量的非线性函数，但McCullagh和Nelder认为它们是线性的，因为协变量只通过线性组合$x_i^T\beta$影响$y_i$分布。<p>
第一个广泛使用的用于拟合这些模型的软件包被称为GLIM。因为这个程序，"GLIM "成为广义线性模型的一个公认的缩写，而 "GLM "则经常被用于广义线性模型。今天，GLIMs被许多软件包所适合，包括SAS的Genmod程序和R的glm()函数。不幸的是，不同的作者和文本可能用GLM来表示“一般”或 “广义”线性模型，所以最好是根据上下文来确定哪个是指的是什么。在本书中，我们倾向于使用GLM来表示 “广义”线性模型。<p>

而广义线性回归需要具备三个要素：<br>
* 随机部分：指因变量的概率分布(Y)，也称为噪音或误差模型。随机误差如何通过连接函数增加到预测结果中?<br>
线性回归中Y服从正态分布<br>
Logistic回归中的Y服从二项分布<br>
* 系统部分：由模型中的自变量($X_1$,$X_2$,…,$X_k$)解释的部分。在模型中，由自变量的线性组合来解释的部分，如线性回归或logistic回归中：
$$\beta_0 +\sum_{j=1}^k \beta_j X_j$$
* 连接函数，用$\eta$或$g(\mu)$来表示。指连接随机部分和系统部分之间的函数。它把响应变量的期望与自变量的线性组合联系在一起<br>
线性回归：$$\eta=g((E(Y_i))=E(Y_i)$$<br> 
Logistic回归：$$\eta=g((E(Y_i))=logit(\pi_i)$$<br>

假设前提<br>
* 数据$Y_1$,$Y_2$,…,$Y_n$是独立分布的，也就是说，案例是独立的。
* 因变量$Y_i$不需要是正态分布，但它通常假定是指数族的分布（如二项、泊松、多项、正态等）。
* GLM不假设响应变量和解释变量之间存在线性关系，但它确实假设在联系函数和解释变量方面转换后的预期响应之间存在线性关系；例如，对于二元逻辑回归而言$logit(\pi_i)=\beta_0+\beta_1x$
* 解释变量可以是一些原始变量的非线性转换。
* 方差的同质性不需要得到满足。事实上，在许多情况下，考虑到模型结构，这甚至是不可能的。
* 误差需要是独立的，但不是正态分布。
* 参数估计使用最大似然估计（MLE），而不是普通最小二乘法（OLS）。

| Model | Random | Link | Systematic |   
| --- | --- | --- | --- |
| Linear Regression | Normal | Identity | Continuous | 
| ANOVA |  Normal | Identity | Categorical |
| ANCOVA | Normal | Identity | Mixed |
| Logistic Regression | Binomial | Logit | Mixed |
| Loglinear | Poisson | Log | Categorical |
| Poisson Regression | Poisson | Log | Mixed |
| Multinomial response | Multinomial | Generalized Logit | Mixed |

与传统（OLS）回归相比，GLMs的优势总结<br>
* 我们不需要将响应转换为正态分布。
* 链接的选择与随机成分的选择是分开的，使我们在建模时有更大的灵活性。
* 这些模型通过最大似然估计进行拟合，因此似然函数和参数估计受益于渐进正态分布和齐次分布。
* 我们将讨论的用于逻辑和泊松回归模型的所有推理工具和模型检查也适用于其他GLMs；例如，Wald和Likelihood比率测试、偏差、残差、置信区间和过度分散。
* 在一个软件包中通常有一个程序来捕获上述所有模型，例如SAS中的PROC GENMOD或R中的glm()等，并有选项来改变这三个部分。

接下来，我们来介绍一下本章主要使用的库：statsmodels<p>
* 线性回归<br>
具有独立和相同分布误差的线性模型，以及具有异方差或自相关的误差。该模块允许通过普通最小二乘法（OLS）、加权最小二乘法（WLS）、广义最小二乘法（GLS）和具有自相关AR（p）误差的可行广义最小二乘法进行估计。<br>

In [None]:
# Load modules and data
In [1]: import numpy as np

In [2]: import statsmodels.api as sm

In [3]: spector_data = sm.datasets.spector.load()

In [4]: spector_data.exog = sm.add_constant(spector_data.exog, prepend=False)

# Fit and summarize OLS model
In [5]: mod = sm.OLS(spector_data.endog, spector_data.exog)

In [6]: res = mod.fit()

In [7]: print(res.summary())

数学变量与代码的对应关系。
* $Y$和$y$被编码为endog，想要建模的变量
* $x$编码为exog，协变量别名解释变量
* $\beta$编码为params，即希望估计的参数。
* $\mu$编码为mu，希望估计的参数的期望值$Y$（有条件的$x$）。
* $g$被编码为link的参数。
* $\phi$编码为scale，EDM的分散参数。
* $\omega$目前还不支持（即$\omega=1$)，将来可能是var_weights
* $p$编码为var_power，表示方差函数$v(\mu)$的幂。

以下是对属性的更详细的描述，这些属性在所有回归类中是通用的。
* pinv_wexog:array<br>
白化设计矩阵的$p\times n$ Moore-Penrose伪逆值。它大约等于$(X^T\Sigma^{-1}X)^{-1}X^T\Psi$，$\psi$其中的定义是$\Psi\Psi^T=\Sigma^{-1}$。
* cholsimgainv:array<br>
$n\times n$的上三角矩阵$\psi^T$满足$\Psi\Psi^T=\Sigma^{-1}$。
* df_model:float<br>
模型的自由度。这等于$p-1$，其中$p$是回归因子的数量。注意，截距在这里不被算作使用自由度。
* df_resid:float<br>
残差自由度。这等于$n-p$，其中$n$是观测值的数量，$p$是参数的数量。注意，截距在这里被算作使用自由度。
* llf:float<br>
拟合模型的似然函数的值。
* nobs:float<br>
观测值的数量$n$
* normalized_cov_params:array<br>
一个$p \times p$数组，等于$(X^T\Sigma^{-1}X)^{-1}$
* sigma:array<br>
误差项的$n \times n$协方差矩阵：$\mu～N(0,\Sigma)$。
* wexog:array<br>
白化的设计矩阵$\Psi^TX$。
* wendog:array<br>
白化的响应变量$\Psi^TY$

* 广义线性模型<br>
广义线性模型目前支持使用单参数的指数族进行估计。

In [None]:
# Load modules and data
In [1]: import statsmodels.api as sm

In [2]: data = sm.datasets.scotland.load()

In [3]: data.exog = sm.add_constant(data.exog)

# Instantiate a gamma family model with the default link function.
In [4]: gamma_model = sm.GLM(data.endog, data.exog, family=sm.families.Gamma())

In [5]: gamma_results = gamma_model.fit()

In [6]: print(gamma_results.summary())

* 广义估计方程<br>
广义估计方程对面板、聚类或重复测量数据的广义线性模型进行估计，当观测值在一个聚类中可能是相关的，但在各聚类之间是不相关的。它支持与广义线性模型（GLM）相同的单参数指数族的估计。

下面用癫痫发作的数据说明了一个具有集群内可交换相关性的泊松回归。

In [None]:
In [1]: import statsmodels.api as sm

In [2]: import statsmodels.formula.api as smf

In [3]: data = sm.datasets.get_rdataset('epil', package='MASS').data

In [4]: fam = sm.families.Poisson()

In [5]: ind = sm.cov_struct.Exchangeable()

In [6]: mod = smf.gee("y ~ age + trt + base", "subject", data,
   ...:               cov_struct=ind, family=fam)
   ...: 

In [7]: res = mod.fit()

In [8]: print(res.summary())

* 离散性因变量的回归<br>
为有限的和定性的因变量建立回归模型。该模块目前允许对二元（Logit, Probit）、名义（MNLogit）或计数（Poisson, NegativeBinomial）数据的模型进行估计。<br>
从0.9版本开始，还包括新的计数模型，这些模型在0.9版本中仍然是试验性的，负二项式P、广义泊松和零膨胀模型，零膨胀泊松、零膨胀负二项式P和零膨胀广义泊松。<br>

In [None]:
# Load the data from Spector and Mazzeo (1980)
In [1]: import statsmodels.api as sm

In [2]: spector_data = sm.datasets.spector.load_pandas()

In [3]: spector_data.exog = sm.add_constant(spector_data.exog)

# Logit Model
In [4]: logit_mod = sm.Logit(spector_data.endog, spector_data.exog)

In [5]: logit_res = logit_mod.fit()
Optimization terminated successfully.
         Current function value: 0.402801
         Iterations 7

In [6]: print(logit_res.summary())

* 广义线性混合效应模型<br>
广义线性混合效应（GLIMMIX）模型是在线性预测因子中带有随机效应的广义线性模型。statsmodels目前支持使用两种贝叶斯方法对二项和泊松GLIMMIX模型进行估计：对后验的拉普拉斯近似，以及对后验的变异贝叶斯近似。这两种方法都提供点估计（后验均值）和不确定性评估（后验标准差）。<br>
目前的实现只支持独立随机效应。

* ANOVA<br>
方差分析模型包含anova_lm，用于线性OLSModel的方差分析，AnovaRM用于重复测量方差分析，平衡数据的方差分析内。

In [None]:
In [1]: import statsmodels.api as sm

In [2]: from statsmodels.formula.api import ols

In [3]: moore = sm.datasets.get_rdataset("Moore", "carData",
   ...:                                  cache=True) # load data
   ...: 

In [4]: data = moore.data

In [5]: data = data.rename(columns={"partner.status":
   ...:                             "partner_status"}) # make name pythonic
   ...: 

In [6]: moore_lm = ols('conformity ~ C(fcategory, Sum)*C(partner_status, Sum)',
   ...:                 data=data).fit()
   ...: 

In [7]: table = sm.stats.anova_lm(moore_lm, typ=2) # Type 2 ANOVA DataFrame

In [8]: print(table)

## 10.2 logistic回归模型

（1）简介<p>
当因变量是分类变量，且自变量个数较多时，此时就应该使用logistic回归，例如：<br>
* 是否违约与性别、年龄、收入、学历等的关系
* 是否患病与生活水平、饮食、休息时间、性别、年龄等的关系
* 是否挂科与学习时间长短、学习效率、学习能力、上课是否认真听讲的关系

logistic回归是一种广义的线性回归模型，常用于：数据挖掘、经济预测、疾病自动诊断等领域。例如：探讨引发违约风险的危险因素，并根据危险因素预测违约风险发生率。<p>
logistic回归的模型是在解释变量$x_1,…,x_k$的数值下，一个特征出现的概率（即“成功”）。为了方便起见，我们用 $\pi(x_1，…，x_k)=P(success|x_1…，x_k)$或 $\pi$来表示。但应该理解的是，一般来说，$\pi$取决于一个或多个解释变量。例如，一个医生可能对估计人口中糖尿病患者的比例感兴趣。自然，她知道人口中的所有部分并不具有相同的 "成功 "概率，即成为糖尿病患者。某些条件，如高龄和高血压，可能会导致较高的比例。

（2）模型形式与假设

模型形式：<br>
设因变量为Y，自变量为$X$=($X_1$,$X_2$,…,$X_k$)。其中$x_i$=($x_{i1}$,$x_{i2}$,…,$x_{ik}$)表示第$i$个样本的观测结果，$y_i$表示Y的第$i$个观测结果($i$=1,2,…,$n$)，则定义$X$=$x_i$的条件下，$y_i$=1的条件概率为：
$$\pi_i=P(y_i=1|X=x_i)=\frac{exp(\beta_0+\sum_{j=1}^k \beta_j x_{ij})}{1+exp(\beta_0+\sum_{j=1}^k \beta_j x_{ij})}$$

其中$\beta_0$是常数项,$\beta_1$ ,…,$\beta_k$是logistic模型回归系数。从上式可以看出，无论$\beta$的取值如何，$\pi_i$的取值范围总是在0～1之间。

回归假设：<br>
* 样本相互独立,一组预测变量或解释变量$x=(x_1,x_2,…,x_k)$是固定的（不是随机的），可以是离散的、连续的，或两者的组合。与经典回归一样，其中两个或多个可能是指标变量，以模拟单一预测者的名义类别，其他的可能代表两个或多个解释变量之间的相互作用。
* 分布假设：因变量Y服从二项分布，只有一次试验，成功概率为$\pi$ 。因此，Y=1对应于 "成功"，发生概率为$\pi$ ，Y=0对应于 "失败"，发生概率为$1-\pi$。
* 结构假设：$\pi(X_i)$与$X_i$有关，它表示第$i$个样本发生的概率，简记为：$\pi_i$，定义为：$$\pi_i=P(y_i=1|X=x_i)=\frac{exp(\beta_0+\sum_{j=1}^k \beta_j x_{ij})}{1+exp(\beta_0+\sum_{j=1}^k \beta_j x_{ij})}$$
* logistic回归不假设自变量与因变量之间存在直接的线性关系，而是通过链接函数建立线性关系，如：$$logit(\pi_i)=\beta_0+\sum_{j=1}^k \beta_j x_{ij}$$

![image.png](attachment:image.png)

（3）参数估计<p>
    在解释逻辑回归模型中的参数时，一个复杂的来源是它们是在对数或对数的尺度上。我们需要注意在解释原始变量的条款之前将它们转换回来。<p>
$exp(\beta_0)=$成功特征在一个人$x=0$身上出现的几率，即在基线上。如果涉及到多个预测因子，则需要将所有的预测因子设置为0来进行解释。<br>
$exp(\beta_1)=x$每增加1个单位，成功的几率增加的倍数。这类似于简单的线性回归，但不是加法的变化，而是比率的乘法变化。如果涉及到多个预测因素，那么其他的预测因素就需要为这种解释保持固定。<br>
如果$\beta_1>0$,那么$exp(\beta_j)>1$ ，表明和成功事件的概率和几率之间存在正向关系。如果$\beta_j<0$，则相反。<br>
* 对于样本集$(y_i,x_i)^n_{i=1}$，计算数据的联合概率(或似然函数) ：
$$L=\prod_{i=1}^n \pi_i^{y_i} (1-\pi)^{1-y_i}$$

* 对似然函数取对数，则有:
$$logL=\sum_{i=1}^n y_i log\pi_i +(1-y_i)log(1-\pi_i)$$

* 因此，通过极大化对数似然函数，可以估计logistic的未知参数$\beta_0$, $\beta_1$,$\beta_2$,...,$\beta_k$。常用的参数估计算法有Fisher得分方法(Fisher’s scoring method)，该方法是牛顿莱布尼茨算法的一个变种(算法略)。

（4）回归系数的意义<p>
* 自变量只有一个时,logistic回归模型为：
$$logit(\pi_i)=ln(\frac{\pi_i}{1-\pi_i})=\beta_0+\beta_1 x_{i1}$$

$\beta_0$（常数项）：表示解释变量取值为0，即不考虑解释变量的情况下，事件$y_i$发生的概率与不发生的概率之比的自然对数： 
$$ln(\frac{P(y_i=1|x_{i1}=0)}{1-P(y_i=1|x_{i1}=0)})=ln(\frac{\pi_i}{1-\pi_i})=\beta_0$$

其中：$\frac{\pi_i}{1-\pi_i}$是事件成功的概率与失败的概率的比值，也称为比数值(odds) 

* 当解释变量为分类型变量，且取值为1或0时，该变量的回归系数的意义：

当$x_{i1}=1$时，有$ln(\frac{P(y_i=1|x_{i1}=1)}{1-P(y_i=1|x_{i1}=1)})=\beta_0+\beta_1$

当$x_{i1}=0$时，有$ln(\frac{P(y_i=1|x_{i1}=0)}{1-P(y_i=1|x_{i1}=0)})=\beta_0$

则，$$\beta_1=ln(\frac{P(y_i=1|x_{i1}=1)}{1-P(y_i=1|x_{i1}=1)})-ln(\frac{P(y_i=1|x_{i1}=0)}{1-P(y_i=1|x_{i1}=0)})=ln(\frac{\frac{P(y_i=1|x_{i1}=1)}{1-P(y_i=1|x_{i1}=1)}}{\frac{P(y_i=1|x_{i1}=0)}{1-P(y_i=1|x_{i1}=0)}})$$

所以：$exp(\beta_1)=\frac{\frac{P(y_i=1|x_{i1}=1)}{1-P(y_i=1|x_{i1}=1)}}{\frac{P(y_i=1|x_{i1}=0)}{1-P(y_i=1|x_{i1}=0)}}$

定义Odds Ratio：$OR_1=exp(\beta_1)=\frac{\frac{P(y_i=1|x_{i1}=1)}{1-P(y_i=1|x_{i1}=1)}}{\frac{P(y_i=1|x_{i1}=0)}{1-P(y_i=1|x_{i1}=0)}}$

$OR_1$表示，$x_{i1}$发生与不发生时，事件$y_i$发生的odds与事件$y_i$不发生的odds之比，称为odds ratio(优势比)，即两个odds值的比值。

* OR从另外一个层面，反应了自变量X与Y之间的关系

![image.png](attachment:image.png)

当$\beta$>0,OR>1时，表示解释变量X=1时（暴露在因素X下），会促进事件Y的发生率的提升。<br>
当$\beta$<0,OR<1时，表示解释变量X=1时（暴露在因素X下），会抑制事件Y的发生率的提升。<br>
当偏回归系数为正时，暴露在X因素下，OR增加，为危险因素。<br>
当偏回归系数为负时，暴露在X因素下，OR减小，为保护因素。<br>

* 当解释变量是连续变量(或有序变量)时，其对应的回归系数的意义：<br>
在线性回归模型(Y=$\beta_0$+$X\beta_1$)中，$\beta_1$表示自变量每变化一个单位时，导致Y变化的情况<br>
在logistic回归中，因变量是$ln(\frac{\pi_i}{1-\pi_i})$，它是比数（odds）的对数<br>

$$logit(\pi_i)=ln(\frac{\pi_i}{1-\pi_i})=\beta_0 +\beta_1 x_{i1}$$

$\beta_1$表示自变量每变动一个单位，$ln(\frac{\pi_i}{1-\pi_i})$的变动幅度，而$exp(\beta_1)$则表示自变量每变动一个单位，$\frac{\pi_i}{1-\pi_i}$变动的幅度.<br>

（5）模型与参数检验<p>
* 与普通最小二乘法相比，定义对数线性比例$R_L^2(log-linearR_L^2)$或McFadden's $R_L^2$来判别模型的拟合效果，定义如下：<br>
$$R_L^2 = 1-log(\frac{L_{null}}{L_{full}})$$

其中$𝐿_{𝑓𝑢𝑙𝑙}$表示引入所有变量建立logistic回归模型时的似然函数值，$𝐿_{null}$表示不引入任何变量即只包含截距项的logistic回归模型的似然函数值。<br>

* 似然比检验(likelihood ratio test, LRT)。似然比检验统计量定义为原假设条件下的似然函数值$𝐿_{H0}$与全模型的似然值$𝐿_{𝑓𝑢𝑙𝑙}$的比值，定义为：<br>
$$LR=-2log(\frac{L_{H0}}{L_{full}})=-2log(L_{H0})+2log(L_{full})～\chi^2(k-k_0)$$

其中，$k$是全模型中的待估计参数个数，$𝑘_0$为原假设条件下的模型中的待估计参数的个数。

* 例如：回归模型的似然比检验<br>
$$LR=-2log(\frac{L_{null}}{L_{full}})=-2log(L_{null})+2log(L_{full})～\chi^2(m)$$

其中$𝐿_{𝑓𝑢𝑙𝑙}$表示引入所有变量建立logistic回归模型时的似然函数值，$𝐿_{null}$表示不引入任何变量即只包含截距项的logistic回归模型的似然函数值，$𝑚$为自变量个数。<br>

* 又例如：回归系数$\beta_𝑗$ ($𝑗$=1,2,…,$𝑘$)的似然比检验
$$LR=-2log(\frac{L_{\beta_j}}{L_{full}})=-2log(L_{\beta_j})+2log(L_{full})～\chi^2(m-1)$$

其中$𝐿_{\beta_𝑗}$表示不包含变量$X_𝑗$建立logistic回归模型时的似然函数值，$𝐿_{𝑓𝑢𝑙𝑙}$表示引入所有变量建立logistic回归模型时的似然函数值，$𝑚$为自变量个数。<br>

检验过程与普通最小二乘估计的过程相似，概括如下：<br>
* 第一步，设置原假设与备择假设。$H_0$：$\beta_𝑗$=0；$H_1$：$\beta_𝑗$≠0；
* 第二步，计算似然比𝐿𝑅；
* 第三步，给定显著水平$\alpha$，并构造拒绝域；
* 第四步，统计推断，判断似然比LR是否落入拒绝域，从而判断模型或参数是否显著。

* 怀特检验(Wald检验)主要用来检验单个logistic回归系数。定义统计量Z：<br>
$$ Z=\frac{\hat{\beta_j}-\beta_{j0}}{\widetilde{se}(\hat{\beta})}～N(0,1)$$


若回归系数的假设检验为$H_0$：$\beta_𝑗$=0；$H_1$：$\beta_𝑗$≠0；那么$\beta_{𝑗0}$=0。$\widetilde{se}(\hat{\beta})$是信息矩阵$I^{−1}$的逆开根号，$I$是$𝑘×𝑘$的矩阵，矩阵中的元素定义为：
$$I_{ij}=\frac{\partial^2L(\beta)}{\partial\beta_i\partial\beta_j}$$

 因此怀特统计量定义为：$W=Z^2～\chi^2(1)$

由此可知，给定置信水平$1−\alpha$，logistic回归系数的置信区间为：
$$\hat{\beta_j}\pm Z_{1-\alpha/2}\widetilde{se}(\hat{\beta})$$

其中，$Z_{1-\alpha/2}$是标准正态分布的分位点。

（6）实例分析<p>
第一步，读取数据

In [None]:
#准备数据
import pandas as pd
import numpy as np

df = pd.read_csv('D:\data\ch7\ch7_credit.csv'
                               ,sep=',',header=0,encoding='UTF-8')

df.describe()      #对数据进行整体描述

此外，也可以通过researchpy进行描述统计。

In [None]:
#数值变量
import researchpy as rp
rp.summary_cont(df[['risk', 'position']])

第二步，对数据进行基本描述统计。<br>

In [None]:
#分组描述统计
df.groupby(['risk']).groups
df[['income','risk']].groupby(['risk']).describe().style

In [None]:
df[['age','risk']].groupby(['risk']).describe().style

In [None]:
df[['position','risk']].groupby(['risk']).describe().style

大家也可以通过图形来展示变量之间的关系, 例如用箱线图来展示分类变量与数值变量之间的关系。

In [None]:
#通过图形来描述因变量和自变量的关系
#因变量是分类变量（按因变量制作箱线图）
#自变量是数值变量
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

f, ax = plt.subplots(figsize=(7, 6))

# Plot the orbital period with horizontal boxes
sns.boxplot(x="risk", y="age", data=df,
            whis=[0, 100], width=.6, palette="vlag")      #palette 调色板

# Add in points to show each observation
sns.stripplot(x="risk", y="age", data=df,
              size=4, color=".3", linewidth=0)

# Tweak the visual presentation
ax.xaxis.grid(True)
ax.set(ylabel="")
sns.despine(trim=True, left=True)


第三步，建立logistic回归模型并分析结果。<br>

In [None]:
from statsmodels.formula.api import glm
import numpy as np
import pandas as pd

#建立logistic回归模型

Logit = glm("risk ~ income + age + position", data=df[['risk','income','age','position']]
            , family=sm.families.Binomial()).fit()
print(Logit.summary())

In [None]:
#全模型的对数似然值
print(Logit.llf)

#Null模型的对数似然值
print(Logit.llnull)

Null模型的AIC = −2$𝐿_{n𝑢𝑙𝑙}$  + 2(k+1) = 525.14 + 2 * 4 = 534.14<br>
全模型的AIC = −2$𝐿_{𝑓𝑢𝑙𝑙}$  + 2(k+1) = 483.16 + 2 * 4 = 491.16<br>
可见，模型是有效的。<br>

第四步，进行似然比检验。

In [None]:
#全模型的对数似然值
print(Logit.llf)

#Null模型的对数似然值
print(Logit.llnull)

#似然比
LR = -2 * (Logit.llnull -  Logit.llf)
print(LR)

from scipy import stats
stats.chisqprob = lambda chisq, df: stats.chi2.sf(chisq, df)
print(stats.chisqprob(LR, 3))

$$LR=-2log(\frac{L_{H0}}{L_{full}})=-2log(L_{H0})+2log(L_{full})～\chi^2(k-k_0)$$
似然比检验的p值，p值很小，说明全模型显著存在。

第五步，进行模型检验：Wald检验<p>
原假设$H_0$：$\beta_1$=$\beta_2$=…=$\beta_𝑘$=0(回归模型不存在)<br>
原假设$H_0$：存在任意$\beta_𝑗$≠0(𝑗=1,2,…,𝑘) (回归模型存在)<br>

In [None]:
#模型的检验
#与零模型进行对比
A = np.identity(len(Logit.params))
A = A[1:,:]
print(A)
print(Logit.f_test(A))

进行模型检验：F检验<p>
原假设$H_0$：$\beta_1$=$\beta_2$=…=$\beta_𝑘$=0(回归模型不存在)<br>
原假设$H_0$：存在任意$\beta_𝑗$≠0(𝑗=1,2,…,𝑘) (回归模型存在)<br>   

In [None]:
#模型的检验
#与零模型对比，计算F统计量并检验
A = np.identity(len(Logit.params))
A = A[1:,:]
print(A)
print(Logit.f_test(A))

计算OR值及其置信区间<br>

In [None]:
#计算OR及其置信区间
model_odds = pd.DataFrame(np.exp(Logit.params), columns= ['OR'])
model_odds['p-value']= Logit.pvalues
model_odds[['2.5%', '97.5%']] = np.exp(Logit.conf_int())

model_odds

第五步，预测<br>

In [None]:
#预测
newX = pd.DataFrame(
    [[600, 3.5, 1], [600, 3.5, 2], [600, 3.5, 3], [600, 3.5, 4],
     [700, 3.5, 1], [700, 3.5, 2], [700, 3.5, 3], [700, 3.5, 4],
     [800, 3.5, 1], [800, 3.5, 2], [800, 3.5, 3], [800, 3.5, 4]],
    columns=["gre", "gpa", "rank"],
)

predicted = Logit.predict(newX)
threshold = 0.5
predicted_Y = (predicted > threshold).astype(int)

print(predicted_Y)

## 10.3 multiple logistic 回归模型

（1）简介<p>
我们已经了解了logistic回归，其中响应是一个二元变量，“成功”和“失败”是唯一的两个类别。但是，logistic回归可以扩展到处理反应，Y即多态的反应，也就是说，要有$r>2$的类别。当$r=2$时，$Y$是二分的，我们可以建立一个事件发生（与不发生）的对数几率模型。对于二元逻辑回归，我们只能形成一个logit:$logit(\pi)=log(\frac{\pi}{1-\pi})$。<br>
例如：<br>
* 职业选择(升学、就业、出国等)，会受到父母职业和其教育水平的影响<br>
* 投资公司选择投资行业(金融、互联网、农业等)，会受到投资人偏好和行业回报率的影响<br>
* 购物渠道选择(微信、移动APP、电脑网页等)，会受到年龄、性别和教育水平的影响<br>

当因变量的分类超过2个时，不能直接利用Logistic回归来建立模型，需要借助多类别 (multiple) llogistic回归来建立回归模型。<br>

多类别Logistic回归的模型是多项式响应变量$Y$如何依赖于一组$k$解释变量$x=(x_1,x_2,…,x_k)$的。这也是一个GLM，其中随机部分假设$Y$是二项式分布的$(n,\pi)$，其中$\pi$是一个具有“成功”类别概率的向量。与二元逻辑回归一样，系统部分由解释变量（可以是连续的、离散的或两者都有）组成，并且在参数上是线性的。链接函数是广义的$logit$，即上文讨论的每一对非冗余$logit$的$logit$链接。<p>
在分析多态响应时，必须注意响应是序数（由有序类别组成）还是名数（由无序类别组成）。对于二元逻辑模型，这个问题并不存在。有些类型的模型只适合于顺序性反应（例如，累积对数模型、相邻类别模型）。其他模型可以使用，无论反应是顺序的还是名义的（例如，基线logit模型）。<p>
如果反应是序数的，我们不一定要考虑排序，但是忽视排序可能导致次优模型。使用自然排序可以导致一个更简单、更简明的模型并增加检测与其他变量关系的能力。<p>
如果响应变量是多态的，而且所有的潜在预测因子也是离散的，我们可以用对数线性模型来描述多向或然表，但是这种方法将所有的变量放在同等条件下看待，没有专门的响应。如果要将一个变量作为反应，而将其他变量作为解释变量，那么（多叉）逻辑回归模型就比较合适。<p>

（2）模型形式<p>
首先我们进行模型设置。<br>
分布假设：$Y_i$是多分类随机变量，$Y_i$是第$i$个样本的观测值$i$=1,2,…,$n$，取值为：1,2, …,J中的一个值，且$Y_𝑖$|$X_𝑖$～Multinomial($𝑛_𝑖$,$\pi_1(𝑋_𝑖)$,$\pi_2(𝑋_𝑖)$,…,$\pi_𝐽 (𝑋_𝑖)$)。<br>
结构假设：$\pi_𝑗(𝑋_𝑖)$与$𝑋_𝑖$有关，它表示第$i$个样本被分配到第$j$个分类的概率，简记为：$\pi_{𝑖𝑗}$，定义为：
    $$\pi_j(X_i)=\frac {exp(X_i^T\beta_j)}{\sum_{j=1}^J exp(X_i^T\beta_j)}$$

其中$\pi_{𝑖𝑗}$满足条件$\sum_{j=1}^J\pi_{ij}=1$，其中$X_𝑖$和$\beta_j$都是$(k+1)$维向量，且$X_i= (1，x_{i1}，x_{i2}，…,x_{ik})$，$\beta_j=(\beta_0,\beta_{j1},\beta_{j2},…,\beta_{jk})$。$X_i^T\beta_j=\beta_0+\sum_{l=1}^k \beta_{jl}x_{il}$

根据定义，可以计算$X_i$分配到第1类和第j类的概率，分别为：<br>
$$P⁡(Y_𝑖=1|X_𝑖 )=\pi_1 (X_𝑖 )$$
$$P⁡(Y_𝑖=j|X_𝑖 )=\pi_j (X_𝑖 )$$

二者相除后取对数有：<br>
$$log\frac{\pi_j(X_i)}{\pi_1(X_i)}=X_i^T(\beta_j-\beta_1)$$

令$\beta_1=0$,那么有
$$log\frac{\pi_j(X_i)}{\pi_1(X_i)}=X_i^T\beta_j$$

随机部分：指因变量的概率分布(Y)，也称为噪音或误差模型。随机误差如何通过连接函数增加到预测结果中？<br>
* 线性回归中Y服从正态分布
* Logistic回归中的Y服从二项分布
* 多类别Logistic回归中的Y服从多分类二项分布

系统部分：由模型中的自变量$(𝑋_1,𝑋_2,…,𝑋_𝑘)$解释的部分，如：$\beta_0+\sum_{j=1}^k \beta_{j}X_{j}$

连接函数，用$\eta$或$g(\mu)$来表示。指连接随机部分和系统部分之间的函数。它把响应变量的期望与自变量的线性组合联系在一起<br>
* 线性回归：$\eta=g((E(Y_i))=E(Y_i)$<br> 
* Logistic回归：$\eta=g((E(Y_i))=logit(\pi_i)$<br>
* 多类别Logistic回归：$\eta=g((E(Y_i))=logit(\pi_i)$<br>

（3）参数估计<p>
参数估计的方法采用似然估计<br>
* 对于多分类问题，因为第$i$个样本被分配到第$j$个分类的概率为$$P(Y_i=j|X_i)=\pi_{ij}$$
则可以构造似然函数<br>
    $$L(Y|X)=\prod_{i=1}^n \prod_{j=1}^{J-1}\pi_{ij}$$
    通过最大化似然函数，可以估计参数$\beta_j$

* 数据分析问题：社经地位(ses)和写作能力(write)对入学项目(prog)选择的影响。数据分析过程如下：<br>
第一步：读取数据并检查数据<br>

In [None]:
#准备数据
import pandas as pd
import numpy as np

df = pd.read_csv('D:/data/ch7/ch7_hsbdemo.csv'
                               ,sep=',',header=0,encoding='UTF-8')
df.head(5)

   第二步：描述统计<br>

In [None]:
#分类变量与分类变量的关系
#交叉表
pd.crosstab(df['ses'], df['prog'])

In [None]:
#分类变量与数值变量的关系
#分组描述统计
df[['write','prog']].groupby(['prog']).describe()

第三步：准备数据<br>

In [None]:
from statsmodels.formula.api import glm
import numpy as np
import pandas as pd
import statsmodels.api as sm

#准备数据
df = pd.read_csv('D:/data/ch7/ch7_hsbdemo.csv'
                               ,sep=',',header=0,encoding='UTF-8')

X = df[['ses','write']]
X = sm.add_constant(X, prepend=False)
#定义自变量，把分类变量转换为数值变量，high对应2，middle对应1，low对应0，如果不是定序变量，需要转换为哑变量，并增加截距项
X['ses'].replace(['high','middle','low'],[2,1,0],inplace=True)
print(X)
#定义因变量，把academic设置为参照类,参照类对应的值为0，其他类别为1和2
Y = df['prog'].replace(['vocation', 'general', 'academic'],
                        [1, 2, 0], inplace=False)

第四步：多分类logistic回归拟合及输出<br>

In [None]:
mlogit_mod = sm.MNLogit(Y, X )
mlogit_res = mlogit_mod.fit()
print(mlogit_res.summary())

注意，因为Y是三分类变量，会输出两个模型结果。<br>
下图为模型拟合效果数据
![image-2.png](attachment:image-2.png)
coef为模型的回归系数，P>|z|是回归系数的显著性p值

## 10.4 poisson回归模型

（1）简介<p>
泊松回归：研究因变量为计数变量，自变量为数值变量或分类变量之间关系的回归模型，例如：<p>
* 在鲁士军队中每年被马或骡子踩踢死的人的数量。Ladislaus Bortkiewicz从普鲁士统计数据中收集了相关的数据，该数据是在19世纪末的20年中收集的普鲁士军队的10个军团的数据。
* 杂货店前排在你前面的人的数量。预测因素可能包括：折扣价格的商品数量、特别活动（如假日、大型体育活动）到期时间（如只剩下3天）。
* 在一所中学中，学生获得奖励的数量。预测因素可能包括：学生注册的课程类型（如职业、普通或学术），期末考试的分数等。 

在泊松回归中，响应变量$Y$是在一个特定的测量窗口中记录的发生次数。通常，这个窗口是一个时间长度，但它也可以是一个距离、面积等。例如，$Y$可以计算某个区域的人造桌面上的缺陷数量。如果记录的观测值对应于不同的测量窗口，就必须进行比例调整，使它们处于平等的条件下，我们对每个测量单位$t$的比率或计数进行建模<br>

![image.png](attachment:image.png)

泊松分布与二项分布的关系<br>
* 对于参数为n和p的二项分布，有$$P\{X=k\}=\left(\frac{n}{k}\right)p^k(1-p)^{n-k}$$
  当n很大而p很小时，根据泊松分布定理，有$$\lim_{n\to \infty}\left(\frac{n}{k}\right)p^k(1-p)^{n-k}=\frac{\lambda^ke^{-\lambda}}{k!},\lambda=np$$
  即二项分布在n趋近正无穷大时服从泊松分布，因此$$P\{X=k\}=\frac{\lambda^ke^{-\lambda}}{k!},k=0,1,2,...$$
  证明过程如下：![image-4.png](attachment:image-4.png)
  可见，当n很大，p很小时，二项分布可近似为泊松分布

（2）模型设置<p>
* 分布假设：$Y_i$是服从泊松分布，且$Y_i|X_i～Poisson(\mu(X_i)),i=1,2,...,n$。<br>
* 结构假设：$\mu_i=\mu(X_i)$与$X_i$有关，它表示第$i$个样本平均出现的次数，定义为：
    $$g(\mu_i)=X_i^T\beta=\eta_i$$
    其中$X_𝑖$和$\beta_j$都是$(k+1)$维向量，且$X_i= (1，x_{i1}，x_{i2}，…,x_{ik})$，$\beta_j=(\beta_0,\beta_{j1},\beta_{j2},…,\beta_{jk})$。$X_i^T\beta_j=\beta_0+\sum_{l=1}^k \beta_{jl}x_{il}$<br>
    如果$g(\mu_i)=log⁡(\mu_i)$则得到对数线性变换模型。
* 主要性质：泊松分布的方差与期望相等，即：$E(Y_i|X_i)=\mu_i=e^{X_i^T\beta}=Var(Y_i|X_i)$

   随机部分：指因变量的概率分布(Y)，也称为噪音或误差模型。随机误差如何通过连接函数增加到预测结果中？<br>
* 线性回归中Y服从正态分布
* Logistic回归中的Y服从二项分布
* 多类别Logistic回归中的Y服从多分类二项分布
* 泊松回归的Y服从泊松分布

系统部分：由模型中的自变量$(𝑋_1,𝑋_2,…,𝑋_𝑘)$解释的部分，如：$\beta_0+\sum_{j=1}^k \beta_{j}X_{j}$

连接函数，用$\eta$或$g(\mu)$来表示。指连接随机部分和系统部分之间的函数。它把响应变量的期望与自变量的线性组合联系在一起<br>
* 线性回归：$\eta=g((E(Y_i))=E(Y_i)$<br> 
* Logistic回归：$\eta=g((E(Y_i))=logit(\pi_i)$<br>
* 多类别Logistic回归：$\eta=g((E(Y_i))=logit(\pi_i)$<br>
* 泊松回归：$\eta=g(\mu_i)=log(\mu_i)$

（3）参数估计<p>
    在这里参数估计方法采用极大似然估计法。<br>
* 对于第$i$个样本，它发生的次数为$Y_i$的概率为$P(Y_i│X_i)=\frac{𝑒^{-\mu_i}\mu_i^{Y_i}}{Y_i!}$,因此其似然函数为：$$L=\prod_{i=1}^n \frac{e^{-\mu_i}\mu_i^{Y_i}}{Y_i!}$$
    取对数后有：<br>
   $$lnL=\Sigma_{i=1}^n(-\lambda_i+Y_iX_i^T\beta-lnY_i!)=\sum_{i=1}^n(-e^{X_i^T\beta}+Y_iX_i^T\beta-lnY_i!)$$

除了极大似然估计法，还有牛顿迭代法。<br>
* 一阶导：$g=\frac{\partial lnL}{\partial\beta}=-\Sigma_{i=1}^nX_i(e^{X_i^T\beta}-Y_i)$
* 二阶导：$H=\frac{\partial l^2}{\partial\beta\partial\beta^T}=-\Sigma_{i=1}^nX_i^TX_ie^{X_i^T\beta}$
* 通过牛顿迭代法来估计参数，直到收敛为止$\hat{\beta}^{t+1}=\hat{\beta}^t -H^{(t)^-1}g^{(t)}$

泊松回归的应用条件<br>
* 线性：因变量的对数与自变量呈现线性关系
* 独立性：各观测之间相互独立
* 方差等于均值：各自变量水平上的因变量的方差与均值相等
  $$E(Y_i|X_i)=\mu_i=e^{X_i^T\beta}=Var(Y_i|X_i)$$
    因此，模型使用前需要检验期望与方差是否相等。


（4）回归系数的意义<p>
* 计算条件均值$\mu_i=e^{X_i^T\beta}$，它表示每个周期事件发生的期望次数
* 系数$\beta_j$表示第$j$个变量每增加一个单位，$log(\mu_𝑖)$的变动幅度，或者说第$j$个变量每增加一个单位，对$\mu_𝑖$产生$e^{\beta_j}$ 的效应

数据分析问题：学历项目(prog)和数学成绩(math)与获奖次数(num_awards)的关系。<br>
分析过程如下：<br>
第一步：读取数据并检查数据<br>

In [None]:
#准备数据
import pandas as pd
import numpy as np
df = pd.read_csv('D:/data/ch7/ch7_poisson_sim.csv'
                               ,sep=',',header=0,encoding='UTF-8')
df.head(5)
# 除自变量学历项目(prog)是分类变量，其他都是数值变量，因变量是计数

检查因变量Y的分布<br>

In [None]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

sns.displot(df, x="num_awards", kde=True)

检查期望和方差是否相等<br>

In [None]:
df['num_awards'].describe()

从结果可以看出，Y的分布服从泊松分布，且其期望和方差差异不大<br>

第二步：描述统计<br>

In [None]:
#相关性分析
df[['num_awards','prog','math']].corr()

In [None]:
#分组描述统计
df[['num_awards','prog']].groupby(['prog']).describe()

从分析结果看：<br>
获奖次数与数学成绩有一定的相关性。<br>
不同项目的获奖次数存在明显区别，prog=2的项目获奖次数最多，prog=1和prog=3两个分类获奖次数相当<br>

第三步：准备数据<br>

In [None]:
#数据准备
#去除id列
newdf = df[['num_awards','prog','math']]

#把数据转化为虚拟变量, 按照prog的顺序，1为参照，2是变量prog_2, 3是变量prog_3
newdf2 = pd.get_dummies(newdf, columns=['prog'],drop_first=True)

把分类变量prog转化为虚拟变量, 按照prog的顺序，1为参照，2是变量prog_2, 3是变量prog_3.

第四步：poisson回归拟合及输出<br>

In [None]:
from statsmodels.formula.api import glm
import numpy as np
import pandas as pd
import statsmodels.api as sm

poisson = glm('num_awards~math+prog_2+prog_3', data=newdf2, family=sm.families.Poisson()).fit()
print(poisson.summary())

下图为模型拟合效果数据
![image.png](attachment:image.png)
coef为模型的回归系数，P>|z|是回归系数的显著性p值

从结果可以看出，相对于prog=1的项目，prog=3的回归系数不显著，和描述统计的结果类似。<br>

## 10.5 Negative Binomial 回归模型

（1）简介<p>
如果数据过度分散，不满足泊松回归假设，则可以使用负二项回归。<br>
同理：负二项回归可以研究因变量为计数变量，自变量为数值变量或分类变量之间关系的回归模型，例如：<Br>
* 在鲁士军队中每年被马或骡子踩踢死的人的数量。Ladislaus Bortkiewicz从普鲁士统计数据中收集了相关的数据，该数据是在19世纪末的20年中收集的普鲁士军队的10个军团的数据。
* 杂货店前排在你前面的人的数量。预测因素可能包括：折扣价格的商品数量、特别活动（如假日、大型体育活动）到期时间（如只剩下3天）。
* 在一所中学中，学生获得奖励的数量。预测因素可能包括：学生注册的课程类型（如职业、普通或学术），期末考试的分数等。

负二项分布<br>
* 在一系列独立同分布的伯努利试验中，失败次数到达指定次数（记为r）时，成功次数（记为k）的离散概率分布. 或，在一系列独立同分布的伯努利试验中，成功次数到达指定次数（记为r）时，失败次数（记为k）的离散概率分布.
* 若给定失败次数𝑟>0，每次伯努利试验的成功概率为$𝑝\epsilon(0,1)$，则负二项分布$NegBinom(r,𝑝)$的概率质量函数定义为：
$$f(k)=\binom{k+r-1}{k}(1-p)^rp^k$$
即k次成功的概率，其中 𝑘=0,1,2,…<br>

（2）模型设置<p>
* 如果$𝑌～𝑁𝑒𝑔𝐵𝑖𝑛𝑜𝑚(𝑟,𝑝)$，那么<br>
    $$E(Y)=\frac{pr}{(1-p)}\equiv\mu$$
    $$Var(Y)=\frac{pr}{(1-p)^2}\equiv\mu+\frac{1}{r}\mu^2$$
* 因此，负二项分布可以处理过渡离散的情况
* 注意：当$𝑟→\infty$，负二项分布退化为泊松分布

数据分析问题：学历项目(prog)和数学成绩(math)与课程缺席次数(daysabs)的关系<br>
分析过程：<br>

第一步：读取数据并检查数据<br>

In [2]:
#准备数据
import pandas as pd
import numpy as np

df = pd.read_csv('D:/data/ch7/ch7_nb_data.csv'
                               ,sep=',',header=0,encoding='UTF-8')
df.head(5)
#除自变量学历项目(prog)是分类变量，其他都是数值变量，因变量课程缺席次数daysabs是计数变量，也属于一种数值变量

第二步：描述统计<br>

In [None]:
#相关性分析
df[['daysabs','prog','math']].corr()

In [None]:
#分组描述统计
df[['daysabs','prog']].groupby(['prog']).describe()

从分析结果看：<br>
课程缺席次数与数学成绩有一定的相关性，但相关性较弱.<br>
不同项目的课程缺席次数存在明显区别，prog=2的课程缺席次数最多，prog=1和prog=3两个分类也有一定区别.<br>

第三步：准备数据<br>

In [None]:
#数据准备
#去除id列
newdf = df[['daysabs','prog','math']]

#把数据转化为虚拟变量, 按照prog的顺序，1为参照，2是变量prog_2, 3是变量prog_3
newdf2 = pd.get_dummies(newdf, columns=['prog'],drop_first=True)

把变量prog转化为虚拟变量, 按照prog的顺序，1为参照，2是变量prog_2, 3是变量prog_3

第四步，负二项回归拟合及输出。

In [None]:
from statsmodels.formula.api import glm
import numpy as np
import pandas as pd
import statsmodels.api as sm

negative = glm('daysabs~math+prog_2+prog_3', data=newdf2, family=sm.families.NegativeBinomial()).fit()
print(negative.summary())

下图为模型拟合效果数据
![image.png](attachment:image.png)
coef为模型的回归系数，P>|z|是回归系数的显著性p值

从结果可以看出，相对于prog=1的项目，prog_2和prog_3的回归系数显著，math的回归系数也显著