## Statsmodels

### 01. Statsmodels简介

https://www.statsmodels.org/stable/index.html

#### 1.Statsmodels简介

statsmodels 是一个功能强大的 Python 库，主要用于统计建模和数据分析，能够执行多种统计方法和分析。以下是该库的主要功能：<br>
1. 统计模型和回归分析：<br>
  ○ 线性回归（OLS、WLS 等）<br>
  ○ 离散选择模型（Logit、Probit）<br>
  ○ 广义线性模型（GLM）<br>
  ○ 纵向数据分析（混合效应模型）<br>
  ○ GARCH 模型用于波动率分析<br>
2. 时间序列分析：<br>
  ○ ARIMA 和 SARIMA 模型<br>
  ○ 状态空间模型（如 Kalman 滤波器）<br>
  ○ 单独的 AR、MA 和 ARMA 模型<br>
  ○ 时间序列诊断工具<br>
  ○ 预测和模拟功能<br>
3. 统计推断工具：<br>
  ○ 假设检验（t 检验、卡方检验）<br>
  ○ 置信区间计算<br>
  ○ p 值计算<br>
  ○ 统计分布函数<br>
4. 数据可视化：<br><
  ○ 绘制残差图<br>
  ○ QQ 图<br>
  ○ 预测图<br>
  ○ 其他诊断图表<br>
5. 与其他库集成：<br>
  ○ 与 pandas 数据框无缝集成<br>
  ○ 使用 matplotlib 绘制图形<br>
6. 其他功能：<br>
  ○ 线性代数函数<br>
  ○ 统计密度和分布函数<br>
  ○ 统计拟合度测试<br>

##### 1.1.1.Statsmodels vs Scikit-learn 全功能对比表

| 功能领域      | Statsmodels                                                                 | Scikit-learn                                                                 | 典型场景                                                                 |
|---------------|-----------------------------------------------------------------------------|------------------------------------------------------------------------------|--------------------------------------------------------------------------|
| **回归分析**  | • 完整统计推断（p值、置信区间）<br>• 支持OLS、GLM、Logit等<br>• 异方差/自相关诊断 | • 预测导向<br>• 支持正则化回归（Lasso/Ridge）<br>• 无统计检验                 | Statsmodels：经济学论文<br>Scikit-learn：用户评分预测                     |
| **分类模型**  | • 逻辑回归（带统计检验）<br>• 有序/多项Logit                                 | • 丰富分类器（SVM、随机森林等）<br>• 支持多标签分类                           | Statsmodels：医学风险因素分析<br>Scikit-learn：图像识别                   |
| **时间序列**  | • ARIMA/VAR/状态空间模型<br>• 单位根检验（ADF）<br>• 季节分解                 | • 仅基础工具（TimeSeriesSplit）<br>• 需搭配Prophet等库                       | Statsmodels：GDP预测<br>Scikit-learn：时序特征工程                        |
| **降维技术**  | • 主成分分析（PCA）<br>• 因子分析（EFA）<br>• 带统计检验                     | • PCA/TSNE/UMAP等<br>• 集成特征选择<br>• 无统计检验                           | Statsmodels：心理学量表分析<br>Scikit-learn：高维数据可视化              |
| **聚类分析**  | • 有限支持（如K-means）<br>• 侧重统计评估                                    | • 丰富算法（DBSCAN、谱聚类等）<br>• 支持大规模数据                            | Statsmodels：市场细分验证<br>Scikit-learn：用户分群                        |
| **假设检验**  | • 完整检验体系（t检验、ANOVA、卡方等）<br>• 非参数检验（K-S、Wilcoxon）      | • 需依赖scipy.stats<br>• 无原生支持                                          | Statsmodels：A/B测试分析<br>Scikit-learn：需手动实现                       |
| **生存分析**  | • Cox比例风险模型<br>• Kaplan-Meier曲线                                      | • 无原生支持                                                                 | Statsmodels：药物疗效研究                                                 |
| **贝叶斯方法**| • 贝叶斯回归<br>• MCMC诊断工具                                              | • 仅基础贝叶斯岭回归                                                         | Statsmodels：不确定性量化                                                 |
| **可解释性**  | • SHAP/LIME需额外库<br>• 依赖统计指标                                        | • 部分模型有feature_importances_<br>• 支持SHAP集成                            | 两者均需配合解释性工具                                                    |

##### 1.1.三维选型指南

##### 1.1.1.分析目标维度

  ○ ▶️ 选Statsmodels：因果推断、假设验证、结构方程建模 <br>
  ○ ▶️ 选Scikit-learn：预测准确率、模式识别、自动化ML<br>

##### 1.1.2.数据类型维度

![image.png](attachment:image.png)

##### 1.1.3.行业场景维度  

  ○ 社会科学/医学：优先Statsmodels（需p值报告）  <br>
  ○ 互联网/工业：优先Scikit-learn（需Pipeline部署）  <br>
  ○ 金融/量化：混合使用（Statsmodels做回测，Scikit-learn做因子组合）<br>

##### 1.1.4.混合使用案例

In [None]:
# 案例：金融风控模型开发
from statsmodels.api import Logit
from sklearn.ensemble import GradientBoostingClassifier

# 阶段1：用Statsmodels筛选显著变量
sm_model = Logit(y, X).fit()
significant_vars = X.columns[sm_model.pvalues < 0.05]

# 阶段2：用Scikit-learn构建高性能预测模型
gbdt = GradientBoostingClassifier().fit(X[significant_vars], y)

# 阶段3：用SHAP解释模型（需额外库）
import shap
explainer = shap.TreeExplainer(gbdt)
shap_values = explainer.shap_values(X[significant_vars])

#### 2.使用手册

https://www.statsmodels.org/stable/gettingstarted.html

#### 3.安装

pip install statsmodels

#### 02.数据导入导出

##### 1.Statsmodels 数据导入方法详解

##### 1.1.与 Pandas/NumPy 的通用导入方式

Statsmodels 没有独创的数据结构，但完美兼容主流数据容器：

In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

# 1. 从Pandas DataFrame导入（最常用）
data = pd.read_csv('economic_data.csv')
model = sm.OLS(data['GDP'], sm.add_constant(data[['CPI', 'Unemployment']]))

# 2. 从NumPy数组导入
X = np.array([[1, 2], [3, 4], [5, 6]])
y = np.array([1, 3, 5])
model = sm.OLS(y, sm.add_constant(X))

##### 1.2.Statsmodels 独有的数据工具

##### 1.2.1.`datasets` 模块（内置经典数据集）

In [None]:
# 加载内置数据集（无需额外下载）
macrodata = sm.datasets.macrodata.load_pandas().data
print(macrodata.head())  # 包含美国宏观经济数据

# 其他著名数据集：
# - sm.datasets.anes96       # 美国选举调查数据
# - sm.datasets.copper        # 铜价时间序列
# - sm.datasets.ccard        # 信用卡违约数据

##### 1.2.2.时间序列专用处理（`tsa` 模块）

In [None]:
from statsmodels.tsa.arima_process import arma_generate_sample
# 生成ARMA时序数据（statsmodels特有方法）
ar_params = np.array([0.75, -0.25])
ma_params = np.array([0.65, 0.35])
y = arma_generate_sample(ar_params, ma_params, nsample=100)

##### 1.2.3.结构化数据转换（`Stata` 风格公式）

In [None]:
# 使用公式API直接转换数据（类似R语言）
from statsmodels.formula.api import ols
model = ols('GDP ~ CPI + Unemployment', data=macrodata).fit()

公式语法特性：<br>
● 支持 C() 分类变量转换<br>
● 支持 np.log() 等函数嵌套<br>
● 自动添加截距项（可通过 -1 移除）<br>

#### 2.特殊数据格式支持

| 数据类型       | 导入方法                     | 示例                                      |
|----------------|-----------------------------|------------------------------------------|
| **Stata数据**  | `pd.read_stata()` + statsmodels | 兼容 .dta 文件                          |
| **面板数据**   | PanelOLS 专用结构            | 需转换为 MultiIndex                     |
| **生存分析数据** | Surv 对象                   | 需 duration 和 event 列                 |

#### 3.最佳实践对比

| 场景                     | 推荐方法                     | 原因                                      |
|--------------------------|-----------------------------|------------------------------------------|
| **常规结构化数据**       | Pandas DataFrame + 公式API  | 可读性强，支持复杂公式                    |
| **计量经济学研究**       | 内置 datasets 数据          | 包含标准参考数据集                        |
| **时间序列建模**         | tsa 模块生成/处理           | 提供专业时序数据结构                      |
| **与其他统计软件交互**   | 通过 Pandas 中转            | 兼容 Stata/SAS/SPSS 格式                  |

#### 4.一般流程

![image.png](attachment:image.png)

### 03.数据清洗

#### 1.加载数据集与快速探索

In [None]:
import statsmodels.api as sm
import pandas as pd
import numpy as np
import seaborn as sns

# 加载多个内置数据集
datasets = {
    "macro": sm.datasets.macrodata.load_pandas().data,
    "anorexia": sm.datasets.anorexia.load_pandas().data,
    "heart": sm.datasets.heart.load_pandas().data
}

# 技巧1：批量查看数据结构
for name, df in datasets.items():
    print(f"数据集 {name}:")
    display(df.head(2))
    print(f"缺失值统计:\n{df.isna().sum()}\n{'-'*50}")

#### 2.高级缺失值处理

技巧2：分类型变量填充众数

In [None]:
# 在heart数据中人为添加缺失值
df_heart = datasets["heart"].copy()
df_heart.loc[[10,20], "age"] = np.nan

# 分类变量用众数填充
df_heart["age"] = df_heart["age"].fillna(df_heart["age"].mode()[0])

技巧3：链式方法填充时间序列

In [None]:
df_macro = datasets["macro"].copy()
df_macro["infl"] = (df_macro["infl"]
                   .fillna(method="ffill")  # 前向填充
                   .fillna(method="bfill")) # 后向填充

#### 3.异常值检测与处理

技巧4：IQR方法检测异常值

In [None]:
# 在anorexia数据中检测体重异常值
df_anorexia = datasets["anorexia"].copy()
q1 = df_anorexia["postwt"].quantile(0.25)
q3 = df_anorexia["postwt"].quantile(0.75)
iqr = q3 - q1

# 标记异常值 (非删除)
df_anorexia["is_outlier"] = (df_anorexia["postwt"] < (q1 - 1.5*iqr)) | (df_anorexia["postwt"] > (q3 + 1.5*iqr))

技巧5：可视化辅助决策

In [None]:
plt.figure(figsize=(10,4))
sns.boxplot(x="Treat", y="postwt", data=df_anorexia)
plt.title("不同治疗组的体重分布")
plt.show()

#### 4.数据筛选高级技巧

技巧6：多条件复合筛选

In [None]:
# 筛选macro数据中通胀>3且失业率<6的时期
df_macro_filtered = df_macro.query("infl > 3 & unemp < 6")

# 技巧7：使用where保留原数据结构
df_macro["realgdp_filtered"] = df_macro["realgdp"].where(df_macro["realgdp"] > df_macro["realgdp"].median())

技巧8：按分组筛选

In [None]:
# 筛选每个治疗组中体重增长前2的患者
df_top = df_anorexia.groupby("Treat").apply(
    lambda x: x.nlargest(2, "postwt - prewt")
).reset_index(drop=True)

#### 5.数据转换技巧

技巧9：安全类型转换

In [None]:
# 避免转换错误的防御性编程
def safe_convert(x):
    try:
        return float(x)
    except (ValueError, TypeError):
        return np.nan

df_heart["age_float"] = df_heart["age"].apply(safe_convert)

技巧10：分箱与离散化

In [None]:
# 将年龄分为青年/中年/老年
df_heart["age_group"] = pd.cut(
    df_heart["age"],
    bins=[0, 40, 60, 100],
    labels=["青年", "中年", "老年"]
)

#### 6.完整清洗管道示例

In [None]:
# 构建完整处理管道
def clean_data(df):
    return (
        df
        .pipe(lambda x: x.dropna(how="all"))  # 删除全空行
        .assign(
            infl = lambda x: x["infl"].clip(lower=0),  # 处理负值
            date = lambda x: pd.to_datetime(x["year"].astype(str) + "Q" + x["quarter"].astype(str))
        )
        .query("realgdp > 0")  # 筛选有效GDP
        .sort_values("date")
    )

cleaned_macro = clean_data(df_macro.copy())

#### 7.与statsmodels建模衔接

In [None]:
# 清洗后直接建模
from statsmodels.formula.api import ols

model = ols("realgdp ~ infl + unemp", data=cleaned_macro).fit()
print(model.summary())

# 技巧11：用筛选后的数据重新建模
significant_periods = cleaned_macro[cleaned_macro["infl"] > cleaned_macro["infl"].quantile(0.9)]
model_high_infl = ols("realgdp ~ unemp", data=significant_periods).fit()

#### 8.可视化检查工具

In [None]:
# 技巧12：自动化诊断报告
from pandas_profiling import ProfileReport
profile = ProfileReport(cleaned_macro, title="清洗后数据报告")
profile.to_file("report.html")

### 04.统计建模

#### 1.变量类型驱动建模全解

##### 1.1.数据集生成代码

In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

# 设置随机种子保证可复现
np.random.seed(42)

# 生成基础数据
n_samples = 500
data = pd.DataFrame({
    # 自变量（连续）
    'salary': np.round(np.random.normal(loc=10000, scale=3000, size=n_samples), 2),
    # 自变量（类别）
    'dept': np.random.choice(['销售', '技术', '人力'], size=n_samples),
    # 控制变量（连续）
    'tenure': np.random.randint(1, 11, size=n_samples),  # 工作年限1-10年
    # 中介变量（连续）
    'stress': np.random.normal(loc=3, scale=1, size=n_samples).clip(1, 5),  # 压力评分1-5
    # 调节变量（类别）
    'remote': np.random.choice([0, 1], size=n_samples, p=[0.7, 0.3]),  # 30%远程办公
})

# 生成因变量（受其他变量影响）
logit = (-0.0003 * data['salary'] + 
         0.5 * (data['dept'] == '销售').astype(int) - 
         0.2 * data['tenure'] + 
         0.8 * data['stress'] + 
         0.5 * data['remote'] + 
         np.random.normal(0, 1, size=n_samples))
data['turnover'] = (logit > 0.5).astype(int)  # 二分类因变量

# 添加交互效应（调节效应）
data.loc[data['remote'] == 1, 'stress'] += 1  # 远程员工压力+1分

# 保存数据集
data.to_csv('employee_turnover.csv', index=False)
print("数据集已生成，前5行示例：")
print(data.head())

##### 1.2.数据集字段说明

| 变量名   | 类型     | 角色       | 模拟逻辑                  | 取值范围               |
|----------|----------|------------|---------------------------|------------------------|
| salary   | 连续     | 自变量     | 正态分布                  | 3000-20000美元         |
| dept     | 类别     | 控制变量   | 三类均匀分布              | 销售/技术/人力         |
| tenure   | 连续     | 控制变量   | 整数均匀分布              | 1-10年                |
| stress   | 连续     | 中介变量   | 受salary和remote影响       | 1-5分                 |
| remote   | 二分类   | 调节变量   | 30%概率为远程             | 0=坐班, 1=远程        |
| turnover | 二分类   | 因变量     | 由其他变量加权生成         | 0=未离职, 1=离职      |

##### 1.3.数据可视化检查

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# 1. 变量分布检查
plt.figure(figsize=(12, 4))
plt.subplot(131)
sns.histplot(data['salary'], bins=20, kde=True)
plt.title('薪资分布')

plt.subplot(132)
sns.countplot(x='dept', data=data)
plt.title('部门分布')

plt.subplot(133)
sns.countplot(x='turnover', data=data)
plt.title('离职比例')
plt.tight_layout()
plt.show()

# 2. 关键关系检查
sns.lmplot(x='salary', y='stress', hue='remote', data=data, 
           markers=['o', 'x'], palette=['#1f77b4', '#ff7f0e'])
plt.title('薪资与压力的关系（按远程办公分组）')
plt.show()

| 变量名   | 类型     | 角色          | 取值范围               |
|----------|----------|---------------|------------------------|
| turnover | 二分类   | 因变量(y)     | 0=未离职, 1=离职       |
| salary   | 连续     | 自变量(X)     | 3000-20000美元         |
| dept     | 类别     | 控制变量      | 销售/技术/人力         |
| stress   | 连续     | 中介变量(M)   | 1-5分压力评分          |
| remote   | 二分类   | 调节变量      | 0=坐班, 1=远程         |

#### 2.基础模型选择

##### 2.1.连续X → 连续y

模型：OLS线性回归  

In [None]:
model = smf.ols('turnover ~ salary', data).fit()

##### 2.2.连续X → 类别y

模型：Logistic回归  

In [None]:
model = smf.logit('turnover ~ salary', data).fit()

##### 2.3.类别X → 连续y

模型：ANOVA方差分析  

In [None]:
model = smf.ols('stress ~ C(dept)', data).fit()

##### 2.4.类别X → 类别y

模型：卡方检验 

In [None]:
table = pd.crosstab(data['dept'], data['turnover'])
chi2, p, _, _ = stats.chi2_contingency(table)

#### 3.加入控制变量

模型：多元回归（控制混杂因素）

In [None]:
model = smf.ols('turnover ~ salary + C(dept) + tenure', data).fit()

#### 4.中介效应模型（X → M → y）

##### 4.1.三步法检验：

In [None]:
# 步骤1: X → y
smf.ols('turnover ~ salary', data).fit()
# 步骤2: X → M
smf.ols('stress ~ salary', data).fit()
# 步骤3: X + M → y
smf.ols('turnover ~ salary + stress', data).fit()

#### 5.调节效应模型（X*W → y）

模型：含交互项的回归

In [None]:
model = smf.ols('turnover ~ salary * C(remote)', data).fit()

#### 6.全模型整合

综合所有变量类型：

In [None]:
full_model = smf.ols(
    'turnover ~ salary * C(remote) + stress + C(dept) + tenure',
    data
).fit()

#### 7.关键总结表

| 变量角色       | 数据类型要求       | 模型处理方法          | 代码符号              |
|----------------|--------------------|-----------------------|-----------------------|
| **因变量(y)**  | 连续/类别          | 选择OLS/Logit         | 左侧公式主体          |
| **自变量(X)**  | 任意               | 直接放入公式          | + X                   |
| **控制变量**   | 任意               | 与其他变量并列        | + C(类别X) 或 + X      |
| **中介变量**   | 连续               | 三步法检验            | 作为因变量+M→y        |
| **调节变量**   | 任意               | 添加交互项            | * W                   |