## 实验：公司破产数据分析

### 实验概要

**破产** 是由债务人发起的一种法律程序，债务人无法偿还其债权人（欠债的银行或机构）的部分或全部债务。在大多数国家，破产是由法院命令实施的。当公司无力偿还债务或履行义务时，就会发生破产。这种破产状态可以持续几个月到几年。在某些情况下，破产可能是永久性的。破产不仅是由于资金管理不善造成的，也是由于经济放缓或自然灾害等外部市场因素造成的。**破产预测** 对于预测一家公司是否会在不久的将来陷入财务困境非常有用。这可以通过一个预测模型来实现，该模型将公司划分为 **财务健全** 或 **财务不健全**（破产概率高）。一个多世纪以来，破产预测的重要性一直是金融界的一个非常重要的话题。其中一个主要原因是，债权人可以建立健全的 **风险管理体系**，从而在更大程度上减轻损失。俗话说，**预防胜于治疗**。

在本实验中，我们将通过一家波兰公司的债务人案例来研究导致破产的重要因素。我们将在本实验中使用的数据包括公司的各种 **财务比率**。借助正规化技术，我们将能够缩小导致破产的重要财务比率。通过了解导致破产的因素，债权人可以建立一个监控这些财务比率的系统，并可以在违反阈值时采取行动，例如增加抵押品或提高利率。

我们将使用 **探索性数据分析** 来识别财务数据中的 **疲劳预警迹象**。该数据集是关于波兰公司破产预测的。这些数据是从新兴市场信息服务处收集的。对 `2000` 年至 `2012` 年期间的破产公司进行了分析，而对 `2007` 年至 `2013` 年期间仍在运营的公司进行了评估。共有五个 ARFF (属性关系文件格式) 数据文件：分别命名为：`1year`、`2year`、`3year`、`4year` 和 `5year`。数据字段说明如下 ——

- **`X1`**：净利润 / 总资产
- **`X2`**：总负债 / 总资产
- **`X3`**：营运资本 / 总资产
- **`X4`**：流动资产 / 短期负债
- **`X5`**：[（现金+短期证券+应收款项-短期负债）/（营业费用-折旧）] $\times$ 365
- **`X6`**：留存收益 / 总资产
- **`X7`**：息税前利润 / 总资产
- **`X8`**：权益账面价值 / 负债总额
- **`X9`**：销售额 / 总资产
- **`X10`**：权益 / 总资产
- **`X11`**：（毛利 + 非常项目 + 财务费用）/ 总资产
- **`X12`**：毛利/短期负债
- **`X13`**：（毛利 + 折旧）/ 销售额
- **`X14`**：（毛利 + 利息）/ 总资产
- **`X15`**：（总负债 $\times$ 365）/（毛利+折旧）
- **`X16`**：（毛利 + 折旧）/ 总负债
- **`X17`**：总资产 / 总负债
- **`X18`**：毛利 / 总资产
- **`X19`**：毛利 / 销售额
- **`X20`**：（库存 $\times$ 365）/ 销售额
- **`X21`**：销售额（$n$）/ 销售额（$n-1$）
- **`X22`**：经营活动利润 / 总资产
- **`X23`**：净利润 / 销售额
- **`X24`**：毛利（三年内）/ 总资产
- **`X25`**：（股权-股本）/ 总资产
- **`X26`**：（净利润 + 折旧）/ 总负债
- **`X27`**：经营活动利润 / 财务费用
- **`X28`**：营运资本 / 固定资产
- **`X29`**：总资产对数
- **`X30`**：（总负债 - 现金）/ 销售额
- **`X31`**：（毛利 + 利息）/ 销售额
- **`X32`**：（流动负债 $\times$ 365）/ 售出产品成本
- **`X33`**：营业费用 / 短期负债
- **`X34`**：营业费用 / 负债总额
- **`X35`**：销售利润 / 总资产
- **`X36`**：总销售额 / 总资产
- **`X37`**：（流动资产 - 存货）/ 长期负债
- **`X38`**：固定资本 / 总资产
- **`X39`**：销售利润 / 销售额
- **`X40`**：（流动资产 - 存货 - 应收款项）/ 短期负债
- **`X41`**：总负债 /（（经营活动利润 + 折旧）$\times$（12/365））
- **`X42`**：经营活动 / 销售利润
- **`X43`**：周转应收款+库存周转天数
- **`X44`**：（应收账款 $\times$ 365）/ 销售额
- **`X45`**：净利润 / 库存
- **`X46`**：（流动资产 - 存货）/ 短期负债
- **`X47`**：（库存 $\times$ 365）/ 售出产品成本
- **`X48`**：EBITDA（经营活动利润 - 折旧）/ 总资产
- **`X49`**：EBITDA（经营活动利润 - 折旧）/ 销售额
- **`X50`**：流动资产 / 总负债
- **`X51`**：短期负债 / 总资产
- **`X52`**：（短期负债 $\times$ 365）/ 销售产品成本）
- **`X53`**：权益 / 固定资产
- **`X54`**：固定资本 / 固定资产
- **`X55`**：营运资本
- **`X56`**：（销售额 - 售出产品成本）/ 销售额
- **`X57`**：（流动资产 - 存货 - 短期负债）/（销售 - 毛利 - 折旧）
- **`X58`**：总成本 / 总销售额
- **`X59`**：长期负债 / 权益
- **`X60`**：销售 / 库存
- **`X61`**：销售 / 应收款项
- **`X62`**：（短期负债 $\times$ 365）/ 销售额
- **`X63`**：销售 / 短期负债
- **`X64`**：销售 / 固定资产
- **`Y`**：目标特征，是否破产

数据集中一些最重要的术语如下：

- **净利润**：从总收入中减去所有营业费用、利息和税款后剩下的金额。
- **总负债**：一个实体所欠债务和其他财务义务的总额。
- **总资产**：这是实体拥有的资产总额。
- **流动资产**：指一年内可转换为现金的现金和其他资产。
- **毛利**：这是公司扣除制造或提供服务的相关成本后的利润。
- **库存**：这是一个公司在生产中使用的产成品或商品的完整列表。
- **营运资本**：这是公司用于日常运营的资本。
- **息税前利润**：指息税前利润。

在本实验中，我们将采取以下方法：

- 导入数据
- 运行 pandas profiling (数据探索分析)
- 缺失值分析
- 执行 Imputation (使用其它记录将缺失值替换)
- 拉索正则化 (Lasso regularization)

### 实验目标

在本实验中，我们将查看一家波兰公司的破产数据，试图了解破产背后的主要原因，以及是否有可能识别早期预警迹象。完成试验后，您将能够使用 **pandas-profiling** 执行探索性数据分析。您还将能够对两种不同类型的插补器应用缺失值处理，并成功处理数据中的不平衡。**pandas-profiling** 是专门用于为 Pandas DataFrame 生成基于 HTML 的

### 1. 数据导入

In [1]:
#!pip install pandas_profiling==3.1.0

In [2]:
# 忽略警告，使代码更易读
import warnings
warnings.filterwarnings("ignore")
warnings.filterwarnings("ignore", category=DeprecationWarning)

导入数据组织、统计操作和绘图所需的基本库 `numpy`、`pandas`、`matplotlib inline` 和 `arff`：

In [3]:
# 用于数据组织、统计操作和绘图的基本库
import numpy as np
import pandas as pd
%matplotlib inline

# 用于加载 .arff 文件
from scipy.io import arff

下面加载数据并设置列名称。

In [4]:
# 设置输入输出路径
import os
base_path = os.environ.get("BASE_PATH",'../data/')
data_path = os.path.join(base_path + "lab15/bankruptcy/")
result_path = "result/bankruptcy/"
os.makedirs(result_path, exist_ok=True)

############################################################
# 加载 5 个原始 .arff 文件到列表
def load_arff_raw_data():
    N=5
    return [arff.loadarff(data_path+str(i+1) + 'year.arff') for i in range(N)]

############################################################
# 加载 5 个原始 .arff 文件到 pandas 的 DataFrame
def load_dataframes():
    return [pd.DataFrame(data_i_year[0]) for data_i_year in load_arff_raw_data()]

############################################################
# 为所有的5个 DataFrame 设置列名称（从 X1到X64）以及类标签为Y
def set_new_headers(dataframes):
    cols = ['X' + str(i+1) for i in range(len(dataframes[0].columns)-1)]
    cols.append('Y')
    for df in dataframes:
        df.columns = cols

############################################################
# 调用函数获取 DataFrame 
dataframes = load_dataframes()

# 设置新的列名称
set_new_headers(dataframes)    

# 打印‘year1’数据集的前5行
dataframes[0].head()

Unnamed: 0,X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,...,X56,X57,X58,X59,X60,X61,X62,X63,X64,Y
0,0.20055,0.37951,0.39641,2.0472,32.351,0.38825,0.24976,1.3305,1.1389,0.50494,...,0.12196,0.39718,0.87804,0.001924,8.416,5.1372,82.658,4.4158,7.4277,b'0'
1,0.20912,0.49988,0.47225,1.9447,14.786,0.0,0.25834,0.99601,1.6996,0.49788,...,0.1213,0.42002,0.853,0.0,4.1486,3.2732,107.35,3.4,60.987,b'0'
2,0.24866,0.69592,0.26713,1.5548,-1.1523,0.0,0.30906,0.43695,1.309,0.30408,...,0.24114,0.81774,0.76599,0.69484,4.9909,3.951,134.27,2.7185,5.2078,b'0'
3,0.081483,0.30734,0.45879,2.4928,51.952,0.14988,0.092704,1.8661,1.0571,0.57353,...,0.054015,0.14207,0.94598,0.0,4.5746,3.6147,86.435,4.2228,5.5497,b'0'
4,0.18732,0.61323,0.2296,1.4063,-7.3128,0.18732,0.18732,0.6307,1.1559,0.38677,...,0.13485,0.48431,0.86515,0.12444,6.3985,4.3158,127.21,2.8692,7.898,b'0'


运行以下代码以查看 year1 DataFrame 的形状：

In [5]:
dataframes[0].shape

(7027, 65)

创建 DataFrame 后，转换列的数据类型以进行进一步分析。前面 DataFrame 中显示的数字数据（类标签列除外）是 Python 对象，因此我们需要将所有 DataFrame 的数字特征转换为浮点：

In [6]:
# 将所有列（类标签列除外）的数据类型转换为 float。
def convert_columns_type_float(dfs):
    for i in range(5):
        index = 1
        while(index<=63):
            colname = dfs[i].columns[index]
            col = getattr(dfs[i], colname)
            dfs[i][colname] = col.astype(float)
            index+=1
            
convert_columns_type_float(dataframes)

将类标签类型转换为 int。如果查看类标签“Y”，则值显示为 b'0' 或 b'1'。它们实际上对应着破产是虚假的和真实的。建议将它们转换为二进制整数 0 和 1：

In [7]:
# 所有 DataFrame 的类标签最初都是对象类型。将它们转换为int类型
def convert_class_label_type_int(dfs):
    for i in range(len(dfs)):
        col = getattr(dfs[i], 'Y')
        dfs[i]['Y'] = col.astype(int)
        
convert_class_label_type_int(dataframes)

> 我们成功地将 ARFF 数据文件转换为 DataFrame，以供进一步分析。

### 2. Pandas Profiling
在本节中，我们将重点介绍 pandas profiling，这是一种简单快速的探索性数据分析方法。它本质上是一个包，提供数据分析方法。

现在，我们需要启动一个循环来对五个 DataFrame 执行 pandas 分析。使用 pandas profiling 的主要优点是，它为您提供了一个交互式 HTML 报告，其中包含 DataFrame 中列的各种统计参数。一些参数包括缺失值、偏度、峰度、最常见值、直方图和相关性。

In [8]:
%%time
import pandas_profiling

for i in range(0,5):
    profile = dataframes[i].profile_report(title='Pandas Profiling Report',
                                           plot={'histogram': {'bins': 8}})
    profile.to_file(output_file=result_path+str(i)+"output.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

CPU times: user 1h 21min 28s, sys: 6min 25s, total: 1h 27min 53s
Wall time: 1h 23min 2s


> pandas profiling 的输出是 `HTML` 格式的。五个 DataFrame 各有一个报告。

我们将主要关注 DataFrame 的以下方面 ——

- **`Number of variables (变量数量)`**：指 DataFrame 中存在的特征数量。
- **`Number of observations (观察数)`**：指 DataFrame 中存在的记录数。
- **`Missing values (缺失值)`**：DataFrame 列中缺失的记录数。
- **`Duplicate rows (重复行)`**：DataFrame 列中不唯一的记录数。
- **`Types of variables (变量类型)`**：DataFrame 中存在的数字、分类、布尔、日期值和 URL 的数量。
- **`Skewness (偏度)`**：这是实值随机变量在其平均值周围的概率分布中的不对称或扭曲程度：

<img src="./img/4-1.jfif" width=40%>

不同偏态分布的平均值、中值和模式之间的关系如下图所示 ——

<img src="./img/4-2.jfif" width=80%>

偏度值可以为：**正**、**负** 或 **未知** 的。

- **相关性**：相关性讨论两个变量之间的关系以及关系的强度。如果 DataFrame 中的两个特征高度相关，则可以拒绝其中一个特征。Pandas profiling 为您提供了一系列相关且可以拒绝的功能。
- **变量的描述性统计**：变量的描述性统计表示该特定特征的各种参数，如均值、中位数、方差、变异系数、峰度和总和。

pandas profiling 的输出是一个 HTML 文件。我们将在下面的屏幕截图中讨论发现的各个方面。

第一个 DataFrame。（**可以在输出路径中找到相应的 HTML 文件，以查看详细信息**）

<img src="img/4-1.png" width=80%>

$\uparrow$ 根据上图，我们可以很容易地得出数据集有 `65` 个特征和 `7027` 个观测值。缺失值的总数为 `5835`。

现在，让我们看看这些特征，看看特征是否倾斜。除了偏度，我们还将研究相关性。如果两个变量是相关的，我们可以拒绝一个变量而使用另一个变量。下面是 pandas profiling 概况报告的延续，这里我们可以看到特征之间的相关性，以及是否是偏度的以及零值：

<img src="img/4-2.png" width=80%>

从前面的报告中，我们可以看到 **32** 个特征具有高度相关性。在监督学习中，由于以下原因，**具有高相关性的特征被移除** ——

- 由于信息重复，相关特征会损害预测模型。
- 根据 **奥卡姆剃刀** 法则，当处于进退两难的境地时，总是选择一个简单的模型，也就是说，它具有较少的特性。
- 如果我们不去除相关的特征，维度诅咒就会出现，这会使机器学习模型变慢。

在模型构建阶段，我们可以拒绝的特征列表如下 ——

`X14`, `X17`, `X18`, `X20`, `X22`, `X23`, `X24`, `X26`, `X30`, `X31`, `X36`, `X38`, `X39`, `X40`, `X42`, `X43`, `X44`, `X46`, `X48`, `X51`, `X52`, `X54`, `X56`, `X58`, `X61`, `X62`, `X63`, `X64`, `X7`, `X8`, `X9`

**可以使用类似方法对其他几个 HTML 文件进行分析**

### 3. 缺失值分析

数据分析的主要步骤之一是 **缺失值分析**。我们需要执行缺失值分析的主要原因是要知道一列中缺失了多少数据，以及我们将如何处理它。

通常，可以通过两种方式处理缺失的值 _

- 第一种方法是删除缺失值的行，这将导致信息丢失。
- 第二种方法是插补缺失值，即我们根据所采用的插补方法填充缺失值。例如，在均值插补中，我们使用特定列的平均值来填充缺失值。

为了找出 DataFrame 中存在多少缺失值，我们将向您介绍一个名为 `missingno` 的包，它将帮助您可视化 DataFrame 中缺失值的数量。

导入 missingno 库 ——

In [9]:
import missingno as msno

在第一个 DataFrame 中查找缺失值，并在绘图中可视化缺失值：

In [10]:
# 第一个 Dataframe 中的缺失值
msno.bar(dataframes[0],color='dodgerblue',labels=True)

ValueError: The number of FixedLocator locations (7), usually from a call to set_ticks, does not match the number of ticklabels (65).

> 在上面的图中，$x$ 轴表示 DataFrame 的特征，而 $y$ 轴表示当前值数量的百分比；例如，对于特征 `X37`，$y$ 轴的值为 `.6`，表示 `60%` 的数据存在，其余（`40%`）缺失。对于第一个 DataFrame，`X37`、`X21`、`X27` 和 `X60` 列中有大量缺失值，而其他列的百分比较低。

对第二个 DataFrame 执行相同的分析，并将其显示在条形图中 ——

In [11]:
# 第二个 DataFrame 中的缺失值
msno.bar(dataframes[1],color='dodgerblue',labels=True)

ValueError: The number of FixedLocator locations (7), usually from a call to set_ticks, does not match the number of ticklabels (65).

> 在上面的图中，$x$ 轴表示 DataFrame 的特征，而 $y$ 轴表示存在值的百分比。对于第二个 DataFrame，`X37`、`X21`、`X27` 和 `X60` 列中有大量缺失值，而其他列中缺失值的数量较少。

对第三个 DataFrame 也执行相同的分析，并在条形图中可视化 ——

In [12]:
# 第三个 DataFrame 中的缺失值
msno.bar(dataframes[2],labels=True)

ValueError: The number of FixedLocator locations (7), usually from a call to set_ticks, does not match the number of ticklabels (65).

> 与之前的 DataFrame 类似，此 DataFrame 在列中显示出几乎相同级别的缺失值。

**可以按照此操作查看其他 DataFrame 的缺失值情况**

### 4. 插补缺失值

从上面的分析中，我们可以观察到，由于数据丢失，删除缺失的值或删除特性可能不是一个好的选择。为了克服这一障碍，我们需要进行插补。我们将研究两种可以用来处理缺失值的不同方法 ——

- 均值插补
- 迭代插补

#### 4.1 均值插补

在均值插补中，缺失值用缺失值 **所在列的平均值** 填充。从 sklearn.preprocessing 导入插补器以执行均值插补来填充缺失值 ——

In [None]:
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

在第一个 DataFrame 上拟合插补器，这将对缺失值的列执行均值插补 ——

In [None]:
mean_imputed_df1=pd.DataFrame(imputer.fit_transform(dataframes[0]),
                              columns=dataframes[0].columns)

执行插补后，使用以下代码段检查 DataFrame 中缺失的值 ——

In [None]:
msno.bar(mean_imputed_df1,color='tab:green',labels=True)

> x 轴表示 DataFrame 的特征，而 y 轴表示存在值的百分比。我们可以看到缺失的值已被填充。

同样，对第二个 DataFrame 执行均值插补：

In [None]:
# Imputation 第二个 Dataframe
mean_imputed_df2=pd.DataFrame(imputer.fit_transform(dataframes[1]),
                              columns=dataframes[1].columns)

# 检查缺失值
msno.bar(mean_imputed_df2,color='tab:green',labels=True)

> x 轴表示 DataFrame 的特征，而 y 轴表示存在值的百分比。我们可以看到缺失的值已被填充。

同样，对第三个 DataFrame 执行均值插补：

In [None]:
# Imputation 第三个  Dataframe
mean_imputed_df3=pd.DataFrame(imputer.fit_transform(dataframes[2]),
                              columns=dataframes[2].columns)

# 检查缺失值
msno.bar(mean_imputed_df3,color='tab:green',labels=True)

对剩余 2 个 DataFrame 执行均值插补

In [None]:
# Imputation 第四个  Dataframe
mean_imputed_df4=pd.DataFrame(imputer.fit_transform(dataframes[3]), 
                              columns=dataframes[0].columns)

# Imputation 第五个  Dataframe
mean_imputed_df5=pd.DataFrame(imputer.fit_transform(dataframes[4]), 
                              columns=dataframes[1].columns)

#### 4.2 迭代插补

`迭代插补器` 将具有缺失值的每个特征建模为其他特征的函数，并使用该估计值来插补缺失值。这是在循环函数中完成的，其中缺失值的特征被定义为目标变量，其他特征被视为独立的。然后在（X，y）上拟合出 y 的已知值，并用于预测 y 的缺失值。

从 sklearn.impute 导入 IterativeImputer 以及 sklearn.experimental 导入 enable_iterative_imputer 以填充缺失值：

In [None]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

初始化迭代插补器：

In [None]:
imputer = IterativeImputer()

为 dataframe[0] 创建一个名为 iterative_imputed_df1 的 DataFrame，在迭代插补器的帮助下填充缺失的值：

In [None]:
iterative_imputed_df1 = pd.DataFrame(imputer.fit_transform(dataframes[0]),
                                     columns=dataframes[0].columns)

完成插补后，检查 DataFrame 中是否有缺失值：

In [None]:
msno.bar(iterative_imputed_df1,color='tab:green',labels=True)

> x 轴表示 DataFrame 的特征，而 y 轴表示存在值的百分比。由此可以看出，缺失的值已被填充。

对第二个 DataFrame（dataframes[1]）执行迭代插补：

In [None]:
# 为 dataframe[1] 创建一个 dataframe iterative_imputed_df2，
# 其中缺失值在迭代插补器的帮助下填充
iterative_imputed_df2 = pd.DataFrame(imputer.fit_transform(dataframes[1]),
                                     columns=dataframes[1].columns)
# 检查 dataframe 中的缺失值
msno.bar(iterative_imputed_df2,color='tab:green',labels=True)

> $x$ 轴表示 DataFrame 的特征，而 $y$ 轴表示存在值的百分比。由此可以看出，缺失的值已被填充。

类似地，对第三个 DataFrame（`dataframes[2]`）执行迭代插补：

In [None]:
# 为 dataframe[2] 创建一个 dataframe iterative_imputed_df3，
# 其中缺失值在迭代插补器的帮助下填充
iterative_imputed_df3 = pd.DataFrame(imputer.fit_transform(dataframes[2]),
                                     columns=dataframes[2].columns)
# 检查 dataframe 中的缺失值
msno.bar(iterative_imputed_df3,color='tab:green',labels=True)

最后，对剩余的 DataFrame 进行插补。

In [None]:
iterative_imputed_df4 = pd.DataFrame(imputer.fit_transform(dataframes[3]), 
                                     columns=dataframes[0].columns)

iterative_imputed_df5 = pd.DataFrame(imputer.fit_transform(dataframes[4]), 
                                     columns=dataframes[1].columns)

> 现在，我们已经对 DataFrame 进行了插补，可以得出结论，缺失值已经填充。

### 5. 分割特征

在上一节中，我们看到了缺失值是如何用不同类型的插补来填充的。

在本节中，我们将把 DataFrame 中的因变量拆分为 `y`，将自变量拆分为 `X`。因变量是一个过程的结果。在我们的案例中，这个过程就是公司是否破产。自变量（也称为特征）是我们流程的输入，在本例中是其余变量。

分割特征作为下一步的先导，在这一步中，我们选择决定因变量的最重要 X 变量。

我们需要分割 **均值插补** DataFrame 的特征，如以下代码所示：

In [None]:
# 第一个 DataFrame
X0=mean_imputed_df1.drop('Y',axis=1)
y0=mean_imputed_df1.Y

# 第二个 DataFrame
X1=mean_imputed_df2.drop('Y',axis=1)
y1=mean_imputed_df2.Y

# 第三个 DataFrame
X2=mean_imputed_df3.drop('Y',axis=1)
y2=mean_imputed_df3.Y

# 第四个 DataFrame
X6=mean_imputed_df4.drop('Y',axis=1)
y6=mean_imputed_df4.Y

# 第五个 DataFrame
X7=mean_imputed_df5.drop('Y',axis=1)
y7=mean_imputed_df5.Y

接下来，我们需要分割 **迭代插补** DataFrame 的功能，如以下代码片段所示：

In [None]:
# 第一个 DataFrame
X3=iterative_imputed_df1.drop('Y',axis=1)
y3=iterative_imputed_df1.Y

# 第二个 DataFrame
X4=iterative_imputed_df2.drop('Y',axis=1)
y4=iterative_imputed_df2.Y

# 第三个 DataFrame
X5=iterative_imputed_df3.drop('Y',axis=1)
y5=iterative_imputed_df3.Y

# 第四个 DataFrame
X8=iterative_imputed_df4.drop('Y',axis=1)
y8=iterative_imputed_df4.Y

# 第五个 DataFrame
X9=iterative_imputed_df5.drop('Y',axis=1)
y9=iterative_imputed_df5.Y

### 6. 拉索特征选择

**特征选择** 是建立任何机器学习模型之前要执行的最重要步骤之一。在数据集中，**并非所有列都会对因变量产生影响**。如果我们将所有不相关的特征都包含在模型构建中，那么我们最终将构建一个性能较差的模型。这就需要执行特征选择。在本节中，我们将使用 **拉索**（lasso） 方法执行特征选择。拉索正则化是一种特征选择方法，其中不相关特征的系数设置为零。通过这样做，我们删除了不重要的特征，只包括其余的重要特征，以供进一步分析。让我们对均值和迭代插补 DataFrame 执行拉索正则化。

#### 6.1 均值插补 DataFrame 的拉索正则化

让我们对均值插补 DataFrame 1 执行拉索正则化。

第一步，从 sklearn.linear_model 导入 Lasso 以及从 sklearn.feature_selection 导入 SelectFromModel：

In [None]:
from sklearn.linear_model import Lasso
from sklearn.feature_selection import SelectFromModel

我们将在名为 features_names 的列表中单独存储特征名称：

In [None]:
features_names=X0.columns.tolist()

初始化拉索方法

In [None]:
lasso = Lasso(alpha=0.01 ,positive=True)

为 X0 和 y0 拟合拉索：

In [None]:
lasso.fit(X0,y0)

拟合拉索后获取特征名称：

In [None]:
coef_list=sorted(zip(map(lambda x: round(x,4), 
                         lasso.coef_.reshape(-1)), 
                     features_names),reverse=True)
coef_list[0:5]

> 通过执行拉索正则化，我们最终只得到 **64** 个重要特征中的 **3** 个。重要的列如下：

- `X2`：总负债/总资产
- `X34`：营业费用/总负债
- `X51`：短期负债/总资产

>列 `X9` 和 `X8` 的重要性为零。

同样，我们将对均值插补 DataFrame 2 执行拉索正则化：

In [None]:
features_names=X1.columns.tolist()

# 初始化拉索
lasso = Lasso(alpha=0.01 ,positive=True)

# 为 X1 和 y1 拟合拉索
lasso.fit(X1,y1)

# 拟合拉索后获取特征名称：
coef_list=sorted(zip(map(lambda x: round(x,4), 
                         lasso.coef_.reshape(-1)),
                     features_names),reverse=True)

coef_list[0:5]

> 通过执行拉索正则化，我们最终只得到 **64** 个重要特征中的 **2** 个。重要的列如下：

- `X2`：总负债/总资产
- `X49`：EBITDA（经营活动利润-折旧）/销售额

> 列 `X9`、`X8` 和 `X7` 的重要性为零。

**您可以根据上面的操作对其余的 DataFrame 进行拉索特征选择**

#### 6.2 迭代插补 DataFrame 的拉索正则化

现在，我们将对迭代插补 DataFrame 1 执行拉索正则化。

首先，将独立的特征名称存储在名为 features_names 的列表中：

In [None]:
features_names=X3.columns.tolist()

初始化拉索回归

In [None]:
lasso = Lasso(alpha=0.01 ,positive=True)

拟合模型

In [None]:
lasso.fit(X3,y3)

得到结果特征列

In [None]:
coef_list=sorted(zip(map(lambda x: round(x,4), 
                         lasso.coef_.reshape(-1)), 
                     features_names),reverse=True)
coef_list [0:5]

> 通过执行拉索正则化，我们最终只得到 **64** 个重要特征中的 **2** 个。重要的列如下：

- `X2`：总负债/总资产
- `X34`：营业费用/总负债

> 列 `X9`、`X8` 和 `X7` 的重要性为零。

类似地，对迭代插补 DataFrame 2 执行拉索正则化：

In [None]:
features_names=X4.columns.tolist()

lasso = Lasso(alpha=0.01 ,positive=True)

lasso.fit(X4,y4)

coef_list=sorted(zip(map(lambda x: round(x,4), 
                         lasso.coef_.reshape(-1)), 
                     features_names),reverse=True)
coef_list[0:5]

> 通过执行拉索正则化，我们最终只得到 **64** 个重要特征中的 **2** 个。重要的列如下：

- `X2`：总负债/总资产
- `X49`：EBITDA（经营活动利润 - 折旧）/ 销售额

> 列 `X9`、`X8` 和 `X7` 的重要性为零。

**您可以根据上面的操作对其余的 DataFrame 进行拉索特征选择**

### 实验小结

在本实验中，我们学习了如何将 ARFF 文件导入 pandas 的 DataFrame。在 DataFrame 上执行 Pandas 分析以获得相关特征。我们使用 missingno 软件包检测缺失值，并使用均值和迭代插补方法进行插补。为了找到导致破产的重要特征，我们进行了拉索正则化。通过拉索正则化，我们发现哪些特征是导致破产的原因。尽管我们在所有五个数据帧中获得了不同的重要特性，但其中一个特性出现在所有五个数据帧中，这只是 **总负债与总资产的比率**。这一特定比率在导致破产方面具有非常重要的意义。然而，我们的分析并不完全，因为我们只找到了影响破产的因素，而没有找到方向（当特定比率增加或减少时是否会发生破产）。为了全面了解这些因素，我们需要建立一个分类模型来扩展我们的分析。然而，这个过程超出了本实验的范围。