### 5.1 分类与预测
- 分类算法分两步: 1. 学习步, 2. 分类步
- 预测模型分两步: 1. 建立预测属性的函数模型, 2. 模型通过检验后进行预测或控制

##### 常用的分类与预测算法
- 1. 回归分析
    * 确定预测属性(数值型)与其他变量间相互依赖的定量关系的统计学方法
    * 包括线性回归, 非线性回归, Logistic回归, 岭回归, 主成分分析, 偏最小二乘回归
- 2. 决策树
    * 采用自顶向下的递归方式, 使用gini系数, 并根据不同的权重从该节点向下分支, 最终得到的叶节点是学习划分的类
- 3. 人工神经网络
- 4. 贝叶斯网络
    * 信度网络
- 5. 支持向量机
    * 把低维的非线性可分转化为高维的线性可分

##### 当自变量之间出现多重共线性时, 用最小二乘估计的回归系数会不准确，消除多重共线性的参数改进的估计方法主要有岭回归和主成分回归

##### 1. Logistic回归分析
- 1. Logistic函数
    * logistic的结果只有0-1, 假设p个独立自变量x1, x2,...,xp, p1 = P(y=1|X), p0 = 1 - p, Logit(p) = ln(p / (1 - p))
    * 令 Logit(p) = ln(p / (1 - p)) = z, 则 p = 1 / (1 + e^-z)即为Logistic函数
- 2. Logistic 回归模型
    z = w0x0 + w1x1 + ... + wnxn
##### 2. Logistic建模步骤
- 1. 根据分析目的设置指标变量(应变量和自变量), 根据数据对特征进行筛选
- 2. y = 1的概率为 p = P(y=1|X), y=0的概率为 1-p, 用ln(p / (1 - p))和自变量列出线性回归方程, 估计出模型中的回归系数
- 3. 进行模型检验。 正确率, 混淆矩阵, ROC曲线, KS值等
- 4. 模型应用

In [73]:
import pandas as pd
from sklearn.linear_model import LogisticRegression

import warnings
warnings.filterwarnings('ignore')

In [58]:
bankloan_data = pd.read_csv('./data/bankloan.csv.zip', compression='zip')
bankloan_data.head()

Unnamed: 0,年龄,教育,工龄,地址,收入,负债率,信用卡负债,其他负债,违约
0,41,3,17,12,176,9.3,11.359392,5.008608,1
1,27,1,10,6,31,17.3,1.362202,4.000798,0
2,40,1,15,14,55,5.5,0.856075,2.168925,0
3,41,1,15,14,120,2.9,2.65872,0.82128,0
4,24,2,2,0,28,17.3,1.787436,3.056564,1


In [68]:
X = bankloan_data.iloc[:, :8]
y = bankloan_data.iloc[:, -1]
lr = LogisticRegression()
lr.fit(X, y)
print(f'模型的平均正确率为: {lr.score(X, y)}')

0.8085714285714286

In [74]:
from stability_selection.randomized_lasso import RandomizedLogisticRegression
rlr = RandomizedLogisticRegression()
rlr.fit(X, y)
rlr.get_support() # 获取特征筛选结果, 也可以通过.scores_方法获取各个特征的分数
print(f"有效特征为: {', '.join(data.columns[rlr.get_support()])}")

- 递归特征消除: 主要思想是反复的构建模型，然后选出最好的(或者最差的特征), 寻找最优特征子集的贪心算法
- 稳定性选择: 是一种基于二次抽样和选择算法相结合较新的方法, 主要思想是在不同的数据子集和特征子集上运行特征选择算法, 不断重复, 最终汇总特征选择结果

##### 2. 决策树
- ID3算法: 其核心实在决策树的各级节点上, 使用信息增益方法作为属性的选择标准, 来帮助确定生成每个节点时所应采用的合适属性
    * 1. 基于信息熵
- C4.5算法: C4.5决策树相对于ID3的重要改进是使用信息增益率来选择节点属性, ID3只适用于离散的描述属性, 而C4.5算法可以处理离散和连续的描述属性
- CART算法: CART决策树是一种有效的非参数分类和回归方法, 通过构建树, 修剪树, 评估树来构建一个二叉树， 当终结点是连续变量时, 该树为回归树, 当终结点是分类变量时, 该树为分类树

In [49]:
def excel_to_csv(source, target):
    data = pd.read_excel(source, encoding='utf-8')
    data.to_csv(target, index=False)

filename = "sales_data"
source = './' + filename + '.xls'
target = './' + filename + '.csv'
excel_to_csv(source, target)

In [51]:
import os
for f in os.listdir():
    if f.endswith('.zip'): continue
    os.system(f'zip {f}.zip {f}')
    os.system(f'rm -rf {f}')

total 32
-rw-rw-r-- 1 Happiless.zhang 12643 Apr  8 14:06 01_数据挖掘基础.ipynb
-rw-rw-r-- 1 Happiless.zhang  9816 Apr  8 15:38 02_挖掘建模.ipynb
drwxrwxr-x 2 Happiless.zhang  4096 Apr  8 15:33 [0m[01;34mdata[0m/
