## 回归

In [None]:
# 线性回归
## 决策树回归
## 支持向量机回归
## 集成方法回归
# 罗吉斯特映射回归
# 人工神经网络回归

### 线性回归

In [1]:
# 回归分析是确定多个变量间相互依赖的定量关系的一种统计分析方法。
# 如果多个变量间的关系用线性关系去考量，那就是线性回归。如果用多项式关系去考量，那就是多项式回归。
# 最小二乘法
# 核心的算法：是一个最优化的过程，是求一个函数最小值的过程，而且也可以证明这个函数是连续可导的。方法：对函数的未知数进行求导，求各个极值，如果值域不是负无穷，那么极小值中一定会有一个最小的。
# 梯度下降法：求最小值，节省计算机资源开销。导数：标量（也就是斜率的大小）  梯度：矢量（指定了各个方向上的导数的大小，同时梯度要求函数具有一阶偏导，也是说对每个参数的分量都要可导），梯度指的方向是一个点最大的上升方向。
# 线性回归的进化（正则化）。选择系数更小的，可以有效的防止过拟合，也可以更快速的找到最优点
    # 岭回归：用到的是L2正则化
    # Lasso回归：

#### 代码实现

In [3]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.preprocessing import Normalizer
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.decomposition import PCA

In [16]:
# 回归测试
def regr_test(features, label):
    print("X", features)
    print("Y", label)
    # LinearRegression 线性回归
    # Ridge 岭回归
    # Lasso
    from sklearn.linear_model import LinearRegression, Ridge, Lasso
    # 线性回归 (常用)
    # regr = LinearRegression()
    # 岭回归 （特殊情况使用）
    # regr = Ridge(alpha=0.8)
    # Lasso （特殊情况使用）
    regr = Lasso(alpha=0.004)
    
    regr.fit(features.values, label.values)
    # 预测
    Y_pred = regr.predict(features.values)
    # 参数
    print("Coef:", regr.coef_)
    # 衡量回归方程的好坏
    from sklearn.metrics import mean_squared_error
    print("MSE:", mean_squared_error(Y_pred, label.values))

def hr_preprocessing(sl=False, le=False, npr=False, amh=False, tsc=False, wa=False, pl5=False, dp=False, slr=False, lower_d = False, ld_n = 1):
    df = pd.read_csv('./data/HR.csv')
    # 1.清洗数据
    df = df.dropna(subset=['satisfaction_level', 'last_evaluation'])
    df = df[df['satisfaction_level']<=1][df['salary']!='nme']
    # 2.得到标注
    label = df["left"]
    df = df.drop('left', axis=1)
    # 3.特征选择

    # 4.特征处理
    scaler_lst = [sl, le, npr, amh, tsc, wa, pl5]
    column_lst = ['satisfaction_level', 'last_evaluation', 'number_project', 'average_monthly_hours', 'time_spend_company', 'Work_accident', 'promotion_last_5years']
    for i in range(len(scaler_lst)):
        if not scaler_lst[i]:
            df[column_lst[i]]=MinMaxScaler().fit_transform(df[column_lst[i]].values.reshape(-1, 1)).reshape(1, -1)[0]
        else:
            df[column_lst[i]]=StandardScaler().fit_transform(df[column_lst[i]].values.reshape(-1, 1)).reshape(1, -1)[0]
    # # 将离散值数值化
    scaler_lst = [dp, slr]
    column_lst = ["department", "salary"]
    for i in range(len(scaler_lst)):
        if not scaler_lst[i]:
            if column_lst[i] == "salary":
                df[column_lst[i]] = [map_salary(s) for s in df['salary'].values]
            else:
                df[column_lst[i]] = LabelEncoder().fit_transform(df[column_lst[i]])
            df[column_lst[i]] = MinMaxScaler().fit_transform(df[column_lst[i]].values.reshape(-1, 1)).reshape(1, -1)[0]
        else:
            # OneHotEncoder
            df = pd.get_dummies(df, columns=[column_lst[i]])
    # 降维
    if lower_d:
        # n_components 不能大于类的个数
        # return LinearDiscriminantAnalysis(n_components=ld_n)
        # PCA n_components 不受限制
        return PCA(n_components=ld_n).fit_transform(df.values)  
    return df, label

d = dict([('low', 0), ('medium', 1), ('high', 2)])
def map_salary(s):
    return d.get(s, 0)

# 训练集 验证集 测试集
def hr_modeling(features, label):
    # 引入切分训练集和测试集的函数
    from sklearn.model_selection import train_test_split
    # 先取值
    f_v = features.values
    l_v = label.values
    # test_size 测试集占多少比例  
    # X_tt  训练集部分 X_validation标注
    # y_tt  验证集部分 Y_validation标注
    # 得到验证集
    X_tt, X_validation, Y_tt, Y_validation = train_test_split(f_v, l_v, test_size=0.2)
    # 区分验证集和测试集
    X_train, X_test, Y_train, Y_test = train_test_split(X_tt, Y_tt, test_size=0.25)
    # print(len(X_train), len(X_validation), len(X_test))
    
    # 衡量指标
    # accuracy_score 准确率
    # recall_score 召回率
    # f1_score F值
    from sklearn.metrics import accuracy_score, recall_score, f1_score
    # KNN
    # NearestNeighbors 此方法可以直接获得一个点附近最近的几个点
    from sklearn.neighbors import NearestNeighbors, KNeighborsClassifier
    # 逻辑回归
    from sklearn.linear_model import LogisticRegression
    # 提升树 GBDT
    from sklearn.ensemble import GradientBoostingClassifier
    
    
#     # 人工神经网络
#     # Sequential 层级容器
#     from keras.models import Sequential
#     # Dense 神经网络层/稠密层， Activation激活函数
#     from keras.layers.core import Dense, Activation
#     # 随机梯度下降算法
#     from keras.optimizers import SGD 
#     # 反向传播算法 PyBrain
#     mdl = Sequential()
#     # 创建稠密层表示输入层
#     # 50 下个隐含层的神经元个数
#     # input_dim  输入的维度
#     mdl.add(Dense(50, input_dim=len(f_v[0])))
#     # 激活函数
#     mdl.add(Activation("sigmoid"))
#     # 接入输出层 (上一层输出几个，下一层就会输入几个)
#     mdl.add(Dense(2))
#     # 保证归一化
#     mdl.add(Activation("softmax"))
#     # 优化器 lr 学习率
#     sgd = SGD(lr=0.08)
#     # 编译建立模型
#     # loss 最优化函数、损失函数
#     # mean_squared_error 平均平方误差
#     # optimizer 使用什么样的优化器  sgd  adam(亚当优化器)，迈开步子跑 
#     # nb_epoch 一共迭代的次数 
#     # batch_size 随机梯度下降算法每次选取的数量。
#     mdl.compile(loss="mean_squared_error", optimizer="adam")
#     mdl.fit(X_train, np.array([[0, 1] if i==1 else [1, 0] for i in Y_train]), nb_epoch=10000, batch_size=8999)
    
#     # 进行预测和评价 【训练集，验证集，测试集】
#     xy_lst = [(X_train, Y_train), (X_validation, Y_validation), (X_test, Y_test)]
#     for i in range(len(xy_lst)):
#         # X_part
#         X_part = xy_lst[i][0]
#         # y_part
#         Y_part = xy_lst[i][1]
#         # 预测值
#         Y_pred = mdl.predict_classes(X_part)
#         # 0训练集 1验证集 2测试集
#         print(i)
#         print("NN", "-ACC:", accuracy_score(Y_part,  Y_pred))
#         print("NN", "-REC:", recall_score(Y_part,  Y_pred))
#         print("NN", "-F-Score:", f1_score(Y_part,  Y_pred))
#     return 

    models = []
    # Adaboost
    # random_state 随机数的种子值
    # base_estimator 弱分类的基本分类器 需要两个属性 classes_ 和 n_classes_ 默认的是决策树
    # n_estimators 及联的决策树的数量 默认是50个
    # learning_rate 根据0-1的数进行衰减
    # algorithm 针对 base_estimator 进行的选择，如果base_estimator可以得到一个判别的概率，那么就可以使用SAMME.R,得到更好的效果
#     models.append(("AdaBoost", AdaBoostClassifier(n_estimators=100)))
    # penalty l1,l2 使用L1正则化或L2正则化
    # tol 计算的精度
    # C C越大，正则化因子所占的比例越小，反之越大
    # solver 使用的方法 sag 随机平均梯度下降算法 默认是liblinear
    # max_iter 最大的迭代次数
    # coef_ 参数
    # intercept_ 截距
    models.append(("LogisticRegression", LogisticRegression(C=1000, tol=1e-10, solver="sag", max_iter=10000)))
    # 提升树 GBDT
    # max_depth 深度
    # n_estimators 树的数量
    # learning_rate 衰减比率
    # criterion 标准
    models.append(("GBDT", GradientBoostingClassifier(max_depth=6, n_estimators=100)))
    for clf_name, clf in models:
        # 先进行拟合 训练
        clf.fit(X_train, Y_train)
        # 进行预测和评价 【训练集，验证集，测试集】
        xy_lst = [(X_train, Y_train), (X_validation, Y_validation), (X_test, Y_test)]
        for i in range(len(xy_lst)):
            # X_part
            X_part = xy_lst[i][0]
            # y_part
            Y_part = xy_lst[i][1]
            # 预测值
            Y_pred = clf.predict(X_part)
            # 0训练集 1验证集 2测试集
            print(i)
            print(clf_name, "-ACC:", accuracy_score(Y_part,  Y_pred))
            print(clf_name, "-REC:", recall_score(Y_part,  Y_pred))
            print(clf_name, "-F-Score:", f1_score(Y_part,  Y_pred))
            
def main():
    # print(hr_preprocessing(lower_d = False, ld_n = 3))
    features, label = hr_preprocessing()
#     regr_test(features[["number_project", "average_monthly_hours"]], features["last_evaluation"])
    
    hr_modeling(features, label)
if __name__=="__main__":
    main()

0
LogisticRegression -ACC: 0.7909767751972442
LogisticRegression -REC: 0.3385269121813031
LogisticRegression -F-Score: 0.432579185520362
1
LogisticRegression -ACC: 0.7956666666666666
LogisticRegression -REC: 0.34438040345821325
LogisticRegression -F-Score: 0.4381301558203483
2
LogisticRegression -ACC: 0.777
LogisticRegression -REC: 0.3254281949934124
LogisticRegression -F-Score: 0.4247635425623388
0
GBDT -ACC: 0.9929992221357928
GBDT -REC: 0.9726156751652503
GBDT -F-Score: 0.9849390389672483
1
GBDT -ACC: 0.9873333333333333
GBDT -REC: 0.9610951008645533
GBDT -F-Score: 0.9723032069970846
2
GBDT -ACC: 0.9826666666666667
GBDT -REC: 0.9472990777338604
GBDT -F-Score: 0.9651006711409396


### 罗吉（逻辑）斯特回归

In [1]:
# 逻辑斯特增长模型（逻辑斯蒂增长模型）
# Logistic Regression 逻辑回归的值域是有限的
# 代码看上面

### 人工神经网络

In [15]:
# 将多个感知器链接起来，就构成了神经网络
# 神经网络的输入层需要将所有的特征归一化（0-1之间的数），直接与标注相连的一层，是输出层，必须是one-hot形式的，也就是说，如果有三个类别，那么每个类别都占一位。中间属于隐含层，可以有一层也可以有多层。中间的转换函数也叫做激活函数。
# 反向传播算法：
    # 1.前向计算
    # 2.计算误差
    # 3.反向单层调整：只调整离输出层最近的一层的系数，根据误差进行调整
    # 4.传播
    # 反复循环直到收敛（达到一定的误差范围之内）

# 随机梯度下降法 ：每次调整权值时，选取部分样本进行梯度下降。
    # 好处：收敛更快，计算开销少
    # 问题：容易陷入局部最优解

# 其它问题：
    # 1.易受离群点的影响，易过拟合（解决办法：正则化，dropout）
    # 2.属性与结果要在0-1之间
    # 3.输出结果进行softMax转换

# mac 端安装 keras 
# pip install tensorflow
# pip install keras
# 代码看上面

# 逻辑回归
from sklearn.linear_model import LogisticRegression
# 人工神经网络
# Sequential 层级容器
from keras.models import Sequential
# Dense 神经网络层/稠密层， Activation激活函数
from keras.layers.core import Dense, Activation
# 随机梯度下降算法
from keras.optimizers import SGD 
# 反向传播算法 PyBrain
mdl = Sequential()
# 创建稠密层表示输入层
# 50 下个隐含层的神经元个数
# input_dim  输入的维度
mdl.add(Dense(50, input_dim=len(f_v[0])))
# 激活函数
mdl.add(Activation("sigmoid"))
# 接入输出层 (上一层输出几个，下一层就会输入几个)
mdl.add(Dense(2))
# 保证归一化
mdl.add(Activation("softmax"))
# 优化器 lr 学习率
sgd = SGD(lr=0.08)
# 编译建立模型
# loss 最优化函数、损失函数
# mean_squared_error 平均平方误差
# optimizer 使用什么样的优化器  sgd  adam(亚当优化器)，迈开步子跑 
# nb_epoch 一共迭代的次数 
# batch_size 随机梯度下降算法每次选取的数量。
mdl.compile(loss="mean_squared_error", optimizer="adam")
mdl.fit(X_train, np.array([[0, 1] if i==1 else [1, 0] for i in Y_train]), nb_epoch=10000, batch_size=8999)

# 进行预测和评价 【训练集，验证集，测试集】
xy_lst = [(X_train, Y_train), (X_validation, Y_validation), (X_test, Y_test)]
for i in range(len(xy_lst)):
    # X_part
    X_part = xy_lst[i][0]
    # y_part
    Y_part = xy_lst[i][1]
    # 预测值
    Y_pred = mdl.predict_classes(X_part)
    # 0训练集 1验证集 2测试集
    print(i)
    print("NN", "-ACC:", accuracy_score(Y_part,  Y_pred))
    print("NN", "-REC:", recall_score(Y_part,  Y_pred))
    print("NN", "-F-Score:", f1_score(Y_part,  Y_pred))
return 

### 回归树与提升树

In [None]:
# 回归树中不但包括叶子节点还包括中间节点都会得到一个预测值，一般来说这些预测值就是这些连续标注的平均值。
# 最小方差的切分方法：若根据某一个特征进行切分，一定要满足在切分后，这两个部分的方差的和是最小的。
# 停止条件：可以是剪枝的限制，比如说：树的最大深度，每一页的最大样本数量等。也有可能是最小方差的值。
# 使用最多的是梯度提升决策树  GBDT (Gradient Boosting Decision Tree)
# 直到将 差分值 （上面的数减去下面的数）变得越来越小结束
# 类似的算法 Xgboost
    # 优点：不仅考虑了一阶导数，还可能会用到更高阶的导数，并且支持较大规模的并行计算，分类器的选择更加灵活。
# 代码看上面