## 回归

In [None]:
# 线性回归
## 决策树回归
## 支持向量机回归
## 集成方法回归
# 罗吉斯特映射回归
# 人工神经网络回归

### 线性回归

In [1]:
# 回归分析是确定多个变量间相互依赖的定量关系的一种统计分析方法。
# 如果多个变量间的关系用线性关系去考量，那就是线性回归。如果用多项式关系去考量，那就是多项式回归。
# 最小二乘法
# 核心的算法：是一个最优化的过程，是求一个函数最小值的过程，而且也可以证明这个函数是连续可导的。方法：对函数的未知数进行求导，求各个极值，如果值域不是负无穷，那么极小值中一定会有一个最小的。
# 梯度下降法：求最小值，节省计算机资源开销。导数：标量（也就是斜率的大小）  梯度：矢量（指定了各个方向上的导数的大小，同时梯度要求函数具有一阶偏导，也是说对每个参数的分量都要可导），梯度指的方向是一个点最大的上升方向。
# 线性回归的进化（正则化）。选择系数更小的，可以有效的防止过拟合，也可以更快速的找到最优点
    # 岭回归：用到的是L2正则化
    # Lasso回归：

#### 代码实现

In [2]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.preprocessing import Normalizer
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.decomposition import PCA

In [9]:
# 回归测试
def regr_test(features, label):
    print("X", features)
    print("Y", label)
    # LinearRegression 线性回归
    # Ridge 岭回归
    # Lasso
    from sklearn.linear_model import LinearRegression, Ridge, Lasso
    # 线性回归 (常用)
    # regr = LinearRegression()
    # 岭回归 （特殊情况使用）
    # regr = Ridge(alpha=0.8)
    # Lasso （特殊情况使用）
    regr = Lasso(alpha=0.004)
    
    regr.fit(features.values, label.values)
    # 预测
    Y_pred = regr.predict(features.values)
    # 参数
    print("Coef:", regr.coef_)
    # 衡量回归方程的好坏
    from sklearn.metrics import mean_squared_error
    print("MSE:", mean_squared_error(Y_pred, label.values))

def hr_preprocessing(sl=False, le=False, npr=False, amh=False, tsc=False, wa=False, pl5=False, dp=False, slr=False, lower_d = False, ld_n = 1):
    df = pd.read_csv('./data/HR.csv')
    # 1.清洗数据
    df = df.dropna(subset=['satisfaction_level', 'last_evaluation'])
    df = df[df['satisfaction_level']<=1][df['salary']!='nme']
    # 2.得到标注
    label = df["left"]
    df = df.drop('left', axis=1)
    # 3.特征选择

    # 4.特征处理
    scaler_lst = [sl, le, npr, amh, tsc, wa, pl5]
    column_lst = ['satisfaction_level', 'last_evaluation', 'number_project', 'average_monthly_hours', 'time_spend_company', 'Work_accident', 'promotion_last_5years']
    for i in range(len(scaler_lst)):
        if not scaler_lst[i]:
            df[column_lst[i]]=MinMaxScaler().fit_transform(df[column_lst[i]].values.reshape(-1, 1)).reshape(1, -1)[0]
        else:
            df[column_lst[i]]=StandardScaler().fit_transform(df[column_lst[i]].values.reshape(-1, 1)).reshape(1, -1)[0]
    # # 将离散值数值化
    scaler_lst = [dp, slr]
    column_lst = ["department", "salary"]
    for i in range(len(scaler_lst)):
        if not scaler_lst[i]:
            if column_lst[i] == "salary":
                df[column_lst[i]] = [map_salary(s) for s in df['salary'].values]
            else:
                df[column_lst[i]] = LabelEncoder().fit_transform(df[column_lst[i]])
            df[column_lst[i]] = MinMaxScaler().fit_transform(df[column_lst[i]].values.reshape(-1, 1)).reshape(1, -1)[0]
        else:
            # OneHotEncoder
            df = pd.get_dummies(df, columns=[column_lst[i]])
    # 降维
    if lower_d:
        # n_components 不能大于类的个数
        # return LinearDiscriminantAnalysis(n_components=ld_n)
        # PCA n_components 不受限制
        return PCA(n_components=ld_n).fit_transform(df.values)  
    return df, label

d = dict([('low', 0), ('medium', 1), ('high', 2)])
def map_salary(s):
    return d.get(s, 0)

def main():
    # print(hr_preprocessing(lower_d = False, ld_n = 3))
    features, label = hr_preprocessing()
    regr_test(features[["number_project", "average_monthly_hours"]], features["last_evaluation"])
    
    # hr_modeling(features, label)
if __name__=="__main__":
    main()

X        number_project  average_monthly_hours
0                 0.0               0.285047
1                 0.6               0.775701
2                 1.0               0.822430
3                 0.6               0.593458
4                 0.0               0.294393
...               ...                    ...
14994             0.0               0.257009
14995             0.0               0.299065
14996             0.0               0.219626
14997             0.8               0.859813
14998             0.0               0.289720

[14999 rows x 2 columns]
Y 0        0.265625
1        0.781250
2        0.812500
3        0.796875
4        0.250000
           ...   
14994    0.328125
14995    0.187500
14996    0.265625
14997    0.937500
14998    0.250000
Name: last_evaluation, Length: 14999, dtype: float64
Coef: [0.22810785 0.21537058]
MSE: 0.05993150070504495
