In [None]:
'''
损失函数为对数损失函数，也就是对数似然函数logloss
逻辑回归需要对特征进行离散化。好处有以下5点：
    1.增加非线性。将单一变量离散化为N个后，每个变量都有单独的权重，相当于为模型引入了非线性，能够提升模型的表达能力，加大拟合
    2.速度快。离散化后会出现稀疏性，稀疏向量内积乘法运算速度快，方便存储。
    3.鲁棒性。离散化后的特征对异常数据有很强的鲁棒性。
    4.方便交叉和特征组合。
    5.简化模型。
    6.特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。
    当然处于区间相邻处的样本会刚好相反，所以怎么划分区间是门学问。
'''

In [30]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split  ##数据预处理——训练集测试集划分
from sklearn.preprocessing import StandardScaler  ##数据预处理——标准化
from sklearn.linear_model import LogisticRegression  ##模型选择——LR
from sklearn.metrics import log_loss,accuracy_score,recall_score,classification_report  ## 评价指标 ——对数损失、分类评估。


In [7]:
# 1.获取数据
df = pd.read_csv(fr'C:\Users\shifeng.du\Desktop\github\sklearn-model\data\Logistic Regression\KaggleCredit2.csv', index_col= 0)
df.shape

(112915, 11)

In [26]:
# 2.数据基本处理
    # 2.1缺失值处理
'''去除空值行'''
df.dropna(inplace=True)
    # 2.2确定特征值和目标值
X = df.drop('SeriousDlqin2yrs', axis = 1)
y = df[['SeriousDlqin2yrs']]
    # 2.3分割数据，划分为训练集和验证集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=60)

# 3.特征工程——标准化
transfer = StandardScaler()
X_train = transfer.fit_transform(X_train)
X_test = transfer.fit_transform(X_test)

# 4.建模
LR_model = LogisticRegression(multi_class='ovr', solver='saga')
LR_model.fit(X_train, y_train)


# 5.预测得分
train_score = LR_model.score(X_train, y_train)
test_score = LR_model.score(X_test, y_test)
print(train_score)
print(test_score)

# 6.模型评价
y_predict = LR_model.predict(X_test)
train_recall = recall_score(y_train, LR_model.predict(X_train), average='macro')
test_recall = recall_score(y_test, LR_model.predict(X_test), average='macro')
print(train_recall)
print(test_recall)

report = classification_report(y_test, y_predict, labels=(0,1), target_names=('正例','反例'))
print(report)



  y = column_or_1d(y, warn=True)


0.9323500310637612
0.9344224574321215
0.505534703386351
0.5049565634548568
              precision    recall  f1-score   support

          正例       0.93      1.00      0.97     20302
          反例       0.56      0.01      0.02      1428

    accuracy                           0.93     21730
   macro avg       0.75      0.50      0.49     21730
weighted avg       0.91      0.93      0.90     21730





In [31]:
y_prob = LR_model.predict_proba(X_test)
y_prd2 = [list(p>=0.3).index(1) for i,p in enumerate(y_prob)]
'''这是自己设置0.3为阈值， 把大于0.3的看成1分类'''
train_score=accuracy_score(y_test,y_prd2)
print(train_score)

0.9343764381040037
