# 数据准备

In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE

## 归一化处理

In [4]:
df = pd.read_csv("/Users/zhouwencheng/Desktop/Grass/05 AI/05 jupyter/10 data/creditcard.csv")

# 先对数据进行归一下处理
from sklearn.preprocessing import StandardScaler  
df.Amount = StandardScaler().fit_transform(df.Amount.values.reshape(-1, 1))

## 过采样处理

In [6]:
# 过采样

features = df.loc[:, df.columns != 'Class']
labels    = df.loc[:, df.columns == 'Class']
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size = 0.3, random_state = 0)

oversampler = SMOTE(random_state = 0)
X_train_os, y_train_os = oversampler.fit_sample(X_train, y_train.values.ravel()) 
X_train_os = pd.DataFrame(X_train_os)
y_train_os = pd.DataFrame(y_train_os)

# 逻辑回归模型

## 正则惩罚项
- L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。

### L1
- L1正则化是指权值向量w中各个元素的绝对值之和，通常表示为∣∣w∣∣1 
- L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择


### L2 
- L2正则化是指权值向量w中各个元素的平方和然后再求平方根（可以看到Ridge回归的L2正则化项有平方符号），通常表示为∣∣w∣∣2
- L2正则化可以防止模型过拟合（overfitting）；一定程度上，L1也可以防止过拟合

In [7]:
from sklearn.linear_model import LogisticRegression

In [8]:
lr = LogisticRegression(C = 1, penalty = 'l1', solver='liblinear')  # 加入正则惩罚项

# 模型训练
lr.fit(X_train,y_train.values.ravel())

# 模型预测
y_pred = lr.predict(X_test.values)

## 弹性网络

- __等待补充__

# 预测概率

In [10]:
# 转化成概率
y_pred_proba = lr.predict_proba(X_test.values)
y_pred_proba

array([[9.99478463e-01, 5.21537224e-04],
       [9.99729485e-01, 2.70514652e-04],
       [9.99553396e-01, 4.46603707e-04],
       ...,
       [9.99348229e-01, 6.51771475e-04],
       [9.99802318e-01, 1.97681588e-04],
       [9.99054975e-01, 9.45024565e-04]])

# 优劣势

## 优势
- 适合大规模数据
- 计算快，存储消耗少
- 支持增量式训练
- 可解释性强

## 劣势
- 容易欠拟合
- 分类精确度可能不高
- 只能解决线性问题