# 项目五 逻辑回归

## 项目实训

### 任务一 逻辑回归算法预测考试是否及格

#### 1. 数据准备：往年的调查结果数据

In [1]:
import numpy as np
# 训练数据集，格式为（时长，效率），其中时长单位为小时
# 效率为[0,1]之间的小数，数值越大表示效率越高
X_train = np.array([(0,0), (2,0.9), (3,0.4), (4,0.9), (5,0.4),
              (6,0.4), (6,0.8), (6,0.7), (7,0.2), (7.5,0.8),
              (7,0.9), (8,0.1), (8,0.6), (8,0.8)])
# 0表示不及格，1表示及格
y_train = np.array([0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1])
print('复习情况 X_train: \n', X_train)

复习情况 X_train: 
 [[0.  0. ]
 [2.  0.9]
 [3.  0.4]
 [4.  0.9]
 [5.  0.4]
 [6.  0.4]
 [6.  0.8]
 [6.  0.7]
 [7.  0.2]
 [7.5 0.8]
 [7.  0.9]
 [8.  0.1]
 [8.  0.6]
 [8.  0.8]]


#### 2. 创建并训练逻辑回归模型

In [2]:
from sklearn.linear_model import LogisticRegression
# 创建并训练逻辑回归模型
logistic = LogisticRegression(solver='lbfgs', C=10)
logistic.fit(X_train, y_train)

# 测试模型
X_test = [(3,0.9), (8,0.5), (7,0.2), (4,0.5), (4,0.7)]
y_test = [0, 1, 0, 0, 1]
score = logistic.score(X_test, y_test)
print('测试模型得分：', score)

测试模型得分： 0.8


#### 3. 预测并输出预测结果

In [3]:
# 预测并输出预测结果
learning = np.array([(8, 0.9)])
result = logistic.predict(learning)
result_proba = logistic.predict_proba(learning)
print('复习时长为：{0}，效率为：{1}'.format(learning[0,0], learning[0,1]))
print('不及格的概率为：{0:.2f}，及格的概率为：{1:.2f}'.format(result_proba[0,0], result_proba[0,1]))
print('综合判断期末考试结果：{}'.format('及格' if result==1 else '不及格'))

复习时长为：8.0，效率为：0.9
不及格的概率为：0.03，及格的概率为：0.97
综合判断期末考试结果：及格


### 任务二 逻辑回归算法实现鸢尾花分类

#### 1. 准备数据集和必要的模块

In [4]:
# 导入必要的模块
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
# 加载iris（鸢尾花）数据集
iris = load_iris()
X = iris.data
y = iris.target
# 拆分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=8)
print('训练集数据维度：', X_train.shape)
print('测试集数据维度：', X_test.shape)
print('目标分类标签取值为：', np.unique(y))

训练集数据维度： (112, 4)
测试集数据维度： (38, 4)
目标分类标签取值为： [0 1 2]


#### 2. 创建逻辑回归模型对象并训练、评估模型

In [5]:
# 创建逻辑回归模型对象
clf1 = LogisticRegression(solver='liblinear', multi_class='ovr')
# 训练模型
clf1.fit(X_train, y_train)
# 评估模型
print('训练集得分：{:.2f}'.format(clf1.score(X_train, y_train)))
print('测试集得分：{:.2f}'.format(clf1.score(X_test, y_test)))

训练集得分：0.96
测试集得分：0.95


In [6]:
# 修改参数重新创建逻辑回归模型对象
clf2 = LogisticRegression(solver='lbfgs', multi_class='multinomial')
# 训练模型
clf2.fit(X_train, y_train)
# 评估模型
print('训练集得分：{:.2f}'.format(clf2.score(X_train, y_train)))
print('测试集得分：{:.2f}'.format(clf2.score(X_test, y_test)))

训练集得分：0.97
测试集得分：0.92


## 项目拓展
### 逻辑回归算法实战——判断肿瘤是良性还是恶性

### 1. 导入威斯康辛乳腺肿瘤数据集

In [7]:
# 导入breast_cancer[（美国）威斯康辛乳腺肿瘤]数据集
from sklearn.datasets import load_breast_cancer
# 加载breast_cancer数据集
cancer = load_breast_cancer()
# “data”是特征数据
X = cancer.data
# “target”是目标变量数据(肿瘤的类别标签)
y = cancer.target
# 查看特征数据的维度
print('breast_cancer数据集的维度为：', X.shape)
# 查看肿瘤的类别标签
print('breast_cancer数据集的类别标签为：', np.unique(y))
# 打印数据集中标注好的肿瘤分类
print('肿瘤分类：', cancer['target_names'])

breast_cancer数据集的维度为： (569, 30)
breast_cancer数据集的类别标签为： [0 1]
肿瘤分类： ['malignant' 'benign']


### 2. 将breast_cancer数据集划分为训练集和测试集

In [8]:
# 导入数据集拆分工具
from sklearn.model_selection import train_test_split

# 将数据集拆分为训练数据集和测试数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=23)

# 输出训练数据集中特征向量的维度
print('训练集数据维度：', X_train.shape)
# 输出训练数据集中目标标签的维度
print('训练集标签维度：', y_train.shape)
# 输出测试数据集中特征向量的维度
print('测试集数据维度：', X_test.shape)
# 输出测试数据集中特征向量的维度
print('测试集标签维度：', y_test.shape)

训练集数据维度： (455, 30)
训练集标签维度： (455,)
测试集数据维度： (114, 30)
测试集标签维度： (114,)


### 3. 对数据集进行标准化处理

In [9]:
# 导入StandardScaler
from sklearn.preprocessing import StandardScaler
# 对训练集进行拟合生成规则
scaler = StandardScaler().fit(X_train)
# 对训练集数据进行转换
X_train_scaled = scaler.transform(X_train)
# 对测试集数据进行转换
X_test_scaled = scaler.transform(X_test)

print('标准化前训练集数据的最小值和最大值：{0}, {1}'.format(X_train.min(), X_train.max()))
print('标准化后训练集数据的最小值和最大值：{0:.2f}, {1:.2f}'.format(X_train_scaled.min(), X_train_scaled.max()))
print('标准化前测试集数据的最小值和最大值：{0}, {1}'.format(X_test.min(), X_test.max()))
print('标准化后测试集数据的最小值和最大值：{0:.2f}, {1:.2f}'.format(X_test_scaled.min(), X_test_scaled.max()))

标准化前训练集数据的最小值和最大值：0.0, 3432.0
标准化后训练集数据的最小值和最大值：-3.09, 11.68
标准化前测试集数据的最小值和最大值：0.0, 4254.0
标准化后测试集数据的最小值和最大值：-2.39, 12.08


### 4. 构建LogisticRegression模型并训练模型

In [10]:
# 导入Logistic回归模型
from sklearn.linear_model import LogisticRegression
# 构建模型对象
log_reg = LogisticRegression(solver='lbfgs')
# 训练模型
log_reg.fit(X_train_scaled, y_train)
print('训练集得分：{:.2f}'.format(log_reg.score(X_train_scaled, y_train)))

训练集得分：0.99


### 5. Logistic回归模型分析与评估

In [11]:
# 查看模型各特征的相关系数、截距和迭代次数
print('各特征的相关系数为：\n', log_reg.coef_)
print('模型的截距为：', log_reg.intercept_)
print('模型的迭代次数为：', log_reg.n_iter_)

各特征的相关系数为：
 [[-0.27606602 -0.30310086 -0.29072665 -0.3524495  -0.08887332  0.69489667
  -0.83159164 -0.90390551  0.04029888  0.36520447 -1.19757111  0.35202956
  -0.74109251 -0.97521346 -0.27495612  0.6191506   0.25707841 -0.35592781
   0.17637931  0.52153286 -0.87737574 -1.40343681 -0.76559961 -0.90697874
  -0.79031648 -0.01037606 -0.93300924 -0.95154361 -0.90587541 -0.17442082]]
模型的截距为： [0.10606283]
模型的迭代次数为： [32]


In [12]:
# 测试集的准确率
test_score = log_reg.score(X_test_scaled, y_test)
# 预测类别标签
test_pred = log_reg.predict(X_test_scaled)
# 类别的概率估计
test_prob = log_reg.predict_proba(X_test_scaled)
print('测试集准确率为：{:.2f}'.format(test_score))
print('预测测试集前5个结果为：', test_pred[:5])
print('测试集前5个对应类别的概率为：\n', np.round(test_prob[:5], 3))

测试集准确率为：0.98
预测测试集前5个结果为： [1 0 0 1 0]
测试集前5个对应类别的概率为：
 [[0.004 0.996]
 [0.54  0.46 ]
 [1.    0.   ]
 [0.034 0.966]
 [0.998 0.002]]
