
[![Image Name](https://cdn.kesci.com/upload/sehv2zq3qx.jpg?imageView2/0/w/960/h/960)](https://www.heywhale.com/home/competition/66598b3271a1fd975a17d6ad)  
[**vgbhfive**](http://blog.vgbhfive.com)，多年风控引擎研发及金融模型开发经验，现任某公司风控研发工程师，对数据分析、金融模型开发、风控引擎研发具有丰富经验。

### 逻辑回归  
在开始逻辑回归模型实践之前，我们先复习一下逻辑回归的相关算法原理  

#### 函数公式  
逻辑回归的基本函数公式如下：  
```
y = w * x + b  
```
上面函数公式内的字符含义如下:  
 - `x`: 自变量，可以理解为不确定因素。  
 - `y`: 因变量，可以理解为不确定因素导致的结果。  
 - `w`: 影响自变量的权重，即不同的系数会导致不同的变化。  
 - `b`: 影响因变量的权值，b 跟w 是不同的含义。  

举个最简单的例子就是初中学过的一元二次方程，`y` 与 `x` 成正比或反比取决于`w` 的正负，y在纵轴上 `x=0` 的位置取决于 `b` 的大小。  

那么如何将上面的式子推广到用于解决实际的问题呢？  
对于某个事件，说到底其结果无非是有限，而导致该结果的变化则可能是多种的，则会出现以下情况:  
```
y = w1 * x1 + w2 * x2 + ... + b  
```
其中的 `x` 表示的对 `y` 结果产生影响的变量，而 `w` 则是该变量产生影响的程度大小。  


#### 优化算法  
提出可以解决实际问题的函数之后，`x`、`y` 都是已知的，那又该如何求解 `w*` 和 `b` 呢？ (`w*` 表示所有的`w`)  
随机梯度下降算法。  

那又该如何理解随机梯度下降算法呢？  
举个最简单的例子，一个球从群山中下到最低的山底，如何确保怎么是最底呢？  
那就是准备无数多个球从山顶放下去，总会有那么一个球能到达最低的山底。但现实不太靠谱，那是不是可以优化下，比如环视 `10` 米找到最低的地方滚下去，然后以此类推，就可以到达最低点。  

总结前面的例子就是，对目标点出发，首先给出一个初始值 `w*` 和 `b`，然后向着这个目标点不断计算 `w*` 和 `b` （**求导**），直至到达这个目标点，通过n 次的计算，直至 `w*` 和 `b` 可以明确的表达 `x` 和 `y` 之间的关系就完成计算。  

### 乳腺癌诊断之分类问题  
乳腺癌是全球妇女健康的主要威胁之一，早期发现和治疗对于提高患者生存率至关重要。传统的乳腺癌诊断方法存在一定的局限性，如依赖医生经验各项检测成本较高等。为了提高乳腺癌的诊断效率和准确性，计划开发一个基于机器学习的乳腺癌诊断模型，通过分析患者的细胞分析检查数据，实现对乳腺癌的提前诊断。该数据集为 `sklearn` 提供的示例数据集，其中有 `569` 例记录，包含编号细胞大小的均匀性细胞形状的均匀性上皮细胞大小正常核苷酸数量等特征。

乳腺癌数据集每列的含义如下：  

| 特征列编号 | 特征含义 |  
| ------- | -------- |  
| 1 | 平均纹理 |  
| 2 | 平均半径 |  
| 3 | 中值周长 |  
| 4 | 均值面积 |  
| 5 | 平均平滑度 |  
| 6 | 平均紧凑度 |  
| 7 | 平均凹点 |  
|  8| 平均对称性 |  
| 9 | 均值分形维数 |  
| 10 | 半径错误 |  
|  11 | 纹理错误 |  
|  12| 周长错误 |  
|13  | 面积错误 |  
| 14 | 平滑度误差 |  
| 15 | 紧凑度误差 |  
| 16 | 凹度误差 |  
| 17 | 凹点误差 |  
| 18 | 对称误差 |  
| 19 | 分形维数误差 |  
| 20 | 最差半径 |  
| 21 | 最大纹理 |  
| 22 | 最差周长 |  
| 23 | 最差面积 |  
| 24 | 最低平滑度 |  
| 25 | 最差紧凑性 |  
| 26 | 最差凹度 |  
| 27 | 最大凹点 |  
| 28 | 最差对称性 |  
| 29 | 最差分形维数 |  


乳腺癌数据集结果表示如下：  

| 结果 | 含义 |  
| --- | -------- |  
| 1 | 患有乳腺癌  |  
| 0 | 未患乳腺癌 |

#### 引入依赖

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LinearRegression
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, mean_squared_error
from sklearn.preprocessing import LabelEncoder

#### 加载数据及基础分析

In [2]:
# 获取数据

cancer = datasets.load_breast_cancer()
x = pd.DataFrame(cancer.data)
y = pd.DataFrame(cancer.target)
x.head(), y.head()


In [9]:
x[x.index == 411]

In [4]:
# 数据基础分析

x.info(), y.info()

In [5]:
x.describe().T, y.describe().T

在对数据经过初步分析之后，发现数据未出现缺失值（nan值或空字符串等），也不存在异常值（明显超出数据范围或与数据定义取值区间不符等）。

#### 训练模型并计算指标

In [7]:
# 模型训练

# 1. 拆分数据训练集和测试集，比例 7:3
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)
x_train.head(), x_test.head(), y_train.head(), y_test.head()

In [8]:
# 2. 构建模型

model = LinearRegression()

In [9]:
# 3. 训练模型

model.fit(x_train, y_train)

In [13]:
# 4. 使用测试集测试模型获取测试结果

y_pred = model.predict(x_test)
y_pred[:10]
# 此输出的是预测为1 的概率

In [14]:
# 5. 计算指标

# mse 均方误差
# rmse 均方根误差
# 对于这两个指标，数值越小越好，因为它们衡量了模型预测值与真实值之间的差异，越小表示模型的预测越接近真实值
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
mse, rmse

In [15]:
# 输出模型的斜率、倾斜量和测试集的准确率

model.coef_, model.intercept_, model.score(x_test, y_test)

#### 总结  
在实际训练模型时，大部分花费的时间都在于如何处理数据上：特征归一化、空值处理、缺失值填充等，不过现在不需要处理这些，现在的主要目的在于学习如何训练模型以及评估模型指标。

### 二手车价格之回归问题  
随着二手车市场的快速发展，如何准确评估二手车价格成为买卖双方关注的焦点。传统的定价方法存在效率低、主观性强、欺诈风险等问题。为了解决这一问题，计划开发一个基于机器学习的二手车交易售价预测模型，通过分析历史交易数据，实现对二手车价格的快速、准确评估。该数据集收集了 `8015` 例记录，其中包含车辆名称、行驶公里数、注册年份、品牌、燃油类型、变速箱、发动机功率等特征，本小结将从日常可收集到的数据预测其实际市场价格。

二手车数据集特征含义说明：  

| 特征列名称 | 特征含义 |  
| ----- | ----- |  
| Car Name | 汽车品牌或汽车型号  |  
| Year Bought | 购车年份   |  
| Distance | 行驶里程 (单位：公里) |  
| Owner | 持有类型 '个人或机构'   |  
| Fuel | 燃料类型 'petrol    汽油, diesel  柴油, CNG 压缩天然气, other 其他'  |  
| Location | 车管所所在地   |  
| Drive | 变速箱类型 'Automatic 自动, Manual 手动'   |  
| Type | 车型  'Sedan  轿车, SUV SUV, HatchBack  两厢车, Lux_SUV 豪华SUV, Lux_sedan 豪华轿车'   |  
| Price | 价格 |

#### 加载数据

In [25]:
# 读取数据

cars = pd.read_csv('/home/mw/input/usedcar5216/cars_24.csv', index_col='Index')
cars.head()

#### 数据基础性分析

In [26]:
# 数据基础分析

cars.info()

# 通过数据详情查看Car Name、Year 缺少 1 行，Location 缺少 213 行。

In [27]:
# 删除所有空的数据

cars.dropna(inplace=True)
cars.info()

In [28]:
cars.describe().T

In [23]:
# 分类型数据查看分布

columns = ['Drive', 'Type', 'Fuel' , 'Location']
for col in columns:
    print('-'*30)
    print(cars[col].value_counts())

#### 训练模型并计算指标

In [29]:
# 训练模型

# 1. 数据预处理

# 用来对分类型特征值进行编码，即对不连续的数值或文本进行编码
lb = LabelEncoder()
columns = ['Drive', 'Fuel', 'Type', 'Location']

for col in columns:
    cars[col] = lb.fit_transform(cars[col])

In [30]:
# 2. 查看数据特征与结果之间的相关性

cars.corr()['Price']

# Car Name 与 Price 的相关性太小训练模型时可以删除该列

In [31]:
# 3. 构建模型训练数据

y = cars['Price']
x = cars.drop(['Price', 'Car Name'], axis=1)
x.head(), y.head()

In [32]:
# 4. 拆分数据训练集和测试集，比例 7:3

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)
x_train.head(), x_test.head(), y_train.head(), y_test.head()

In [33]:
# 5. 构建模型

model_2 = LinearRegression()

In [34]:
# 6. 训练模型

model_2.fit(x_train, y_train)

In [42]:
# 7. 预测测试集

y_pred = model_2.predict(x_test)
y_pred

In [43]:
# 8. 计算指标

mse = mean_squared_error(y_test, y_pred)
mse

# 从该指标可以看出，逻辑回归对于解决回归问题有一点有力无心。不过不要灰心！现阶段的重点在于了解模型、训练模型，后面会学习到如何解决该问题。

### 课后思考题

1. 随机梯度算法为什么不是全局最优，而是当前最优？

### 闯关题

#### STEP1：请根据要求完成题目

Q1. 优化算法是基于什么进行计算？  
		 A. 随机梯度下降算法。  
		 B. 随机梯度上升算法。  
		 C. 随机梯度算法。

Q2. 假如你在训练一个线性回归模型，有下面两句话：  
  如果数据量较少，容易发生过拟合。 如果假设空间较小，容易发生过拟合。  
  关于这两句话，下列说法正确的是？ (过拟合是指模型在训练集上表现很好，但在测试集上却表现很差。即模型对训练集有点死记硬背的意思，对于测试集完全随机给出结果，泛化能力很差。)  
  A. 1 和 2 都错误  
	B. 1 正确，2 错误  
	C. 1 错误，2 正确  
	D. 1 和 2 都正确

Q3. 现在有一个病人的检测数据，根据已经训练的乳腺癌模型预测其是否会患有乳腺癌？  
   (11.04, 16.83, 70.92, 373.2, 0.1077, 0.07804, 0.03046, 0.0248, 0.1714, 0.0634, 0.1967, 1.387, 1.342, 13.54, 0.005158, 0.009355, 0.01056, 0.007483, 0.01718, 0.002198, 12.41, 26.44, 79.93, 471.4, 0.1369, 0.1482, 0.1067, 0.07431, 0.2998, 0.07881)  
   A. 1（是）  
	 B. 0（否）

In [12]:
data_tmp = pd.DataFrame({0:11.04, 1:16.83, 2:70.92, 3:373.2, 4:0.1077, 5:0.07804, 6:0.03046, 7:0.0248, 8:0.1714, 9:0.0634, 10:0.1967, 11:1.387, 12:1.342, 13:13.54, 14:0.005158, 
                        15:0.009355, 16:0.01056, 17:0.007483, 18:0.01718, 19:0.002198, 20:12.41, 21:26.44, 22:79.93, 23:471.4, 24:0.1369, 25:0.1482, 26:0.1067, 
                        27:0.07431, 28:0.2998, 29:0.07881}, index=[0])
data_tmp

# 使用训练好的模型预测数据集


In [4]:
#填入你的答案并运行,注意大小写
a1 = ''  # 如 a1= 'B'
a2 = ''  # 如 a2= 'B'
a3 = ''  # 如 a3= 'B'

#### STEP2：将结果保存为 csv 文件  
将结果保存为 csv 文件  
csv 需要有两列，列名：id、answer。其中，id 列为题号，如 q1、q2；answer 列为 STEP1 中各题你计算出来的结果。💡 这一步的代码你不用做任何修改，直接运行即可。

In [7]:
import pandas as pd

# 生成 csv 作业答案文件
def save_csv(a1, a2, a3):
    df = pd.DataFrame({"id": ["q1", "q2", "q3"], "answer": [a1, a2, a3]})
    df.to_csv("answer_1.csv", index=None)
    print(df)

save_csv(a1,a2,a3)

#### STEP3: 提交 csv 文件，获取分数结果  
提交 csv 文件，获取分数结果  

你的 csv 答案文件已经准备完毕了，最后让我们提交答案文件，看看是否正确。  

提交方法：  

1、拷贝提交 token  

去对应关卡的 提交页面，找到对应关卡，看到了你的 token 嘛？  

拷贝它。  

记得：每个关卡的 token 不一样。  

2、下方 cell 里，拿你拷贝的 token 替换掉 XXXXXXX， 然后 Ctrl+Enter 运行 。

In [None]:
#运行这个Cell 下载提交工具

!wget -nv -O heywhale_submit https://cdn.kesci.com/submit_tool/v4/heywhale_submit&&chmod +x heywhale_submit

# 运行提交工具
# 把下方XXXXXXX替换为你的 Token
# 改完看起来像是：!./heywhale_submit -token 586eeef71cb92941 -file answer_1.csv

!./heywhale_submit -token XXXXXXX -file answer_1.csv  # 替换XXXXXXX；注意不可增减任何空格或其他字符

恭喜你完成提交！  

提交完成后，可以在对应的提交页面查看结果，获得满分将自动进入下一关！