## 逻辑斯蒂回归损失函数
逻辑斯蒂回归模型预估的是样本属于某个分类的概率，其损失函数可以像线性回归那样，以平均误差表示；也可以用对数损失，概率等方式。损失函数本质上是衡量'模型估计值'到'实际值'的距离，选取好的距离单位，就可以让模型更准确。  
那重点来了：logistic回归的的损失函数，还会跟感知机或者下面即将提到的 SVM 一样，能根据样本点到决策面的距离来定义损失函数吗？
　　答曰：不可以滴。刚才讲了，逻辑回归中的距离，是“ y
y
 为1类的对数几率比”，这个距离既不是最大就好，也不是最小就好。所有这里的“距离”不能直接作为损失函数。

### 思考：通常是最小化损失函数，这里为什么求极大似然估计？
- 对数损失函数或对数似然损失函数形式如下：

$$ L(Y,P(Y|X))=-\log P(Y|X)$$
> - 如何理解对数损失函数？
L(Y,P(Y|X))表示分类为Y的情况下，样本的预测值和目标值的接近程度(距离)。如果$P(Y|X)$的概率尽可能大，样本的预测值和目标值越接近，则损失函数越小。
即$\dfrac{1}{P(Y|X)}$尽可能的小，为了将连乘简化，取对数求和，就变成了
$-\log P(Y|X)$，这样$P(Y|X)$越大，$-\log P(Y|X)$越小。
   
在逻辑斯蒂回归模型上使用对数损失函数，取整个数据集上的平均对数损失函数，可以得到：  
$$J(w)=-\dfrac{1}{n}\log L(w)=-\dfrac{1}{n}l(w)$$  
即在逻辑斯蒂回归中，最大化似然函数和最小化对数损失函数是等价的:  
$$\max l(w)\Leftrightarrow \min J(w)$$

In [4]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np
weights=np.array([[115.],[140.],[175.]])
scale=MinMaxScaler()
rescaled_weight=scale.fit_transform(weights)

In [5]:
rescaled_weight

array([[ 0.        ],
       [ 0.41666667],
       [ 1.        ]])