## 6.1 逻辑斯谛回归模型

逻辑斯谛分布：分布函数为sigmoid函数，形状参数为γ

二分类问题的损失函数为交叉熵

多分类问题可以看作是二分类问题的推广

## 6.2 最大熵模型

最大熵原理：学习概率模型时，在所有可能的概率模型分布中，熵最大的模型时最好的模型。

## 6.3 模型学习的最优化算法

迭代尺度法

拟牛顿法

In [1]:
import numpy as np
from sklearn.linear_model import LogisticRegression as LR

In [2]:
X = np.array([[3,3,3],[4,3,2],[2,1,2],[1,1,1],[-1,0,1],[2,-2,1]])
y = np.array([1,1,1,0,0,0]).reshape([-1,1])

In [3]:
def sigmoid(z):
    return 1/(1+np.exp(-z))

def forward(X,W,b):
    return sigmoid(X.dot(W)+b)

def cost(X,y,W,b):
    a = forward(X,W,b)
    return -np.mean(y*np.log(a)+(1-y)*np.log(1-a)) 
    
def back_prop(X,y,W,b):
    m = X.shape[0]
    z = X.dot(W)+b
    a = sigmoid(z)
    dW = np.dot(X.T,a-y)/m
    db = np.mean(a-y)
    return (dW,db)

def train(X,y,lr=0.01,iters=10):
    W = np.random.randn(X.shape[1],1)
    b = 0
    #a = forward(X,W,b)
    count = 0
    while count < iters:
        dW,db = back_prop(X,y,W,b)
        W -= lr * dW
        b -= lr * db
        #print(cost(X,y,W,b))
        count += 1
    return W,b

def predict(X_test,W,b):
    a = forward(X_test,W,b)
    return np.int64(a>0.5)

In [8]:
W,b = train(X,y,iters=100)
cost(X,y,W,b)

0.39818562646714306

In [9]:
predict(X,W,b)

array([[1],
       [1],
       [1],
       [1],
       [0],
       [1]], dtype=int64)

In [10]:
X_test = np.array([1,2,-2]).reshape([1,-1])
predict(X_test,W,b).item()

1

In [11]:
model = LR()
model.fit(X,y.ravel())
model.predict(X_test)



array([1])