# 第6章 逻辑斯谛回归

逻辑斯谛回归(LR)是经典的分类方法

1．逻辑斯谛回归模型是由以下条件概率分布表示的分类模型。逻辑斯谛回归模型可以用于二类或多类分类。

$$P(Y=k | x)=\frac{\exp \left(w_{k} \cdot x\right)}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)}, \quad k=1,2, \cdots, K-1$$

$$P(Y=K | x)=\frac{1}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)}$$
这里，$x$为输入特征$(x^{1}, x^{(2)}, \dots, x^{(n)}, 1)^T$，$w$为特征的权值$(w^{1}, w^{(2)}, \dots, w^{(n)}, b)^T$。  
softmax
$$
P(Y=k|x)=\frac{\exp(w_k\cdot x)}{\sum_{k=1}^K\exp(w_k\cdot x)}, k=1,2,\dots,K
$$

事件的几率(odds)是指事件发生的概率(p)与该事件不发生的概率(1-p)的比值. 事件的对数几率(log odds)或logit函数是:
$$logit(p) = log\frac p {1-p}$$
考虑二类分类问题:
$$logit\frac {P(Y=1|x)}{1-P(Y=1|x)} = log(exp(w \cdot x)) = w \cdot x$$
**输出$Y=1$的对数几率是由输入x的线性函数表示的模型, 即逻辑斯蒂回归模型**

逻辑斯谛回归模型源自逻辑斯谛分布，其分布函数$F(x)$是$S$形函数。逻辑斯谛回归模型是由输入的线性函数表示的输出的对数几率模型。

2．最大熵模型是由以下条件概率分布表示的分类模型。最大熵模型也可以用于二类或多类分类。

$$P_{w}(y | x)=\frac{1}{Z_{w}(x)} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)$$
$$Z_{w}(x)=\sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)$$

其中，$Z_w(x)$是规范化因子，$f_i$为特征函数，$w_i$为特征的权值。

3．最大熵模型可以由最大熵原理推导得出。最大熵原理是概率模型学习或估计的一个准则。最大熵原理认为在所有可能的概率模型（分布）的集合中，熵最大的模型是最好的模型。

最大熵原理应用到分类模型的学习中，有以下约束最优化问题：

$$\min -H(P)=\sum_{x, y} \tilde{P}(x) P(y | x) \log P(y | x)$$

$$s.t.  \quad P\left(f_{i}\right)-\tilde{P}\left(f_{i}\right)=0, \quad i=1,2, \cdots, n$$
 
 $$\sum_{y} P(y | x)=1$$

 
求解此最优化问题的对偶问题得到最大熵模型。


4．逻辑斯谛回归模型与最大熵模型都属于对数线性模型。

5．逻辑斯谛回归模型及最大熵模型学习一般采用极大似然估计，或正则化的极大似然估计。逻辑斯谛回归模型及最大熵模型学习可以形式化为无约束最优化问题。求解该最优化问题的算法有改进的迭代尺度法、梯度下降法、拟牛顿法。



回归模型：$f(x) = \frac{1}{1+e^{-wx}}$

其中wx线性函数：$wx =w_0\cdot x_0 + w_1\cdot x_1 + w_2\cdot x_2 +...+w_n\cdot x_n,(x_0=1)$


**逻辑思谛分布(logistic distribution)**   
分布函数:
$$F(x)=P(X \leq x) = \frac 1 {1+e^{-(x-\mu)/\gamma}}$$
是一条S形曲线(sigmoid curve), 以$(\mu, \frac 1 2)$为对称中心  
密度函数:
$$f(x) = F'(x) = \frac {e^{-(x-\mu)/\gamma}} {\gamma(1+e^{-(x-\mu)/\gamma)^2}}$$

**逻辑斯蒂模型参数估计**

似然函数:
$$
\prod\limits_{i=1}\limits^NP(y_i|x_i,W)=\prod\limits_{i=1}\limits^N\frac{(\exp(w\cdot x_i))^{y_i}}{1+\exp(w\cdot x_i)}
$$
使用对数技巧
$$
\sum_{i=1}^N\log\frac{(\exp(w\cdot x_i))^{y_i}}{1+\exp(w\cdot x_i)}=\sum_{i=1}^N[y_i(w\cdot x_i)-\log(1+\exp(w\cdot x_i)) ]
$$

In [1]:
from math import exp
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [None]:
# sigmoid 函数
x = np.linspace(-3, 5, 50)
mu, gamma = 1, 0.1  # gamma 越小 曲线在中心增长越快
y = 1 / (1+ np.exp(-(x-mu)/gamma))
plt.plot(x, y)
ax = plt.gca()
ax.spines['left'].set_position(('data', 1))

In [None]:
temp = np.exp(-(x-mu)/gamma)
pdf = temp / (gamma * (1 + temp)**2)
plt.plot(x, pdf)

In [None]:
x = np.array([0, 0, 0]).reshape(3,1)
y = np.array([[1, 1, 1], [2, 2, 2], [3, 3, 3]])
np.concatenate((y, x), axis=1)
np.ones(3)[:, np.newaxis]
x

In [None]:
np.linalg.norm([1, 2, 3])

In [None]:
# data
def create_data():
    iris = load_iris()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['label'] = iris.target
    df.columns = ['sepal length', 'sepal width', 'petal length', 'petal width', 'label']
    data = np.array(df.iloc[:100, [0, 1, -1]])
    # print(data)
    return data[:,:-1], data[:,-1]

In [None]:
X, y = create_data()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

In [None]:
class LogisticReressionClassifier:
    def __init__(self, max_iter=200, learning_rate=0.001, epsilon=0.0001):
        self.max_iter = max_iter
        self.learning_rate = learning_rate
        self.eplison_ = epsilon  # 收敛条件
    @staticmethod
    def sigmoid(x):
        return 1 / (1 + np.exp(-x))

    def data_matrix(self, X):
        data_mat = np.ones((len(X), 1))
        return np.concatenate((data_mat, X), axis=1)

    def fit_1(self, X, y):
        # label = np.mat(y)
        data_mat = self.data_matrix(X)  # m*n
        self.weights = np.zeros((len(data_mat[0]), 1), dtype=np.float32)

        for iter_ in range(self.max_iter):
            for i in range(len(X)):
                result = self.sigmoid(np.dot(data_mat[i], self.weights))
                error = y[i] - result
                self.weights += self.learning_rate * error * np.transpose(
                    [data_mat[i]])
        print('LogisticRegression Model(learning_rate={},max_iter={})'.format(
            self.learning_rate, self.max_iter))
    def fit(self, X, y):
        y = y[:, np.newaxis]
        self.weights = self.grandient_descent(X, y, self.eplison_, self.max_iter)
    
    def grandient_descent(self, X, y, eplison_=0.00001, n_iter=1500):
        X = self.data_matrix(X)  # m*n
        weights = np.zeros((len(X[0]), 1), dtype=np.float32)
        for k in range(n_iter):
            g_k = self.grand_(X, y, weights)  # 第k次迭代的梯度值
            if np.linalg.norm(g_k) < eplison_:
                break
            else:
                p_k = -g_k  # 与梯度相同方向  极大似然
            lambda_k = self.learning_rate  # TODO: 更新算法
            weights += lambda_k*p_k
        return weights

    def grand_(self, X, y, w):
        error = y-self.sigmoid(np.dot(X, w))
        rst = np.dot(X.T, error)
        return rst

    def predict(self, x):
        # x: (n_sample, n_feature) 
        x = self.data_matrix(x)
        result = -np.dot(x, self.weights)
        return np.where(result>=0, 1, 0)
    
    def score(self, X_test, y_test):
        right = 0
        X_test = self.data_matrix(X_test)
        for x, y in zip(X_test, y_test):
            result = np.dot(x, self.weights)
            if (result > 0 and y == 1) or (result < 0 and y == 0):
                right += 1
        return right / len(X_test)

In [None]:
lr_clf = LogisticReressionClassifier()
lr_clf.fit_1(X_train, y_train)

In [None]:
lr_clf.score(X_test, y_test)

In [None]:
lr_clf.weights

In [None]:
lr_clf.predict([[4.5, 3.1], [5.1, 2.4]])

In [None]:
x_ponits = np.arange(4, 8)
y_ = -(lr_clf.weights[1]*x_ponits + lr_clf.weights[0])/lr_clf.weights[2]
plt.plot(x_ponits, y_)

#lr_clf.show_graph()
plt.scatter(X[:50,0],X[:50,1], label='0')
plt.scatter(X[50:,0],X[50:,1], label='1')
plt.legend()

### scikit-learn实例

#### sklearn.linear_model.LogisticRegression

solver参数决定了我们对逻辑回归损失函数的优化方法，有四种算法可以选择，分别是：
- a) liblinear：使用了开源的liblinear库实现，内部使用了坐标轴下降法来迭代优化损失函数。
- b) lbfgs：拟牛顿法的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
- c) newton-cg：也是牛顿法家族的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
- d) sag：即随机平均梯度下降，是梯度下降法的变种，和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度，适合于样本数据多的时候。
- e) saga: 是 sag 的一类变体，它支持非平滑（non-smooth）的 L1 正则选项 penalty="l1" 。因此对于稀疏多项式 logistic 回归 ，往往选用该求解器。saga求解器是唯一支持弹性网络正则选项的求解器

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
clf = LogisticRegression(max_iter=200, solver='lbfgs')

In [None]:
clf.fit(X_train, y_train)

In [None]:
clf.score(X_test, y_test)

In [None]:
print(clf.coef_, clf.intercept_)

In [None]:
x_ponits = np.arange(4, 8)
y_ = -(clf.coef_[0][0]*x_ponits + clf.intercept_)/clf.coef_[0][1]
plt.plot(x_ponits, y_)

plt.plot(X[:50, 0], X[:50, 1], 'bo', color='blue', label='0')
plt.plot(X[50:, 0], X[50:, 1], 'bo', color='orange', label='1')
plt.xlabel('sepal length')
plt.ylabel('sepal width')
plt.legend()

## 最大熵模型

**例6.2 python符号推导实现**  
一个约束条件

In [None]:
from sympy import *

# 1 constrains
P1, P2, P3, P4, P5, w0, w1, w2 = symbols("P1, P2, P3, P4, P5, w0, w1, w2", real=True)
L = P1 * log(P1) + P2 * log(P2) + P3 * log(P3) + P4 * log(P4) + P5 * log(P5) + \
    w0 * (P1 + P2 + P3 + P4 + P5 - 1)   # 拉格朗日函数
# 拉格朗日函数对原变量P求导,并令导数=0 解方程得到P
P1_e = (solve(diff(L, P1), P1))[0]  # 解是list, 用参数表示原变量
P2_e = (solve(diff(L, P2), P2))[0]
P3_e = (solve(diff(L, P3), P3))[0]
P4_e = (solve(diff(L, P4), P4))[0]
P5_e = (solve(diff(L, P5), P5))[0]
P1_e, P2_e, P3_e, P4_e, P5_e

In [None]:
L = L.subs({P1: P1_e, P2: P2_e, P3: P3_e, P4: P4_e, P5: P5_e})  # 用参数取代原变量带入 L
L

In [None]:
w = (solve([diff(L, w0)], [w0]))[0]  # 对参数w0 求导 解方程
w

In [None]:
P = [P1_e.subs({w0: w[0]}),
     P2_e.subs({w0: w[0]}),
     P3_e.subs({w0: w[0]}),
     P4_e.subs({w0: w[0]}),
     P5_e.subs({w0: w[0]})]
P

两个约束条件

In [None]:
P1, P2, P3, P4, P5, w0, w1, w2 = symbols("P1, P2, P3, P4, P5, w0, w1, w2", real=True)
L = P1 * log(P1) + P2 * log(P2) + P3 * log(P3) + P4 * log(P4) + P5 * log(P5) + \
    w0 * (P1 + P2 + P3 + P4 + P5 - 1) + w1 * (P1 + P2 - 3/10)   # 拉格朗日函数
P1_e = (solve(L.diff(P1), P1))[0]
P2_e = (solve(L.diff(P2), P2))[0]
P3_e = (solve(L.diff(P3), P3))[0]
P4_e = (solve(L.diff(P4), P4))[0]
P5_e = (solve(L.diff(P5), P5))[0]
L = L.subs({P1: P1_e, P2: P2_e, P3: P3_e, P4: P4_e, P5: P5_e})  # 用参数取代原变量带入 L
w = (solve([diff(L, w0), L.diff(w1)], [w0, w1]))[0]  # 对参数w0 求导 解方程
P = [P1_e.subs({w0: w[0], w1:w[1]}),
     P2_e.subs({w0: w[0], w1:w[1]}),
     P3_e.subs({w0: w[0], w1:w[1]}),
     P4_e.subs({w0: w[0], w1:w[1]}),
     P5_e.subs({w0: w[0], w1:w[1]})]
P

In [2]:
import math
from copy import deepcopy

In [3]:
class MaxEntropy:  # 使用改进的迭代尺度法  IIS
    def __init__(self, EPS=0.005):
        self._samples = []
        self._Y = set()  # 标签集合，相当去去重后的y
        self._numXY = {}  # key为(x,y)，value为出现次数
        self._N = 0  # 样本数
        self._Ep_ = []  # 样本分布的特征期望值
        self._xyID = {}  # key记录(x,y),value记录id号
        self._n = 0  # 特征键值(x,y)的个数
        self._C = 0  # 最大特征数
        self._IDxy = {}  # key为(x,y)，value为对应的id号
        self._w = []
        self._EPS = EPS  # 收敛条件
        self._lastw = []  # 上一次w参数值

    def loadData(self, dataset):
        self._samples = deepcopy(dataset)
        for items in self._samples:
            y = items[0]
            X = items[1:]
            self._Y.add(y)  # 集合中y若已存在则会自动忽略
            for x in X:
                if (x, y) in self._numXY:
                    self._numXY[(x, y)] += 1
                else:
                    self._numXY[(x, y)] = 1

        self._N = len(self._samples)
        self._n = len(self._numXY)
        # M = f^#(x, y) = \sum f_i(x, y)
        self._C = max([len(sample) - 1 for sample in self._samples])
        self._w = [0] * self._n
        self._lastw = self._w[:]

        self._Ep_ = [0] * self._n
        for i, xy in enumerate(self._numXY):  # 计算特征函数fi关于经验分布的期望
            self._Ep_[i] = self._numXY[xy] / self._N
            self._xyID[xy] = i
            self._IDxy[i] = xy

    def _Zx(self, X):  # 计算每个Z(x)值
        zx = 0
        for y in self._Y:
            ss = 0
            for x in X:
                if (x, y) in self._numXY:
                    ss += self._w[self._xyID[(x, y)]]
            zx += math.exp(ss)
        return zx

    def _model_pyx(self, y, X):  # 计算每个P(y|x)
        zx = self._Zx(X)
        ss = 0
        for x in X:
            if (x, y) in self._numXY:
                ss += self._w[self._xyID[(x, y)]]
        pyx = math.exp(ss) / zx
        return pyx

    def _model_ep(self, index):  # 计算特征函数fi关于模型P(Y|X)的期望 E_p(f_i)
        x, y = self._IDxy[index]
        ep = 0
        for sample in self._samples:
            if x not in sample:
                continue
            pyx = self._model_pyx(y, sample)
            ep += pyx / self._N
        return ep

    def _convergence(self):  # 判断是否全部收敛
        for last, now in zip(self._lastw, self._w):
            if abs(last - now) >= self._EPS:
                return False
        return True

    def predict(self, X):  # 计算预测概率
        Z = self._Zx(X)
        print(Z)
        result = {}
        for y in self._Y:
            ss = 0
            for x in X:
                if (x, y) in self._numXY:
                    ss += self._w[self._xyID[(x, y)]]
            pyx = math.exp(ss) / Z
            result[y] = pyx
        return result

    def train(self, maxiter=1000):  # 训练数据
        for loop in range(maxiter):  # 最大训练次数
            # print("iter:%d" % loop)
            self._lastw = self._w[:]
            for i in range(self._n):
                ep = self._model_ep(i)  # 计算第i个特征的模型期望
                print(self._Ep_[i], ep)
                self._w[i] += math.log(self._Ep_[i] / ep) / self._C  # 更新参数
            print("w:", self._w)
            if self._convergence():  # 判断是否收敛
                break

特征函数1
$$
f_1(x, y) = \begin{cases} 1, x^{(0)}=sunny且 y=no \\ 0, otherwise
\end{cases}$$
出现次数3次
特征函数f(x,y)关于经验分布$\widetilde P (X, Y)$的期望值:
$$E_{\widetilde P}(f_1) = \sum\limits_{x,y}\widetilde P(x,y)f_1(x,y) = \frac 3 {14}$$
可以得到19个特征函数

$E_P(f_i) =\sum\limits_{x,y}{\widetilde P(x)P_w(y|x)f_i(x,y)} =\sum\limits_x \widetilde P(x)\frac{1}{Z_{w}(x)} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right) f_i(x,y)$ 

$w_i \leftarrow w_i + \delta_i$

$\delta_i = \frac 1 M log \frac {E_{\widetilde P}(f_i)}{E_P(f_i)}$

In [4]:
dataset = [['no', 'sunny', 'hot', 'high', 'FALSE'],
           ['no', 'sunny', 'hot', 'high', 'TRUE'],
           ['yes', 'overcast', 'hot', 'high', 'FALSE'],
           ['yes', 'rainy', 'mild', 'high', 'FALSE'],
           ['yes', 'rainy', 'cool', 'normal', 'FALSE'],
           ['no', 'rainy', 'cool', 'normal', 'TRUE'],
           ['yes', 'overcast', 'cool', 'normal', 'TRUE'],
           ['no', 'sunny', 'mild', 'high', 'FALSE'],
           ['yes', 'sunny', 'cool', 'normal', 'FALSE'],
           ['yes', 'rainy', 'mild', 'normal', 'FALSE'],
           ['yes', 'sunny', 'mild', 'normal', 'TRUE'],
           ['yes', 'overcast', 'mild', 'high', 'TRUE'],
           ['yes', 'overcast', 'hot', 'normal', 'FALSE'],
           ['no', 'rainy', 'mild', 'high', 'TRUE']]

In [5]:
maxent = MaxEntropy()
x = ['overcast', 'mild', 'high', 'FALSE']

In [6]:
maxent.loadData(dataset)
maxent.train()

0.21428571428571427 0.17857142857142855
0.14285714285714285 0.14448473212356178
0.2857142857142857 0.2522897094353805
0.14285714285714285 0.2902245624036805
0.21428571428571427 0.21752844339670355
0.2857142857142857 0.14829668154662223
0.14285714285714285 0.1550743821863331
0.21428571428571427 0.2613900781148786
0.42857142857142855 0.3076325551149268
0.21428571428571427 0.18969407379708186
0.2857142857142857 0.22552842902686399
0.21428571428571427 0.1554243182665144
0.42857142857142855 0.2818714163372388
0.14285714285714285 0.15335856878660842
0.07142857142857142 0.11673371413872227
0.07142857142857142 0.1961309769606779
0.21428571428571427 0.24460213516012627
0.14285714285714285 0.1853595051546299
0.14285714285714285 0.2024810577278307
w: [0.0455803891984887, -0.002832177999673058, 0.031103560672370825, -0.1772024616282862, -0.0037548445453157455, 0.16394435955437575, -0.02051493923938058, -0.049675901430111545, 0.08288783767234777, 0.030474400362443962, 0.05913652210443954, 0.0802878

0.21428571428571427 0.2224085551235694
0.42857142857142855 0.41839332889264313
0.21428571428571427 0.22351891308061395
0.2857142857142857 0.2749477596788856
0.21428571428571427 0.22018501124768172
0.42857142857142855 0.4165554418968742
0.14285714285714285 0.13388465883229803
0.07142857142857142 0.06590226822426429
0.07142857142857142 0.08424585275854246
0.21428571428571427 0.22087929519750818
0.14285714285714285 0.1529838080750563
0.14285714285714285 0.15880293042401009
w: [0.9776187688173722, 0.16288426192335603, 0.40557830114418625, -1.245742171142409, 0.40557205402039515, 1.6481856556449561, -0.23991276064108394, -0.560055798896353, 0.4372611179404302, -0.5690283247125372, 0.5961042113291978, -0.1552615548230238, 0.5182192814229061, 0.9806171682798119, 0.5949723477012532, -2.322934555715983, -0.45347415171844135, -0.9576774276294636, -1.3336366472304257]
0.21428571428571427 0.19964863588443935
0.14285714285714285 0.1427276851051385
0.2857142857142857 0.27847918724007265
0.1428571428

0.14285714285714285 0.14322976925119013
0.2857142857142857 0.28026235792481435
0.14285714285714285 0.15004760481564852
0.21428571428571427 0.20996375476710585
0.2857142857142857 0.26940470488428014
0.14285714285714285 0.14260321215130545
0.21428571428571427 0.22008381848177944
0.42857142857142855 0.4218414132558291
0.21428571428571427 0.218852907711424
0.2857142857142857 0.2792872535379979
0.21428571428571427 0.21844114146998084
0.42857142857142855 0.4204309952177218
0.14285714285714285 0.1383840405010276
0.07142857142857142 0.0674276812926659
0.07142857142857142 0.07998149779797423
0.21428571428571427 0.2188950164566352
0.14285714285714285 0.14891432922349446
0.14285714285714285 0.15297126080447004
w: [1.4258972276598232, 0.15075450353240116, 0.5823282147711087, -1.7213675718155752, 0.5960400284904039, 2.252292332149733, -0.23966286766831946, -0.8082489852079046, 0.5898110424656939, -0.7987812619949676, 0.8259663105336433, -0.33524282952666845, 0.7014774408325635, 1.329775671028182, 1

0.14285714285714285 0.14255255900402553
0.21428571428571427 0.21868577299056544
0.42857142857142855 0.4235306166354109
0.21428571428571427 0.21735922145561026
0.2857142857142857 0.2811969083625869
0.21428571428571427 0.21734555444383905
0.42857142857142855 0.4225126577728142
0.14285714285714285 0.13983396553404792
0.07142857142857142 0.06845394644874161
0.07142857142857142 0.07773693215990504
0.21428571428571427 0.21780780120376647
0.14285714285714285 0.147148024098594
0.14285714285714285 0.1501215054603372
w: [1.7866337727049353, 0.12579868894702345, 0.7418922596667961, -2.119256389769542, 0.7647272641252251, 2.712444264834966, -0.21958005534613326, -1.0281187650371126, 0.7184432876652619, -0.9601011264468058, 1.0046417187182706, -0.4911437375695537, 0.8570518665309311, 1.5724917685196749, 1.6008976660452623, -4.317715694837452, -0.8284409419402022, -1.7016950555351575, -2.548825090405591]
0.21428571428571427 0.2074700874140909
0.14285714285714285 0.14320619032702847
0.285714285714285

0.21428571428571427 0.21724651842050471
0.14285714285714285 0.14635108934846763
0.14285714285714285 0.14881922678683174
w: [2.0212708437546696, 0.10814365945460033, 0.849537605711959, -2.384958519127133, 0.8799265593589609, 3.0086723262859523, -0.20380876910505485, -1.175730078014496, 0.8046512588993611, -1.0625356939544202, 1.118556896175135, -0.5927198015040349, 0.9601386398598285, 1.726241063463604, 1.905384319798086, -4.931604942300678, -0.9475770446677171, -1.9143827097978996, -2.907055092653833]
0.21428571428571427 0.20866115710275984
0.14285714285714285 0.1431374073103705
0.2857142857142857 0.28223153504580295
0.14285714285714285 0.14726266583130823
0.21428571428571427 0.21146819942598943
0.2857142857142857 0.27627920262586525
0.14285714285714285 0.14260191473515466
0.21428571428571427 0.21791658176845352
0.42857142857142855 0.4243641397869198
0.21428571428571427 0.21679241177429723
0.2857142857142857 0.282079775879583
0.21428571428571427 0.2167426589138322
0.42857142857142855 0

0.2857142857142857 0.28270900387696124
0.21428571428571427 0.21628434982646622
0.42857142857142855 0.42438518023061844
0.14285714285714285 0.14075333920827005
0.07142857142857142 0.06947299767641864
0.07142857142857142 0.07574548825860673
0.21428571428571427 0.21678643619570315
0.14285714285714285 0.14574664217306454
0.14285714285714285 0.14782790399466814
w: [2.252348046284963, 0.09186698991667966, 0.9560496218647427, -2.6503924872886553, 0.9959044956608507, 3.3008900277800173, -0.1887639572454424, -1.3215670774902841, 0.8909463128289848, -1.1641686735274999, 1.2288649375557772, -0.6903457950161946, 1.0618521480954677, 1.8786606376114299, 2.1975310309250857, -5.5390159433007815, -1.0669973154113281, -2.122362919252081, -3.2606858684393853]
0.21428571428571427 0.20957190949293247
0.14285714285714285 0.14306820114357624
0.2857142857142857 0.2828068245063161
0.14285714285714285 0.1465742480943686
0.21428571428571427 0.21188942354964907
0.2857142857142857 0.2777714283405413
0.142857142857

0.07142857142857142 0.06975350127311544
0.07142857142857142 0.07520267555116734
0.21428571428571427 0.216495293784289
0.14285714285714285 0.14538308447091586
0.14285714285714285 0.14722832491746546
w: [2.424775034259428, 0.08100980720899299, 1.0350512424014942, -2.8500617507080284, 1.0833705605134512, 3.5198974603947226, -0.17854592525388208, -1.4296491618130176, 0.9559589218728942, -1.2410811126640293, 1.309966321011783, -0.7609665705252089, 1.1374371991233247, 1.9939621495504551, 2.408584788119665, -5.991176959336082, -1.1567599951658314, -2.276434127300082, -3.5247726382892015]
0.21428571428571427 0.21012498543867908
0.14285714285714285 0.14302309583278183
0.2857142857142857 0.2831703623423563
0.14285714285714285 0.1461462529705667
0.21428571428571427 0.2121588647983731
0.2857142857142857 0.27867051841971535
0.14285714285714285 0.14270018649655714
0.21428571428571427 0.21692291082163084
0.42857142857142855 0.425404779762643
0.21428571428571427 0.21618152202880458
0.2857142857142857 

0.14285714285714285 0.14114855490425554
0.07142857142857142 0.069964713004697
0.07142857142857142 0.07478817103307037
0.21428571428571427 0.21626880756651454
0.14285714285714285 0.14510874231782245
0.14285714285714285 0.14677279546633445
w: [2.578175871668981, 0.07242678549499632, 1.1047084534206855, -3.028420470002847, 1.16152735375442, 3.715581908431881, -0.17038611609643084, -1.524889615158964, 1.0141001357246875, -1.3104093382062865, 1.3812950461162092, -0.8220389609256754, 1.2042949929029565, 2.0978757550392286, 2.5909494680734393, -6.391540366152813, -1.2367772380852966, -2.4126719037173796, -3.759724610646956]
0.21428571428571427 0.21054661841292727
0.14285714285714285 0.14298916845362658
0.2857142857142857 0.28345092512495906
0.14285714285714285 0.14581530747122745
0.21428571428571427 0.21237006329696745
0.2857142857142857 0.27935656152052263
0.14285714285714285 0.14273122412555894
0.21428571428571427 0.21662790871134252
0.42857142857142855 0.425716037360658
0.21428571428571427

0.2857142857142857 0.2836491106928792
0.14285714285714285 0.14557956363720265
0.21428571428571427 0.2125215659163682
0.2857142857142857 0.27984290151607366
0.14285714285714285 0.1427524909576849
0.21428571428571427 0.21641988968243256
0.42857142857142855 0.42593850258385685
0.21428571428571427 0.21588460398570505
0.2857142857142857 0.28359929316197163
0.21428571428571427 0.21562260949852735
0.42857142857142855 0.42558349156115105
0.14285714285714285 0.14127441451350703
0.07142857142857142 0.07011523211212436
0.07142857142857142 0.07448758817699237
0.21428571428571427 0.21610220365143598
0.14285714285714285 0.14491099770176522
0.14285714285714285 0.1464420845246844
w: [2.7047375018139803, 0.0661223720943583, 1.1616555885599695, -3.1758930499226197, 1.2261252184472928, 3.8776379689252174, -0.16435191800499063, -1.6027069309235822, 1.0622205240048468, -1.36824864227561, 1.4396016305584185, -0.8711868563413074, 1.2591335238090096, 2.1845612213718897, 2.7376271899574514, -6.720151516666888,

w: [2.8545924136692493, 0.05953508339657061, 1.2284463447042393, -3.350721162767227, 1.3026530167304853, 4.0701994761450955, -0.15801305986510772, -1.6939152667900959, 1.1193227427826853, -1.437441384222739, 1.5080606708867004, -0.9279992143582122, 1.3236700602009106, 2.288257189502417, 2.907114800348766, -7.107076755463085, -1.3808604644797207, -2.6562870279545967, -4.182849032200836]
0.21428571428571427 0.21117745620470074
0.14285714285714285 0.1429424048570387
0.2857142857142857 0.28386939445170045
0.14285714285714285 0.14531425161803643
0.21428571428571427 0.21269274842730285
0.2857142857142857 0.28039010264050057
0.14285714285714285 0.14277492391520924
0.21428571428571427 0.21618899633577435
0.42857142857142855 0.4261896270214137
0.21428571428571427 0.21574411702423968
0.2857142857142857 0.28382179001678254
0.21428571428571427 0.21546065371945528
0.42857142857142855 0.4258921926327557
0.14285714285714285 0.14141236578715016
0.07142857142857142 0.0702730010373627
0.0714285714285714

0.14285714285714285 0.144535407432619
0.14285714285714285 0.14580655662196507
w: [2.9942881804305435, 0.054196515020734665, 1.2900991997915014, -3.51379451040316, 1.3739757311058054, 4.250317728760931, -0.1528516349362205, -1.7780409822747936, 1.172640398401046, -1.5025760091754534, 1.5713697784995548, -0.9797088840943696, 1.3834497018112069, 2.3858689525089507, 3.0613410151970464, -7.465633366918543, -1.4535034231051034, -2.7785843738761864, -4.396491328965476]
0.21428571428571427 0.21144646323007618
0.14285714285714285 0.14292488788085314
0.2857142857142857 0.28404517934561346
0.14285714285714285 0.14509916250309374
0.21428571428571427 0.21283182610512458
0.2857142857142857 0.28083505613987175
0.14285714285714285 0.1427915390657259
0.21428571428571427 0.2160049880705619
0.42857142857142855 0.4263938277757511
0.21428571428571427 0.21562850248187593
0.2857142857142857 0.2839986695224975
0.21428571428571427 0.21533442425557092
0.42857142857142855 0.4261396251095591
0.14285714285714285 0

0.07142857142857142 0.07041755871647025
0.07142857142857142 0.07386361944593432
0.21428571428571427 0.2157496361249961
0.14285714285714285 0.14450185490910955
0.14285714285714285 0.1457492277212804
w: [3.024043761524843, 0.053152992967201, 1.3031584935462472, -3.548533581564322, 1.3891619314476187, 4.28875370448374, -0.1518402683431074, -1.7958514788830489, 1.1840053663877577, -1.5165223168984148, 1.5847968072440661, -0.990578004425938, 1.39613685278903, 2.4067689874340035, 3.093755761772455, -7.541745882561059, -1.4689569406935663, -2.8045708918655934, -4.441976933572555]
0.21428571428571427 0.21150014666996522
0.14285714285714285 0.14292161011815643
0.2857142857142857 0.28407996177088257
0.14285714285714285 0.14505618120318678
0.21428571428571427 0.21285963468855004
0.2857142857142857 0.2809242220886162
0.14285714285714285 0.14279466244124733
0.21428571428571427 0.21596860582145946
0.42857142857142855 0.42643470218715973
0.21428571428571427 0.21560516752576397
0.2857142857142857 0.28

0.14285714285714285 0.14446624282484866
0.14285714285714285 0.14568827063245293
w: [3.056448802140077, 0.05205220398898928, 1.3173525082942688, -3.5863658087165793, 1.4056974073081137, 4.330638564204682, -0.15077253127671755, -1.8152057713126553, 1.19638500815388, -1.531737674131209, 1.5993975862314207, -1.0023598047916558, 1.409935816278144, 2.4295708204953184, 3.128891675220753, -7.624533732128373, -1.485778197154072, -2.8328476150302895, -4.491503827012652]
0.21428571428571427 0.2115572700850973
0.14285714285714285 0.1429182073593202
0.2857142857142857 0.2841168505424048
0.14285714285714285 0.14501043142313028
0.21428571428571427 0.212889237743891
0.2857142857142857 0.2810192444718983
0.14285714285714285 0.14279790972113932
0.21428571428571427 0.2159300308890546
0.42857142857142855 0.4264782354389148
0.21428571428571427 0.21558023607743323
0.2857142857142857 0.2840707445882667
0.21428571428571427 0.21528377737722348
0.42857142857142855 0.4262408884253202
0.14285714285714285 0.141573

0.14285714285714285 0.1415947731164997
0.07142857142857142 0.0704673005530988
0.07142857142857142 0.07375753034024404
0.21428571428571427 0.21568874542036076
0.14285714285714285 0.14443226297799228
0.14285714285714285 0.14563000101433482
w: [3.0881921398927887, 0.051009086054368935, 1.3312288419777238, -3.6234248170702554, 1.4218920646110216, 4.371694205237239, -0.1497599127966092, -1.8341230220704325, 1.2085144038428157, -1.546669097699408, 1.6136788111987876, -1.0138466883437154, 1.4234352474920295, 2.451947156277154, 3.1631475648743583, -7.7055296203094015, -1.5022475003200533, -2.8605237722723866, -4.540010326008712]
0.21428571428571427 0.21161191713182692
0.14285714285714285 0.14291503618586832
0.2857142857142857 0.28415201665423273
0.14285714285714285 0.14496665406050535
0.21428571428571427 0.21291756664910558
0.2857142857142857 0.2811102878945559
0.14285714285714285 0.14280094041067365
0.21428571428571427 0.2158932678353527
0.42857142857142855 0.4265199174064072
0.21428571428571

0.42857142857142855 0.42640141237622053
0.14285714285714285 0.14165010349676116
0.07142857142857142 0.07052273297776662
0.07142857142857142 0.0736379063154974
0.21428571428571427 0.21561974364130906
0.14285714285714285 0.14435371945789197
0.14285714285714285 0.14549490728117767
w: [3.1648378851444847, 0.0486287960220561, 1.3646238607248966, -3.7128990888248037, 1.4609808003674878, 4.470926705677929, -0.1474462325727903, -1.879633445466856, 1.2378105829448232, -1.5828260329533432, 1.6480779336564524, -1.04136909158102, 1.4559597154258057, 2.5061323123472974, 3.2452231445458413, -7.900693708933876, -1.541978347807742, -2.9272592167411347, -4.657093498517592]
0.21428571428571427 0.21173877678767591
0.14285714285714285 0.14290800131332607
0.2857142857142857 0.2842331602841952
0.14285714285714285 0.1448650023571895
0.21428571428571427 0.21298334974287664
0.2857142857142857 0.2813221806334541
0.14285714285714285 0.14280767895761814
0.21428571428571427 0.21580848072039405
0.42857142857142855 

0.42857142857142855 0.4265131714354943
0.14285714285714285 0.14170444214932454
0.07142857142857142 0.07057555524311426
0.07142857142857142 0.07352243921115943
0.21428571428571427 0.21555279067954874
0.14285714285714285 0.14427780572625626
0.14285714285714285 0.1453637905315892
w: [3.243619419086808, 0.04637587594128874, 1.3987946297900986, -3.8048511945652184, 1.5011365980031302, 4.573065591431854, -0.1452525284738943, -1.9261765759862584, 1.267934675289515, -1.6201349219764822, 1.6833197229422827, -1.0693607190241097, 1.4892905839881965, 2.562044129951819, 3.3286984262266865, -8.10072128764893, -1.5827642648342202, -2.9957307130922817, -4.7773816585539475]
0.21428571428571427 0.2118621329941275
0.14285714285714285 0.1429016132653375
0.2857142857142857 0.2843113622307775
0.14285714285714285 0.1447661507134838
0.21428571428571427 0.2130473172998016
0.2857142857142857 0.2815289630354283
0.14285714285714285 0.14281381649986477
0.21428571428571427 0.2157268266758437
0.42857142857142855 0.4

0.14285714285714285 0.14416351400700378
0.14285714285714285 0.14516536671927904
w: [3.372045912255724, 0.04309081603279994, 1.4541871638985377, -3.954698652398009, 1.5665460035905678, 4.739847018290799, -0.14204709450945593, -2.001570328564754, 1.3170615175183613, -1.681238408747936, 1.7405405442546176, -1.1143980988233695, 1.5434221638243621, 2.6536161391748356, 3.463013092958052, -8.425623659299083, -1.6491394439686342, -3.107110462031192, -4.9733414753752845]
0.21428571428571427 0.21204927697336257
0.14285714285714285 0.14289280335625532
0.2857142857142857 0.28442859296698453
0.14285714285714285 0.14461623972284104
0.21428571428571427 0.21314430396558404
0.2857142857142857 0.2818440946720251
0.14285714285714285 0.1428223108584482
0.21428571428571427 0.21560454522921846
0.42857142857142855 0.4268545162721671
0.21428571428571427 0.21536096968224688
0.2857142857142857 0.2843849441101817
0.21428571428571427 0.21506940943083352
0.42857142857142855 0.42668463597388545
0.14285714285714285 

0.14285714285714285 0.14409025383775392
0.14285714285714285 0.1450375396849906
w: [3.461376703589391, 0.041064335411023827, 1.4925090466043818, -4.058884631890579, 1.6120056178596844, 4.856040021523388, -0.14006570635513604, -2.0536882627640836, 1.3512444014369402, -1.723926779401662, 1.7801913138814422, -1.1453308004782576, 1.5809376223060485, 2.7175916619346503, 3.5552716127292965, -8.650820712059094, -1.6952284858427094, -3.184429802924362, -5.109550813191255]
0.21428571428571427 0.2121701543482017
0.14285714285714285 0.14288768900893026
0.2857142857142857 0.2845033684520953
0.14285714285714285 0.14451949090446053
0.21428571428571427 0.21320687697765928
0.2857142857142857 0.28204855446715826
0.14285714285714285 0.14282725864123777
0.21428571428571427 0.2155266375322409
0.42857142857142855 0.42694722103116006
0.21428571428571427 0.21530583222013
0.2857142857142857 0.28446065605311205
0.21428571428571427 0.21501949153734579
0.42857142857142855 0.426791987666248
0.14285714285714285 0.1

0.42857142857142855 0.42701883975089167
0.21428571428571427 0.21526292425469803
0.2857142857142857 0.284518715233781
0.21428571428571427 0.2149817028204724
0.42857142857142855 0.4268743854346379
0.14285714285714285 0.14188631422251324
0.07142857142857142 0.07074098799853347
0.07142857142857142 0.07315036157165902
0.21428571428571427 0.21533467368922585
0.14285714285714285 0.14403220567059846
0.14285714285714285 0.14493591100277942
w: [3.536539780673291, 0.039508695525940093, 1.5246330614558314, -4.146514442042323, 1.6502317504899737, 4.9539095078323685, -0.13854255893084114, -2.097350380731844, 1.3800115778668678, -1.7599504370500907, 1.8134673490463926, -1.1711305490213428, 1.6124228863096188, 2.7715798582167657, 3.6322277856927974, -8.83983309653384, -1.7339588248335593, -3.2494010688287385, -5.22409585463216]
0.21428571428571427 0.2122664462013497
0.14285714285714285 0.1428839405114994
0.2857142857142857 0.2845623913808725
0.14285714285714285 0.1444424862449618
0.21428571428571427 0

0.42857142857142855 0.42705661584045784
0.21428571428571427 0.21524018296908268
0.2857142857142857 0.28454919191886874
0.21428571428571427 0.21496203950959605
0.42857142857142855 0.42691765999079995
0.14285714285714285 0.14190877387620526
0.07142857142857142 0.07076025670061796
0.07142857142857142 0.07310590399577736
0.21428571428571427 0.21530836883579244
0.14285714285714285 0.1440027326951624
0.14285714285714285 0.1448841979987464
w: [3.5763121002229097, 0.038737133825998755, 1.5415900356600987, -4.192870771018578, 1.6704504593824248, 5.0057325953587215, -0.1377864179642478, -2.1203879157674326, 1.3952354216805951, -1.7790482390598146, 1.8310457335600843, -1.1847042154494563, 1.6290553031939283, 2.8002018292462876, 3.6727186418659703, -8.939685012905722, -1.7544353162903052, -3.2837519221559512, -5.284684176060563]
0.21428571428571427 0.21231551028631448
0.14285714285714285 0.142882141299011
0.2857142857142857 0.28459227888301125
0.14285714285714285 0.1444032768145654
0.2142857142857

0.07142857142857142 0.07308084303186754
0.21428571428571427 0.21529351785785944
0.14285714285714285 0.14398610450527097
0.14285714285714285 0.14485498972400396
w: [3.5992564087705983, 0.03830752295205837, 1.5513599803591818, -4.219609213211348, 1.6821118291029846, 5.035639552952563, -0.13736519144764706, -2.1336581038476226, 1.4040184304412455, -1.7900763102064692, 1.8411777285827418, -1.1925113071782156, 1.6386419828415744, 2.816729766353467, 3.696008551794365, -8.99723935309997, -1.7662426366237383, -3.303560283252851, -5.319629873538178]
0.21428571428571427 0.21234324279928804
0.14285714285714285 0.14288115726355408
0.2857142857142857 0.28460911640290015
0.14285714285714285 0.14438112341217446
0.21428571428571427 0.2132963375849502
0.2857142857142857 0.2823425618588188
0.14285714285714285 0.14283359658029374
0.21428571428571427 0.21541659936582183
0.42857142857142855 0.42708007126363934
0.21428571428571427 0.21522602512581968
0.2857142857142857 0.2845680649672658
0.21428571428571427

0.07142857142857142 0.07305654291232631
0.21428571428571427 0.2152791020970509
0.14285714285714285 0.14396997111672086
0.14285714285714285 0.1448266285340994
w: [3.6218784293621273, 0.037894725615139915, 1.5609840906754375, -4.245969075627561, 1.6936075422683086, 5.065133811056186, -0.13696031316192114, -2.146727960694761, 1.4126784080443036, -1.8009568869327246, 1.8511612856262412, -1.200192450976964, 1.6480881336366002, 2.8330367336622824, 3.718923485449441, -9.053950796321848, -1.7778803049108838, -3.3230846899960707, -5.354079567781498]
0.21428571428571427 0.21237018532337607
0.14285714285714285 0.14288022395111205
0.2857142857142857 0.2846254357375727
0.14285714285714285 0.14435960761174066
0.21428571428571427 0.21331024554338465
0.2857142857142857 0.2823884548055615
0.14285714285714285 0.14283450402664513
0.21428571428571427 0.21539963413153534
0.42857142857142855 0.42710075856971286
0.21428571428571427 0.21521351434837896
0.2857142857142857 0.28458467925176567
0.2142857142857142

0.42857142857142855 0.42701320934042375
0.14285714285714285 0.14195888467976087
0.07142857142857142 0.07080238572070041
0.07142857142857142 0.07300783508510476
0.21428571428571427 0.21525016049623202
0.14285714285714285 0.1439376022548136
0.14285714285714285 0.1447696626332033
w: [3.6683758614485944, 0.03707881159327397, 1.580739628189728, -4.300139824946333, 1.7172302181766157, 5.12577870439338, -0.13615965270568445, -2.1735496170232693, 1.4304791691231893, -1.8233431395590465, 1.8716631291201513, -1.2159311981477219, 1.6674860406120142, 2.866587781986371, 3.7658788518729374, -9.170411401884559, -1.8017887998369801, -3.363198316974572, -5.424871689638179]
0.21428571428571427 0.2124243449437417
0.14285714285714285 0.14287841513875796
0.2857142857142857 0.28465812606440705
0.14285714285714285 0.14431637728588279
0.21428571428571427 0.21333818781671585
0.2857142857142857 0.2824808111024071
0.14285714285714285 0.14283626407330705
0.21428571428571427 0.2153656641081464
0.42857142857142855 

0.07142857142857142 0.0708272260129367
0.07142857142857142 0.07294944413720975
0.21428571428571427 0.2152153844174357
0.14285714285714285 0.14389874238633116
0.14285714285714285 0.1447011640804588
w: [3.7262551252402165, 0.03612170789121245, 1.6052845725231542, -4.367552678432597, 1.7466249576804487, 5.201308242653975, -0.13521975873300882, -2.2068605866888995, 1.4526389870070315, -1.851248879896236, 1.8971505280530665, -1.2354343663372735, 1.6916002062147573, 2.9084115876872847, 3.8240698302062173, -9.31519109558057, -1.8315284023061629, -3.413101431263933, -5.51296268912699]
0.21428571428571427 0.2124895471330789
0.14285714285714285 0.14287635584124578
0.2857142857142857 0.2846972795637347
0.14285714285714285 0.1442643715658643
0.21428571428571427 0.21337179886721597
0.2857142857142857 0.2825921773522186
0.14285714285714285 0.1428382701094661
0.21428571428571427 0.21532500396270815
0.42857142857142855 0.4271924268059442
0.21428571428571427 0.21515781252148522
0.2857142857142857 0.284

0.21428571428571427 0.21255025871754823
0.14285714285714285 0.1428745531700196
0.2857142857142857 0.2847335399389192
0.14285714285714285 0.14421598850448852
0.21428571428571427 0.2134030660548027
0.2857142857142857 0.28269604655067615
0.14285714285714285 0.14284002820914954
0.21428571428571427 0.21528737511753498
0.42857142857142855 0.4272390612152096
0.21428571428571427 0.21512931253025125
0.2857142857142857 0.2846950195179542
0.21428571428571427 0.2148696160622757
0.42857142857142855 0.42712487547049716
0.14285714285714285 0.14201835544156272
0.07142857142857142 0.07085090403245625
0.07142857142857142 0.07289338827885232
0.21428571428571427 0.21518191679516663
0.14285714285714285 0.1438613763100876
0.14285714285714285 0.14463519176503492
w: [3.784166078788464, 0.03522542241391247, 1.6297945417220432, -4.434982184239998, 1.77602468195075, 5.276920487638816, -0.13433890929594616, -2.2401095314096495, 1.4748126514212125, -1.8792110583939576, 1.9226175250162123, -1.2548560119610974, 1.71

In [7]:
maxent._numXY

{('sunny', 'no'): 3,
 ('hot', 'no'): 2,
 ('high', 'no'): 4,
 ('FALSE', 'no'): 2,
 ('TRUE', 'no'): 3,
 ('overcast', 'yes'): 4,
 ('hot', 'yes'): 2,
 ('high', 'yes'): 3,
 ('FALSE', 'yes'): 6,
 ('rainy', 'yes'): 3,
 ('mild', 'yes'): 4,
 ('cool', 'yes'): 3,
 ('normal', 'yes'): 6,
 ('rainy', 'no'): 2,
 ('cool', 'no'): 1,
 ('normal', 'no'): 1,
 ('TRUE', 'yes'): 3,
 ('mild', 'no'): 2,
 ('sunny', 'yes'): 2}

In [8]:
 maxent._Ep_

[0.21428571428571427,
 0.14285714285714285,
 0.2857142857142857,
 0.14285714285714285,
 0.21428571428571427,
 0.2857142857142857,
 0.14285714285714285,
 0.21428571428571427,
 0.42857142857142855,
 0.21428571428571427,
 0.2857142857142857,
 0.21428571428571427,
 0.42857142857142855,
 0.14285714285714285,
 0.07142857142857142,
 0.07142857142857142,
 0.21428571428571427,
 0.14285714285714285,
 0.14285714285714285]

In [9]:
maxent._C

4

In [None]:
print('predict:', maxent.predict(x))

----
参考代码：https://github.com/wzyonggege/statistical-learning-method

中文注释制作：机器学习初学者

微信公众号：ID:ai-start-com

配置环境：python 3.5+

代码全部测试通过。
![gongzhong](../gongzhong.jpg)