# 最大似然估计

最大似然估计是一种用来**估计**模型参数的方法
- 采取的准则是：计算出的参数值带入模型(??)后，能够使已知样本（训练集）出现的概率最大。
- 假设：样本数据是独立分布的

# 直观的理解

# 以符合高斯分布的数据为示例
假设有如下一组数据：

![img1](https://cdn-images-1.medium.com/max/800/1*Z3JJGvEtOjmpLFvmWiUR3Q.png)

首先要诀定用哪个模型来描述数据，这一步重要，否则根本不知道要求哪些参数，
这里假定这些数据符合 Gaussian 分布。高斯分布有两个参数，均值 $u$ 和标准差 $\theta$，
上面假设的数据应该是符合蓝色的曲线：

![img2](https://cdn-images-1.medium.com/max/800/1*uLKl0Nz1vFg6bmfiqpCKZQ.png)

**最大似然估计**的作用就是求出均值 $u$ 和标准差 $\theta$，计算出的值称为 $u$ 和 $\theta$ 的最大估计值（maximum likelihood estimates）。

为了求解参数的最大估计值，需要求出数据的总概率密度（probability density），如果样本之间是相关的，这个又称为联合概率密度（joint probability distribution），联合概率密度很难求（？？），所以最大似然估计有个前提条件：**各个样本是独立分布的**，在这个条件下，数据的总概率密度可以表示为各个样本的概率密度之积。

高斯函数的概率密度函数为：$P(x;u,\sigma)=\frac{1}{\sigma\sqrt{2\pi}}exp(-\frac{(x-u)^2}{2\sigma^2})$，
分号表示 $u$ 和 $\sigma$ 是我们要求的变量。

假设我们的数据只有三个值 $9, 9.5, 11$，则这组数据的总概率密度可以写为：

![img3](https://cdn-images-1.medium.com/max/800/1*rFzbQ614IR4zEwBM3k1V0Q.png)

上述式子取到最大值时 $u$ 和 $\sigma$ 的值即为我们要求的最大似然估计值。

为了简化起求导计算，一般都是对原始的式子求自然对数（natural logarithm）。自然对数是单调递增的，
所以自然对数的最大值对应的点一定能再映射到原始式子上。然后上面的式子可以写成：

![img4](https://cdn-images-1.medium.com/max/1600/1*iEdEaqWWiruaw_Fr2ophxw.png)

进一步简化：

![img5](https://cdn-images-1.medium.com/max/1600/1*xjDrGJ_JHLMa7619jFkjLA.png)

对 $u$ 求偏导，并使表达式等于 0，即可求出 $u$ 的最大似然估计值，同理可以算出 $\theta$：

![img6](https://cdn-images-1.medium.com/max/1600/1*kdjQQo5jUX9a2Z0kblJ4Hg.png)
![img7](https://cdn-images-1.medium.com/max/1600/1*rHtqdjFXRw4sdnLU9n_WsQ.png)




# 使用最大似然估计进行线性回归


In [1]:
from matplotlib import cm
from matplotlib.ticker import LinearLocator, FormatStrFormatter
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import norm

fig = plt.figure()
ax = fig.gca(projection='3d')
X = np.arange(0, 20, 0.25)
Y = np.arange(-10, 10, 0.25)
X, Y = np.meshgrid(X, Y)

# Create the univarate normal coefficients
# of intercep and slope, as well as the
# conditional probability density
beta0 = -5.0
beta1 = 0.5
Z = norm.pdf(Y, beta0 + beta1*X, 1.0)

# Plot the surface with the "coolwarm" colormap
surf = ax.plot_surface(
    X, Y, Z, rstride=1, cstride=1, cmap=cm.coolwarm,
    linewidth=0, antialiased=False
)

# Set the limits of the z axis and major line locators
ax.set_zlim(0, 0.4)
ax.zaxis.set_major_locator(LinearLocator(5))
ax.zaxis.set_major_formatter(FormatStrFormatter('%.02f'))

# Label all of the axes
ax.set_xlabel('X')
ax.set_ylabel('Y')
ax.set_zlabel('P(Y|X)')

# Adjust the viewing angle and axes direction
ax.view_init(elev=30., azim=50.0)
ax.invert_xaxis()
ax.invert_yaxis()

# Plot the probability density
plt.show()

ValueError: Unknown projection '3d'

In [None]:
参考：
- https://towardsdatascience.com/probability-concepts-explained-maximum-likelihood-estimation-c7b4342fdbb1
- https://towardsdatascience.com/a-gentle-introduction-to-maximum-likelihood-estimation-9fbff27ea12f
- http://suriyadeepan.github.io/2017-01-22-mle-linear-regression/
- https://blog.csdn.net/zengxiantao1994/article/details/72787849
- https://www.quantstart.com/articles/Maximum-Likelihood-Estimation-for-Linear-Regression