# 高斯分布拟合

In [1]:
import numpy as np
import math

多维高斯

## 把来自两类ω1、ω2的训练样本集 分成与ω1、ω2分别对应的训练样本子集 X1、X2。

In [2]:
# 2个类别的3维样本集
X1 = [
    [-0.4, 0.58, 0.089],  # w1
    [-0.31, 0.27, -0.04],
    [0.38, 0.055, -0.035],
    [-0.15, 0.53, 0.011],
    [-0.35, 0.47, 0.034],
    
    [0.17, 0.69, 0.1],
    [-0.011, 0.55, -0.18],
    [-0.27, 0.61, 0.12],
    [-0.065, 0.49, 0.0012],
    [-0.12, 0.054, -0.063],
]
    
X2 = [
    [0.83, 1.6, -0.014],  # w2
    [1.1, 1.6, 0.48], 
    [-0.44, -0.41, 0.32],
    [0.047, -0.45, 1.4], 
    [0.28, 0.35, 3.1], 
    
    [-0.39, -0.48, 0.11],
    [0.34, -0.079, 0.14], 
    [-0.3, -0.22, 2.2], 
    [1.1, 1.2, -0.46], 
    [0.18, -0.11, -0.49]
]

N=3 # 每个样本向量的维数

n=[10, 10] # 每个训练样本集里样本的个数 

In [3]:
# 测试集
test = [
    [1.40, -0.36, -0.41],
    [-0.11, 1.60, 1.51],
    [0.52, 1.30, 1.11]
]

## 计算多维高斯分布拟合的均值向量

In [4]:
def get_U(X, N, n):
    """
    求解多维高斯分布拟合的均值向量U
    X: 样本集合
    N：样本维度
    n：样本数量
    
    return： 本类样本高斯拟合的均值向量U
    
    """
    U = np.mat(np.zeros(N)).T    
    Xi = np.mat(np.zeros(N)).T    # 把样本转换为向量
    for i in range(n):
        Xi[0, 0] = X[i][0]
        Xi[1, 0] = X[i][1]
        Xi[2, 0] = X[i][2]
        U = U + Xi
        
    U = U / n 
    return U

## 计算的到样本的均值向量

In [5]:
U1 = get_U(X1, N, n[0])
U2 = get_U(X2, N, n[1])
print(" 第一类样本的均值向量U1:\n", U1, "\n", "第二类样本的均值向量U2:\n", U2)

 第一类样本的均值向量U1:
 [[-0.1126 ]
 [ 0.4299 ]
 [ 0.00372]] 
 第二类样本的均值向量U2:
 [[0.2747]
 [0.3001]
 [0.6786]]


## 计算多维高斯分布拟合的方差

In [6]:
def get_MV(U, X, N, n):
    """
    求解多维高斯分布拟合的方差协矩阵MV
    U：本类样本高斯拟合的均值向量
    X：样本集合
    N：样本维度
    n：样本数量
    
    return：多为高斯分布拟合的协方差矩阵MV
    """
    MV = np.mat(np.zeros((N,N)))
    Xi = np.mat(np.zeros(N)).T    # 把样本转换为向量
    for i in range(n):
        Xi[0, 0] = X[i][0]
        Xi[1, 0] = X[i][1]
        Xi[2, 0] = X[i][2]
        MV += (Xi - U) * ((Xi - U).T)
        
    return MV / n

In [7]:
MV1 = get_MV(U1, X1, N, n[0])
MV2 = get_MV(U2, X2, N, n[1])
print("第一类样本的方差MV1：\n", MV1, "\n第二类样本的方差MV2：\n", MV2)

第一类样本的方差MV1：
 [[ 0.05392584 -0.01465126 -0.00517993]
 [-0.01465126  0.04597009  0.00850987]
 [-0.00517993  0.00850987  0.00726551]] 
第二类样本的方差MV2：
 [[ 0.30186081  0.40474153 -0.18042342]
 [ 0.40474153  0.64496409 -0.20130386]
 [-0.18042342 -0.20130386  1.26214164]]


## 通过计算得到的均值和方差带入高斯公式

In [8]:
def  get_p(U, MV, x, N):
    """
    求解高斯分布拟合下的概率密度p
    U：均值向量
    MV：协方差矩阵
    x：测试样本
    N：样本维度

    reurn：该类别的高斯分布拟合下的概率密度p
    """
    X = np.mat(np.zeros(N)).T    # 把样本转换为向量
    X[0, 0] = x[0]
    X[1, 0] = x[1]
    X[2, 0] = x[2]
    
    return (1 / (math.sqrt(2 * math.pi))**N * math.sqrt(np.linalg.det(MV)) * math.exp(-0.5 * (X - U).T * MV.I * (X - U)))

In [14]:
for i in range(3):
    p1 = get_p(U1, MV1, test[i], N)
    p2 = get_p(U2, MV2, test[i], N)
    if p2 > p1:
        print("第", i + 1, "个测试样本:","第一类高斯拟合的概率密度p1：", p1, "     第二类高斯拟合的概率密度为p2：", p2)
    

第 1 个测试样本: 第一类高斯拟合的概率密度p1： 5.870505044006542e-16      第二类高斯拟合的概率密度为p2： 1.378013350288084e-13
第 2 个测试样本: 第一类高斯拟合的概率密度p1： 2.9822974290384027e-78      第二类高斯拟合的概率密度为p2： 9.266866584543711e-10
第 3 个测试样本: 第一类高斯拟合的概率密度p1： 6.797280772825852e-50      第二类高斯拟合的概率密度为p2： 0.0011426678515274948
