# 机器学习中 距离计算

In [11]:
import numpy as np
import math

## 1. 欧式距离(Euclidean)
    # 11. 多维空间内的点和点之间几何距离
    # 22. 传入参数为两个向量，返回值为欧式距离
    # 33. 代码具有多种实现方式

In [7]:
def Euclidean(vecA, vecB, way):
    if way == 0 :
        return math.sqrt(((npvecA-npvecB)**2).sum())
    elif way == 1 :
        return sqrt((vector1-vector2)*((vector1-vector2).T))
    else:
        print ('请选择计算方式！')

# 2. 曼哈顿距离(Manhattan)
    # 欧式距离是直线距离，曼哈顿距离是折线距离

In [6]:
def Manhattan(vecA, vecB):
    
    return np.abs(npvecA-npvecB).sum()

3

# 3. 切比雪夫距离(Chebyshev)
    # 用于在多维空间中，将对象从某个位置移动到另外一个对象所消耗的最小距离

In [None]:
def Chebyshev(vec1, vec2):
    
    return max(np.abs(npvec1-npvec2))

# 4. 闵可夫斯基(Minkowski)
        # 1. 距离最常用的 p 是 2 和 1, 前者是欧几里得距离（Euclidean distance），后者是曼哈顿距离
        # 2. 当 p 趋近于无穷大时，闵可夫斯基距离转化成切比雪夫距离

In [None]:
x=np.random.random(5)
y=np.random.random(5)

#方法一：根据公式求解,p=2
print (np.sqrt(np.sum(np.square(x-y))))

#方法二：根据scipy库求解
from scipy.spatial.distance import pdist
X=np.vstack([x,y])
print (pdist(X,'minkowski',p=2))

# 4. 马氏距离(Mahalanobis)

## 表示数据的协方差距离，是一种有效的计算两个未知样本集的相似度的方法
## 马氏距离要求样本数要大于维数，否则无法求协方差矩阵

In [72]:

# 转置，表示10个样本，每个样本2维
X=np.vstack([np.random.random(10), np.random.random(10)])
XT=X.T

# 方法一：根据公式求解
S=np.cov(X)   # 两个维度之间协方差矩阵
SI = np.linalg.inv(S) # 协方差矩阵的逆矩阵

# 马氏距离计算两个样本之间的距离，此处共有10个样本，两两组合，共有45个距离。
n=XT.shape[0]
d1=[]
for i in range(0,n):
    for j in range(i+1,n):
        delta=XT[i]-XT[j]
        d=np.sqrt(np.dot(np.dot(delta,SI),delta.T))
        d1.append(d)
        
# 方法二：根据scipy库求解
from scipy.spatial.distance import pdist
d2=pdist(XT,'mahalanobis')

In [79]:
print (d1)
print (d2)

[1.2235931588364666, 0.82366053652190385, 2.1121190349537278, 1.1638532203683336, 1.2135789857980777, 1.9916281220343783, 1.4282225217803972, 1.0209619292247298, 2.6399977655985141, 0.51763536010143008, 3.2066843935127234, 2.3800993475771794, 2.0177326240798719, 2.2552971937952244, 2.6517431908092517, 0.91760753042417542, 2.8438974668468999, 2.9171866680633789, 1.9308971526410643, 1.8580584141891734, 2.3368581717948995, 2.2211261546511429, 1.0187409408652506, 2.9679230676744877, 1.4743568956551674, 1.3174836617161736, 2.0925456446838697, 1.2258067336319873, 2.4943795729195957, 2.4250209448648854, 1.4842049565969677, 2.5294944120867062, 0.32160251594317396, 2.0650309845856452, 3.1047309326874033, 1.0498994130437895, 1.5083160348117903, 1.2045194607083367, 1.6251656963933432, 2.5555801789185635, 1.3490756948065694, 0.6498027028966088, 2.2572400864810258, 3.0924770042695893, 1.9617670093974495]
[ 1.22359316  0.82366054  2.11211903  1.16385322  1.21357899  1.99162812
  1.42822252  1.020961

# 5 编辑距离（Edit distance）

In [None]:
'''
1. 编辑距离是指两个字串之间，由一个转成另一个所需的最少编辑操作次数
2. 编辑操作包括：替换、插入、删除
3. 编辑距离求的是最少编辑次数，是简单的线性动态规划（最长上升子序列属于线性动态规划）
4. python-Levenshtein 包，可以计算编辑距离，hamming（汉明）距离，Jaro-Winkler距离等

例如将eeba转变成abac：
    11. eba（删除第一个e）
    22. aba（将剩下的e替换成a）
    33. abac（在末尾插入c）
    所以eeba和abac的编辑距离就是3.

    俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。
'''

In [1]:
from Levenshtein import *

ModuleNotFoundError: No module named 'Levenshtein'

# 自定义实现方法

In [None]:
#!/user/bin/env python  
# -*- coding: utf-8 -*-  
  
class arithmetic():  
      
    def __init__(self):  
        pass  
    ''''' 【编辑距离算法】 【levenshtein distance】 【字符串相似度算法】 '''  
    def levenshtein(self,first,second):  
        if len(first) > len(second):  
            first,second = second,first  
        if len(first) == 0:  
            return len(second)  
        if len(second) == 0:  
            return len(first)  
        first_length = len(first) + 1  
        second_length = len(second) + 1  
        distance_matrix = [range(second_length) for x in range(first_length)]   
        #print distance_matrix  
        for i in range(1,first_length):  
            for j in range(1,second_length):  
                deletion = distance_matrix[i-1][j] + 1  
                insertion = distance_matrix[i][j-1] + 1  
                substitution = distance_matrix[i-1][j-1]  
                if first[i-1] != second[j-1]:  
                    substitution += 1  
                distance_matrix[i][j] = min(insertion,deletion,substitution)  
        print distance_matrix  
        return distance_matrix[first_length-1][second_length-1]  
      
if __name__ == "__main__":  
    arith = arithmetic()  
    print arith.levenshtein('GUMBOsdafsadfdsafsafsadfasfadsfasdfasdfs','GAMBOL00000000000dfasfasfdafsafasfasdfdsa'

In [35]:
vecA = [0, 1, 0]
vecB = [0, 0, 2]

npvecA, npvecB = np.array(vecA), np.array(vecB)

npvec = np.array([npvecA, npvecB])

print (npvec)

sub = npvec.T[0]-npvec.T[1]

print (sub)
inv_sub = np.linalg.inv(np.cov(npvecA, npvecB))

print (inv_sub)
print (math.sqrt(np.dot(inv_sub, sub).dot(sub.T)))

[[0 1 0]
 [0 0 2]]
[-1  0]
[[ 4.  1.]
 [ 1.  1.]]
2.0


# 各函数测试结果

In [33]:
vecA = [0, 1, 0]
vecB = [0, 0, 2]

npvecA, npvecB = np.array(vecA), np.array(vecB)

euclidean = Euclidean(npvecA, npvecB)
print (euclidean)

manhattan = Manhattan(npvecA, npvecB)
print (manhattan)

mahalanobis = Mahalanobis(npvecA, npvecB)
print (mahalanobis)

2.23606797749979
3
2.0
