In [12]:
import numpy as np
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
import seaborn as sns
import warnings; warnings.filterwarnings('ignore')
import scipy.stats as stats
import scipy

<script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script>
# 引言
在聚类、离群点分析和最近邻分类等数据挖掘的应用中，需要评估对象之间相互比较的相似或不相似程度。有时候可以从中寻找Data Leakage。

离群点分析也是基于聚类技术，把可能的离群点看做与其他对象高度相似的对象。

## 数据结构
假设我们有 $n$ 个对象（比如人，商品），被 $p$ 个属性（又称*维*或者*特征*，如年龄身高体重）所刻画。对象是$x_1 = (x_{11},x_{12},\cdots, x_{1p}), x_2 = (x_{21},x_{22},\cdots, x_{2p})$，其中$x_{ij}$是对象$x_i$的第$j$个属性的值。

基于内存的聚类和最近近邻算法都在如下两种数据结构上运行：

**数据矩阵**：或称对象 - 属性结构。一共存放 ${n}$ 个数据对象，$\textbf{n}$ ，不是$\textbf{n}\times \textbf{n}$个！！！！！
<img src="images/矩阵1.png" style="zoom:50%;" />

**相异性矩阵**：或称对象 - 对象结构。存放$n$个对象两两之间的邻近程度。
<img src="images/矩阵2.png" style="zoom:50%;" />
$d(i,j)$是对象 $i$ 与 $j$ 之间的相异性（差别的度量），$d(i,j)$ 是非负数，并且 $d(i,i) = 0，d(j,i) = d(i, j)$。

相似程度等于$$sim(i,j) = 1 - d(i,j)$$

### 类别属性的邻近性度量
不匹配率如下：$$ d(i,j) = \frac{p - m}{p} $$
m是匹配的数目，（即 i 和 j 取值**相同**的属性数），而 p 是刻画对象的属性总数。我们可以通过赋予 m 较大的权重，或者给有较多状态的属性的对象，匹配更大的权重来增重 m 的影响。


假如有如下两列数据，分别对应为$[1,2,3,4],[A,B,C,A]$,则对应的数据矩阵为（令：m = 1，p = 1）

$$
\left[
 \begin{matrix}
   1 &  &   \\
    & 1 &    \\
    &  & 1   \\
   1 &  &  
  \end{matrix} 
\right]
$$

则对应的相异性矩阵为：
$$
\left[
 \begin{matrix}
   0 &  & &  \\
   1 & 0 &  &  \\
   1 & 1 & 0  & \\
   0 & 1 & 1 & 0
  \end{matrix} 
\right]
$$
相似性可以用一下公式计算：
$$ sim(i,j) = \frac{m}{p} $$


In [47]:
List1 = [0,1,2,3]
List2 = [0,1,2,0]
pair_list = list(zip(List1,List2))
#pair_list.extend(zip(kk,k))
pair_list

[(0, 0), (1, 1), (2, 2), (3, 0)]

In [48]:
nodes, ids = np.unique(pair_list, return_inverse=True)
del pair_list
ids = np.unique(ids.reshape(-1, 2),axis=0)
inc_mat = scipy.sparse.coo_matrix((np.ones(shape=(len(ids),)),(ids[:, 0], ids[:, 1])))
inc_mat = inc_mat.tocsr()
print(inc_mat)

  (0, 0)	1.0
  (1, 1)	1.0
  (2, 2)	1.0
  (3, 0)	1.0


### 二元属性的邻近度量属性
* 由于二元属性只有两种状态，0 或 1，其中0表示该属性不出现，1表示出现。并且二元属性有两种性质**对称和不对称性**。
<img src="images/二元属性列联表.png" style="zoom:50%;" />


**对称性**，相异性为：$$d(i,j) = \frac{r+s}{q+r+s+t}$$
**非对称的二元相异性**，其中负匹配数被认为是不重要的。$$d(i,j) = \frac{r+s}{q+r+s}$$
**非对称的二元相似性**，可用如下公式，也被称为$Jaccard$系数。$$d(i,j) = \frac{q}{q+r+s}$$

e.g: 
<img src="images/例子1.png" style="zoom:50%;" />
<img src="images/例子2.png" style="zoom:50%;" />

### 数值属性的相异性：闵可夫斯基距离
**欧几里得距离**:直线距离
$$d(i,j) = \sqrt{(x_{i1}-x_{j1})^2+(x_{i2}-x_{j2})^2+\cdots+(x_{ip}-x_{jp})^2}$$
若每个变量能够根据重要性赋予权值：**加权欧几里得距离**
$$d(i,j) = \sqrt{w_1(x_{i1}-x_{j1})^2+w_2(x_{i2}-x_{j2})^2+\cdots+w_p(x_{ip}-x_{jp})^2}$$

**曼哈顿距离**：街区距离
$$d(i,j) = |x_{i1}-x_{j1}|+|x_{i2}-x_{j2}|+\cdots+|x_{ip}-x_{jp}|$$
**闵可夫斯基距离**: 是前两个的推广，又称$L_p$**范数**
$$d(i,j) = ((x_{i1}-x_{j1})^p+(x_{i2}-x_{j2})^p+\cdots+(x_{ip}-x_{jp})^p)^{1/p}$$



### 序数属性的邻近性度量
* 第$i$个对象为 $x_{if}$ ，有$M_f$个有序状态，表示$ 1, \cdots, M_f$。对应的排位 $r_{if}\in \{ 1, \cdots, M_f\}$取代$x_{if}$
* 由于每个序数属性都可以由不同的状态数，所以通常需要将每个属性的值域映射到 [0,1] 上，以便每个值都有相同的权重。$$z_{if} = \frac{r_{if}-1}{M_f - 1}$$

* 使用前面的数值相异性计算。

e.g:

<img src="images/例子3.png" style="zoom:50%;" />

### 余弦相似性：矩阵一定是稀疏的
**此处不再是相异性，并且是非度量测度，其他的是度量**

可用于比较文档，或针对给定查询词向量或者文档排序。稀疏结构的应用包括信息检索，文本文档聚类，生物学分类和基因特征映射。
$$sim(x,y) = \frac{x \cdot y}{||x|| \cdot ||y||}$$
其中，||x|| 是向量 x = (x_1, x_2, \cdots, x_p) 的欧几里得范数，定义为 \sqrt{x_1^2 + x_2^2 + \cdots + x_p^2}。余弦值为 0 表示没有匹配。越接近 1 ，匹配度越大。

e.g:

**两个词频向量的余弦相似性** 假设 $x$ 和 $y$ 是两个词频向量。$x = (5,0,3,0,2,0,0,2,0,0)$ 和 $y = (3,0,2,0,1,1,0,1,0,1)$。$x$ 和 $y$ 的相似性如何？
可得 $$sim(x,y) = 0.94$$

**特征为二值属性时**，余弦相似性函数可以用共享特征或属性解释（the cosine similarity function can be interpreted in terms of shared features or attributes）。

$$ sim(x,y) = \frac{x\cdot y}{x\cdot x + y\cdot y - x\cdot y} $$

这是 $x$ 和 $y$ 所共有的属性个数 $x$ 或 $y$ 所具有的属性个数之间的比率。被称为$Tanimoto$系数。