近邻法（k-Nearest Neighbor：kNN）是一种基本的分类与回归方法，它主要有三大要素：  
- 距离度量    
- K 值选择     
- 决策规则   

# 运用场景    

这里用来做一个简单的电影分类，电影分类数据集如下：    

|序号|电影名称|搞笑镜头|拥抱镜头|打斗镜头|电影类型|
|---|---|---|---|---|---|
|1|宝贝当家|45|2|9|喜剧片|
|2|美人鱼|21|17|5|喜剧片|
|3|澳门风云3|54|9|11|喜剧片|
|4|功夫熊猫3|39|0|31|喜剧片|
|5|谍影重重|5|2|57|动作片|
|6|叶问3|3|2|65|动作片|
|7|伦敦陷落|2|3|55|动作片|
|8|我的特工爷爷|6|4|21|动作片|
|9|奔爱|7|46|4|爱情片|
|10|夜孔雀|9|39|8|爱情片|
|11|代理情人|9|38|2|爱情片|
|12|新步步惊心|8|34|17|爱情片|
|13|唐人街探案|23|3|17|？|   

在该数据集中，前 12 条数据作为训练集，其电影类型总共有三种，现在我们根据 “搞笑镜头数”、“拥抱镜头数”、“打斗镜头数” 这三项指标来预测第 13 条电影所属类别。

In [1]:
data = {"宝贝当家": [45, 2, 9, "喜剧片"],
        "美人鱼": [21, 17, 5, "喜剧片"],
        "澳门风云3": [54, 9, 11, "喜剧片"],
        "功夫熊猫3": [39, 0, 31, "喜剧片"],
        "谍影重重": [5, 2, 57, "动作片"],
        "叶问3": [3, 2, 65, "动作片"],
        "伦敦陷落": [2, 3, 55, "动作片"],
        "我的特工爷爷": [6, 4, 21, "动作片"],
        "奔爱": [7, 46, 4, "爱情片"],
        "夜孔雀": [9, 39, 8, "爱情片"],
        "代理情人": [9, 38, 2, "爱情片"],
        "新步步惊心": [8, 34, 17, "爱情片"]}

# 1. 距离度量

这里采用 `欧式距离` 作为距离度量方法：  
$$d = \sqrt{\sum_{i=1}^{n}(x_i-y_i)^2}$$   

- 其中：$x,y$ 为两个样本，$n$ 为样本的维度，$x_i,y_i$ 为第 i 个维度上的特征值    
- 例如：“唐人街探案” 和 “伦敦陷落” 两者间的欧式距离为：$d = \sqrt{(23-2)^2 + (3-3)^2 + (17-55)^2} = 43.42$

In [2]:
import math
# 计算预测数据与训练集中所有数据的欧式距离
xp = [23, 3, 17] 
d_data = []

for k,v in data.items():
    d = math.sqrt((xp[0]-v[0])**2 + (xp[1]-v[1])**2 +(xp[2]-v[2])**2)
    d_data.append([k, d])

print(d_data)

[['宝贝当家', 23.430749027719962], ['美人鱼', 18.547236990991408], ['澳门风云3', 32.14031735997639], ['功夫熊猫3', 21.470910553583888], ['谍影重重', 43.87482193696061], ['叶问3', 52.009614495783374], ['伦敦陷落', 43.41658669218482], ['我的特工爷爷', 17.4928556845359], ['奔爱', 47.686476070265456], ['夜孔雀', 39.66106403010388], ['代理情人', 40.570925550201586], ['新步步惊心', 34.438350715445125]]


# 2. K 值选择

K 值的选择很重要：
- 选用较大的 K 值，相当于用较大的邻域中的训练样本进行预测，这样学习的方差较小，但是偏差较大
- 选择较小的 K 值，相当于用较小的邻域中的训练样本进行预测，这样学习的偏差较小，但是方差较大

In [3]:
# 对上述欧式距离进行排序：
d_data.sort(key=lambda dic:dic[1])

print(d_data)

[['我的特工爷爷', 17.4928556845359], ['美人鱼', 18.547236990991408], ['功夫熊猫3', 21.470910553583888], ['宝贝当家', 23.430749027719962], ['澳门风云3', 32.14031735997639], ['新步步惊心', 34.438350715445125], ['夜孔雀', 39.66106403010388], ['代理情人', 40.570925550201586], ['伦敦陷落', 43.41658669218482], ['谍影重重', 43.87482193696061], ['奔爱', 47.686476070265456], ['叶问3', 52.009614495783374]]


In [4]:
# 实际应用中会使用交叉验证的方式确定 K 值，这里就简单的进行排序，选择距离较小的 5 个样本
model = d_data[:5]

# 3. 决策规则

这里是一个分类决策问题，通常采用 `多数表决` 法来确定样本所属类别。另外，对于回归决策问题，通常会采用 “均值回归” 法来确定样本输出。

In [32]:
counts = {"喜剧片":0, "动作片":0, "爱情片":0}

for m in model:
    label = data[m[0]][3]
    counts[label] = counts[label] + 1


counts = sorted(counts.items(), key = lambda x : x[1], reverse=True)
print("预测电影 \"唐人街探案\" 的类型为：", counts[0][0])

预测电影 "唐人街探案" 的类型为： 喜剧片
