## 1 基本的步骤

简单起见，只考虑丢球位置

问题： 我想预测在某个位置扔球，预测落入篮筐的位置，我应该怎么办。

1. 在任意随机位置反复的扔球，收集大量的实验数据。
2. 假设要预测300位置落入的篮筐， 需要找到离300最近的若干条（k）记录
   * 计算每个球丢落位置与300的距离
   * 把距离从小到大进行排序
   * 选取最顶部的k条记录

3. 看这k条记录中，落入到几号框概率最大



In [None]:
#1 加载假的数据
import numpy as np
data = np.array([
    [0,1],
    [150,2],
    [200,3],
    [275,4],
    [325,4],
    [375,4],
    [450,5],
    [500,5],
    [550,5]
])

In [None]:
#2 拆分数据， 拆分成输入（feature）和输出（label）
feature = data[:,0]  # 拆分输入，每一行都是扔球的位置
label = data[:,1] # 拆分输出，每一行代表的是丢入的篮筐

# 定义预测的点， 位置是300
predictPoint = 300

In [None]:
#3 计算每一个扔球的位置与300的距离
diff_dis = np.abs(feature - predictPoint)
diff_dis

In [None]:
#4 把距离从小大大进行排序, 返回其在原数据中的索引信息
index = np.argsort(diff_dis)
index

In [None]:
#5 选取前k 个的索引作为最终分析的数据
k = 4  
final_label = label[index[0:k]]
final_label

In [None]:
#6 计算哪个筐出现的次数最多
res = np.bincount(final_label) #计算数组中的数字 出现的个数 
res

In [None]:
#7 打印输出
print "落在 %d框 的概率最大"%(np.argmax(res))


# 2 封装上面的步骤到一个函数中

In [None]:
# feature: dim = 1
# label:dim = 1
# predictPoint: 落点可以是小数
# k: 整数
def knn(feature,label,predictPoint,k):
    diff_dis = np.abs(feature - predictPoint)
    index = np.argsort(diff_dis)
    final_label = label[index[0:k]].astype('int')  # 注 final_label里面的数据需要是整数，这样下面的 np.bincount 才可以使用
    result = np.argmax(np.bincount(final_label))
    return result


In [None]:
knn(feature,label,300,4)

# 3 假数据跑通后，试下真实的数据

In [None]:
#1加载数据
data = np.loadtxt('./data.csv',delimiter=',')
data

In [None]:
#2 
feature = data[:,0]
label = data[:,3]

In [None]:
knn(feature,label,300,100) # k = 100

# 4.1 其他：有关K值的选取 【k值 又称超级参数】

In [None]:
# 做实验来看一下k值应该如何选择
# 取固定落下位置为300，k值从 1 -> 200 [总共的数据有1000多条]

for k in range(1,201):
    res = knn(feature,label,300,k)
    print "k值为 %d 时，从300落下，落入 %d号框概率大"%(k,res)
