## 高尔夫球的精确率预测

---

#### 介绍

我们知道，在打高尔夫球时，目标距离越远准确率就越低，但是却不知道两者的具体关系。本实验将会提供 197 条距离和准确率的相关数据集，你需要通过这些数据集定义距离和准确率之间的函数关系式，并且使用梯度下降算法得到函数的最佳参数值。

#### 知识点

 - 梯度下降算法
 - 数据的标准化
 - 高尔夫球的精确率预测

---

### 高尔夫球手的准确率预测


在挑战开始之前，让我们先将本挑战需要用到的数据下载下来：

In [None]:
!wget https://labfile.oss.aliyuncs.com/courses/2316/pga.csv

#### 数据集的介绍

数据集 pga.csv 包含了职业高尔夫球手的发球统计信息，我们可以使用 `pandas` 对其进行查看：

In [None]:
import pandas as pd
df = pd.read_csv("pga.csv")
df

从上面点的结果可以看到，该数据集共有两个属性：distance 和 accuracy。

- distance ：表示发球的平均距离。
- accuracy ：表示命中的精确度，即命中球道的比例。

 我们的目的就是建立一个良好的模型，使我们能够预测任意距离下的准确率。

#### 数据的预处理

对于很多机器学习算法来说，数据预处理都是很有必要的，它能够消除量纲，也可以加快模型的收敛速度。这里我们就用“数据的标准化”来对原数据进行预处理。

数据的标准化：每个数据都减去所在列的均值然后除以方差。

In [None]:
dis = df.loc[:, 'distance'].values
accuracy = df.loc[:, 'accuracy'].values
# 数据的标准化
accuracy = (accuracy - accuracy.mean()) / accuracy.std()
dis = (dis - dis.mean()) / dis.std()
accuracy.shape, dis.shape

接下来让我们对标准化后的数据进行可视化，查看距离和精确度之间的关系：

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline
# 数据集的标准化
accuracy = (accuracy - accuracy.mean()) / accuracy.std()
dis = (dis - dis.mean()) / dis.std()

plt.scatter(dis, accuracy)
plt.xlabel('normalized distance')
plt.ylabel('normalized accuracy')
plt.show()

#### 目标函数

从图中可以看出，距离和精确度之间的关系呈线性分布。设 y 表示高尔夫球的精确度，x 表示发球距离。则可以将它们的关系表示为：

$$y=kx+b$$

而我们的目的是希望更多的点离落在该函数上，换句话说，希望所有的点与该直线的平均距离最小。因此，可以定义目标函数为：

$$e = \frac{1}{m}\sum_{i=1}^{m}(k\cdot x_i+b-y_i)^2$$

上面这个目标函数，在机器学习中还有一个名称叫做损失函数，即预测数据与真实数据之间的差距。

<div class="alert alert-info">
    <p><i class="fa fa-check-square" aria-hidden="true"> 挑战 1 </i>： 根据损失函数公式，完成损失函数的代码编写   。</p>
    <p><i class="fa fa-plus-square" aria-hidden="true"> 提示</i> ：可以先不管求和符号，直接求每个数据点的损失，然后再取平均即可。</p>
</div>

In [None]:
import numpy as np
def  error(x,y,k,b):
## 代码编写处

    
error(dis,accuracy,1,2)

<i class="fa fa-sign-out" aria-hidden="true"> 期望输出</i>

$7.2151976454302424$


#### 模型的求解

在利用梯度下降算法对模型进行求解之前，让我们先来编写上面函数的梯度计算函数：

<div class="alert alert-info">
    <p><i class="fa fa-check-square" aria-hidden="true"> 挑战 2 </i>：通过上面的损失函数公式，完成损失函数的梯度求解。</p>
    <p><i class="fa fa-plus-square" aria-hidden="true"> 规定</i>：函数返回 k 和 b 的梯度 db 和 dk 。</p>
    <p><i class="fa fa-plus-square" aria-hidden="true"> 提示</i> 可以先不管求和符号，直接对里面的式子进行偏导，然后再取平均</p>
</div>

In [None]:
def diff(x,y,k,b):
## 代码编写处
 

diff(dis,accuracy,1,2)

<i class="fa fa-sign-out" aria-hidden="true"> 期望输出</i>

$(3.2151976454302433, 4.0)
$

准备好损失函数以及梯度函数后，让我们利用梯度下降算法，对 `y=kx+b` 中的 k 和 b 进行求解：

<div class="alert alert-info">
    <p><i class="fa fa-check-square" aria-hidden="true"> 挑战 3 </i>：利用梯度下降算法，使总损失降到最小，进而得到 k 和 b 的值。</p>
    <p><i class="fa fa-plus-square" aria-hidden="true"> 提示</i> 可以多次调节步长，找到最小损失</p>
</div>

In [None]:
# 初始化 k，b
k = 1
b = 1
# 梯度下降算法代码编写处


k, b

<i class="fa fa-sign-out" aria-hidden="true"> 期望输出</i>

$(-0.607385136179007, 0.00013292279957848458)
$

让我们将 k，b 画到原图像中：

In [None]:
accu_pre = k*dis+b

plt.scatter(dis, accuracy)
plt.plot(dis,accu_pre,'r')
plt.xlabel('normalized distance')
plt.ylabel('normalized accuracy')
plt.show()

<i class="fa fa-sign-out" aria-hidden="true"> 期望输出</i>

<img src="https://doc.shiyanlou.com/courses/2316/1166617/35b4f32995b7e8ccdd84b3fd2436395a-0/wm
">

#### 参考答案

本挑战的参考答案如下，点击下拉框即可获取。

<details>
        <summary>参考答案</summary>
        <p>挑战 1 ：损失函数</p>
        <pre><code>def  error(x,y,k,b):
    y_pre = k*x+b
    return np.mean((y-y_pre)**2)</code></pre>
       <p>挑战 2 ：梯度计算函数</p>
        <pre><code>def diff(x,y,k,b):
    dk = 2*(k*x*x+b*x-x*y)
    db = 2*(k*x+b-y)
    return np.mean(dk),np.mean(db)</code></pre>
        <p>挑战 3 ：利用梯度下降算法求解模型参数</p>
        <pre><code>step =0.1 
for i in range(40):   
    dk,db = diff(dis,accuracy,k,b)
    k = k - step*dk
    b = b - step*db</code></pre>
</details>

### 实验总结

本挑战首先通过高尔夫球的距离与准确率的图像分布，确定两者的关系。然后建立模型，确定了相应的损失函数。然后利用梯度下降算法对损失函数进行训练，找到了损失最小时的模型参数值。

<hr><div style="color: #999; font-size: 12px;"><i class="fa fa-copyright" aria-hidden="true"> 本课程内容版权归实验楼所有，禁止转载、下载及非法传播。</i></div>