# Notebook 5: 损失函数(Loss Function) - 衡量“差多少”

欢迎来到学习之旅的第二部分！我们已经知道了神经网络如何进行一次预测（前向传播），但我们如何知道这个预测是好是坏呢？这就是损失函数（或成本函数）的作用。

**目标:** 理解损失函数的概念，以及它如何量化我们模型的预测与真实目标之间的差距。

**核心直觉:** 猜价格游戏！
你正在参加一个猜商品价格的游戏。你猜了一个价格（模型的预测），主持人会告诉你实际价格（真实标签）。损失函数就是告诉你“你猜得有多离谱”的那个规则。如果规则是“差价的平方”，那么猜 110 元和猜 90 元（实际价格100元）的“离谱程度”是一样的。我们的目标就是通过调整我们的猜测策略（模型的权重），让这个“离谱程度”（损失）变得最小。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

## 1. 一个简单的例子：预测房价

假设我们有一个超级简单的模型，它只根据房子的面积（平方米）来预测价格（万元）。
我们的模型是： `价格 = 面积 * w`

这里的 `w` 就是我们模型的唯一参数（权重）。我们需要找到一个最好的 `w`。

我们有一条数据：一个100平方米的房子，真实价格是300万元。

In [None]:
# 真实数据
area = 100  # 面积
true_price = 300 # 真实价格

## 2. 定义损失函数：均方误差 (Mean Squared Error, MSE)

均方误差是一个非常常见的损失函数，特别是在回归问题中。它的计算方法很简单：

`MSE = (预测值 - 真实值)²`

我们用平方是为了：
1.  让误差总是正数。
2.  对更大的误差给予更重的“惩罚”。

In [None]:
def mse_loss(predicted, actual):
    return (predicted - actual) ** 2

现在，让我们看看对于不同的 `w`，我们模型的损失是多少。

In [None]:
# 假设我们猜了几个不同的 w
w_1 = 2.0  # 猜测每平米2万元
w_2 = 3.5  # 猜测每平米3.5万元
w_3 = 3.0  # 完美的猜测！

# 计算预测价格
price_1 = area * w_1
price_2 = area * w_2
price_3 = area * w_3

# 计算损失
loss_1 = mse_loss(price_1, true_price)
loss_2 = mse_loss(price_2, true_price)
loss_3 = mse_loss(price_3, true_price)

print(f"当 w={w_1}, 预测价={price_1}, 损失={loss_1}")
print(f"当 w={w_2}, 预测价={price_2}, 损失={loss_2}")
print(f"当 w={w_3}, 预测价={price_3}, 损失={loss_3}")

## 3. 可视化损失景观 (Loss Landscape)

我们可以画出损失值是如何随着 `w` 的变化而变化的。这张图被称为“损失景观”。我们的目标就是找到这个景观的最低点。


In [None]:
# 生成一系列 w 的值
w_values = np.linspace(0, 6, 100) # 从0到6取100个点

# 计算每个 w 对应的损失
predicted_prices = area * w_values
loss_values = mse_loss(predicted_prices, true_price)

# 绘图
plt.figure(figsize=(8, 6))
plt.plot(w_values, loss_values)
plt.title('Loss Landscape for our Simple Model')
plt.xlabel('Weight (w)')
plt.ylabel('Loss (MSE)')
plt.grid(True)

# 标记出最低点
plt.scatter(3.0, 0, color='red', zorder=5, label='Minimum Loss at w=3.0')
plt.legend()

plt.show()

这个U形的碗状曲线就是我们的损失景观。非常直观，`w=3.0` 时，损失为0，这是我们的最优解。

**思考:** 在真实的神经网络中，我们有成千上万甚至数百万个权重（参数），所以损失景观不再是一条线，而是一个极其复杂的高维“山谷”。我们如何在这个复杂的地形中找到最低点呢？

答案就是我们下一课的主题：**导数与梯度**。它们会像一个“GPS”一样，告诉我们应该朝哪个方向走才能最快地到达谷底。

## 总结

**关键回顾:**
1.  **损失函数衡量差距:** 它量化了模型预测与真实值之间的误差。
2.  **目标是最小化损失:** 整个训练过程的目标就是找到一组参数（权重和偏置），使得损失函数的值最小。
3.  **损失景观:** 损失函数定义了一个与模型参数相关的“地形”，我们的任务是在这个地形中“下山”。

现在我们有了一个明确的目标（最小化损失），接下来就要学习如何实现这个目标了。