# 第3天：向量基础 - 机器学习的数学语言

## 🎯 今天的学习目标

**重要提醒**：
- 目标理解度：30%即可 ✅
- 重点是应用，不是理论 ✅  
- 向量就是数据，向量运算就是数据处理 ✅
- 够用就行，不追求完美 ✅

## 📚 今天要掌握的3个概念

### 1️⃣ 向量 = 数据点
### 2️⃣ 向量运算 = 数据操作
### 3️⃣ 向量应用 = 机器学习基础

**预计学习时间：3小时（周日休闲学习）**


In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics.pairwise import cosine_similarity
import warnings
warnings.filterwarnings('ignore')

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS', 'SimHei']
plt.rcParams['axes.unicode_minus'] = False

print("🚀 开始第3天学习！")
print("记住：向量就是数据，向量运算就是数据处理！")


🚀 开始第3天学习！
记住：向量就是数据，向量运算就是数据处理！


## 1️⃣ 向量 = 数据点

### 🤔 最简单的理解
- **向量**：就是一堆数字排成一行（或一列）
- **例子**：用户评分 [5, 3, 4, 2, 1] 就是一个向量
- **意义**：每个数字代表一个特征或属性

### 🛠️ 实际应用
- **用户画像**：[年龄, 收入, 购买频次, 满意度]
- **商品特征**：[价格, 评分, 销量, 库存]
- **文本表示**：[词汇1出现次数, 词汇2出现次数, ...]

### 💡 核心理念
> "向量不是数学概念，是数据表示方法"


In [2]:
# 1️⃣ 向量示例：用户评分数据
print("=== 向量就是数据 ===")

# 创建用户评分向量（对5部电影的评分）
user_A = np.array([5, 3, 4, 2, 1])  # 用户A的评分
user_B = np.array([4, 3, 5, 2, 2])  # 用户B的评分
user_C = np.array([1, 2, 1, 4, 5])  # 用户C的评分

print(f"用户A的评分向量: {user_A}")
print(f"用户B的评分向量: {user_B}")
print(f"用户C的评分向量: {user_C}")

# 向量的基本信息
print(f"\n向量的维度（特征数量）: {len(user_A)}")
print(f"向量的形状: {user_A.shape}")
print(f"向量的类型: {type(user_A)}")

# 电影名称（方便理解）
movies = ['动作片', '喜剧片', '科幻片', '爱情片', '恐怖片']
print(f"\n💡 具体含义:")
for i, movie in enumerate(movies):
    print(f"  {movie}: 用户A评分{user_A[i]}, 用户B评分{user_B[i]}, 用户C评分{user_C[i]}")

print(f"\n🎯 关键理解:")
print(f"- 向量 = 数据点")
print(f"- 每个数字 = 一个特征")
print(f"- 向量长度 = 特征数量")
print(f"- 这就是机器学习的数据表示方法！")


=== 向量就是数据 ===
用户A的评分向量: [5 3 4 2 1]
用户B的评分向量: [4 3 5 2 2]
用户C的评分向量: [1 2 1 4 5]

向量的维度（特征数量）: 5
向量的形状: (5,)
向量的类型: <class 'numpy.ndarray'>

💡 具体含义:
  动作片: 用户A评分5, 用户B评分4, 用户C评分1
  喜剧片: 用户A评分3, 用户B评分3, 用户C评分2
  科幻片: 用户A评分4, 用户B评分5, 用户C评分1
  爱情片: 用户A评分2, 用户B评分2, 用户C评分4
  恐怖片: 用户A评分1, 用户B评分2, 用户C评分5

🎯 关键理解:
- 向量 = 数据点
- 每个数字 = 一个特征
- 向量长度 = 特征数量
- 这就是机器学习的数据表示方法！


## 2️⃣ 向量运算 = 数据操作

### 🤔 最简单的理解
- **向量加法**：对应位置相加
- **向量减法**：对应位置相减
- **点积**：对应位置相乘再求和（最重要！）
- **向量长度**：衡量向量的大小

### 🛠️ 实际应用
- **相似度计算**：用点积判断两个用户是否相似
- **推荐系统**：找到相似用户，推荐他们喜欢的商品
- **分类算法**：计算数据点之间的距离

### 💡 核心理念
> "向量运算不是数学游戏，是数据分析工具"


In [3]:
# 2️⃣ 向量运算示例
print("=== 向量运算 = 数据操作 ===")

# 使用前面的用户评分数据
print(f"用户A: {user_A}")
print(f"用户B: {user_B}")

# 1. 向量加法：平均评分
avg_rating = (user_A + user_B) / 2
print(f"\n1️⃣ 向量加法 - 平均评分:")
print(f"(用户A + 用户B) / 2 = {avg_rating}")

# 2. 向量减法：评分差异
rating_diff = user_A - user_B
print(f"\n2️⃣ 向量减法 - 评分差异:")
print(f"用户A - 用户B = {rating_diff}")
print(f"正数表示A比B评分高，负数表示A比B评分低")

# 3. 点积：相似度指标（最重要！）
dot_product = np.dot(user_A, user_B)
print(f"\n3️⃣ 点积 - 相似度指标:")
print(f"用户A · 用户B = {dot_product}")
print(f"计算过程: {user_A[0]}×{user_B[0]} + {user_A[1]}×{user_B[1]} + {user_A[2]}×{user_B[2]} + {user_A[3]}×{user_B[3]} + {user_A[4]}×{user_B[4]}")
print(f"         = {user_A[0]*user_B[0]} + {user_A[1]*user_B[1]} + {user_A[2]*user_B[2]} + {user_A[3]*user_B[3]} + {user_A[4]*user_B[4]} = {dot_product}")

# 4. 向量长度（模）
length_A = np.linalg.norm(user_A)
length_B = np.linalg.norm(user_B)
print(f"\n4️⃣ 向量长度:")
print(f"用户A的向量长度: {length_A:.2f}")
print(f"用户B的向量长度: {length_B:.2f}")

print(f"\n🎯 关键理解:")
print(f"- 向量运算 = 数据操作")
print(f"- 点积 = 相似度指标")
print(f"- 点积越大 = 越相似")
print(f"- 这就是推荐系统的数学基础！")


=== 向量运算 = 数据操作 ===
用户A: [5 3 4 2 1]
用户B: [4 3 5 2 2]

1️⃣ 向量加法 - 平均评分:
(用户A + 用户B) / 2 = [4.5 3.  4.5 2.  1.5]

2️⃣ 向量减法 - 评分差异:
用户A - 用户B = [ 1  0 -1  0 -1]
正数表示A比B评分高，负数表示A比B评分低

3️⃣ 点积 - 相似度指标:
用户A · 用户B = 55
计算过程: 5×4 + 3×3 + 4×5 + 2×2 + 1×2
         = 20 + 9 + 20 + 4 + 2 = 55

4️⃣ 向量长度:
用户A的向量长度: 7.42
用户B的向量长度: 7.62

🎯 关键理解:
- 向量运算 = 数据操作
- 点积 = 相似度指标
- 点积越大 = 越相似
- 这就是推荐系统的数学基础！


## 3️⃣ 向量应用 = 机器学习基础

### 🤔 最重要的应用
- **相似度计算**：找到相似的用户或商品
- **推荐系统**："喜欢这个的人也喜欢..."
- **聚类分析**：把相似的数据点分组
- **分类预测**：根据距离判断类别

### 🛠️ 实际案例
- **淘宝推荐**：根据你的购买记录推荐商品
- **网易云音乐**：根据你的听歌记录推荐歌曲
- **Netflix**：根据你的观影记录推荐电影

### 💡 核心理念
> "向量应用就是现代互联网的推荐引擎"


In [None]:
# 3️⃣ 向量应用：推荐系统
print("=== 向量应用 = 推荐系统 ===")

# 扩展数据：更多用户的评分
users_ratings = np.array([
    [5, 3, 4, 2, 1],  # 用户A：喜欢动作片、科幻片
    [4, 3, 5, 2, 2],  # 用户B：喜欢动作片、科幻片
    [1, 2, 1, 4, 5],  # 用户C：喜欢爱情片、恐怖片
    [5, 4, 4, 1, 1],  # 用户D：喜欢动作片、喜剧片、科幻片
    [2, 1, 2, 5, 4],  # 用户E：喜欢爱情片、恐怖片
])

user_names = ['用户A', '用户B', '用户C', '用户D', '用户E']
movies = ['动作片', '喜剧片', '科幻片', '爱情片', '恐怖片']

print("用户评分数据:")
for i, name in enumerate(user_names):
    print(f"{name}: {users_ratings[i]}")

# 计算用户A与其他用户的相似度
target_user = 0  # 用户A
print(f"\n🎯 为{user_names[target_user]}寻找相似用户:")

similarities = []
for i in range(len(users_ratings)):
    if i != target_user:
        # 计算余弦相似度（更准确的相似度指标）
        sim = cosine_similarity([users_ratings[target_user]], [users_ratings[i]])[0][0]
        similarities.append((user_names[i], sim))
        print(f"{user_names[target_user]} vs {user_names[i]}: 相似度 = {sim:.3f}")

# 找到最相似的用户
most_similar = max(similarities, key=lambda x: x[1])
print(f"\n🏆 最相似的用户: {most_similar[0]} (相似度: {most_similar[1]:.3f})")

# 推荐逻辑
print(f"\n💡 推荐系统逻辑:")
print(f"1. 找到与{user_names[target_user]}最相似的用户：{most_similar[0]}")
print(f"2. 推荐{most_similar[0]}喜欢但{user_names[target_user]}还没高评分的电影")
print(f"3. 这就是'喜欢这个的人也喜欢...'的原理！")

print(f"\n🎯 关键理解:")
print(f"- 向量应用 = 推荐系统")
print(f"- 相似度 = 推荐的基础")
print(f"- 这就是淘宝、网易云、Netflix的核心算法！")


=== 向量应用 = 推荐系统 ===
用户评分数据:
用户A: [5 3 4 2 1]
用户B: [4 3 5 2 2]
用户C: [1 2 1 4 5]
用户D: [5 4 4 1 1]
用户E: [2 1 2 5 4]

🎯 为用户A寻找相似用户:
用户A vs 用户B: 相似度 = 0.974
用户A vs 用户C: 相似度 = 0.551
用户A vs 用户D: 相似度 = 0.983
用户A vs 用户E: 相似度 = 0.667

🏆 最相似的用户: 用户D (相似度: 0.983)

💡 推荐系统逻辑:
1. 找到与用户A最相似的用户：用户D
2. 推荐用户D喜欢但用户A还没高评分的电影
3. 这就是'喜欢这个的人也喜欢...'的原理！

🎯 关键理解:
- 向量应用 = 推荐系统
- 相似度 = 推荐的基础
- 这就是淘宝、网易云、Netflix的核心算法！


## 🎯 总结：向量在机器学习中的作用

### ✅ 你已经掌握了（30%理解度就够了！）

#### 1️⃣ 向量 = 数据点
- **本质**：一堆数字的集合
- **应用**：表示用户、商品、文本等
- **工具**：NumPy数组

#### 2️⃣ 向量运算 = 数据操作
- **点积**：计算相似度的核心工具
- **长度**：衡量向量大小
- **距离**：衡量向量差异

#### 3️⃣ 向量应用 = 推荐系统
- **相似度计算**：找到相似的用户或商品
- **推荐引擎**：现代互联网的核心技术
- **实际应用**：淘宝、网易云、Netflix等

### 🎉 恭喜！你现在知道：
- ✅ 向量是什么，怎么用
- ✅ 如何计算向量相似度
- ✅ 推荐系统的基本原理
- ✅ 向量在机器学习中的重要作用

### 🚀 下一步
现在你已经理解了向量的基础，接下来可以：
1. 继续第4天的学习内容
2. 尝试实现一个简单的推荐系统
3. 了解更多机器学习算法

**记住：向量不是数学概念，是数据处理工具！**
