# 第1课：机器学习概述

## 学习目标
- 了解机器学习的基本概念
- 理解监督学习、无监督学习和强化学习
- 了解 Scikit-learn 库
- 掌握机器学习的基本流程

## 1. 什么是机器学习？

机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并改进，而无需进行明确的编程。

### 核心概念
- **数据（Data）**：用于训练模型的信息
- **特征（Features）**：描述数据的属性
- **标签（Labels）**：我们想要预测的目标值
- **模型（Model）**：从数据中学习的数学函数
- **训练（Training）**：让模型从数据中学习
- **预测（Prediction）**：使用训练好的模型做出判断

## 2. 机器学习的类型

### 2.1 监督学习（Supervised Learning）
- 有标签数据
- 分类（Classification）：预测类别
- 回归（Regression）：预测数值

### 2.2 无监督学习（Unsupervised Learning）
- 无标签数据
- 聚类（Clustering）：发现数据分组
- 降维（Dimensionality Reduction）：减少特征数量

### 2.3 强化学习（Reinforcement Learning）
- 通过奖励和惩罚学习
- 适用于游戏、机器人控制等

In [None]:
# 安装必要的库
# pip install scikit-learn

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import datasets

print("库导入成功")

## 3. Scikit-learn 简介

Scikit-learn 是 Python 最流行的机器学习库，提供：
- 各种机器学习算法
- 数据预处理工具
- 模型评估方法
- 内置数据集

In [None]:
# 加载内置数据集
iris = datasets.load_iris()

print(f"数据集描述:\n{iris['DESCR'][:500]}...")
print(f"\n特征名称: {iris['feature_names']}")
print(f"目标名称: {iris['target_names']}")
print(f"数据形状: {iris['data'].shape}")

In [None]:
# 查看数据
df = pd.DataFrame(iris['data'], columns=iris['feature_names'])
df['target'] = iris['target']
df['species'] = df['target'].map({0: 'setosa', 1: 'versicolor', 2: 'virginica'})

print(df.head())
print(f"\n统计信息:\n{df.describe()}")

## 4. 机器学习基本流程

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report

# 1. 准备数据
X = iris['data']
y = iris['target']

# 2. 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print(f"训练集大小: {X_train.shape[0]}")
print(f"测试集大小: {X_test.shape[0]}")

In [None]:
# 3. 数据预处理（标准化）
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("标准化前:")
print(f"均值: {X_train.mean(axis=0)}")
print(f"标准差: {X_train.std(axis=0)}")

print("\n标准化后:")
print(f"均值: {X_train_scaled.mean(axis=0)}")
print(f"标准差: {X_train_scaled.std(axis=0)}")

In [None]:
# 4. 创建并训练模型
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train_scaled, y_train)

print("模型训练完成")

In [None]:
# 5. 预测
y_pred = model.predict(X_test_scaled)

print("预测结果 vs 实际结果:")
for pred, actual in zip(y_pred[:10], y_test[:10]):
    print(f"预测: {iris['target_names'][pred]}, 实际: {iris['target_names'][actual]}")

In [None]:
# 6. 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.2%}")

print("\n分类报告:")
print(classification_report(y_test, y_pred, target_names=iris['target_names']))

## 5. 可视化结果

In [None]:
from sklearn.metrics import confusion_matrix
import seaborn as sns

# 混淆矩阵
cm = confusion_matrix(y_test, y_pred)

plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
            xticklabels=iris['target_names'],
            yticklabels=iris['target_names'])
plt.title('Confusion Matrix')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.show()

## 6. 常用算法概览

### 监督学习算法
| 算法 | 类型 | 适用场景 |
|------|------|----------|
| 线性回归 | 回归 | 连续值预测 |
| 逻辑回归 | 分类 | 二分类问题 |
| 决策树 | 分类/回归 | 可解释性要求高 |
| 随机森林 | 分类/回归 | 复杂数据集 |
| K近邻 | 分类/回归 | 小数据集 |
| 支持向量机 | 分类/回归 | 高维数据 |

### 无监督学习算法
| 算法 | 类型 | 适用场景 |
|------|------|----------|
| K-Means | 聚类 | 数据分组 |
| 层次聚类 | 聚类 | 树状结构 |
| PCA | 降维 | 特征压缩 |

## 7. 练习题

### 练习：使用不同算法
尝试使用逻辑回归和决策树对鸢尾花数据集进行分类

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier

# 在这里编写代码


## 8. 本课小结

1. **机器学习**：让计算机从数据中学习
2. **类型**：监督学习、无监督学习、强化学习
3. **流程**：数据准备→划分数据→预处理→训练→预测→评估
4. **Scikit-learn**：Python 主流机器学习库
5. **评估指标**：准确率、混淆矩阵、分类报告