---
title: "第二周：数据预处理与特征工程基础"
author: "机器学习"
format:
    html:
        toc: true
        toc-depth: 4
        toc-title: "目录"
        number-sections: true
        theme: cosmo
        code-fold: true
        code-tools: true
        highlight-style: github
---





:::{.callout-tip}
## 本周学习目标
- 掌握使用 `Pandas` 进行数据加载和探索的方法
- 掌握常见的数据清洗方法
- 理解特征工程的基本概念和方法
- 掌握使用 `Scikit-learn` 进行数据预处理和特征工程
- 能够使用 AI 辅助编程工具完成编程练习
- 了解小组项目一的目标和要求
:::

# 第一次课：数据预处理与特征工程基础 {.unnumbered}

## 数据加载与探索 {#sec-data-loading}

### 1. Pandas 读取数据

:::{.callout-note}
## 常用函数
- `pd.read_csv()`: CSV文件读取
- `pd.read_excel()`: Excel文件读取
- `pd.read_json()`: JSON文件读取
- `pd.read_sql()`: SQL数据库读取
:::

#### 重要参数说明

| 参数名 | 说明 | 默认值 |
|--------|------|---------|
| `filepath_or_buffer` | 文件路径 | 必需 |
| `sep` 或 `delimiter` | 分隔符 | `,` |
| `header` | 列名行 | `0` |
| `index_col` | 索引列 | `None` |
| `encoding` | 文件编码 | `None` |

:::{.callout-warning}
如果读取 CSV 文件出现乱码，请尝试更换 `encoding` 参数（如 `utf-8`, `gbk`）
:::

### 2. 数据查看方法

#### 基本查看
- `df.head(n)`: 查看前 n 行
- `df.tail(n)`: 查看后 n 行
- `df.shape`: 数据维度
- `df.columns`: 列名列表
- `df.index`: 索引信息

#### 详细信息
- `df.info()`: 数据摘要信息
- `df.describe()`: 统计描述
- `df.dtypes`: 数据类型

### 3. 数据查看示例


In [None]:
#| label: data-exploration
#| echo: true

import pandas as pd
import numpy as np

# 创建示例数据
data = {
    '年龄': [25, 30, 35, 40, 45],
    '收入': [5000, 8000, 12000, 15000, 20000],
    '学历': ['本科', '硕士', '博士', '本科', '硕士']
}
df = pd.DataFrame(data)

# 基本信息
print("数据基本信息：")
print(df.info())

# 统计描述
print("\n数据统计描述：")
print(df.describe())

# 前几行数据
print("\n数据预览：")
print(df.head())

## 内容概要

### 1. 数据加载与探索

#### 1.1 使用 Pandas 读取数据

*   **常用函数:** `pd.read_csv()`, `pd.read_excel()` 等
*   **常用参数:**
    *   `filepath_or_buffer`:  文件路径 (必需)
    *   `sep` 或 `delimiter`:  分隔符 (默认为 `,`)
    *   `header`:  列名行 (默认为 `0`)
    *   `index_col`:  索引列
    *   `encoding`:  文件编码 (例如 `utf-8`, `gbk`)

    **注意:**  如果读取 CSV 文件出现乱码，可以尝试更换 `encoding` 参数。

#### 1.2 数据查看

*   `df.head(n)`:  查看前 `n` 行
*   `df.tail(n)`:  查看后 `n` 行
*   `df.info()`:  查看数据摘要信息 (**重要**)
*   `df.describe()`:  查看数值列统计信息
*   `df.shape`, `df.columns`, `df.index`, `df.dtypes`:  查看数据结构信息

### 2. 数据清洗

## 数据清洗 {#sec-data-cleaning}

### 1. 缺失值处理

:::{.callout-important}
缺失值处理是数据清洗中最常见的任务之一。选择合适的处理策略对后续分析至关重要。
:::

#### 1.1 检测缺失值


In [None]:
#| label: missing-value-detection
#| echo: true

import pandas as pd
import numpy as np
import missingno as msno

# 创建示例数据
data = {'A': [1, np.nan, 3, np.nan, 5],
        'B': ['x', 'y', np.nan, 'z', 'x']}
df = pd.DataFrame(data)

# 检查缺失值
print("缺失值统计：")
print(df.isnull().sum())

# 缺失值可视化
msno.matrix(df)

#### 1.2 处理策略

##### 删除法
```python
# 删除包含缺失值的行
df.dropna()
```

:::{.callout-warning}
删除法可能会损失大量有用信息，请谨慎使用
:::

##### 填充法
```python
# 固定值填充
df.fillna(0)

# 均值填充
df.fillna(df.mean())
```

##### SimpleImputer填充


In [None]:
#| label: simple-imputer
#| echo: true

from sklearn.impute import SimpleImputer

# 创建示例数据
data = {'数值特征': [1, 2, np.nan, 4, 5, np.nan],
        '类别特征': ['A', 'B', 'C', np.nan, 'A', 'B']}
df = pd.DataFrame(data)

# 均值填充
imputer = SimpleImputer(strategy='mean')
df['数值特征_filled'] = imputer.fit_transform(df[['数值特征']])

# 众数填充
imputer = SimpleImputer(strategy='most_frequent')
df['类别特征_filled'] = imputer.fit_transform(df[['类别特征']])

print(df)

### 2. 异常值处理

#### 2.1 检测方法

##### 箱线图法
```python
import seaborn as sns
sns.boxplot(data=df['column'])
```

##### Z-score法
```python
from scipy import stats
z_scores = stats.zscore(df['column'])
```

##### IQR法
```python
Q1 = df['column'].quantile(0.25)
Q3 = df['column'].quantile(0.75)
IQR = Q3 - Q1
```

#### 2.2 处理策略

:::{.callout-note}
## 常用处理方法
1. 删除异常值（适用于异常值较少且确定是错误数据）
2. 替换为边界值（适用于需要保留数据量的情况）
3. 视为缺失值（可以使用缺失值处理方法）
4. 保留不处理（如果异常值可能包含有用信息）
:::

### 3. 特征工程基础

#### 3.1 数值特征处理

:::{.callout-tip}
## 为什么需要特征缩放？
特征缩放可以：
1. 消除特征之间的量纲差异
2. 加快模型收敛速度
3. 提高模型精度
:::

#### 1.1 特征缩放方法

##### 标准化 (StandardScaler)
将特征转换为均值为0，标准差为1的分布。


In [None]:
#| label: standardization
#| echo: true

import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler

# 创建示例数据
data = {'特征': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)

# 标准化
scaler = StandardScaler()
df['特征_标准化'] = scaler.fit_transform(df[['特征']])

print(df)
print("\n标准化后的统计信息：")
print(df['特征_标准化'].describe())

##### 归一化 (MinMaxScaler)
将特征缩放到[0,1]区间。


In [None]:
#| label: normalization
#| echo: true

from sklearn.preprocessing import MinMaxScaler

# 使用相同的示例数据
# 归一化
scaler = MinMaxScaler()
df['特征_归一化'] = scaler.fit_transform(df[['特征']])

print(df)
print("\n归一化后的统计信息：")
print(df['特征_归一化'].describe())

#### 1.2 特征变换方法

##### 多项式特征


In [None]:
#| label: polynomial
#| echo: true

from sklearn.preprocessing import PolynomialFeatures

# 创建示例数据
X = np.array([[1], [2], [3], [4]])

# 创建2次多项式特征
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly.fit_transform(X)

print("原始特征：\n", X)
print("\n多项式特征：\n", X_poly)

##### 对数变换


In [None]:
#| label: log-transform
#| echo: true

# 创建长尾分布数据
np.random.seed(42)
data = np.exp(np.random.normal(0, 1, 1000))

# 对数变换
log_data = np.log1p(data)

print("原始数据统计：")
print(pd.Series(data).describe())
print("\n对数变换后统计：")
print(pd.Series(log_data).describe())

##### Box-Cox变换


In [None]:
#| label: box-cox
#| echo: true

from sklearn.preprocessing import PowerTransformer

# 创建偏态数据
data = np.random.lognormal(0, 1, 1000)

# Box-Cox变换
pt = PowerTransformer(method='box-cox')
data_transformed = pt.fit_transform(data.reshape(-1, 1))

print("变换后的偏度：", stats.skew(data_transformed))

### 2. 类别特征处理

#### 2.1 编码方法对比

| 编码方法 | 适用场景 | 优点 | 缺点 |
|----------|----------|------|------|
| 独热编码 | 无序类别 | 不引入大小关系 | 特征维度增加 |
| 标签编码 | 有序类别 | 维度不变 | 引入大小关系 |
| 目标编码 | 高基数类别 | 考虑目标值关系 | 可能过拟合 |

#### 2.2 编码示例

##### 独热编码


In [None]:
#| label: onehot
#| echo: true

import pandas as pd
from sklearn.preprocessing import OneHotEncoder

# 创建示例数据
data = {'城市': ['北京', '上海', '广州', '北京', '深圳']}
df = pd.DataFrame(data)

# 方法1：pandas get_dummies
df_dummies = pd.get_dummies(df, columns=['城市'])
print("pandas get_dummies结果：")
print(df_dummies)

# 方法2：OneHotEncoder
encoder = OneHotEncoder(sparse_output=False)
encoded = encoder.fit_transform(df[['城市']])
df_encoded = pd.DataFrame(
    encoded,
    columns=encoder.get_feature_names_out(['城市'])
)
print("\nOneHotEncoder结果：")
print(df_encoded)

##### 标签编码


In [None]:
#| label: label
#| echo: true

from sklearn.preprocessing import LabelEncoder

# 创建示例数据
data = {'教育': ['高中', '本科', '硕士', '博士', '本科']}
df = pd.DataFrame(data)

# 标签编码
encoder = LabelEncoder()
df['教育_编码'] = encoder.fit_transform(df['教育'])

print("原始数据：")
print(df)
print("\n编码映射：")
for i, label in enumerate(encoder.classes_):
    print(f"{label}: {i}")

##### 序数编码


In [None]:
#| label: ordinal
#| echo: true

from sklearn.preprocessing import OrdinalEncoder

# 创建示例数据
data = {'级别': ['低', '中', '高', '中', '低']}
df = pd.DataFrame(data)

# 定义类别顺序
categories = [['低', '中', '高']]

# 序数编码
encoder = OrdinalEncoder(categories=categories)
df['级别_编码'] = encoder.fit_transform(df[['级别']])

print(df)

### 4. `Scikit-learn` 数据预处理和特征工程常用模块

*   `sklearn.preprocessing`:  提供了各种数据预处理和特征工程的函数和类，例如：
    *   `StandardScaler`, `MinMaxScaler`, `RobustScaler`, `MaxAbsScaler` (特征缩放)。
    *   `PolynomialFeatures`, `PowerTransformer` (特征转换)。
    *   `OneHotEncoder`, `LabelEncoder`, `OrdinalEncoder` (类别特征编码)。
    *   `SimpleImputer` (缺失值填充)。
*   `sklearn.impute`:  提供了缺失值填充的类，例如 `SimpleImputer`, `KNNImputer` (KNN 填充), `IterativeImputer` (迭代填充)。
*   `sklearn.feature_selection`:  提供了特征选择的类 (下周讲解)。

    ::: callout-note
    ## 熟练使用 Scikit-learn
    可以高效地进行数据预处理和特征工程。
    :::

## 小组项目一：电商用户行为数据探索与预处理 {#sec-group-project}

:::{.callout-important}
## 项目概述
本项目旨在通过分析电商平台的用户行为数据，了解用户兴趣偏好和购买行为模式，为个性化推荐、精准营销、用户增长等提供数据支持。
:::

### 1. 数据集说明

#### 示例数据集

[阿里巴巴天池 - 淘宝用户行为数据](https://tianchi.aliyun.com/dataset/dataDetail?dataId=649)

数据字段说明：

| 字段名 | 说明 | 示例 |
|--------|------|------|
| user_id | 用户ID | 123456 |
| item_id | 商品ID | 284528 |
| category_id | 商品类目ID | 4756 |
| behavior_type | 行为类型 | pv, cart, fav, buy |
| timestamp | 行为时间 | 2017-11-25 13:00:00 |

#### 数据要求

- 鼓励学生小组自主选择数据集
- 建议选择电商或零售行业的用户行为数据
- 数据量应适中，特征维度不低于10个
- 具有一定的分类难度
- 各小组应选择不同数据集，提高多样性

### 2. 项目任务

#### 2.1 数据探索 (EDA)

1. 基础分析
   - 加载数据集
   - 查看数据基本信息
   - 检查数据质量（缺失值、异常值等）

2. 行为分析
   - 用户行为类型分布
   - 时间分布特征
   - 用户活跃度分析
   - 商品热度分析

3. 可视化展示
   - 用户行为时间序列图
   - 商品销量排行榜
   - 用户行为转化漏斗
   - 类目分布饼图

#### 2.2 数据预处理

1. 数据清洗
   - 处理缺失值
   - 处理异常值
   - 处理重复数据
   - 数据格式统一

2. 特征工程
   - 用户特征构建
     * 点击次数
     * 购买次数
     * 收藏次数
     * 加购次数
     * 活跃天数
   - 商品特征构建
     * 被点击次数
     * 被购买次数
     * 转化率
   - 时间特征构建
     * 小时
     * 星期
     * 月份

### 3. 提交要求

:::{.callout-note}
## 提交内容
1. 预处理后的数据集（CSV格式）
2. 完整的分析代码（Jupyter Notebook）
   - 数据探索
   - 数据清洗
   - 特征工程
   - 代码注释
3. 分析报告
   - 数据理解
   - 预处理策略
   - 特征构建说明
   - 发现的问题和解决方案
4. 小组分工说明（可选）
:::

### 4. 评分标准

| 评分项 | 权重 | 评分要点 |
|--------|------|----------|
| 数据探索 | 30% | 探索深度、可视化效果、发现洞察 |
| 数据清洗 | 30% | 清洗完整性、处理合理性 |
| 特征工程 | 30% | 特征创新性、工程合理性 |
| 代码质量 | 10% | 代码规范性、注释完整性 |

## 相关资源 {#sec-resources}

### 1. 官方文档
- [Pandas 官方文档](https://pandas.pydata.org/docs/)
- [Scikit-learn 官方文档](https://scikit-learn.org/stable/)
- [Scikit-learn Preprocessing 模块](https://scikit-learn.org/stable/modules/preprocessing.html)
- [Scikit-learn Impute 模块](https://scikit-learn.org/stable/modules/impute.html)

### 2. 推荐书籍
- [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/)
  * Chapter 3: Data Manipulation with Pandas
  * Chapter 4: Visualization with Matplotlib
  * Chapter 5: Machine Learning
- [Hands-On Machine Learning with Scikit-Learn](https://www.oreilly.com/library/view/hands-on-machine-learning/9781098125973/)
  * Chapter 2: End-to-End Machine Learning Project
  * Chapter 3: Classification

### 3. 数据集
- [阿里巴巴天池 - 淘宝用户行为数据](https://tianchi.aliyun.com/dataset/dataDetail?dataId=649)
- [Kaggle - E-Commerce Data](https://www.kaggle.com/datasets/tag/e-commerce)
- [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/datasets.php)

# 第二次课：项目实践与指导 {.unnumbered}

:::{.callout-tip}
## 课程安排
本次课程主要以小组项目实践为主，教师将进行巡回指导，帮助学生解决在数据分析和代码实现过程中遇到的问题。
:::

## 实践环节安排 {#sec-practice}

### 1. 项目开发指导

#### 代码实现技巧
- 使用 Jupyter Notebook 进行交互式开发
- 合理组织代码结构
- 编写清晰的注释
- 使用版本控制管理代码

#### 数据分析方法
- 数据质量评估
- 特征相关性分析
- 数据分布可视化
- 异常检测方法

### 2. 常见问题解答

#### 数据处理相关
- 大规模数据处理优化
- 内存使用优化
- 数据类型转换
- 时间序列处理

#### 特征工程相关
- 特征选择方法
- 特征组合策略
- 类别特征处理
- 时间特征提取

## 课后作业 {#sec-homework}

:::{.callout-note}
## 作业要求

1. 完善小组项目代码
   - 优化数据预处理流程
   - 添加必要的注释
   - 确保代码可重复执行

2. 准备项目文档
   - 数据处理流程说明
   - 特征工程方法说明
   - 遇到的问题和解决方案
   - 对数据的分析发现

3. 课前提交
   - 预处理后的数据集
   - 完整的分析代码
   - 项目文档

4. 预习下周内容
   - 特征选择方法
   - 降维技术
:::

## 参考代码 {#sec-code-examples}

### 1. 数据加载与探索

```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 加载数据
df = pd.read_csv('user_behavior.csv')

# 数据基本信息
print("数据基本信息：")
print(df.info())

# 查看数据分布
print("\n数据统计描述：")
print(df.describe())

# 检查缺失值
print("\n缺失值统计：")
print(df.isnull().sum())

# 可视化用户行为分布
plt.figure(figsize=(10, 6))
sns.countplot(data=df, x='behavior_type')
plt.title('用户行为类型分布')
plt.show()
```

### 2. 特征工程示例

```python
# 时间特征提取
df['timestamp'] = pd.to_datetime(df['timestamp'])
df['hour'] = df['timestamp'].dt.hour
df['weekday'] = df['timestamp'].dt.weekday
df['month'] = df['timestamp'].dt.month

# 用户特征聚合
user_features = df.groupby('user_id').agg({
    'item_id': 'count',                     # 总行为次数
    'behavior_type': lambda x: (x == 'buy').sum()  # 购买次数
}).rename(columns={
    'item_id': 'total_behaviors',
    'behavior_type': 'purchase_count'
})

# 商品特征聚合
item_features = df.groupby('item_id').agg({
    'user_id': 'count',                     # 被操作次数
    'behavior_type': lambda x: (x == 'buy').sum()  # 被购买次数
}).rename(columns={
    'user_id': 'total_interactions',
    'behavior_type': 'total_purchases'
})

# 计算转化率
item_features['conversion_rate'] = item_features['total_purchases'] / item_features['total_interactions']
```

### 3. 数据可视化

```python
# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 用户行为时间分布
plt.figure(figsize=(15, 5))

plt.subplot(1, 2, 1)
df['hour'].value_counts().sort_index().plot(kind='bar')
plt.title('小时分布')
plt.xlabel('小时')
plt.ylabel('行为次数')

plt.subplot(1, 2, 2)
df['weekday'].value_counts().sort_index().plot(kind='bar')
plt.title('星期分布')
plt.xlabel('星期')
plt.ylabel('行为次数')

plt.tight_layout()
plt.show()

# 用户行为转化漏斗
behavior_counts = df['behavior_type'].value_counts()
plt.figure(figsize=(10, 6))
plt.bar(behavior_counts.index, behavior_counts.values)
plt.title('用户行为转化漏斗')
plt.xlabel('行为类型')
plt.ylabel('次数')
plt.show()
```





---