# Pandas 数据处理与分析教程

## 课程介绍

在日常数据分析工作中，Excel 是最常用的数据处理工具之一。然而，当面对大规模数据或需要复杂的数据处理操作时，Excel 往往会显得力不从心。Pandas 作为 Python 中最强大的数据处理库，不仅可以完全替代 Excel 的所有功能，还能提供更高效、更灵活的数据处理方案。

本节系统地介绍 Pandas 的数据处理与分析能力，从基础的数据操作到高级的数据分析技巧，帮助你掌握这个强大的数据分析工具。通过学习本教程，你将能够：

- 摆脱 Excel 的限制，处理大规模数据集
- 实现数据处理的自动化和批量化
- 进行更复杂的数据分析和统计
- 提高数据处理的效率和准确性

## 课程内容

### 第一部分：基础数据操作

这部分内容着重介绍 Pandas 中的基本数据操作，这些操作是进行数据分析的基础。我们将学习如何像在 Excel 中一样查看、筛选和排序数据，但会发现 Pandas 提供了更多灵活和强大的方法。

主要内容包括：

- 数据的查看和选择（类比 Excel 的单元格选择和区域选择）

- 数据的筛选和过滤（类比 Excel 的筛选功能，但更加灵活）

- 数据的排序（支持多条件、自定义排序等高级功能）

- 我们先生成数据集

  ### 电商学生数据集说明

  本数据集模拟了一个校园电商平台的交易数据，包含学生信息、商品信息、订单信息和订单详情四个相关表。数据集反映了学生在校园电商平台上的购物行为和交易情况。

  ### 数据表结构

  #### 1. 学生信息表 (student_info.csv)

  记录学生的基本信息

  ```plaintext
  字段名称    数据类型    说明
  学生ID      string     学生唯一标识，格式为'STU'开头的6位数字
  姓名        string     学生姓名
  性别        string     男/女
  年级        string     大一/大二/大三/大四
  专业        string     所属专业（计算机科学/电子商务/市场营销等）
  入学年份    int        入学年份（2020-2023）
  生源地      string     来源省市
  联系电话    string     11位手机号
  宿舍号      string     宿舍楼号（例：A区1栋101）
  ```

  #### 2. 商品信息表 (product_info.csv)

  记录平台在售商品的详细信息

  ```plaintext
  字段名称    数据类型    说明
  商品ID      string     商品唯一标识，格式为'PRD'开头的6位数字
  商品类别    string     商品所属类别（学习用品/电子产品/服装等）
  商品名称    string     商品名称
  品牌        string     商品品牌
  单价        float      商品单价
  库存量      int        当前库存数量
  上架时间    datetime   商品上架时间
  是否促销    boolean    是否参与促销活动
  供应商      string     供应商名称
  保质期      int        保质期天数（食品类商品特有）
  ```

  #### 3. 订单主表 (order_info.csv)

  记录订单的基本信息

  ```plaintext
  字段名称        数据类型    说明
  订单ID          string     订单唯一标识，格式为'ORD'开头的8位数字
  学生ID          string     下单学生ID
  年级            string     学生年级
  专业            string     学生专业
  订单日期        datetime   下单日期
  商品类别        string     商品类别
  商品名称        string     商品名称
  商品单价        float      商品单价
  购买数量        int        购买数量
  订单金额        float      订单总金额
  支付方式        string     支付宝/微信支付/校园卡/银行卡
  是否使用优惠券  boolean    是否使用了优惠券
  优惠金额        float      优惠金额
  实付金额        float      实际支付金额
  收货地址        string     收货地址
  订单状态        string     已完成/已取消/处理中
  评分            float      订单评分（1-5分）
  是否评价        boolean    是否已评价
  下单时间        datetime   具体下单时间
  ```

  #### 4. 订单详情表 (order_details.csv)

  记录订单中的商品明细信息

  ```plaintext
  字段名称      数据类型    说明
  订单ID        string     关联订单主表的订单ID
  商品ID        string     关联商品信息表的商品ID
  购买数量      int        购买数量
  单价          float      商品单价
  小计金额      float      该商品的总金额
  是否退换货    boolean    是否发生退换货
  退换货原因    string     退换货原因描述
  ```

  #### 数据特点

  1. **数据关联**
     - 通过学生ID关联学生信息和订单信息
     - 通过订单ID关联订单主表和订单详情表
     - 通过商品ID关联商品信息和订单详情

  2. **数据分布**
     - 每个学生有1-5个订单
     - 每个订单包含1-5件商品
     - 订单状态以已完成为主，包含少量已取消和处理中的订单

  3. **业务特征**
     - 包含商品分类、价格区间设置
     - 包含优惠券使用情况
     - 包含评价和退换货信息
     - 包含支付方式选择

  4. **时间特征**
     - 订单数据覆盖最近一年
     - 包含具体的下单时间
     - 商品上架时间分布在一年内

  这个数据集设计满足多种数据分析场景：

  - 销售分析：商品类别、销售金额、数量统计
  - 用户行为：购买频率、评价情况、支付偏好
  - 时间分析：销售趋势、季节性特征
  - 优惠效果：优惠券使用情况及其影响
  - 退换货分析：退换货原因及商品关联
  - 学生群体分析：不同专业、年级的购买特征

In [1]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import random
import os

# 创建data目录（如果不存在）
if not os.path.exists('data'):
    os.makedirs('data')

# 设置随机种子
np.random.seed(42)
random.seed(42)

def generate_student_ecommerce_data(num_records=1000):
    """生成模拟的学生电商订单数据"""
    
    # 生成学生基础信息
    student_ids = [f'STU{str(i).zfill(6)}' for i in range(1, num_records + 1)]
    majors = ['计算机科学', '电子商务', '市场营销', '工商管理', '数据科学', '物流管理', '信息管理']
    grades = ['大一', '大二', '大三', '大四']
    
    # 生成订单日期范围
    end_date = datetime.now()
    start_date = end_date - timedelta(days=365)
    dates = [start_date + timedelta(days=x) for x in range((end_date - start_date).days)]
    
    # 生成商品类别和对应价格范围
    product_categories = {
        '学习用品': (5, 50),
        '电子产品': (100, 5000),
        '服装': (30, 300),
        '食品': (10, 100),
        '生活用品': (20, 200),
        '图书': (20, 150),
        '运动器材': (50, 500)
    }
    
    # 生成支付方式
    payment_methods = ['支付宝', '微信支付', '校园卡', '银行卡']
    
    # 生成数据字典
    data = {
        '学生ID': [],
        '年级': [],
        '专业': [],
        '订单ID': [],
        '订单日期': [],
        '商品类别': [],
        '商品名称': [],
        '商品单价': [],
        '购买数量': [],
        '订单金额': [],
        '支付方式': [],
        '是否使用优惠券': [],
        '优惠金额': [],
        '实付金额': [],
        '收货地址': [],
        '订单状态': [],
        '评分': [],
        '是否评价': [],
        '下单时间': []
    }
    
    # 生成订单数据
    order_id = 1
    for _ in range(num_records):
        # 每个学生可能有1-5个订单
        num_orders = random.randint(1, 5)
        
        # 学生基本信息
        student_id = random.choice(student_ids)
        grade = random.choice(grades)
        major = random.choice(majors)
        
        for _ in range(num_orders):
            # 订单基本信息
            order_date = random.choice(dates)
            category = random.choice(list(product_categories.keys()))
            price_range = product_categories[category]
            
            # 商品信息
            quantity = random.randint(1, 5)
            unit_price = round(random.uniform(price_range[0], price_range[1]), 2)
            order_amount = round(unit_price * quantity, 2)
            
            # 优惠信息
            has_coupon = random.choice([True, False])
            discount = round(order_amount * random.uniform(0, 0.2), 2) if has_coupon else 0
            final_amount = order_amount - discount
            
            # 订单状态
            status_options = ['已完成', '已完成', '已完成', '已完成', '已取消', '处理中']
            status = random.choice(status_options)
            
            # 评价信息
            has_review = random.choice([True, False]) if status == '已完成' else False
            rating = random.randint(1, 5) if has_review else None
            
            # 生成收货地址
            address_options = ['校区1学生宿舍', '校区2学生宿舍', '校区3学生宿舍', '校外住址']
            address = random.choice(address_options)
            
            # 生成下单时间
            order_time = order_date.replace(
                hour=random.randint(8, 23),
                minute=random.randint(0, 59),
                second=random.randint(0, 59)
            )
            
            # 添加数据
            data['学生ID'].append(student_id)
            data['年级'].append(grade)
            data['专业'].append(major)
            data['订单ID'].append(f'ORD{str(order_id).zfill(8)}')
            data['订单日期'].append(order_date)
            data['商品类别'].append(category)
            data['商品名称'].append(f'{category}{random.randint(1, 100)}')
            data['商品单价'].append(unit_price)
            data['购买数量'].append(quantity)
            data['订单金额'].append(order_amount)
            data['支付方式'].append(random.choice(payment_methods))
            data['是否使用优惠券'].append(has_coupon)
            data['优惠金额'].append(discount)
            data['实付金额'].append(final_amount)
            data['收货地址'].append(address)
            data['订单状态'].append(status)
            data['评分'].append(rating)
            data['是否评价'].append(has_review)
            data['下单时间'].append(order_time)
            
            order_id += 1
    
    return pd.DataFrame(data)

def generate_student_base_info(num_students=1000):
    """生成学生基础信息表"""
    data = {
        '学生ID': [f'STU{str(i).zfill(6)}' for i in range(1, num_students + 1)],
        '姓名': [f'学生{i}' for i in range(1, num_students + 1)],
        '性别': np.random.choice(['男', '女'], size=num_students),
        '年级': np.random.choice(['大一', '大二', '大三', '大四'], size=num_students),
        '专业': np.random.choice(['计算机科学', '电子商务', '市场营销', '工商管理', '数据科学', '物流管理', '信息管理'], size=num_students),
        '入学年份': np.random.choice(range(2020, 2024), size=num_students),
        '生源地': np.random.choice(['北京', '上海', '广东', '江苏', '浙江', '四川', '湖北', '河南', '山东', '福建'], size=num_students),
        '联系电话': [f'1{random.randint(3, 9)}{str(random.randint(100000000, 999999999))}' for _ in range(num_students)],
        '宿舍号': [f'{random.choice(["A", "B", "C", "D"])}区{random.randint(1, 6)}栋{random.randint(100, 699)}' for _ in range(num_students)]
    }
    return pd.DataFrame(data)

def generate_product_info(num_products=200):
    """生成商品信息表"""
    categories = {
        '学习用品': ['笔记本', '文具盒', '钢笔', '计算器', '书包'],
        '电子产品': ['耳机', '手机', '平板', '笔记本电脑', '移动电源'],
        '服装': ['T恤', '外套', '运动服', '休闲裤', '帽子'],
        '食品': ['零食', '饮料', '速食', '水果', '糕点'],
        '生活用品': ['洗护用品', '床上用品', '收纳用品', '清洁用品', '个人护理'],
        '图书': ['教材', '参考书', '小说', '杂志', '考试资料'],
        '运动器材': ['篮球', '羽毛球拍', '跳绳', '瑜伽垫', '哑铃']
    }
    
    data = {
        '商品ID': [f'PRD{str(i).zfill(6)}' for i in range(1, num_products + 1)],
        '商品类别': [],
        '商品名称': [],
        '品牌': [],
        '单价': [],
        '库存量': [],
        '上架时间': [],
        '是否促销': [],
        '供应商': [],
        '保质期': []
    }
    
    for _ in range(num_products):
        category = random.choice(list(categories.keys()))
        product_type = random.choice(categories[category])
        
        # 根据类别设置价格范围
        price_ranges = {
            '学习用品': (5, 50),
            '电子产品': (100, 5000),
            '服装': (30, 300),
            '食品': (10, 100),
            '生活用品': (20, 200),
            '图书': (20, 150),
            '运动器材': (50, 500)
        }
        
        data['商品类别'].append(category)
        data['商品名称'].append(f'{product_type}{random.randint(1, 100)}')
        data['品牌'].append(f'品牌{random.randint(1, 20)}')
        data['单价'].append(round(random.uniform(*price_ranges[category]), 2))
        data['库存量'].append(random.randint(0, 1000))
        data['上架时间'].append(datetime.now() - timedelta(days=random.randint(0, 365)))
        data['是否促销'].append(random.choice([True, False]))
        data['供应商'].append(f'供应商{random.randint(1, 50)}')
        data['保质期'].append(random.choice([30, 90, 180, 365, 999]) if category in ['食品'] else None)
    
    return pd.DataFrame(data)

def generate_order_details(orders_df, products_df):
    """根据订单主表生成订单详情表"""
    details = []
    for _, order in orders_df.iterrows():
        # 每个订单1-5个商品
        num_items = random.randint(1, 5)
        for _ in range(num_items):
            # 随机选择商品
            product = products_df.sample(n=1).iloc[0]
            
            quantity = random.randint(1, 5)
            unit_price = product['单价']
            subtotal = quantity * unit_price
            
            details.append({
                '订单ID': order['订单ID'],
                '商品ID': product['商品ID'],
                '购买数量': quantity,
                '单价': unit_price,
                '小计金额': subtotal,
                '是否退换货': random.choice([True, False]) if order['订单状态'] == '已完成' else False,
                '退换货原因': '质量问题' if random.random() < 0.3 else '尺寸不合适' if random.random() < 0.6 else '不喜欢' if random.random() < 0.9 else '其他'
            })
    
    return pd.DataFrame(details)

# 1. 生成学生基础信息表
df_students = generate_student_base_info(1000)
df_students.to_csv('data/student_info.csv', index=False, encoding='utf-8')

# 2. 生成商品信息表
df_products = generate_product_info(200)
df_products.to_csv('data/product_info.csv', index=False, encoding='utf-8')

# 3. 生成订单主表
df_orders = generate_student_ecommerce_data(1000)
df_orders.to_csv('data/order_info.csv', index=False, encoding='utf-8')

# 4. 生成订单详情表
df_order_details = generate_order_details(df_orders, df_products)
df_order_details.to_csv('data/order_details.csv', index=False, encoding='utf-8')

# 显示数据集信息
print("\n=== 数据集生成完成 ===")
print(f"\n1. 学生信息表 - {len(df_students)} 条记录")
print(df_students.columns.tolist())
print(f"\n2. 商品信息表 - {len(df_products)} 条记录")
print(df_products.columns.tolist())
print(f"\n3. 订单主表 - {len(df_orders)} 条记录")
print(df_orders.columns.tolist())
print(f"\n4. 订单详情表 - {len(df_order_details)} 条记录")
print(df_order_details.columns.tolist())


=== 数据集生成完成 ===

1. 学生信息表 - 1000 条记录
['学生ID', '姓名', '性别', '年级', '专业', '入学年份', '生源地', '联系电话', '宿舍号']

2. 商品信息表 - 200 条记录
['商品ID', '商品类别', '商品名称', '品牌', '单价', '库存量', '上架时间', '是否促销', '供应商', '保质期']

3. 订单主表 - 3028 条记录
['学生ID', '年级', '专业', '订单ID', '订单日期', '商品类别', '商品名称', '商品单价', '购买数量', '订单金额', '支付方式', '是否使用优惠券', '优惠金额', '实付金额', '收货地址', '订单状态', '评分', '是否评价', '下单时间']

4. 订单详情表 - 9230 条记录
['订单ID', '商品ID', '购买数量', '单价', '小计金额', '是否退换货', '退换货原因']


#### 首先是数据导入代码块：

In [1]:
# 导入必要的库
import pandas as pd
import numpy as np

# 读取数据
df_students = pd.read_csv('data/student_info.csv')
df_orders = pd.read_csv('data/order_info.csv')
df_products = pd.read_csv('data/product_info.csv')
df_order_details = pd.read_csv('data/order_details.csv')

### 1. 基础数据选择

**知识点**：

1. 单列选择：使用 `df['列名']` 或 `df.列名`
2. 多列选择：使用 `df[['列名1', '列名2']]`
3. DataFrame切片操作：使用 `head()`, `tail()`
4. 注意单括号和双括号的区别：
   - 单括号返回Series
   - 双括号返回DataFrame

### Pandas中的数据结构类型

首先要理解 Pandas 中的两种主要数据结构：

1. **Series**: 一维数据结构，类似于带有标签的数组或列表
2. **DataFrame**: 二维数据结构，类似于Excel表格，由多个Series组成

### 单括号与双括号的区别

1. **单括号选择 `df['列名']`**
   - 返回一个 Series 对象
   - 只能选择一个列
   - 数据结构是一维的

In [3]:
# 单括号选择示例
print("=== 单括号选择示例 ===")
student_names = df_students['姓名']
print("数据类型:", type(student_names))
print("数据预览:")
print(student_names.head())
print("\n形状:", student_names.shape)  # 只有一个维度

=== 单括号选择示例 ===
数据类型: <class 'pandas.core.series.Series'>
数据预览:
0    学生1
1    学生2
2    学生3
3    学生4
4    学生5
Name: 姓名, dtype: object

形状: (1000,)


**双括号选择 `df[['列名']]` 或 `df[['列名1', '列名2']]`**

- 返回一个 DataFrame 对象
- 可以选择一个或多个列
- 数据结构是二维的

In [4]:
# 双括号选择示例
print("=== 双括号选择示例 ===")
# 选择单列
student_names_df = df_students[['姓名']]
print("单列选择:")
print("数据类型:", type(student_names_df))
print("数据预览:")
print(student_names_df.head())
print("形状:", student_names_df.shape)  # 有两个维度

# 选择多列
student_info = df_students[['姓名', '专业', '年级']]
print("\n多列选择:")
print("数据类型:", type(student_info))
print("数据预览:")
print(student_info.head())
print("形状:", student_info.shape)

=== 双括号选择示例 ===
单列选择:
数据类型: <class 'pandas.core.frame.DataFrame'>
数据预览:
    姓名
0  学生1
1  学生2
2  学生3
3  学生4
4  学生5
形状: (1000, 1)

多列选择:
数据类型: <class 'pandas.core.frame.DataFrame'>
数据预览:
    姓名    专业  年级
0  学生1  信息管理  大二
1  学生2  工商管理  大三
2  学生3  物流管理  大一
3  学生4  市场营销  大一
4  学生5  信息管理  大一
形状: (1000, 3)


In [5]:
# Series和DataFrame的区别演示
print("=== Series和DataFrame的区别 ===")
# Series示例
series_example = df_students['姓名']
print("Series特点:")
print("- 索引访问:", series_example.iloc[0])  # 直接得到值
print("- 数据类型:", type(series_example.iloc[0]))  # 标量类型（如字符串、数字）
print("- 属性访问:", series_example.values[:5])  # numpy数组
print("- 维度:", series_example.ndim)  # 1维

# DataFrame示例
df_example = df_students[['姓名']]
print("\nDataFrame特点:")
print("- 索引访问:", df_example.iloc[0])  # 得到Series
print("- 数据类型:", type(df_example.iloc[0]))  # Series类型
print("- 属性访问:", df_example.values[:5])  # 二维numpy数组
print("- 维度:", df_example.ndim)  # 2维

=== Series和DataFrame的区别 ===
Series特点:
- 索引访问: 学生1
- 数据类型: <class 'str'>
- 属性访问: ['学生1' '学生2' '学生3' '学生4' '学生5']
- 维度: 1

DataFrame特点:
- 索引访问: 姓名    学生1
Name: 0, dtype: object
- 数据类型: <class 'pandas.core.series.Series'>
- 属性访问: [['学生1']
 ['学生2']
 ['学生3']
 ['学生4']
 ['学生5']]
- 维度: 2


实际应用场景示例

In [6]:
# 实际应用场景
print("=== 实际应用场景 ===")

# 1. 计算平均值 - 使用Series
average_order = df_orders['订单金额'].mean()
print("订单平均金额:", average_order)

# 2. 数据统计 - 使用Series的方法
order_stats = df_orders['订单金额'].describe()
print("\n订单金额统计:")
print(order_stats)

# 3. 多列数据分析 - 使用DataFrame
order_analysis = df_orders[['订单金额', '购买数量', '实付金额']]
print("\n订单多维度分析:")
print(order_analysis.describe())

# 4. Series和DataFrame的运算
print("\n订单折扣率计算:")
discount_rate = (df_orders['订单金额'] - df_orders['实付金额']) / df_orders['订单金额'] * 100
print(discount_rate.describe())

=== 实际应用场景 ===
订单平均金额: 1298.7207463672391

订单金额统计:
count     3028.000000
mean      1298.720746
std       3187.899393
min          6.110000
25%        114.567500
50%        280.365000
75%        721.282500
max      24901.150000
Name: 订单金额, dtype: float64

订单多维度分析:
               订单金额         购买数量          实付金额
count   3028.000000  3028.000000   3028.000000
mean    1298.720746     3.007266   1233.004914
std     3187.899393     1.408812   3048.864068
min        6.110000     1.000000      5.530000
25%      114.567500     2.000000    107.587500
50%      280.365000     3.000000    265.285000
75%      721.282500     4.000000    676.745000
max    24901.150000     5.000000  24901.150000

订单折扣率计算:
count    3028.000000
mean        5.188317
std         6.514032
min         0.000000
25%         0.000000
50%         0.455707
75%        10.254276
max        19.994496
dtype: float64


### 重点注意事项：

1. Series 特点：
   - 可以直接进行数学运算
   - 具有索引（index）和值（values）
   - 适合单变量分析

2. DataFrame 特点：
   - 保持表格结构
   - 可以同时处理多个变量
   - 支持更复杂的数据操作

3. 选择方式的使用建议：
   - 需要进行单列数据分析时，使用单括号获取Series
   - 需要保持表格结构或处理多列数据时，使用双括号获取DataFrame
   - 进行数据运算时，注意数据类型的转换和匹配

这种区别理解对于数据处理非常重要，因为不同的数据结构支持不同的操作和方法。在实际编程中，需要根据具体的分析需求选择适当的数据结构。

In [7]:
# 单列选择
print("单列选择 - Series类型:")
print(df_students['姓名'].head())
print("\n列属性访问方式:")
print(df_students.姓名.head())

# 多列选择
print("\n多列选择 - DataFrame类型:")
student_info = df_students[['学生ID', '姓名', '专业']]
print(student_info.head())

# 查看数据类型
print("\n单列选择的数据类型:", type(df_students['姓名']))
print("多列选择的数据类型:", type(student_info))

单列选择 - Series类型:
0    学生1
1    学生2
2    学生3
3    学生4
4    学生5
Name: 姓名, dtype: object

列属性访问方式:
0    学生1
1    学生2
2    学生3
3    学生4
4    学生5
Name: 姓名, dtype: object

多列选择 - DataFrame类型:
        学生ID   姓名    专业
0  STU000001  学生1  信息管理
1  STU000002  学生2  工商管理
2  STU000003  学生3  物流管理
3  STU000004  学生4  市场营销
4  STU000005  学生5  信息管理

单列选择的数据类型: <class 'pandas.core.series.Series'>
多列选择的数据类型: <class 'pandas.core.frame.DataFrame'>


### 2. 条件过滤

**知识点**：

1. 单条件过滤：使用比较运算符 `>`、`<`、`==`、`!=`
2. 多条件过滤：使用逻辑运算符 `&`（且）、`|`（或）、`~`（非）
3. 注意使用多条件时需要用括号括起每个条件
4. 过滤结果是布尔型Series，可以直接用于DataFrame索引

In [8]:
# 单条件过滤
print("计算机科学专业的学生:")
cs_students = df_students[df_students['专业'] == '计算机科学']
print(cs_students.head())

# 多条件过滤
print("\n计算机专业的大一男生:")
cs_freshman_male = df_students[
    (df_students['专业'] == '计算机科学') & 
    (df_students['年级'] == '大一') & 
    (df_students['性别'] == '男')
]
print(cs_freshman_male.head())

# 使用 ~ 进行条件取反
print("\n不是计算机专业的学生:")
non_cs_students = df_students[~(df_students['专业'] == '计算机科学')]
print(non_cs_students.head())

计算机科学专业的学生:
         学生ID    姓名 性别  年级     专业  入学年份 生源地         联系电话      宿舍号
6   STU000007   学生7  男  大四  计算机科学  2021  四川  17193349856  B区2栋489
11  STU000012  学生12  男  大一  计算机科学  2023  江苏  17128492780  D区5栋514
13  STU000014  学生14  男  大三  计算机科学  2020  河南  18797808098  D区1栋432
18  STU000019  学生19  女  大四  计算机科学  2023  山东  19106977991  D区3栋447
24  STU000025  学生25  女  大四  计算机科学  2023  江苏  15209747451  B区5栋256

计算机专业的大一男生:
          学生ID     姓名 性别  年级     专业  入学年份 生源地         联系电话      宿舍号
11   STU000012   学生12  男  大一  计算机科学  2023  江苏  17128492780  D区5栋514
200  STU000201  学生201  男  大一  计算机科学  2022  山东  13825003955  C区5栋108
220  STU000221  学生221  男  大一  计算机科学  2020  江苏  13677280546  C区3栋212
298  STU000299  学生299  男  大一  计算机科学  2020  山东  15129635852  D区1栋310
327  STU000328  学生328  男  大一  计算机科学  2020  北京  14551450815  D区4栋339

不是计算机专业的学生:
        学生ID   姓名 性别  年级    专业  入学年份 生源地         联系电话      宿舍号
0  STU000001  学生1  男  大二  信息管理  2021  湖北  18219540831  C区1栋325
1  STU000002  学生2  女  大三  工商管理  

In [9]:
cs_students

Unnamed: 0,学生ID,姓名,性别,年级,专业,入学年份,生源地,联系电话,宿舍号
6,STU000007,学生7,男,大四,计算机科学,2021,四川,17193349856,B区2栋489
11,STU000012,学生12,男,大一,计算机科学,2023,江苏,17128492780,D区5栋514
13,STU000014,学生14,男,大三,计算机科学,2020,河南,18797808098,D区1栋432
18,STU000019,学生19,女,大四,计算机科学,2023,山东,19106977991,D区3栋447
24,STU000025,学生25,女,大四,计算机科学,2023,江苏,15209747451,B区5栋256
...,...,...,...,...,...,...,...,...,...
979,STU000980,学生980,女,大二,计算机科学,2023,上海,16466034277,C区4栋281
981,STU000982,学生982,女,大四,计算机科学,2022,福建,15874807770,A区4栋141
985,STU000986,学生986,女,大二,计算机科学,2023,湖北,14269017588,D区6栋258
988,STU000989,学生989,女,大三,计算机科学,2023,山东,13392168202,D区5栋663


### 3. 高级过滤方法

**知识点**：

1. `isin()`: 检查值是否在列表中
2. `between()`: 检查值是否在指定范围内
3. 字符串方法：`str.contains()`, `str.startswith()`, `str.endswith()`
4. `isna()`, `notna()`: 检查缺失值

In [10]:
# isin使用示例
print("来自北上广的学生:")
major_cities = ['北京', '上海', '广东']
city_students = df_students[df_students['生源地'].isin(major_cities)]
print(city_students.head())

# between使用示例
print("\n订单金额在100-500元之间的订单:")
medium_orders = df_orders[df_orders['订单金额'].between(100, 500)]
print(medium_orders.head())

# 字符串方法示例
print("\nA区宿舍的学生:")
a_block_students = df_students[df_students['宿舍号'].str.startswith('A')]
print(a_block_students.head())

# 检查空值示例
print("\n检查是否有评分的订单:")
rated_orders = df_orders[df_orders['评分'].notna()]
print(rated_orders.head())

来自北上广的学生:
         学生ID    姓名 性别  年级    专业  入学年份 生源地         联系电话      宿舍号
16  STU000017  学生17  女  大二  市场营销  2020  北京  16732719211  A区2栋546
17  STU000018  学生18  女  大三  电子商务  2021  上海  15969119330  D区5栋180
20  STU000021  学生21  女  大三  电子商务  2022  广东  14849621470  A区5栋216
22  STU000023  学生23  女  大二  电子商务  2023  北京  15266944844  B区2栋205
25  STU000026  学生26  女  大二  信息管理  2022  广东  13507943839  A区2栋605

订单金额在100-500元之间的订单:
         学生ID  年级     专业         订单ID                        订单日期  商品类别  \
2   STU000399  大二   数据科学  ORD00000003  2024-07-16 21:44:35.487948  生活用品   
4   STU000399  大二   数据科学  ORD00000005  2023-11-23 21:44:35.487948  生活用品   
5   STU000153  大二   市场营销  ORD00000006  2024-01-09 21:44:35.487948  学习用品   
9   STU000582  大二  计算机科学  ORD00000010  2024-11-04 21:44:35.487948    图书   
10  STU000582  大二  计算机科学  ORD00000011  2024-07-05 21:44:35.487948  运动器材   

      商品名称    商品单价  购买数量    订单金额  支付方式  是否使用优惠券   优惠金额    实付金额     收货地址 订单状态  \
2   生活用品13   54.24     2  108.48  微信支付    False 

### 4. 排序操作

**知识点**：

1. `sort_values()`: 按值排序
   - `ascending`: 控制升序/降序
   - `by`: 指定排序列
   - `na_position`: 控制空值位置
2. `sort_index()`: 按索引排序
3. 多列排序：列表指定多个排序键
4. 自定义排序：使用`key`参数

In [11]:
# 单列排序
print("按订单金额降序排序:")
sorted_orders = df_orders.sort_values('订单金额', ascending=False)
print(sorted_orders[['订单ID', '订单金额']].head())

# 多列排序
print("\n按专业和年级排序:")
sorted_students = df_students.sort_values(['专业', '年级'])
print(sorted_students[['专业', '年级', '姓名']].head())

# 自定义排序顺序
print("\n按自定义年级顺序排序:")
grade_order = ['大一', '大二', '大三', '大四']
sorted_by_grade = df_students.sort_values(
    '年级', 
    key=lambda x: x.map({g: i for i, g in enumerate(grade_order)})
)
print(sorted_by_grade[['年级', '姓名']].head())

按订单金额降序排序:
             订单ID      订单金额
2343  ORD00002344  24901.15
22    ORD00000023  24597.70
468   ORD00000469  24392.15
1211  ORD00001212  24153.85
2267  ORD00002268  24056.20

按专业和年级排序:
      专业  年级    姓名
4   信息管理  大一   学生5
7   信息管理  大一   学生8
21  信息管理  大一  学生22
32  信息管理  大一  学生33
34  信息管理  大一  学生35

按自定义年级顺序排序:
     年级      姓名
999  大一  学生1000
671  大一   学生672
673  大一   学生674
674  大一   学生675
675  大一   学生676


### 5. 实际应用场景

**知识点**：

1. 组合使用多种操作
2. 链式操作
3. 结果分析与统计

In [12]:
# 场景1：查找高消费学生（订单金额超过1000元且购买次数大于3次）
high_value_students = df_orders[df_orders['订单金额'] > 1000]['学生ID'].value_counts()
frequent_buyers = high_value_students[high_value_students > 3].index
result = df_students[df_students['学生ID'].isin(frequent_buyers)]
print("高消费频繁购买的学生:")
print(result[['姓名', '专业', '年级']].head())

# 场景2：分析不同年级的订单情况
grade_orders = df_orders.groupby('年级').agg({
    '订单ID': 'count',
    '订单金额': 'sum'
}).round(2)
print("\n各年级订单统计:")
print(grade_orders)

# 场景3：查找最受欢迎的商品类别
popular_categories = df_orders.groupby('商品类别').agg({
    '订单ID': 'count',
    '订单金额': 'sum'
}).sort_values('订单ID', ascending=False)
print("\n最受欢迎的商品类别:")
print(popular_categories)

高消费频繁购买的学生:
        姓名     专业  年级
112  学生113   工商管理  大四
239  学生240  计算机科学  大三
311  学生312  计算机科学  大二
382  学生383   市场营销  大三
390  学生391   数据科学  大二

各年级订单统计:
    订单ID        订单金额
年级                  
大一   734  1011627.20
大三   727   896518.76
大二   665   819030.52
大四   902  1205349.94

最受欢迎的商品类别:
      订单ID        订单金额
商品类别                  
服装     474   242474.24
学习用品   453    38804.78
图书     448   111399.04
运动器材   427   351649.84
生活用品   416   139853.65
食品     407    62320.16
电子产品   403  2986024.71
