### Day17: Pandas 入门，混合一点点matplotlib & numpy复习

你好Sarah！今天让我们学一个数据处理的库，叫做Pandas。顺带一提我自己也对Pandas没什么经验，所以是现学的。什么是Pandas？请Claude姐姐为我们介绍一下

Claude：

> Pandas是Python中最重要的数据分析库之一！它提供了强大而灵活的数据结构来处理结构化数据。
> 
> 主要特点：
> - DataFrame：类似Excel表格的二维数据结构，有行和列
> - Series：一维数据结构，类似一列数据
> - 强大的数据读取能力：可以读取CSV、Excel、JSON等多种格式
> - 数据清洗：处理缺失值、重复数据等
> - 数据筛选和分组：类似SQL的查询功能
> - 统计分析：计算均值、标准差等统计指标
> 
> 简单来说，如果你需要处理表格数据，Pandas就是你的好朋友！

### DataFrame 介绍

**DataFrame** 是Pandas的核心数据结构，可以理解为：
- 📊 像Excel表格一样的二维数据表
- 🗂️ 有行索引(index)和列名(columns)
- 🔧 每一列可以是不同的数据类型（数字、文字、日期等）
- 💪 支持强大的数据操作功能

想象一下一个学生成绩表：
- 每一行代表一个学生
- 每一列代表不同信息（姓名、数学成绩、英语成绩等）
- 这就是DataFrame的典型应用！


In [None]:
# DataFrame 基础演示
import pandas as pd

# 创建一个简单的学生成绩DataFrame
data = {
    '姓名': ['小明', '小红', '小李', '小张'],
    '数学': [95, 87, 92, 78],
    '英语': [88, 94, 85, 90],
    '年龄': [18, 17, 18, 17]
}

# 从字典创建DataFrame
df = pd.DataFrame(data)
print("创建的DataFrame:")
print(df)
print()

# 查看基本信息
print("数据形状 (行数, 列数):", df.shape)
print("列名:", df.columns.tolist())
print("数据类型:")
print(df.dtypes)


### Series 介绍

**Series** 是Pandas的一维数据结构，可以理解为：
- 📝 像增强版的列表，但有索引标签
- 🔢 所有元素必须是同一种数据类型
- 🏷️ 每个值都有对应的索引(index)
- ⚡ 支持向量化运算，比普通列表更快

可以把Series想象成：
- DataFrame的一列就是一个Series
- 带标签的一维数组
- 字典的升级版（键值对，但值可以批量操作）


In [None]:
# Series 基础演示

# 方法1：从列表创建Series
scores = pd.Series([95, 87, 92, 78])
print("从列表创建的Series:")
print(scores)
print()

# 方法2：从字典创建Series（带自定义索引）
scores_with_names = pd.Series({
    '小明': 95,
    '小红': 87, 
    '小李': 92,
    '小张': 78
})
print("从字典创建的Series:")
print(scores_with_names)
print()

# Series的基本操作
print("Series的长度:", len(scores_with_names))
print("最大值:", scores_with_names.max())
print("平均值:", scores_with_names.mean())
print()

# 从DataFrame提取Series
print("从DataFrame提取'数学'列:")
math_series = df['数学']
print(math_series)
print("这个Series的类型:", type(math_series))
