### Day17: Pandas 入门，混合一点点matplotlib & numpy复习

你好Sarah！今天让我们学一个数据处理的库，叫做Pandas。顺带一提我自己也对Pandas没什么经验，所以是现学的。什么是Pandas？请Claude姐姐为我们介绍一下

Claude：

> Pandas是Python中最重要的数据分析库之一！它提供了强大而灵活的数据结构来处理结构化数据。
> 
> 主要特点：
> - DataFrame：类似Excel表格的二维数据结构，有行和列
> - Series：一维数据结构，类似一列数据
> - 强大的数据读取能力：可以读取CSV、Excel、JSON等多种格式
> - 数据清洗：处理缺失值、重复数据等
> - 数据筛选和分组：类似SQL的查询功能
> - 统计分析：计算均值、标准差等统计指标
> 
> 简单来说，如果你需要处理表格数据，Pandas就是你的好朋友！

### DataFrame 介绍

**DataFrame** 是Pandas的核心数据结构，可以理解为：
- 📊 像Excel表格一样的二维数据表
- 🗂️ 有行索引(index)和列名(columns)
- 🔧 每一列可以是不同的数据类型（数字、文字、日期等）
- 💪 支持强大的数据操作功能

想象一下一个学生成绩表：
- 每一行代表一个学生
- 每一列代表不同信息（姓名、数学成绩、英语成绩等）
- 这就是DataFrame的典型应用！


In [None]:
# 导入pandas库并创建DataFrame
import pandas as pd

# 创建一个简单的学生成绩DataFrame
data = {
    '姓名': ['小明', '小红', '小李', '小张'],
    '数学': [95, 87, 92, 78],
    '英语': [88, 94, 85, 90],
    '年龄': [18, 17, 18, 17]
}

df = pd.DataFrame(data)
print("创建的DataFrame:")
print(df)

In [None]:
# 查看DataFrame的基本信息
print("数据形状 (行数, 列数):", df.shape)
print("列名:", df.columns.tolist())
print("数据类型:")
print(df.dtypes)

### Series 介绍

**Series** 是Pandas的一维数据结构，可以理解为：
- 📝 像增强版的列表，但有索引标签
- 🔢 所有元素必须是同一种数据类型
- 🏷️ 每个值都有对应的索引(index)
- ⚡ 支持向量化运算，比普通列表更快

可以把Series想象成：
- DataFrame的一列就是一个Series
- 带标签的一维数组
- 字典的升级版（键值对，但值可以批量操作）


In [None]:
# 创建Series：从列表创建
scores = pd.Series([95, 87, 92, 78])
scores

In [None]:
# 创建Series：从字典创建（带自定义索引）
scores_with_names = pd.Series({
    '小明': 95,
    '小红': 87, 
    '小李': 92,
    '小张': 78
})
scores_with_names

In [None]:
# Series的基本操作
print("Series的长度:", len(scores_with_names))
print("最大值:", scores_with_names.max())
print("平均值:", scores_with_names.mean())

### DataFrame 最常用的方法

让我们来看看DataFrame最实用的方法，都是日常数据处理必备的！

**📊 查看数据**
- `df.head()` - 看前5行数据
- `df.tail()` - 看后5行数据  
- `df.info()` - 查看数据概况（行数、列数、数据类型等）
- `df.describe()` - 统计描述（均值、最大值、最小值等）

**🔍 选择数据**
- `df['列名']` - 选择一列
- `df[['列1', '列2']]` - 选择多列
- `df.loc[行索引, 列名]` - 按标签选择
- `df.iloc[行号, 列号]` - 按位置选择

**🎯 筛选数据**
- `df[df['列名'] > 值]` - 条件筛选
- `df.sort_values('列名')` - 按列排序
- `df.drop_duplicates()` - 去重

**🧮 计算统计**
- `df.mean()` - 平均值
- `df.sum()` - 求和
- `df.count()` - 计数
- `df.groupby('列名').mean()` - 分组统计

**✏️ 修改数据**
- `df['新列'] = 值` - 添加新列
- `df.drop('列名', axis=1)` - 删除列
- `df.fillna(值)` - 填充缺失值


### 查看数据

In [None]:
# 查看前3行数据
df.head(3)

In [None]:
df.tail(3)

In [None]:
# 查看数据概况
df.info()

In [None]:
# 统计描述
df.describe()

### 选择数据

In [None]:
# 选择数学列
df['数学']

In [None]:
# 选择姓名和数学两列
df[['姓名', '数学']]

In [None]:
# 选一列就是Series，选多列就是DataFrame
type(df[["数学", "英语"]]), type(df["数学"])

In [None]:
df.loc[0, "数学"]

In [None]:
df.iloc[0, 1]

Ken: df.loc 和 df.iloc分别是什么的缩写?

Claude:

> `df.loc` 和 `df.iloc` 的缩写含义：
> 
> df.loc
> - **loc** = **location**（位置）
> - 基于**标签/索引名称**的位置选择器
> - 使用行和列的**实际标签**进行索引
> 
> df.iloc  
> - **iloc** = **integer location**（整数位置）
> - 基于**整数位置**的选择器
> - 使用**数字索引**（从0开始）进行索引

### 筛选数据

In [None]:
# 🎯 筛选数学成绩大于90的学生
df[df['数学'] > 90]

In [None]:
# 🎯 按数学成绩排序
df.sort_values('数学', ascending=False)

In [None]:
# 🎯 按年龄分组，计算平均数学成绩
# Ken: 这个我记不住😓
df.groupby('年龄')['数学'].mean()

### 修改数据

In [None]:
# 添加总分列
df['总分'] = df['数学'] + df['英语']
df

今天的内容对我而言有点枯燥无趣，而且我也是一边学一边写的。我现在也有点觉得这个Python “太不可预测了”，让我感到有点不舒服。

明天我们学习一些csv文件读写之类的，加上实际的例子，会稍微有趣一点点。

加油Sarah！