# Pandas 库学习教程

## 目录
1. [Pandas简介](#pandas简介)
2. [数据结构：Series](#数据结构series)
3. [数据结构：DataFrame](#数据结构dataframe)
4. [数据读取与写入](#数据读取与写入)
5. [数据查看与基本信息](#数据查看与基本信息)
6. [数据选择与索引](#数据选择与索引)
7. [数据清洗](#数据清洗)
8. [数据转换与操作](#数据转换与操作)
9. [数据分组与聚合](#数据分组与聚合)
10. [数据合并与连接](#数据合并与连接)
11. [实践练习](#实践练习)


## Pandas简介

**Pandas** 是Python中一个强大的数据分析库，提供了高效的数据结构和数据分析工具。

### 主要特点：
- **Series**：一维带标签数组
- **DataFrame**：二维表格型数据结构
- 强大的数据读取和写入能力
- 丰富的数据操作和转换功能
- 高效的数据清洗和处理工具

### 安装方法：
```bash
pip install pandas
```


In [None]:
# 导入pandas库，通常使用pd作为别名
import pandas as pd
import numpy as np  # numpy通常与pandas一起使用

# 查看pandas版本
print(f"Pandas版本: {pd.__version__}")


## 数据结构：Series

**Series** 是pandas中的一维数据结构，类似于带标签的数组或字典。

### Series的特点：
- 由数据和索引组成
- 索引可以是整数、字符串等
- 支持向量化操作


In [None]:
# 创建Series的多种方法

# 方法1：从列表创建（默认整数索引）
s1 = pd.Series([10, 20, 30, 40, 50])
print("从列表创建（默认索引）：")
print(s1)
print()

# 方法2：从列表创建（自定义索引）
s2 = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print("从列表创建（自定义索引）：")
print(s2)
print()

# 方法3：从字典创建（字典的键成为索引）
s3 = pd.Series({'苹果': 5, '香蕉': 3, '橙子': 8, '葡萄': 6})
print("从字典创建：")
print(s3)
print()

# 方法4：从numpy数组创建
arr = np.array([1, 2, 3, 4, 5])
s4 = pd.Series(arr, index=['一', '二', '三', '四', '五'])
print("从numpy数组创建：")
print(s4)


In [None]:
# Series的基本操作

# 创建示例Series
fruits = pd.Series({'苹果': 5, '香蕉': 3, '橙子': 8, '葡萄': 6, '西瓜': 2})

# 访问数据
print("访问单个元素（通过索引）：", fruits['苹果'])
print("访问多个元素：")
print(fruits[['苹果', '橙子', '葡萄']])
print()

# 访问索引和值
print("索引：", fruits.index)
print("值：", fruits.values)
print()

# 基本统计信息
print("最大值：", fruits.max())
print("最小值：", fruits.min())
print("平均值：", fruits.mean())
print("总和：", fruits.sum())
print()

# 条件筛选
print("数量大于5的水果：")
print(fruits[fruits > 5])


## 数据结构：DataFrame

**DataFrame** 是pandas中的二维表格型数据结构，类似于Excel表格或SQL表。

### DataFrame的特点：
- 由行和列组成
- 每列可以是不同的数据类型
- 有行索引和列索引
- 是数据分析中最常用的数据结构


In [None]:
# 创建DataFrame的多种方法

# 方法1：从字典创建（字典的键成为列名）
data1 = {
    '姓名': ['张三', '李四', '王五', '赵六'],
    '年龄': [25, 30, 28, 35],
    '城市': ['北京', '上海', '广州', '深圳'],
    '薪资': [8000, 12000, 10000, 15000]
}
df1 = pd.DataFrame(data1)
print("从字典创建DataFrame：")
print(df1)
print()

# 方法2：从列表的列表创建
data2 = [
    ['张三', 25, '北京', 8000],
    ['李四', 30, '上海', 12000],
    ['王五', 28, '广州', 10000],
    ['赵六', 35, '深圳', 15000]
]
df2 = pd.DataFrame(data2, columns=['姓名', '年龄', '城市', '薪资'])
print("从列表的列表创建DataFrame：")
print(df2)
print()

# 方法3：从Series创建
df3 = pd.DataFrame({
    'A': pd.Series([1, 2, 3]),
    'B': pd.Series([4, 5, 6, 7])  # 注意：长度可以不同
})
print("从Series创建DataFrame：")
print(df3)


In [None]:
# 创建示例DataFrame用于后续演示
students = pd.DataFrame({
    '姓名': ['张三', '李四', '王五', '赵六', '钱七'],
    '年龄': [20, 21, 19, 22, 20],
    '数学': [85, 90, 78, 92, 88],
    '英语': [80, 85, 82, 90, 87],
    '物理': [88, 85, 90, 88, 85]
})
print("学生成绩表：")
print(students)


In [None]:
# 首先创建一个示例CSV文件用于演示
sample_data = pd.DataFrame({
    '产品': ['笔记本', '鼠标', '键盘', '显示器', '耳机'],
    '价格': [5999, 99, 299, 1299, 399],
    '库存': [50, 200, 150, 80, 120],
    '类别': ['电脑', '外设', '外设', '显示器', '外设']
})

# 保存为CSV文件
sample_data.to_csv('sample_data.csv', index=False, encoding='utf-8-sig')
print("已创建示例CSV文件：sample_data.csv")
print(sample_data)


In [None]:
# 读取CSV文件
df_csv = pd.read_csv('sample_data.csv', encoding='utf-8-sig')
print("从CSV文件读取数据：")
print(df_csv)
print()

# 读取CSV文件时的常用参数
# df = pd.read_csv('file.csv', 
#                  encoding='utf-8',      # 指定编码
#                  sep=',',               # 分隔符
#                  header=0,              # 指定表头行
#                  index_col=0,           # 指定索引列
#                  nrows=100,            # 只读取前100行
#                  skiprows=1,           # 跳过前1行
#                  na_values=['N/A'])     # 指定缺失值标识


In [None]:
# 写入CSV文件
students.to_csv('students.csv', index=False, encoding='utf-8-sig')
print("已将学生数据保存到students.csv")

# 写入Excel文件（需要安装openpyxl: pip install openpyxl）
# students.to_excel('students.xlsx', index=False, sheet_name='学生信息')
# print("已将学生数据保存到students.xlsx")

# 读取Excel文件
# df_excel = pd.read_excel('students.xlsx', sheet_name='学生信息')


## 数据查看与基本信息

了解数据的基本信息是数据分析的第一步。


In [None]:
# 查看数据的基本信息

# 查看前几行（默认5行）
print("前3行数据：")
print(students.head(3))
print()

# 查看后几行
print("后3行数据：")
print(students.tail(3))
print()

# 查看数据形状（行数，列数）
print(f"数据形状（行数，列数）：{students.shape}")
print()

# 查看列名
print("列名：", students.columns.tolist())
print()

# 查看索引
print("索引：", students.index.tolist())
print()

# 查看数据类型
print("数据类型：")
print(students.dtypes)
print()

# 查看数据基本信息
print("数据基本信息：")
print(students.info())
print()

# 查看统计描述
print("统计描述：")
print(students.describe())


In [None]:
# 检查缺失值
print("缺失值统计：")
print(students.isnull().sum())
print()

# 检查重复值
print(f"重复行数量：{students.duplicated().sum()}")
print()

# 查看唯一值
print("城市唯一值：", students['姓名'].unique())
print("城市唯一值数量：", students['姓名'].nunique())


## 数据选择与索引

数据选择是数据分析的核心操作，pandas提供了多种灵活的数据选择方法。


In [None]:
# 选择单列（返回Series）
print("选择'姓名'列：")
print(students['姓名'])
print()
print("数据类型：", type(students['姓名']))
print()

# 选择多列（返回DataFrame）
print("选择'姓名'和'年龄'列：")
print(students[['姓名', '年龄']])
print()

# 使用点号访问列（仅当列名是有效的Python标识符时）
print("使用点号访问列：")
print(students.年龄)


In [None]:
# 使用loc选择数据（基于标签）

# 选择单行
print("选择第一行（使用loc）：")
print(students.loc[0])
print()

# 选择多行
print("选择前3行：")
print(students.loc[0:2])  # 注意：loc的切片包含结束位置
print()

# 选择特定行和列
print("选择前2行的'姓名'和'年龄'列：")
print(students.loc[0:1, ['姓名', '年龄']])
print()

# 选择所有行的特定列
print("选择所有行的'数学'和'英语'列：")
print(students.loc[:, ['数学', '英语']])


In [None]:
# 使用iloc选择数据（基于位置索引）

# 选择单行
print("选择第一行（使用iloc）：")
print(students.iloc[0])
print()

# 选择多行
print("选择前3行：")
print(students.iloc[0:3])  # 注意：iloc的切片不包含结束位置（与Python列表一致）
print()

# 选择特定行和列
print("选择前2行，前3列：")
print(students.iloc[0:2, 0:3])
print()

# 选择特定位置
print("选择第2行第3列的值：", students.iloc[1, 2])


In [None]:
# 条件筛选

# 单条件筛选
print("数学成绩大于85的学生：")
print(students[students['数学'] > 85])
print()

# 多条件筛选（使用&表示且，|表示或，~表示非）
print("数学成绩大于85且英语成绩大于80的学生：")
print(students[(students['数学'] > 85) & (students['英语'] > 80)])
print()

# 使用isin方法
print("年龄为20或21的学生：")
print(students[students['年龄'].isin([20, 21])])
print()

# 字符串条件筛选
print("姓名包含'三'的学生：")
print(students[students['姓名'].str.contains('三')])


## 数据清洗

数据清洗是数据分析的重要步骤，包括处理缺失值、重复值、异常值等。


In [None]:
# 创建包含缺失值的示例数据
data_with_na = pd.DataFrame({
    '姓名': ['张三', '李四', '王五', '赵六', '钱七'],
    '年龄': [20, 21, None, 22, 20],  # None表示缺失值
    '数学': [85, 90, 78, None, 88],
    '英语': [80, None, 82, 90, 87],
    '物理': [88, 85, 90, 88, None]
})
print("包含缺失值的数据：")
print(data_with_na)
print()
print("缺失值统计：")
print(data_with_na.isnull().sum())


In [None]:
# 处理缺失值的方法

# 方法1：删除包含缺失值的行
print("删除包含缺失值的行：")
print(data_with_na.dropna())
print()

# 方法2：删除包含缺失值的列
print("删除包含缺失值的列：")
print(data_with_na.dropna(axis=1))
print()

# 方法3：填充缺失值（用固定值）
print("用0填充缺失值：")
print(data_with_na.fillna(0))
print()

# 方法4：用前一个值填充（前向填充）
print("前向填充：")
print(data_with_na.ffill())  # 新版本pandas推荐使用ffill()方法
print()

# 方法5：用后一个值填充（后向填充）
print("后向填充：")
print(data_with_na.bfill())  # 新版本pandas推荐使用bfill()方法
print()

# 方法6：用均值填充
print("用列均值填充：")
print(data_with_na.fillna(data_with_na.mean()))


In [None]:
# 处理重复值

# 创建包含重复值的数据
data_dup = pd.DataFrame({
    '姓名': ['张三', '李四', '王五', '张三', '李四'],
    '年龄': [20, 21, 19, 20, 21],
    '数学': [85, 90, 78, 85, 90]
})
print("包含重复值的数据：")
print(data_dup)
print()

# 检查重复行
print("重复行标记：")
print(data_dup.duplicated())
print()

# 删除重复行
print("删除重复行后：")
print(data_dup.drop_duplicates())
print()

# 基于特定列删除重复
print("基于'姓名'列删除重复：")
print(data_dup.drop_duplicates(subset=['姓名']))


## 数据转换与操作

数据转换包括添加列、修改列、删除列、排序等操作。


In [None]:
# 添加新列

# 方法1：直接赋值
students['总分'] = students['数学'] + students['英语'] + students['物理']
print("添加'总分'列后：")
print(students)
print()

# 方法2：使用assign方法
students = students.assign(平均分=(students['数学'] + students['英语'] + students['物理']) / 3)
print("添加'平均分'列后：")
print(students)


In [None]:
# 修改列名
students_renamed = students.rename(columns={'平均分': '平均成绩'})
print("修改列名后：")
print(students_renamed.columns.tolist())
print()

# 删除列
students_dropped = students.drop(columns=['平均分'])
print("删除'平均分'列后：")
print(students_dropped.columns.tolist())


In [None]:
# 数据排序

# 按单列排序（升序）
print("按数学成绩升序排序：")
print(students.sort_values('数学'))
print()

# 按单列排序（降序）
print("按数学成绩降序排序：")
print(students.sort_values('数学', ascending=False))
print()

# 按多列排序
print("先按数学降序，再按英语降序排序：")
print(students.sort_values(['数学', '英语'], ascending=[False, False]))
print()

# 按索引排序
print("按索引降序排序：")
print(students.sort_index(ascending=False))


In [None]:
# 应用函数到数据

# 对单列应用函数
print("数学成绩的平方：")
print(students['数学'].apply(lambda x: x**2))
print()

# 对多列应用函数
def calculate_grade(score):
    """根据分数返回等级"""
    if score >= 90:
        return 'A'
    elif score >= 80:
        return 'B'
    elif score >= 70:
        return 'C'
    else:
        return 'D'

students['数学等级'] = students['数学'].apply(calculate_grade)
print("添加数学等级后：")
print(students[['姓名', '数学', '数学等级']])


## 数据分组与聚合

分组聚合是数据分析中非常重要的操作，类似于SQL中的GROUP BY。


In [None]:
# 创建更复杂的数据用于分组演示
sales_data = pd.DataFrame({
    '日期': ['2024-01-01', '2024-01-01', '2024-01-02', '2024-01-02', '2024-01-03', '2024-01-03'],
    '产品': ['A', 'B', 'A', 'B', 'A', 'B'],
    '销售额': [1000, 1500, 1200, 1800, 1100, 1600],
    '数量': [10, 15, 12, 18, 11, 16]
})
print("销售数据：")
print(sales_data)


In [None]:
# 基本分组操作

# 按单列分组
grouped = sales_data.groupby('产品')
print("按产品分组：")
for name, group in grouped:
    print(f"\n产品 {name}:")
    print(group)
print()

# 分组后聚合
print("按产品分组的销售额总和：")
print(sales_data.groupby('产品')['销售额'].sum())
print()

print("按产品分组的销售额平均值：")
print(sales_data.groupby('产品')['销售额'].mean())


In [None]:
# 多个聚合函数
print("按产品分组的多重聚合：")
print(sales_data.groupby('产品')['销售额'].agg(['sum', 'mean', 'max', 'min', 'count']))
print()

# 对多列进行聚合
print("按产品分组，对销售额和数量进行聚合：")
print(sales_data.groupby('产品')[['销售额', '数量']].sum())
print()

# 使用自定义聚合函数
print("按产品分组，计算销售额的标准差：")
print(sales_data.groupby('产品')['销售额'].std())


In [None]:
# 多列分组
print("按日期和产品分组：")
print(sales_data.groupby(['日期', '产品'])['销售额'].sum())
print()

# 分组后重置索引
print("分组后重置索引：")
result = sales_data.groupby(['日期', '产品'])['销售额'].sum().reset_index()
print(result)


## 数据合并与连接

Pandas提供了多种数据合并方法，类似于SQL中的JOIN操作。


In [None]:
# 创建两个DataFrame用于合并演示
df1 = pd.DataFrame({
    'ID': [1, 2, 3, 4],
    '姓名': ['张三', '李四', '王五', '赵六'],
    '部门': ['销售', '技术', '销售', '技术']
})

df2 = pd.DataFrame({
    'ID': [1, 2, 3, 5],
    '薪资': [8000, 12000, 10000, 15000],
    '奖金': [1000, 2000, 1500, 2500]
})

print("DataFrame 1:")
print(df1)
print("\nDataFrame 2:")
print(df2)


In [None]:
# 使用merge进行合并（类似SQL JOIN）

# 内连接（inner join）- 只保留两个表都有的键
print("内连接（inner join）：")
result_inner = pd.merge(df1, df2, on='ID', how='inner')
print(result_inner)
print()

# 左连接（left join）- 保留左表的所有记录
print("左连接（left join）：")
result_left = pd.merge(df1, df2, on='ID', how='left')
print(result_left)
print()

# 右连接（right join）- 保留右表的所有记录
print("右连接（right join）：")
result_right = pd.merge(df1, df2, on='ID', how='right')
print(result_right)
print()

# 外连接（outer join）- 保留两个表的所有记录
print("外连接（outer join）：")
result_outer = pd.merge(df1, df2, on='ID', how='outer')
print(result_outer)


In [None]:
# 使用concat进行连接

# 垂直连接（沿行方向）
df3 = pd.DataFrame({
    'ID': [5, 6],
    '姓名': ['钱七', '孙八'],
    '部门': ['人事', '财务']
})
print("垂直连接（添加行）：")
result_vertical = pd.concat([df1, df3], ignore_index=True)
print(result_vertical)
print()

# 水平连接（沿列方向）
df4 = pd.DataFrame({
    '年龄': [25, 30, 28, 35],
    '城市': ['北京', '上海', '广州', '深圳']
})
print("水平连接（添加列）：")
result_horizontal = pd.concat([df1, df4], axis=1)
print(result_horizontal)


## 实践练习

现在让我们通过一些实际案例来巩固所学知识。


### 练习1：学生成绩分析

创建一个学生成绩表，完成以下任务：
1. 计算每个学生的总分和平均分
2. 找出数学成绩最高的学生
3. 找出平均分大于85的学生
4. 按总分降序排序
5. 计算各科的平均分


In [None]:
# 练习1：学生成绩分析

# 创建学生成绩数据
practice_data = pd.DataFrame({
    '学号': ['S001', 'S002', 'S003', 'S004', 'S005'],
    '姓名': ['张三', '李四', '王五', '赵六', '钱七'],
    '数学': [92, 88, 95, 78, 90],
    '英语': [85, 90, 88, 82, 87],
    '物理': [88, 92, 90, 85, 89],
    '化学': [90, 85, 92, 80, 88]
})

print("原始数据：")
print(practice_data)
print()

# 任务1：计算每个学生的总分和平均分
practice_data['总分'] = practice_data[['数学', '英语', '物理', '化学']].sum(axis=1)
practice_data['平均分'] = practice_data[['数学', '英语', '物理', '化学']].mean(axis=1)
print("添加总分和平均分后：")
print(practice_data)
print()

# 任务2：找出数学成绩最高的学生
max_math_idx = practice_data['数学'].idxmax()
print(f"数学成绩最高的学生：{practice_data.loc[max_math_idx, '姓名']}，成绩：{practice_data.loc[max_math_idx, '数学']}")
print()

# 任务3：找出平均分大于85的学生
print("平均分大于85的学生：")
print(practice_data[practice_data['平均分'] > 85][['姓名', '平均分']])
print()

# 任务4：按总分降序排序
print("按总分降序排序：")
print(practice_data.sort_values('总分', ascending=False)[['姓名', '总分', '平均分']])
print()

# 任务5：计算各科的平均分
print("各科平均分：")
print(practice_data[['数学', '英语', '物理', '化学']].mean())


### 练习2：销售数据分析

创建一个销售数据表，完成以下任务：
1. 计算每个产品的总销售额
2. 找出销售额最高的产品
3. 计算每个月的总销售额
4. 找出销售额超过5000的订单
5. 计算平均订单金额


In [None]:
# 练习2：销售数据分析

# 创建销售数据
sales_practice = pd.DataFrame({
    '订单号': ['O001', 'O002', 'O003', 'O004', 'O005', 'O006', 'O007', 'O008'],
    '日期': ['2024-01-15', '2024-01-15', '2024-01-16', '2024-01-16', 
             '2024-02-10', '2024-02-10', '2024-02-11', '2024-02-11'],
    '产品': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B'],
    '数量': [10, 5, 8, 12, 15, 20, 6, 10],
    '单价': [100, 200, 100, 150, 200, 100, 150, 200]
})

# 计算销售额
sales_practice['销售额'] = sales_practice['数量'] * sales_practice['单价']
print("销售数据：")
print(sales_practice)
print()

# 任务1：计算每个产品的总销售额
print("每个产品的总销售额：")
product_sales = sales_practice.groupby('产品')['销售额'].sum()
print(product_sales)
print()

# 任务2：找出销售额最高的产品
max_product = product_sales.idxmax()
print(f"销售额最高的产品：{max_product}，销售额：{product_sales[max_product]}")
print()

# 任务3：计算每个月的总销售额
# 首先提取月份
sales_practice['月份'] = pd.to_datetime(sales_practice['日期']).dt.to_period('M')
print("每个月的总销售额：")
monthly_sales = sales_practice.groupby('月份')['销售额'].sum()
print(monthly_sales)
print()

# 任务4：找出销售额超过5000的订单
print("销售额超过5000的订单：")
print(sales_practice[sales_practice['销售额'] > 5000])
print()

# 任务5：计算平均订单金额
avg_order = sales_practice['销售额'].mean()
print(f"平均订单金额：{avg_order:.2f}")


### 练习3：数据清洗实战

处理一个包含缺失值和异常值的数据集。


In [None]:
# 练习3：数据清洗实战

# 创建包含问题的数据
dirty_data = pd.DataFrame({
    '员工ID': [1, 2, 3, 4, 5, 6, 7, 8],
    '姓名': ['张三', '李四', '王五', None, '赵六', '钱七', '孙八', '周九'],
    '年龄': [25, 30, None, 28, 35, 22, 150, 29],  # 150是异常值
    '部门': ['销售', '技术', '销售', '技术', '销售', None, '技术', '销售'],
    '薪资': [8000, 12000, None, 10000, 15000, 9000, 11000, 9500]
})

print("原始数据（包含缺失值和异常值）：")
print(dirty_data)
print()

# 检查缺失值
print("缺失值统计：")
print(dirty_data.isnull().sum())
print()

# 处理缺失值：删除姓名为空的记录
dirty_data = dirty_data.dropna(subset=['姓名'])
print("删除姓名为空的记录后：")
print(dirty_data)
print()

# 处理异常值：年龄150明显异常，用中位数替换
median_age = dirty_data['年龄'].median()
dirty_data.loc[dirty_data['年龄'] > 100, '年龄'] = median_age
print("处理年龄异常值后：")
print(dirty_data)
print()

# 用均值填充薪资缺失值
mean_salary = dirty_data['薪资'].mean()
dirty_data['薪资'] = dirty_data['薪资'].fillna(mean_salary)
print("填充薪资缺失值后：")
print(dirty_data)
print()

# 用众数填充部门缺失值
mode_dept = dirty_data['部门'].mode()[0]
dirty_data['部门'] = dirty_data['部门'].fillna(mode_dept)
print("填充部门缺失值后：")
print(dirty_data)


### 练习4：综合应用

结合多个pandas功能完成一个完整的数据分析任务。


In [None]:
# 练习4：综合应用 - 员工绩效分析

# 创建员工数据
employees = pd.DataFrame({
    '员工ID': ['E001', 'E002', 'E003', 'E004', 'E005', 'E006'],
    '姓名': ['张三', '李四', '王五', '赵六', '钱七', '孙八'],
    '部门': ['销售', '销售', '技术', '技术', '人事', '人事'],
    '入职年份': [2020, 2019, 2021, 2020, 2019, 2021],
    '基本工资': [8000, 8500, 12000, 11000, 7000, 7200],
    '绩效奖金': [2000, 2500, 3000, 2800, 1500, 1600],
    '出勤天数': [22, 23, 21, 22, 20, 21]
})

print("员工原始数据：")
print(employees)
print()

# 计算总薪资
employees['总薪资'] = employees['基本工资'] + employees['绩效奖金']
print("添加总薪资后：")
print(employees)
print()

# 按部门分组统计
print("按部门统计：")
dept_stats = employees.groupby('部门').agg({
    '总薪资': ['sum', 'mean', 'max', 'min'],
    '出勤天数': 'mean'
})
print(dept_stats)
print()

# 找出每个部门薪资最高的员工
print("每个部门薪资最高的员工：")
for dept in employees['部门'].unique():
    dept_employees = employees[employees['部门'] == dept]
    max_salary_idx = dept_employees['总薪资'].idxmax()
    print(f"{dept}部门：{dept_employees.loc[max_salary_idx, '姓名']}，总薪资：{dept_employees.loc[max_salary_idx, '总薪资']}")
print()

# 计算工作年限
current_year = 2024
employees['工作年限'] = current_year - employees['入职年份']
print("添加工作年限后：")
print(employees[['姓名', '部门', '工作年限', '总薪资']])
print()

# 按工作年限和部门分组，计算平均薪资
print("按工作年限和部门分组的平均薪资：")
print(employees.groupby(['工作年限', '部门'])['总薪资'].mean())


## 总结

本教程涵盖了pandas库的核心功能：

1. **数据结构**：Series和DataFrame的创建和使用
2. **数据读取**：从CSV、Excel等文件读取数据
3. **数据查看**：查看数据的基本信息和统计描述
4. **数据选择**：使用loc、iloc和条件筛选选择数据
5. **数据清洗**：处理缺失值和重复值
6. **数据转换**：添加、修改、删除列，排序等
7. **数据分组**：groupby操作和聚合函数
8. **数据合并**：merge和concat操作

### 进一步学习建议：

- 学习pandas的时间序列处理功能
- 掌握pandas的数据透视表功能（pivot_table）
- 学习pandas与matplotlib/seaborn结合进行数据可视化
- 了解pandas的性能优化技巧
- 学习处理大型数据集的方法

### 常用资源：

- 官方文档：https://pandas.pydata.org/
- 中文教程：https://www.pypandas.cn/
- GitHub：https://github.com/pandas-dev/pandas

**祝学习愉快！**
