# Pandas - Python 数据处理与分析利器教程

欢迎来到 Pandas 教程！Pandas (Panel Data Analysis) 是建立在 NumPy 之上的 Python 库，提供了高性能、易于使用的数据结构和数据分析工具。它是 Python 数据科学生态系统的核心组件之一。

**为什么 Pandas 对 ML/DL/数据科学如此重要？**

1.  **强大的数据结构**：提供了两种主要的数据结构：
    *   **`Series`**：一维带标签的数组，可以存储任何数据类型。
    *   **`DataFrame`**：二维带标签的数据结构，类似于电子表格、SQL 表或 R 中的 data.frame。列可以是不同的数据类型。
2.  **数据处理能力**：轻松处理缺失数据、数据清洗、转换、合并、重塑、切片和切块。
3.  **高效的数据对齐**：在进行运算时，Pandas 会自动根据标签（索引和列名）对齐数据。
4.  **集成 I/O 工具**：方便地读取和写入各种格式的数据（CSV, Excel, SQL 数据库, JSON 等）。
5.  **时间序列功能**：内置强大的时间序列数据处理能力。
6.  **与 NumPy 和 Matplotlib 等库的紧密集成**。

**本教程将涵盖 Pandas 的核心概念和常用操作：**

1.  创建 `Series` 和 `DataFrame`
2.  数据查看与基本检查
3.  数据选择与索引 (`loc`, `iloc`)
4.  数据清洗（缺失值、重复值）
5.  数据转换与应用函数
6.  合并与连接数据
7.  分组与聚合 (`groupby`)
8.  时间序列基础
9.  读写数据文件 (重点 CSV)

## 准备工作：导入 Pandas 和 NumPy

按照惯例，我们将 Pandas 导入并简写为 `pd`，同时通常也会导入 NumPy (`np`)。

In [None]:
import pandas as pd
import numpy as np

print(f"Pandas version: {pd.__version__}")
print(f"NumPy version: {np.__version__}")

## 1. 创建 `Series` 和 `DataFrame`

In [None]:
# --- 创建 Series (一维带标签数组) ---
print("--- Creating Series ---")
# 从列表创建，Pandas 会自动创建默认整数索引
s1 = pd.Series([10, 20, 30, 40])
print(f"Series from list:\n{s1}")
print(f"Series index: {s1.index}")
print(f"Series values: {s1.values}") # 返回 NumPy 数组

# 指定索引
s2 = pd.Series([100, 200, 300], index=['a', 'b', 'c'])
print(f"\nSeries with custom index:\n{s2}")
print(f"Access element by label 'b': {s2['b']}")

# 从字典创建 (字典的键成为索引)
data_dict_s = {'x': 1.1, 'y': 2.2, 'z': 3.3}
s3 = pd.Series(data_dict_s)
print(f"\nSeries from dict:\n{s3}")

# --- 创建 DataFrame (二维带标签表格) ---
print("\n--- Creating DataFrame ---")
# 从字典创建 (字典的键是列名，值是列表/Series/数组)
data_dict_df = {
    'col1': [1, 2, 3, 4],
    'col2': ['A', 'B', 'C', 'D'],
    'col3': [1.1, 2.2, 3.3, 4.4]
}
df1 = pd.DataFrame(data_dict_df)
print(f"DataFrame from dict of lists:\n{df1}")

# 可以指定索引
df2 = pd.DataFrame(data_dict_df, index=['row1', 'row2', 'row3', 'row4'])
print(f"\nDataFrame with custom index:\n{df2}")

# 从 NumPy 数组创建，可以指定列名和索引
np_array = np.random.randint(0, 10, size=(3, 4))
df3 = pd.DataFrame(np_array, columns=['W', 'X', 'Y', 'Z'], index=['r1', 'r2', 'r3'])
print(f"\nDataFrame from NumPy array:\n{df3}")

# 从字典列表创建 (每个字典是一行)
list_of_dicts = [
    {'name': 'Alice', 'age': 30}, 
    {'name': 'Bob', 'age': 25, 'city': 'LA'},
    {'name': 'Charlie', 'age': 35}
]
df4 = pd.DataFrame(list_of_dicts)
print(f"\nDataFrame from list of dicts:\n{df4}") # Pandas 会处理缺失的'city'

## 2. 数据查看与基本检查

了解 DataFrame 的结构和内容非常重要。

In [None]:
# 使用之前创建的 df4
print(f"DataFrame to inspect:\n{df4}")

# 查看头部几行 (默认 5 行)
print("\n--- df4.head(2) ---")
print(df4.head(2))

# 查看尾部几行 (默认 5 行)
print("\n--- df4.tail(1) ---")
print(df4.tail(1))

# 获取 DataFrame 的形状 (行数, 列数)
print(f"\nShape (rows, columns): {df4.shape}")

# 获取索引信息
print(f"Index: {df4.index}")

# 获取列名
print(f"Columns: {df4.columns}")

# 获取数据类型信息和非空值计数
print("\n--- df4.info() ---")
df4.info()

# 获取数值列的基本描述性统计
print("\n--- df4.describe() (for numerical columns) ---")
print(df4.describe())

# 获取所有列的描述性统计 (包括对象类型/分类)
print("\n--- df4.describe(include='all') ---")
print(df4.describe(include='all'))

## 3. 数据选择与索引 (`loc`, `iloc`)

Pandas 提供了多种方式来选择 DataFrame 中的数据：

*   **选择列**: `df['column_name']` (返回 Series), `df[['col1', 'col2']]` (返回 DataFrame)
*   **基于标签的选择 (`loc`)**: 使用行标签和列标签进行选择。
    *   `df.loc[row_label]`
    *   `df.loc[[row1, row2]]`
    *   `df.loc[row_label, column_label]`
    *   `df.loc[start_row:end_row, start_col:end_col]` (注意：`loc` 的切片包含结束标签)
*   **基于整数位置的选择 (`iloc`)**: 使用整数索引进行选择 (类似 NumPy)。
    *   `df.iloc[row_index]`
    *   `df.iloc[[idx1, idx2]]`
    *   `df.iloc[row_index, col_index]`
    *   `df.iloc[start_row:end_row, start_col:end_col]` (注意：`iloc` 的切片不包含结束索引)
*   **条件选择/布尔索引**: `df[boolean_condition]`

In [None]:
# 使用之前的 df3
df_sel = pd.DataFrame(np.random.randn(5, 4), index='A B C D E'.split(), columns='W X Y Z'.split())
print(f"DataFrame for selection:\n{df_sel}")

# --- 选择列 ---
print("\n--- Selecting Columns ---")
print(f"Column 'W' (Series):\n{df_sel['W']}")
print(f"\nColumns 'W' and 'Z' (DataFrame):\n{df_sel[['W', 'Z']]}")

# --- 基于标签的选择 (loc) ---
print("\n--- Selection using loc ---")
print(f"Row 'A':\n{df_sel.loc['A']}") # 返回 Series
print(f"\nRows 'B' and 'D':\n{df_sel.loc[['B', 'D']]}") # 返回 DataFrame
print(f"\nElement at row 'C', column 'Y': {df_sel.loc['C', 'Y']}")
print(f"\nRows 'A' to 'C', columns 'W' to 'Y':\n{df_sel.loc['A':'C', 'W':'Y']}") # 包含 'C' 和 'Y'

# --- 基于整数位置的选择 (iloc) ---
print("\n--- Selection using iloc ---")
print(f"Row at index 0:\n{df_sel.iloc[0]}")
print(f"\nRows at index 1 and 3:\n{df_sel.iloc[[1, 3]]}")
print(f"\nElement at row index 2, column index 3: {df_sel.iloc[2, 3]}")
print(f"\nRows 0 to 2 (exclusive), columns 1 to 3 (exclusive):\n{df_sel.iloc[0:2, 1:3]}")

# --- 条件选择/布尔索引 ---
print("\n--- Conditional Selection ---")
print(f"Rows where column 'W' > 0:\n{df_sel[df_sel['W'] > 0]}")
print(f"\nRows where column 'Y' > 0 and 'X' < 0:\n{df_sel[(df_sel['Y'] > 0) & (df_sel['X'] < 0)]}") # 使用 & (and), | (or)

# 可以结合 loc/iloc 使用条件
print(f"\nSelecting columns 'Y', 'Z' for rows where 'W' > 0:\n{df_sel.loc[df_sel['W'] > 0, ['Y', 'Z']]}")

## 4. 数据清洗（缺失值、重复值）

真实世界的数据往往不完美，包含缺失值或重复记录。

In [None]:
# 创建一个包含缺失值和重复值的 DataFrame
data_messy = {
    'A': [1, 2, np.nan, 4, 5, 5],
    'B': [10, np.nan, 30, 40, 50, 50],
    'C': ['X', 'Y', 'Z', 'X', 'Y', 'Y']
}
df_messy = pd.DataFrame(data_messy)
print(f"Messy DataFrame:\n{df_messy}")

# --- 处理缺失值 (NaN) ---
print("\n--- Handling Missing Values ---")
# 检查缺失值
print(f"Check for NaN values:\n{df_messy.isnull()}")
print(f"\nSum of NaN values per column:\n{df_messy.isnull().sum()}")

# 删除包含 NaN 的行 (dropna)
df_dropped_rows = df_messy.dropna() # 默认删除任何包含 NaN 的行
print(f"\nDataFrame after dropping rows with NaN:\n{df_dropped_rows}")

# 删除包含 NaN 的列 (dropna)
df_dropped_cols = df_messy.dropna(axis=1) # axis=1 表示按列操作
print(f"\nDataFrame after dropping columns with NaN:\n{df_dropped_cols}")

# 填充 NaN 值 (fillna)
# 使用特定值填充
df_filled_value = df_messy.fillna(value=0) # 用 0 填充所有 NaN
print(f"\nDataFrame after filling NaN with 0:\n{df_filled_value}")

# 使用列的均值填充 NaN (仅对数值列有效)
# df_messy['A'].fillna(df_messy['A'].mean(), inplace=True) # inplace=True 直接修改原 DataFrame
df_filled_mean = df_messy.copy() # Create a copy to avoid modifying df_messy directly here
df_filled_mean['A'] = df_filled_mean['A'].fillna(df_filled_mean['A'].mean())
df_filled_mean['B'] = df_filled_mean['B'].fillna(df_filled_mean['B'].mean())
print(f"\nDataFrame after filling NaN with column mean:\n{df_filled_mean}")

# --- 处理重复值 ---
print("\n--- Handling Duplicates ---")
# 检查重复行
print(f"Check for duplicate rows:\n{df_messy.duplicated()}")

# 删除重复行 (默认保留第一个出现的)
df_no_duplicates = df_messy.drop_duplicates()
print(f"\nDataFrame after dropping duplicate rows:\n{df_no_duplicates}")

# 基于特定列删除重复项
df_no_duplicates_c = df_messy.drop_duplicates(subset=['C'], keep='last') # 保留最后一个
print(f"\nDataFrame after dropping duplicates based on column 'C' (keep last):\n{df_no_duplicates_c}")

## 5. 数据转换与应用函数

Pandas 提供了多种方法来转换数据和应用自定义函数。

In [None]:
df_trans = pd.DataFrame({'colA': [1, 2, 3, 4], 'colB': [10, 20, 30, 40], 'colC': ['low', 'medium', 'high', 'medium']})
print(f"DataFrame for transformation:\n{df_trans}")

# --- 应用函数 ---
print("\n--- Applying Functions ---")
# 对列应用函数 (通常使用 Series 的方法或 apply/map)
def times_two(x):
    return x * 2
df_trans['colA_doubled'] = df_trans['colA'].apply(times_two)
print(f"\nAfter applying times_two to colA:\n{df_trans}")

# 使用 lambda 函数
df_trans['colB_plus_1'] = df_trans['colB'].apply(lambda x: x + 1)
print(f"\nAfter applying lambda x+1 to colB:\n{df_trans}")

# 使用 map 对 Series 中的值进行映射/替换
level_map = {'low': 1, 'medium': 2, 'high': 3}
df_trans['colC_mapped'] = df_trans['colC'].map(level_map)
print(f"\nAfter mapping colC:\n{df_trans}")

# 使用 applymap 对 DataFrame 中的每个元素应用函数
# def add_suffix(val):
#     return str(val) + "_suffix"
# df_applymap = df_trans[['colA', 'colB']].applymap(add_suffix)
# print(f"\nAfter applymap:\n{df_applymap}")

# --- 数据类型转换 ---
print("\n--- Data Type Conversion ---")
print(f"Original dtypes:\n{df_trans.dtypes}")
df_trans['colA_doubled'] = df_trans['colA_doubled'].astype(float)
print(f"\nDtypes after converting colA_doubled to float:\n{df_trans.dtypes}")

# --- 重命名列/索引 ---
print("\n--- Renaming Columns/Index ---")
df_renamed = df_trans.rename(columns={'colA': 'Alpha', 'colB': 'Beta'}, 
                             index={0: 'zero', 1: 'one'})
print(f"DataFrame after renaming:\n{df_renamed}")

## 6. 合并与连接数据 (`merge`, `concat`, `join`)

Pandas 提供了多种将不同 DataFrame 组合在一起的方式。

In [None]:
df_left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})

df_right = pd.DataFrame({'key': ['K0', 'K1', 'K4', 'K5'],
                         'C': ['C0', 'C1', 'C4', 'C5'],
                         'D': ['D0', 'D1', 'D4', 'D5']})

df_upper = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                         'A': ['A0_up', 'A1_up', 'A2_up', 'A3_up'],
                         'B': ['B0_up', 'B1_up', 'B2_up', 'B3_up']})

print(f"Left DataFrame:\n{df_left}")
print(f"\nRight DataFrame:\n{df_right}")
print(f"\nUpper DataFrame:\n{df_upper}")

# --- Merge (类似 SQL JOIN) ---
print("\n--- Merge (on 'key') ---")
# Inner merge (默认): 只保留左右都有的键
merged_inner = pd.merge(df_left, df_right, on='key', how='inner')
print(f"Inner Merge:\n{merged_inner}")

# Left merge: 保留左边所有键，右边匹配不上的填 NaN
merged_left = pd.merge(df_left, df_right, on='key', how='left')
print(f"\nLeft Merge:\n{merged_left}")

# Right merge: 保留右边所有键
merged_right = pd.merge(df_left, df_right, on='key', how='right')
print(f"\nRight Merge:\n{merged_right}")

# Outer merge: 保留两边所有键
merged_outer = pd.merge(df_left, df_right, on='key', how='outer')
print(f"\nOuter Merge:\n{merged_outer}")

# --- Concatenate (堆叠) ---
print("\n--- Concatenate (stacking rows, axis=0) ---")
# 按行堆叠 (默认 axis=0)
concatenated_rows = pd.concat([df_left, df_upper], ignore_index=True) # ignore_index 重置索引
print(f"Concatenated Rows:\n{concatenated_rows}")

# 按列拼接 (axis=1)，需要索引对齐
df_left_indexed = df_left.set_index('key')
df_right_indexed = df_right.set_index('key')
concatenated_cols = pd.concat([df_left_indexed, df_right_indexed], axis=1)
print(f"\nConcatenated Columns (axis=1 on index 'key'):\n{concatenated_cols}")

# --- Join (基于索引合并，是 merge 的一种便捷方式) ---
print("\n--- Join (based on index) ---")
# 默认是左连接 (how='left')
joined_df = df_left_indexed.join(df_right_indexed, lsuffix='_left', rsuffix='_right')
print(f"Left Join on index:\n{joined_df}")

## 7. 分组与聚合 (`groupby`)

`groupby` 操作是数据分析的核心，它遵循 "Split-Apply-Combine" 的模式：
1.  **Split**: 根据某些条件将数据分成组。
2.  **Apply**: 对每个组独立应用一个函数（如计算总和、均值等）。
3.  **Combine**: 将结果组合成一个新的数据结构。

In [None]:
data_group = {'Company': ['GOOG', 'GOOG', 'MSFT', 'MSFT', 'FB', 'FB'],
              'Person': ['Sam', 'Charlie', 'Amy', 'Vanessa', 'Carl', 'Sarah'],
              'Sales': [200, 120, 340, 124, 243, 350]}
df_group = pd.DataFrame(data_group)
print(f"DataFrame for grouping:\n{df_group}")

# 按 'Company' 分组
grouped_by_company = df_group.groupby('Company')
print(f"\nType of grouped object: {type(grouped_by_company)}")

# 对分组应用聚合函数
print(f"\nMean sales by company:\n{grouped_by_company['Sales'].mean()}") #或者 grouped_by_company.mean(numeric_only=True)
print(f"\nSum of sales by company:\n{grouped_by_company['Sales'].sum()}")
print(f"\nCount of entries by company:\n{grouped_by_company.count()}") # count() 对所有列计数
print(f"\nSize of groups by company:\n{grouped_by_company.size()}") # size() 返回每个组的大小

# 使用 agg 进行多个聚合
agg_results = grouped_by_company['Sales'].agg(['sum', 'mean', 'std', 'count'])
print(f"\nMultiple aggregations on 'Sales':\n{agg_results}")

# 可以对不同列应用不同聚合函数
agg_dict = {'Sales': ['sum', 'mean'], 'Person': 'count'}
agg_multi_col = grouped_by_company.agg(agg_dict)
print(f"\nAggregating different columns differently:\n{agg_multi_col}")

# 也可以直接迭代分组对象
print("\nIterating through groups:")
for name, group_df in grouped_by_company:
    print(f"\nGroup Name (Company): {name}")
    print(group_df)

## 8. 时间序列基础

Pandas 在处理时间序列数据方面非常强大。

In [None]:
# 创建日期范围索引
date_index = pd.date_range('2023-10-01', periods=6, freq='D') # 6 天
print(f"Date Range Index (Daily):\n{date_index}")

date_index_monthly = pd.date_range('2023-01-01', periods=4, freq='M') # 月末频率
print(f"\nDate Range Index (Monthly End):\n{date_index_monthly}")

# 创建带时间序列索引的 Series 或 DataFrame
ts_data = np.random.randn(6)
ts_series = pd.Series(ts_data, index=date_index)
print(f"\nTime Series:\n{ts_series}")

# 时间序列索引支持更灵活的切片
print(f"\nSelecting data for '2023-10-03':\n{ts_series['2023-10-03']}") # 单日
print(f"\nSelecting data from '2023-10-02' to '2023-10-04':\n{ts_series['2023-10-02':'2023-10-04']}")
print(f"\nSelecting data for year 2023:\n{ts_series['2023']}")

# 重采样 (Resampling) - 改变时间频率 (例如，日->月)
# 这里数据太少，仅作演示
# monthly_mean = ts_series.resample('M').mean() # 按月重采样，计算均值
# print(f"\nMonthly Mean Resampling:\n{monthly_mean}")

# 移动窗口计算 (Rolling)
rolling_mean_2d = ts_series.rolling(window=2).mean() # 2天窗口的移动平均
print(f"\nRolling Mean (window=2):\n{rolling_mean_2d}")

## 9. 读写数据文件 (重点 CSV)

Pandas 可以轻松读写多种文件格式。

In [None]:
import os

# 创建一个示例 DataFrame
df_io = pd.DataFrame({'col1': [1, 2, 3], 'col2': ['a', 'b', 'c'], 'col3': [True, False, True]})
csv_io_path = "pandas_example.csv"
excel_io_path = "pandas_example.xlsx"

print(f"DataFrame to write:\n{df_io}")

# --- 写入 CSV --- 
df_io.to_csv(csv_io_path, index=False) # index=False 避免将 DataFrame 索引写入文件
print(f"\nDataFrame written to {csv_io_path}")

# --- 读取 CSV --- 
df_read_csv = pd.read_csv(csv_io_path)
print(f"\nDataFrame read from {csv_io_path}:\n{df_read_csv}")

# --- 写入 Excel (需要安装 openpyxl 或 xlsxwriter) --- 
# !pip install openpyxl
try:
    df_io.to_excel(excel_io_path, sheet_name='Sheet1', index=False)
    print(f"\nDataFrame written to {excel_io_path}")

    # --- 读取 Excel --- 
    df_read_excel = pd.read_excel(excel_io_path, sheet_name='Sheet1')
    print(f"\nDataFrame read from {excel_io_path}:\n{df_read_excel}")
except ImportError:
    print("\nSkipping Excel I/O test. Need 'openpyxl' library installed.")
except Exception as e:
     print(f"\nError during Excel I/O: {e}")
finally:
    # 清理文件
    if os.path.exists(csv_io_path):
        os.remove(csv_io_path)
    if os.path.exists(excel_io_path):
        os.remove(excel_io_path)

## 总结

Pandas 是 Python 数据科学工具箱中的瑞士军刀。它提供了强大的数据结构 (`Series`, `DataFrame`) 和丰富的功能，用于数据清洗、转换、分析和可视化准备。

**关键要点：**
*   熟练使用 `Series` 和 `DataFrame`。
*   掌握 `loc` 和 `iloc` 进行精确的数据选择。
*   理解如何处理缺失值和重复值。
*   利用 `apply`, `map` 等进行数据转换。
*   使用 `merge`, `concat`, `join` 组合数据。
*   利用 `groupby` 进行分组聚合分析。
*   了解基本的时间序列操作。
*   能够读写常见的数据格式 (尤其是 CSV)。

Pandas 的功能非常丰富，本教程只涵盖了基础。深入学习 Pandas 的最佳方式是通过实践处理真实的数据集，并查阅其详尽的官方文档。