# 高级功能

## 自定义函数与 apply 方法


在 Pandas 中，我们可以通过自定义函数来对 DataFrame 或 Series 进行复杂的操作。使用 apply 方法，可以将这个自定义函数应用到 DataFrame 或 Series 的每一行或每一列。

In [6]:
import pandas as pd

# 创建一个示例 DataFrame
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)
print("base data:\n", df)

# 定义一个自定义函数
def my_function(x):
    return x ** 2

# 使用 apply 方法
df['C'] = df['A'].apply(my_function)
print("new data:\n", df)

base data:
    A  B
0  1  4
1  2  5
2  3  6
new data:
    A  B  C
0  1  4  1
1  2  5  4
2  3  6  9


## 使用条件表达式

我们可以使用条件表达式来对 DataFrame 中的数据进行筛选和赋值。常见的用法包括使用 numpy.where() 或者布尔索引。

In [11]:
import numpy as np

# 使用 numpy.where() 来创建新列
df['D'] = np.where(df['A'] > 1, '大于1', '小于等于1')
print(df)

# 使用布尔索引来过滤数据
filtered_df = df[df['A'] > 1]
print(filtered_df)

   A  B  C      D
0  1  4  1  小于等于1
1  2  5  4    大于1
2  3  6  9    大于1
   A  B  C    D
1  2  5  4  大于1
2  3  6  9  大于1


## 使用 pivot_table 函数

pivot_table 是一个强大的方法，用于根据指定的索引和列对数据进行汇总。它能够帮助我们生成透视表，提供更清晰的数据分析视图。

In [15]:
# 创建一个示例 DataFrame
data = {
    '日期': ['2023-01-01', '2023-01-01', '2023-01-02'],
    '类别': ['A', 'B', 'A'],
    '销量': [10, 20, 15]
}
df = pd.DataFrame(data)
print("base data:\n", df)

# 使用 pivot_table 进行聚合
pivot_table = df.pivot_table(values='销量', index='日期', columns='类别', aggfunc='sum', fill_value=0)
print("result:\n", pivot_table)

base data:
            日期 类别  销量
0  2023-01-01  A  10
1  2023-01-01  B  20
2  2023-01-02  A  15
result:
 类别           A   B
日期                
2023-01-01  10  20
2023-01-02  15   0


## 分类变量与分类数据

Pandas 提供了对分类数据的支持，分类数据能够有效地存储具有重复值的离散数据，并且可以提高性能和内存效率。

In [29]:
# 创建分类数据
df['类别'] = pd.Categorical(['A', 'B', 'A'])
# df['类别'] = pd.Categorical(df['类别'])

# 查看数据的类别信息
print(df['类别'].describe())
print("-" * 30)

# 计算分类数据的频率
frequency = df['类别'].value_counts()
print(frequency)

count     3
unique    2
top       A
freq      2
Name: 类别, dtype: object
------------------------------
类别
A    2
B    1
Name: count, dtype: int64
