1. pivot_table：透视表操作
方法： 使用pivot_table方法可以根据一个或多个键对数据进行透视，类似于Excel中的透视表功能。

示例代码： 创建一个透视表，计算不同产品在不同月份的销售额。

In [2]:
import pandas as pd

# 创建一个DataFrame
data = {
    'Month': ['Jan', 'Jan', 'Feb', 'Feb', 'Jan', 'Feb'],
    'Product': ['A', 'B', 'A', 'B', 'A', 'B'],
    'Sales': [100, 200, 150, 250, 120, 220]
}
df = pd.DataFrame(data)

# 创建透视表
pivot_df = df.pivot_table(index='Month', columns='Product', values='Sales', aggfunc='sum')
print(pivot_df)


Product    A    B
Month            
Feb      150  470
Jan      220  200


2. cut：数据分箱操作
方法： 使用cut方法将连续的数值数据分成离散的区间（箱子）。

示例代码： 对一个数据列进行分箱操作，并计算每个箱子中的数据数量。

In [3]:
import pandas as pd

# 创建一个DataFrame
data = {
    'Value': [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
}
df = pd.DataFrame(data)

# 数据分箱
bins = [0, 30, 60, 100]
labels = ['Low', 'Medium', 'High']
df['Bins'] = pd.cut(df['Value'], bins=bins, labels=labels, right=True)

# 计算每个箱子中的数据数量
bin_counts = df['Bins'].value_counts()
print(bin_counts)


Bins
High      4
Low       3
Medium    3
Name: count, dtype: int64


3. applymap：应用函数到数据框的每个元素
方法： 使用applymap方法将函数应用到数据框的每个元素。

示例代码： 将一个数据框中的所有元素转换为小写。

In [5]:
import pandas as pd

# 创建一个DataFrame
data = {
    'A': ['Apple', 'Banana', 'Orange'],
    'B': ['Cat', 'Dog', 'Elephant']
}
df = pd.DataFrame(data)

# 使用DataFrame.apply和Series.map来转换为小写
df_lower = df.apply(lambda x: x.map(lambda y: y.lower() if isinstance(y, str) else y))
print(df_lower)


        A         B
0   apple       cat
1  banana       dog
2  orange  elephant


4. pd.to_datetime：日期时间转换
方法： 使用pd.to_datetime方法将字符串或数值转换为日期时间格式。

示例代码： 将一个包含日期字符串的列转换为日期时间格式，并提取出年份。

In [6]:
import pandas as pd

# 创建一个DataFrame
data = {
    'Date': ['2023-01-01', '2024-02-15', '2025-03-30']
}
df = pd.DataFrame(data)

# 将字符串转换为日期时间格式
df['Date'] = pd.to_datetime(df['Date'])

# 提取年份
df['Year'] = df['Date'].dt.year
print(df)


        Date  Year
0 2023-01-01  2023
1 2024-02-15  2024
2 2025-03-30  2025


5. stack 和 unstack：数据堆叠与解堆操作
方法： 使用stack方法将数据框的列“堆叠”为多层索引的行，使用unstack方法将多层索引的行“解堆”为列。

示例代码： 创建一个多层索引的数据框，并进行堆叠与解堆操作。

In [7]:
import pandas as pd

# 创建一个DataFrame
data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}
df = pd.DataFrame(data, index=['X', 'Y', 'Z'])

# 将列堆叠为多层索引的行
stacked_df = df.stack()
print(stacked_df)

# 解堆多层索引的行为列
unstacked_df = stacked_df.unstack()
print(unstacked_df)


X  A    1
   B    4
   C    7
Y  A    2
   B    5
   C    8
Z  A    3
   B    6
   C    9
dtype: int64
   A  B  C
X  1  4  7
Y  2  5  8
Z  3  6  9
