In [1]:
import pandas as pd
import numpy as np

# 利用explode展开操作

In [2]:
# 创建一个 DataFrame，包含列表类型的列  
df = pd.DataFrame({'A': [[1, 2], [3], [4, 5, 6]]})  
df

Unnamed: 0,A
0,"[1, 2]"
1,[3]
2,"[4, 5, 6]"


In [3]:
# 使用 explode 进行爆炸操作，将列表拆分成多行  
result = df.explode('A')  
result

Unnamed: 0,A
0,1
0,2
1,3
2,4
2,5
2,6


# 使用 squeeze 压缩 Series

In [4]:
# 创建一个 DataFrame  
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})  
df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [5]:
# 使用 .loc 筛选数据，返回结果为 Series 类型  
result = df.loc[df['A'] == 1, 'B']  
result

0    4
Name: B, dtype: int64

In [6]:
# 使用 squeeze 方法压缩 Series，返回单个值  
value = result.squeeze()  
value

4

In [8]:
df.loc[df['A'] == 1, 'A'].squeeze()

1

# 使用 between 筛选数值范围

In [9]:
# 创建一个 DataFrame  
df = pd.DataFrame({'A': [1, 2, 3, 4, 5]}) 
df

Unnamed: 0,A
0,1
1,2
2,3
3,4
4,5


In [10]:
# 使用 between 方法筛选数值范围  
result = df[df['A'].between(2, 4)] 
result

Unnamed: 0,A
1,2
2,3
3,4


In [11]:
# 使用 between 方法筛选数值范围  
result = df[df.A.between(2, 4)] 
result

Unnamed: 0,A
1,2
2,3
3,4


# 使用 assign 添加新列
在 Pandas 中，可以使用 assign 方法方便地添加新列，而无需使用 loc 或 iloc 方法。

In [12]:
# 创建一个 DataFrame  
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})  
df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [13]:
# 使用 assign 添加新列  
result = df.assign(C=df['A'] + df['B']) 
result

Unnamed: 0,A,B,C
0,1,4,5
1,2,5,7
2,3,6,9


# 使用 map 进行字典映射

在 Pandas 中，可以使用 map 方法将 Series 中的每个元素映射到字典中的对应值。

In [14]:
# 创建一个 Series  
s = pd.Series(['foo', 'bar', 'baz'])  

# 创建一个字典  
mapping = {'foo': 1, 'bar': 2, 'baz': 3}  

# 使用 map 进行字典映射  
result = s.map(mapping)
result

0    1
1    2
2    3
dtype: int64

# 使用 apply 进行自定义函数应用

在 Pandas 中，可以使用 apply 方法将自定义函数应用到 Series 或 DataFrame 的每个元素上

In [18]:
# 创建一个 DataFrame  
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})  

# 定义一个自定义函数，计算平方值并返回新列名  
def square_and_rename(x):  
    return x ** 2, 'squared'

# 使用 apply 进行自定义函数应用，将函数应用到 A 列上，并将结果存储在新列中  
result = df['A'].apply(square_and_rename)  
result

0    (1, squared)
1    (4, squared)
2    (9, squared)
Name: A, dtype: object

In [19]:
df = pd.concat([df, result], axis=1)  
df

Unnamed: 0,A,B,A.1
0,1,4,"(1, squared)"
1,2,5,"(4, squared)"
2,3,6,"(9, squared)"


# 使用apply和lambda函数进行自定义操作

In [21]:
# 创建一个DataFrame
data = {'A': [1, 2, 3, 4, 5],
        'B': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)

# 使用apply和lambda函数对A列和B列进行自定义操作，例如将A列的值乘以B列的值
df['C'] = df.apply(lambda row: row['A'] * row['B'], axis=1)
df

Unnamed: 0,A,B,C
0,1,10,10
1,2,20,40
2,3,30,90
3,4,40,160
4,5,50,250


# 使用 groupby 和 transform 进行组内转换

在 Pandas 中，可以使用 groupby 方法将数据分组，并使用 transform 方法对每个组的元素进行转换，并返回与原始数据相同大小的结果。

In [22]:
# 创建一个 DataFrame  
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar'], 'B': [1, 2, 3, 4]})  
  
# 使用 groupby 和 transform 进行组内转换，计算每个组的 B 列的平均值，并将结果存储在新列中  
result = df.groupby('A')['B'].transform('mean')  
df['B_mean'] = result 
df

Unnamed: 0,A,B,B_mean
0,foo,1,2
1,bar,2,3
2,foo,3,2
3,bar,4,3


# 使用 pipe 进行流式操作

Pandas 中的 pipe 方法可以将多个操作连接在一起，实现流式操作，使代码更加简洁和易于阅读。

In [23]:
# 创建一个 DataFrame  
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})  

# 定义三个自定义函数，分别用于去重、去异常值和编码转换  
def drop_duplicates(df):  
    return df.drop_duplicates()  
  
def remove_outliers(df, columns):  
    return df[(np.abs(df[columns] - df[columns].mean()) <= 3 * df[columns].std()).all(axis=1)]  
  
def encode_categoricals(df, columns):  
    return pd.get_dummies(df, columns=columns)  
  
# 使用 pipe 进行流式操作，将三个自定义函数连接在一起  
result = (df.pipe(drop_duplicates)  
          .pipe(remove_outliers, ['A', 'B'])  
          .pipe(encode_categoricals, ['A']))  
result

Unnamed: 0,B,A_1,A_2,A_3
0,4,1,0,0
1,5,0,1,0
2,6,0,0,1


# 使用 factorize 进行标签编码
        
Pandas 中的 factorize 方法可以将分类变量转换为数值型变量，实现类别型变量的标签编码。

In [24]:
# 创建一个 Series  
s = pd.Series(['foo', 'bar', 'baz', 'foo', 'bar'])  

# 使用 factorize 进行标签编码  
labels, uniques = s.factorize() 

labels

array([0, 1, 2, 0, 1])

In [25]:
uniques

Index(['foo', 'bar', 'baz'], dtype='object')

# 链式操作

In [26]:
# 创建一个DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

# 链式操作
result = (df.mul(2) + df.add(1)).dropna()
result

Unnamed: 0,A,B
0,4,13
1,7,16
2,10,19


# 使用query方法进行筛选

In [27]:
# 创建一个DataFrame
data = {'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)

# 使用query方法筛选出A列大于2的行
result = df.query('A > 2')

result

Unnamed: 0,A,B
2,3,30
3,4,40
4,5,50


# 使用shift进行位移操作

DataFrame中的shift方法可以将数据向上或向下位移指定的行数。

In [28]:
# 创建一个包含NaN值的DataFrame  
df = pd.DataFrame({'A': [1, 2, np.nan, 4]})  
print(df)  
  
# 使用shift方法向上位移一行，将NaN值填充到第一行  
result = df['A'].shift(-1) 
result

     A
0  1.0
1  2.0
2  NaN
3  4.0


0    2.0
1    NaN
2    4.0
3    NaN
Name: A, dtype: float64

# 使用resample对数据重采样

DataFrame中的resample方法可以按照指定的时间间隔对数据进行重采样，常用于时间序列数据的处理。

In [29]:
# 创建一个时间序列DataFrame  
df = pd.DataFrame({'A': [1, 2, 3, 4, 5]}, index=pd.date_range('2023-01-01', periods=5))  
df

Unnamed: 0,A
2023-01-01,1
2023-01-02,2
2023-01-03,3
2023-01-04,4
2023-01-05,5


In [33]:
# 使用resample方法按天进行重采样，采用平均值作为采样值  
result = df.resample('D').mean()
result

Unnamed: 0,A
2023-01-01,1
2023-01-02,2
2023-01-03,3
2023-01-04,4
2023-01-05,5


# 使用nlargest和nsmallest进行最大最小值操作

DataFrame中的nlargest和nsmallest方法可以找出最大的N个值和最小的N个值。

In [34]:
# 创建一个DataFrame  
df = pd.DataFrame({'A': [3, 1, 2], 'B': [6, 4, 5]})  

  
# 使用nlargest方法找出B列最大的2个值  
result = df['B'].nlargest(2)  
# 输出Series([6, 5]) 
result

0    6
2    5
Name: B, dtype: int64

In [35]:
# 使用nsmallest方法找出A列最小的2个值  
result = df['A'].nsmallest(2)  
result

1    1
2    2
Name: A, dtype: int64

# 使用map和applymap进行映射操作

DataFrame中的map方法可以对一列进行映射，而applymap方法可以对整个DataFrame进行映射。

In [36]:
# 创建一个DataFrame  
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})  
  
# 使用map方法将A列的值映射为新的值  
mapping_dict = {1: 'one', 2: 'two', 3: 'three'}  
result = df['A'].map(mapping_dict)  
result 

0      one
1      two
2    three
Name: A, dtype: object

In [37]:
# 使用applymap方法将整个DataFrame的值映射为新的值  
mapping_func = lambda x: x * 2  
result = df.applymap(mapping_func)  
result

Unnamed: 0,A,B
0,2,8
1,4,10
2,6,12


# 使用stack和unstack进行堆叠和解堆叠操作

DataFrame中的stack方法可以将数据的列转换为行，而unstack方法可以将数据的行转换为列。

In [41]:
# 创建一个多重索引的DataFrame  
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})  
df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [42]:
# 使用stack方法将数据的列转换为行  
result = df.stack()  
# 输出Series([1, 4, 2, 5, 3, 6], index=MultiIndex([('a', 'x'), ('a', 'y'), ('b', 'x'), ('b', 'y'), ('c', 'x'), ('c', 'y')], names=['index', 'columns']))  
result  

0  A    1
   B    4
1  A    2
   B    5
2  A    3
   B    6
dtype: int64

In [43]:
# 使用unstack方法将数据的行转换为列  
result = df.unstack()  
# 输出DataFrame({'x': [1, 2, 3], 'y': [4, 5, 6]})
result

A  0    1
   1    2
   2    3
B  0    4
   1    5
   2    6
dtype: int64

# 使用rolling进行滑动窗口操作
        
DataFrame中的rolling方法可以进行滑动窗口操作，常用于数据处理和分析。

In [44]:
# 创建一个DataFrame  
df = pd.DataFrame({'A': [1, 2, 3, 4, 5]})  
df

Unnamed: 0,A
0,1
1,2
2,3
3,4
4,5


In [45]:
# 使用rolling方法进行滑动窗口操作，窗口大小为3，并计算每个窗口内的平均值  
result = df.rolling(window=3).mean() 
result

Unnamed: 0,A
0,
1,
2,2.0
3,3.0
4,4.0


# 使用replace进行替换操作

DataFrame中的replace方法可以对指定的值进行替换操作。

In [46]:
# 创建一个DataFrame  
df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': ['foo', 'bar', 'foo', 'bar', 'foo']})  
df

Unnamed: 0,A,B
0,1,foo
1,2,bar
2,3,foo
3,4,bar
4,5,foo


In [47]:
# 使用replace方法将B列中的'foo'替换为'baz'  
result = df.replace({'B': {'foo': 'baz'}})
result

Unnamed: 0,A,B
0,1,baz
1,2,bar
2,3,baz
3,4,bar
4,5,baz


# 使用melt进行重塑操作
        
DataFrame中的melt方法可以对数据进行重塑操作，将宽格式的数据转换为长格式，常用于数据处理和分析。

In [48]:
# 创建一个宽格式的DataFrame  
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})  
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [49]:
# 使用melt方法将数据进行重塑操作，将宽格式的数据转换为长格式  
result = df.melt()  
result

Unnamed: 0,variable,value
0,A,1
1,A,2
2,A,3
3,B,4
4,B,5
5,B,6
6,C,7
7,C,8
8,C,9


# 使用agg进行聚合操作

DataFrame中的agg方法可以对指定的列进行聚合操作，将多个值合并为一个值，常用于数据处理和分析

In [50]:
# 创建一个DataFrame  
df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50]})  
df

Unnamed: 0,A,B
0,1,10
1,2,20
2,3,30
3,4,40
4,5,50


In [51]:
# 使用agg方法将A列和B列分别进行求和和平均值操作  
result = df.agg({'A': 'sum', 'B': 'mean'}) 
result

A    15.0
B    30.0
dtype: float64

# 使用diff计算某列/行的变化值

DataFrame的diff()方法计算（时间）序列的变化值，可用于数据分析和特征开发，同时diff提供periods、axis两个参数，可以自行设置diff步长、以及行/列计算

In [55]:
# 创建一个 DataFrame  
df = pd.DataFrame({'A': [1, 2, 40, 4, 5], 'B': [5, 4, 3, 2, 1]})  
# 计算相邻元素之间的差异
diff_df = df.diff(periods=1,axis=0)  
''' 参数
  periods：指定计算百分比变化的周期数/步长;可为负数,periods=-1时计算b-c,a-b
  axis：指定计算的轴，0表示按列计算，1表示按行计算。默认为0。
'''
diff_df

Unnamed: 0,A,B
0,,
1,1.0,-1.0
2,38.0,-1.0
3,-36.0,-1.0
4,1.0,-1.0


# 使用pct_change计算某列/行的变化率

DataFrame的pct_change()方法可以用来计算数据的百分比变化，与diff()方法配套

In [56]:
# 创建一个包含时间序列数据的DataFrame  
df = pd.DataFrame({'A': [10, 15, 20, 25], 'B': [5, 7, 10, 15]}, index=pd.date_range('2023-01-01', periods=4))  
  
# 计算DataFrame的百分比变化  
pct_change_df = df.pct_change(periods=1, fill_method='bfill', axis=0)  
''' 参数
  periods：指定计算百分比变化的周期数，默认为1。
  fill_method：指定如何填充缺失值，可选参数包括backfill、bfill、pad、ffill、
               nearest等。默认为pad。
  limit：指定连续缺失值的最大填充数量。默认为None。
  freq：指定时间频率，用于计算时间序列数据的百分比变化。默认为None。
  axis：指定计算的轴，0表示按列计算，1表示按行计算。默认为0。
'''
pct_change_df

Unnamed: 0,A,B
2023-01-01,,
2023-01-02,0.5,0.4
2023-01-03,0.333333,0.428571
2023-01-04,0.25,0.5


# 使用rank对数据进行排名操作
        
DataFrame的rank()方法可以对数据进行排名操作，返回一个新的DataFrame，其中每个元素表示该元素在原始DataFrame中的排名

In [57]:
# 创建一个包含不同类型数据的DataFrame  
df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 4, 3, 2], 'C': ['a', 'b', 'c', 'd'], 'D': [np.nan, 2, 3, 4]})  
  
# 对DataFrame进行排名操作  
ranked_df = df.rank(axis=0, method='min', ascending=False, numeric_only=True, na_option='bottom', pct=False)  
''' 参数
  method：指定排名的方式，可选参数包括average、min、max、first、dense。默认值为average。
  ascending：指定排名的顺序，True表示升序排名，False表示降序排名。默认值为True。
  axis：指定排名的轴，0表示按列排名，1表示按行排名。默认值为0。
  numeric_only：指定是否只对数值类型的数据进行排名。默认值为True。
  na_option：指定如何对NaN值进行排名，可选参数包括keep、top、bottom。默认值为keep。
  pct：是否以百分位形式显示返回的排名。默认为False。
'''
ranked_df

Unnamed: 0,A,B,D
0,4.0,1.0,4.0
1,3.0,2.0,3.0
2,2.0,3.0,2.0
3,1.0,4.0,1.0


# 使用pivot_table创建数据透视表

DataFrame的pivot_table()方法可以用来创建一个数据透视表，功能基本同excel

In [58]:
# 创建一个包含销售数据的DataFrame  
df = pd.DataFrame({'Product': ['A', 'B', 'C', 'A', 'B', 'C'],  
                   'Date': pd.date_range('2023-01-01', periods=6),  
                   'Sales': [10, 20, 30, 40, 50, 60],  
                   'Discounts': [0.1, 0.2, 0.3, 0.1, 0.2, 0.3]})  
df

Unnamed: 0,Product,Date,Sales,Discounts
0,A,2023-01-01,10,0.1
1,B,2023-01-02,20,0.2
2,C,2023-01-03,30,0.3
3,A,2023-01-04,40,0.1
4,B,2023-01-05,50,0.2
5,C,2023-01-06,60,0.3


In [59]:
# 创建一个数据透视表，按产品和销售日期汇总销售额和折扣额  
pivot_table = df.pivot_table(values=['Sales', 'Discounts'], index='Product', columns='Date', aggfunc=np.sum)  
''' 参数
  values：需要进行汇总的列名，或者是一个列名的列表。如果不指定，则使用所有数值列进行汇总。
  index：透视表的行索引，可以是一个列名或者一个列名的列表。如果不指定，则使用DataFrame的索引作为行索引。
  columns：透视表的列索引，可以是一个列名或者一个列名的列表。如果不指定，则不使用列索引。
  aggfunc：指定汇总函数，可以是一个字符串（如'mean'、'sum'等）或者一个函数（如np.sum、np.mean等）。默认为'mean'。
  fill_value：指定用于填充缺失值的值。默认为None。
  margins：是否添加行/列小计和总计。默认为False。
  dropna：是否删除包含缺失值的行和列。默认为True。
  margins_name：指定行/列小计和总计的名称。默认为'All'。
'''
pivot_table

Unnamed: 0_level_0,Discounts,Discounts,Discounts,Discounts,Discounts,Discounts,Sales,Sales,Sales,Sales,Sales,Sales
Date,2023-01-01,2023-01-02,2023-01-03,2023-01-04,2023-01-05,2023-01-06,2023-01-01,2023-01-02,2023-01-03,2023-01-04,2023-01-05,2023-01-06
Product,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
A,0.1,,,0.1,,,10.0,,,40.0,,
B,,0.2,,,0.2,,,20.0,,,50.0,
C,,,0.3,,,0.3,,,30.0,,,60.0


# 使用pivot构建二维交叉表

DataFrame的pivot()方法可以用来根据指定索引/列值重塑数据，生成一个二维交叉表

In [60]:
# 创建一个包含销售数据的DataFrame  
df = pd.DataFrame({'Product': ['A', 'B', 'C', 'A', 'B', 'C'],  
                   'Date': pd.date_range('2023-01-01', periods=6),  
                   'Sales': [10, 20, 30, 40, 50, 60]})  
df

Unnamed: 0,Product,Date,Sales
0,A,2023-01-01,10
1,B,2023-01-02,20
2,C,2023-01-03,30
3,A,2023-01-04,40
4,B,2023-01-05,50
5,C,2023-01-06,60


In [61]:
# 使用pivot方法创建一个新的DataFrame，按产品进行汇总，以销售日期作为列索引  
pivot_df = df.pivot(index='Product', columns='Date', values='Sales')  
''' 参数
  index：新DataFrame的行索引，可以是一个列名或者一个列名的列表。如果不指定，则使用DataFrame的索引作为行索引。
  columns：新DataFrame的列索引，可以是一个列名或者一个列名的列表。如果不指定，则不使用列索引。
  values：需要进行汇总的列名，或者是一个列名的列表。如果不指定，则使用所有数值列进行汇总。
'''
pivot_df

Date,2023-01-01,2023-01-02,2023-01-03,2023-01-04,2023-01-05,2023-01-06
Product,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A,10.0,,,40.0,,
B,,20.0,,,50.0,
C,,,30.0,,,60.0


# 使用nunique构建二维交叉表统计唯一值的数量
        
DataFrame的unique()方法可以得到唯一值列表，而nunique()方法可以用来统计唯一值的数量。

In [62]:
# 创建一个包含销售数据的DataFrame  
df = pd.DataFrame({'Product': ['A', 'B', 'C', 'A', 'B', 'C'],  
                   'Date': pd.date_range('2023-01-01', periods=6),  
                   'Sales': [10, 20, 30, 40, 50, 60],  
                   'Discounts': [0.1, 0.2, 0.3, 0.1, 0.2, np.nan]})  
  
# 统计DataFrame中每列的唯一值数量  
unique_counts = df.nunique()  
''' 参数
  axis：指定要使用的轴，0或'index'表示按行统计，1或'columns'表示按列统计。默认为0。
  dropna：是否忽略NaN值。默认为True。
'''

unique_counts

Product      3
Date         6
Sales        6
Discounts    3
dtype: int64

# 使用str.cat进行拼接操作

DataFrame的str.cat()方法可以用来将指定列中的字符串连接起来，并返回一个新的DataFrame

In [63]:
# 创建一个包含姓名和年龄的DataFrame  
df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]})  
  
# 将姓名和年龄连接起来，并添加到一个新列中  
df['Full_Name'] = df['Name'].str.cat(df['Age'].astype(str), sep='-')  
''' 参数
  sep：指定连接字符串的分隔符。默认为空字符串。
  na_rep：指定用于替换缺失值的字符串。默认为空字符串。
'''
df

Unnamed: 0,Name,Age,Full_Name
0,Alice,25,Alice-25
1,Bob,30,Bob-30
2,Charlie,35,Charlie-35


# 使用str.replace进行替换操作

DataFrame的str.replace()方法可以用来替换指定列中的字符串

In [64]:
# 创建一个包含产品名称和价格的DataFrame  
df = pd.DataFrame({'Product': ['Apple iPhone 13', 'Samsung Galaxy S23', 'Google Pixel 7'], 'Price': [999, 1299, 899]})  
df 

Unnamed: 0,Product,Price
0,Apple iPhone 13,999
1,Samsung Galaxy S23,1299
2,Google Pixel 7,899


In [65]:
# 将产品名称中的"iPhone"替换为"iPhone Pro"  
df['Product2'] = df['Product'].str.replace('iPhone', 'iPhone Pro')  
''' 参数
  old_value：指定要被替换的字符串。可以是一个字符串或者一个正则表达式。
  new_value：指定替换后的新字符串。
  regex：是否将old_value视为正则表达式。默认为False。
  case：是否区分大小写。默认为False。
'''
df

Unnamed: 0,Product,Price,Product2
0,Apple iPhone 13,999,Apple iPhone Pro 13
1,Samsung Galaxy S23,1299,Samsung Galaxy S23
2,Google Pixel 7,899,Google Pixel 7


# 使用str.len进行替换操作
        
DataFrame的str.len()方法可以用来计算指定列中的字符串长度

In [66]:
# 计算产品名称的长度，并添加到一个新列中  
df['Product_Length'] = df['Product'].str.len() 
df

Unnamed: 0,Product,Price,Product2,Product_Length
0,Apple iPhone 13,999,Apple iPhone Pro 13,15
1,Samsung Galaxy S23,1299,Samsung Galaxy S23,18
2,Google Pixel 7,899,Google Pixel 7,14
